こんにちは、こじろうです。
インターネットのサイトに表示されている内容、コピペして保存・見返したいってことありますよね。それも沢山。
という人も多いのではないでしょうか?
この記事では、スクレイピングという技術を使って、ウェブサイトの情報を自動でコピペ・保存していく方法をお伝えしたいと思います。
【この記事でわかること】
- Rでのスクレイピングのやり方
- 具体的な作成手順
- 上記手順を実施した僕の現在
Rでのスクレイピング
Webサイト上で検索、出力結果をExcel等のファイルへ出力・保存できます。
僕はサッカーが好きで、特にJリーグの試合を見て結果予想をするのが好きなのですが、15年位前から「各チームの過去のデータを元に予想をしてみたい!」と思うようになりました。
最初はExcelにJリーグの公式サイトで公開されている各チームの過去の試合データを手動で張り付けて、関数を駆使して予想をしていたのですが、1試合予想するのに10日掛かっていました。
Jリーグは毎週試合があるのだから、これでは追いつきませんw
なんとかいい方法は無いかと思っていたところ、ちょうど世の中でRやPythonを使った解析が流行しだし、「これならサクッとできそうだな」ということで、挑戦してみました。
環境は以下
- Win 10
- R
- R Studio
以降は、お手元のPCにRとR Stuidioがインストールされていることが前提でお伝えしていきます。
まだインストールができていないという方は、是非、こちらからインストールを実行してみてください。
参考:Rのインストール方法
参考:R Studioのインストール方法byトライフィールドさん
具体的な手順
サンプルコードを用意しました。
こちらからダウンロードください。
この例では、とあるWebサイトに表示されているタイトルを、手元のPCに拡張子csvという名前のファイルで抽出しています。
- ダウンロードしたzipファイルを解凍
- 解凍されたフォルダをデスクトップへ配置
- R Studioを起動
- ③でデスクトップ配置したフォルダの中にある”R_scraping_sample.R”を開く
- ④で開いたファイル記載の内容を全て選択し、実行ボタンを押下する
- “C:\\Users\[ご自身がログインしているアカウント名のフォルダ]\”に、”R_scraping_sample.csv”が生成されていることを確認する
- ⑥のファイルを開き、中身がWebサイトの表示内容と合っていることを確認する
- ダウンロードしたzipファイルを解凍
- 解凍されたフォルダをデスクトップへ配置
- R Studioを起動
- ③でデスクトップ配置したフォルダの中にある”R_scraping_sample.R”を開く
- ④で開いたファイル記載の内容を全て選択し、実行ボタンを押下する
※実行ボタンを押す前に、必ずファイル内のすべての行を選択してください。
※”▲▲▲▲▲▲▲▲▲▲”の部分は、ご自身のユーザ名に書き換えてください。
- “C:\\Users\[ご自身がログインしているアカウント名のフォルダ]\”に、”R_scraping_sample.csv”が生成されていることを確認する
- ⑥のファイルを開き、中身がWebサイトの表示内容と合っていることを確認する
上記を実施した僕の現在
趣味で始めたRですが、たまたま仕事でもこのRを使う機会に恵まれました。
しかも海外案件。
新しい技術を多言語で操れたので、僕はこのプロジェクトで毎月のように海外出張することができた上、やはり新しいことをやっていると周りもアドバイスや指摘のしようがないみたいで、かなり自由な働き方を実現することができました。シンガポール滞在中はプールサイドに携帯とPC置いて、マティーニ飲みながら仕事してましたw
自分の趣味が仕事で生きて、仕事で覚えた内容が趣味で活用できる。
ITの仕事をしていて「この世界に入って良かったなー」と思う瞬間です。
それでは、Tchau◎
こじろう
※冒頭の画像はrirafukuさん@イラストACからの提供になります。