お役立ち
2020.07.06
スプレッドシートでスクレイピングをしてみよう!
今回は、「こんなこともできる」という作業効率を上げる技術をご紹介します。
コンテンツ
スクレイピングとは
スクレイピングとは、ウェブサイトをクローリングし情報を収集、その情報をまとめる技術の事です。
Webスクレイピングとも呼ばれています。
主な、言語としてphpやPythonなどを使用して行います。
基本的にはウェブ上に上がっている情報であれば何でも集めてくることが出来ます。
プログラムを書けば自動で更新情報などを収集することが可能です。RSSみたいなものです。
活用方法
主に、機械学習やAIの技術に用いられるものになるのですが、ウェブサービスでもスクレイピングの技術が使われているものが多数あります。
①スマートニュースやグノシーなどのニュースサイト※違法のコピーサイトなど
②まとめサイトやブログなどのアンテナサイト
③株価・金の価格や天気など随時変動する情報
④ナンバーズやロト6などの過去の傾向からの予想
など
上記のような、更新頻度が高いものウェブ上にある過去のデータを集計等、
プログラムを組むことによって、随時更新内容を該当サイトを確認しに行くことなく情報を収集することが可能になります。
注意点として、ウェブ上の情報を収集する技術なので、そのまま自分のホームページに使用すると、コピーコンテンツになる為SEOで全く上がらなくなります。
また、スクレイピングを行うと、相手のサーバーに負荷がかかる為、注意が必要です。
スクレイピングをスプレッドシートでやってみよう
スクレイピングは難しい言語を覚えなくても、実はスプレッドシートでもできます。
ステップ1:新しいGoogleスプレッドシートを開く
ステップ2:Chromeで情報を収集したいWebサイトを開く
ステップ3:「右クリック」⇒「検証」⇒「情報を収集したい部分を選択」⇒「右クリック」⇒「Copy」⇒「Copy XPath」
ステップ4:スプレッドシートで関数【=IMPORTXML(URL, XPathクエリ)】
上記の方法で情報をスプレッドシートに一覧で取得することが、可能になります。
例えば、下記のような情報を収集することが出来ます。
記事一覧のタイトルを取得
=IMPORTXML(“https://sample.co.jp/blog”,”//h2″)
上記でマイティーのブログの記事のタイトル一覧を取得できます。
Googleのサジェストを取得
=ImportXML(“http://www.google.com/complete/search?hl=en&output=toolbar&q=”&”テスト”,”//suggestion/@data”)
Twitterのフォロワー数を取得
など
まとめ
あまり使う機会はないかもしれませんが、使い方次第で、いろいろなウェブ上の情報を収集することが可能になります。
めんどくさいコピペ作業を一瞬ですることも可能です。
スプレッドシートで、こんなこともできるんだ、程度で覚えておいたら便利です。
正しい効果測定は、正しい計測設定から!Googleアナリティクス設定項目チェックシート(無料)
リスティング・Googleアナリティクス・ホームページ・ランディングページなど
Webマーケティングのことなら何でもご相談ください
株式会社マイティーエースでは、様々なWeb広告・Webマーケティングなど
お客様に合ったご提案しています。
興味をお持ちいただけた方は、まずは気軽にご相談ください。