【初心者向け】Webスクレイピングのやり方を徹底解説

メディアチーム

【初心者向け】Webスクレイピングのやり方を徹底解説

メディアチーム

2019.10.03

エンジニアになろう！

Python

WEB上からデータを取得したい！

ミツオカ

WEB上から自分が欲しいデータを勝手に取得できたらいいのになあ〜

にゃんこ師匠

「Webスクレイピング」という技術でできるぞー！活用すれば、いろんなデータを集めて使うことで、業務の効率化、生産性を高めることができるな！

ミツオカ

面倒な作業を自動化するのも夢じゃないですね！ぜひマスターしたいです！

にゃんこ師匠

じゃあ、Webスクレイピングの詳細とオススメの言語などについて紹介しようかの！ちなみに、なぜスクレイピングがしたいんじゃ？

ミツオカ

トランプ大統領とウクライナ政府の動向をいち早くチェックしたいんです…！

にゃんこ師匠

・・・キャラ変えたんか？

クローリングについて

クローリングは、複数のWebサイトのリンクを参考に、Webページを巡回する技術です。

クローリングをするプログラムをクローラーとも呼びます。

クローリングが活用されている有名な例は、Google検索。

非常に高度なアルゴリズムにより、様々な検索結果を表示しています。

にゃんこ師匠

クローリングは、スクレイピングと一緒によく出てくる言葉なので、最低限理解しておくといいじゃろう！

Webスクレイピングについて

Webスクレイピングは、HTMLから自分が欲しいと思うデータを取得すること。

これを行うプログラムをスクレイパとも呼びます。

Web上のデータを取得する上では、欠かせない技術となっています。

クローラにより、自分が欲しいと思うデータのあるWebサイトにアクセスし、スクレイパによって情報を取得していくという流れです。

スクレイピングをする前に

スクレイピングは、HTMLとCSSを知っておかなければ、何もできません。

そのため、自信のない人は「Progate」などで復習、または学習しましょう。

また、Selenium（セレニウム）を使ってのスクレイピングやDOM解析には、JavaScriptの知識が必要になる事がよくあります。

JavaScriptについてよく知っておくのも、スクレイピングに役立ちます。

スクレイピングを行う際の注意点

スクレイピングは、禁止しているサイトではやらないようにしましょう。

また、サイトに過度にアクセスをすると、法に反することもあります。

実際に、過度なスクレイピングにより逮捕されているケースもあります。

最悪の事態にならないよう、スクレイピングを禁止していないかを確認したり、過度なアクセスをするプログラムではないかを確認しましょう。

スクレイピングのオススメの言語

スクレイピングをするのに使用する言語は、にゃんこ師匠的にはPythonをおすすめします。

なぜなら、Pythonはスクレイピング関連のライブラリが豊富だからです。

ただ、Webアプリケーションに使用している言語によっても、使用すべき言語が変わります。

（PHPで作られているのなら、PHPでスクレイピングをするということです。）

にゃんこ師匠

書籍やサイトでもPythonによるスクレイピングの情報が豊富じゃな！

ミツオカ

それだと、障害やエラーが発生した時でも、他言語よりも容易に対処できますね

Requestsでのスクレイピングのやり方

それでは、スクレイピングのやり方について見ていきましょう。

今回は、Pythonを使う前提でお話していきます。

Requestsで、Webページを取得する

「Requests」は、PythonのライブラリでHTTPの通信を行うことができます。

人間のためのHTPPと言われるほど高度で使いやすいライブラリです。

Requestsを使うためには、pipでライブラリをインストールする必要があります。

当たり前ですが、pip や Python の環境がない方は、先にそちらを準備する必要があります。

Requestsをインストール

以下のコードで、ライブラリをインストールできます。

1pip install requests

pip3をインストールされている方は、pipの箇所をpip3とコマンドを打つ必要があります。

pipに問題がなければ、難なくインストールできるはずです。

Requestsの基本的な使い方

では、実際に、Requestsでページを取得してみましょう！

今回は、人気WebメディアであるGigazineのページを取得してみました。

1import requests
2
3url = "https:gigazine.net/"
4
5info = requests.get(url)
6
7print(info.headers)
8
9print(info.content)

get()関数でurlを指定すれば、そのページの情報を取得できます。

ちなみに出力しているものは、ヘッダー情報とbody以下のコンテンツです。

headersで「header情報」を、contentで「body以下のコンテンツ」を取得できます。

BeautifulSoupで、データを取得する

Requestsでwebページを取得したら、ページの解析をする必要があります。

その時に用いるのが、BeautifulSoup。

インストール

それでは、まず、BeautifulSoupをインストールしましょう。

1pip install beautifulsoup4

Requestsと併用してBeautiful Soupを使う

「Requests」と「Beautiful Soup」は、よく併用して使われます。

では、実際に、Requests と Beautiful Soup を使って、Gigazineのデータを取得してみたいと思います。

1import requests
2from bs4 import BeautifulSoup
3
4response = requests.get("https://gigazine.net/")
5
6data = BeautifulSoup(response.content,"html.parser")
7
8#gigazineの記事一覧を出力
9print(data.find("section"))

まず、Requests によりGigazineのページを取得し、BeautifulSoup によってhtmlファイルを解読していきます。

そして最後に、sectionタグを見つける処理を行い、出力しています。

ブラウザを操作しながら、スクレイピング！?

Requests と BeautifulSoup では、ログインが必要なサイトやDOM解析に時間がかかるサイトでは、スクレイピングが困難です。

その際には、Selenium がおすすめです。

ブラウザ操作でスクレイピングをするため、ログインが必要なサイトでも簡単にデータを取得できます。

また、ボタンをクリックしないと出てこないデータ等がある場合、仮想ブラウザでクリックイベントを発することで、クリックした後のデータを取得できます。

Requests では、Bot判定される確率が高く、セキュリティ面が強固なサイトでは出来ないケースが多々あります。

ですが、Selenium は仮想ブラウザを操作し、データを取得していくため、Bot判定にかかりにくいのです。

にゃんこ師匠

しかし、短所もある…。ブラウザを立ち上げるため、結構重かったりするのじゃ

ミツオカ

高速にデータを集めたい場合は不向きかもー！

Webブラウザを立ち上げた後、Google検索で、Webスクレイピングという文字で検索をします。

注意すべき点は、処理を大量に詰め込むとサーバーに負担がかかります。

処理が多いプログラムではtime.sleep() を使うことで、時間を空けながら行うプログラムにするのが良いでしょう。

1from selenium import webdriver
2
3driver = webdriver.Chrome()
4
5driver.get("https://www.google.com/")
6
7search = driver.find_element_by_name("q")
8
9search.send_keys("Webスクレイピング")
10
11search.submit()
12
13driver.quit()

初心者にオススメの本

Python2年生スクレイピングのしくみ体験してわかる！会話でまなべる！

さいごに

RequestsとBeautifulSoupを使えば、簡単にWebサイトのデータを集めることができます。

ログインが必要であるときなど、BeautifulSoup でデータを解析出来ない場合は、Selenium を使いましょう。

このように、用途や状況によって BeautifulSoup と Selenium を使えば、なお一層スクレイピングがはかどりますね！

こちらの記事もオススメ！

さいごの一言

にゃんこ師匠

これから機械学習やAIが発展していく中で必須になってくるスキルとも言えるのお！

ミツオカ

それはぜひ身に着けていきたいですね！

ITフリーランスのエンジニア専門エージェント

技術力で世の中をもっと面白くエンジニア積極採用中！

ライトコードでは、エンジニアを積極採用中！

ライトコードでは、エンジニアを積極採用しています！社長と一杯しながらお話しする機会もご用意しております。そのほかカジュアル面談等もございますので、くわしくは採用情報をご確認ください。

採用情報へ

メディアチーム

「好きを仕事にするエンジニア集団」の（株）ライトコードです！ライトコードは、福岡、東京、大阪、名古屋の４拠点で事業展開するIT企業です。現在は、国内を代表する大手IT企業を取引先にもち、ITシステムの受託事業が中心。いずれも直取引で、月間PV数1億を超えるWebサービスのシステム開発・運営、インフラの構築・運用に携わっています。システム開発依頼・お見積もり大歓迎！また、現在「WEBエンジニア」「モバイルエンジニア」「営業」「WEBデザイナー」を積極採用中です！インターンや新卒採用も行っております。以下よりご応募をお待ちしております！ https://rightcode.co.jp/recruit