- 利用規約を確認する
- 著作権やデータ利用の許可を得る
- サーバーに負担を掛け過ぎない
- 公正な利用を心掛ける
スクレイピングは、Pythonでできることとして挙げられる人気技術の一つです。
ブラウザからウェブサイトを閲覧するのと同じ方法でデータを取得しているため、
上記の注意点を確認しながら、学習を進めていきましょう!
この記事は、スクレイピングを初めて学んでいく中で、プログラムコードの基本構文をテンプレートとして、利用できるようにしたいという想いで投稿しました。
スクレイピングとは?
ウェブスクレイピング(Web Scraping)とは、ウェブサイトから情報を自動的に取得し、整理して活用する技術です。ウェブ上に公開されているデータ(HTML構造)を抽出し、分析や再利用を目的として扱います。以下では、スクレイピングの始め方やrequestsライブラリを用いたHTMLを取得する構文を紹介します。
スクレイピングの始め方
本記事では、Pythonを用いた方法を紹介します。
※使用環境
・Jupyter notebook
・Python:ver 3.9.18
ライブラリ
・requests
ライブラリをインストールできていない方はここから
まずは、使用するライブラリをインストールする必要があります。
今回のスクレイピングでは、requestsを使用します。
インストール方法
pipコマンドを用いてインストールします。
以下、Jupyter notebookに記述してください
!pip install requests
ライブラリがインストールできている方はここから
ライブラリのインストールが完了できたら、基本構文を紹介します。
import requests
url = 'データを取得したいサイトのURL'
response = requests.get(url)
print(response.text)
上記がスクレイピングの基本構文になります!
たったの4行しか書かなくてもいいの?って思う方がいるかもしれませんが、このテンプレートに取得したいサイトのURLを入力すれば、スクレイピングができたことになります!
次に各コードを解説していきます。
各コードの解説
1行目では、インストールしたrequestsライブラリをインポートしています。Pythonでは、インポートしないと利用できないので、必須になります。
import requests
2行目では、urlという変数にデータを取得したいWebサイトのURLを格納しています。
url = 'データを取得したいサイトのURL'
3行目では、reaponseという変数にgetメソッドを使用してWebサイトのURL内のHTML情報を取得しています。
response = requests.get(url)
4行目はでは、取得したURL内のHTML情報をprint関数を用いて、表示しています。
print(response.text)
おわりに
ここまで、Pythonでスクレイピングを行う際のテンプレートを紹介しました。実践できたでしょうか?
しかしここで、このような声もあると思います。

もっと難しいプログラミングがしたい!

全体じゃなくて、もっと細かいところを取得したい!
更に難易度の高いスクレイピングを行いたい時は、他のライブラリや条件を絞っていくことで可能になります。
今回の記事では、Webスクレイピングを行う際の始め方やテンプレートを紹介しました。
応用方法に関しては、執筆途中ですので少々お待ちいただければ幸いです。また他のブログ等でも掲載されているので、参考にしてみてください!