【Python初心者必見！】requestsライブラリでHTMLを取得するスクレイピング入門

注意点

利用規約を確認する
著作権やデータ利用の許可を得る
サーバーに負担を掛け過ぎない
公正な利用を心掛ける

スクレイピングは、Pythonでできることとして挙げられる人気技術の一つです。

ブラウザからウェブサイトを閲覧するのと同じ方法でデータを取得しているため、
上記の注意点を確認しながら、学習を進めていきましょう！

この記事は、スクレイピングを初めて学んでいく中で、プログラムコードの基本構文をテンプレートとして、利用できるようにしたいという想いで投稿しました。

スクレイピングとは？
スクレイピングの始め方
おわりに

スクレイピングとは？

ウェブスクレイピング（Web Scraping）とは、ウェブサイトから情報を自動的に取得し、整理して活用する技術です。ウェブ上に公開されているデータ（HTML構造）を抽出し、分析や再利用を目的として扱います。以下では、スクレイピングの始め方やrequestsライブラリを用いたHTMLを取得する構文を紹介します。

スクレイピングの始め方

本記事では、Pythonを用いた方法を紹介します。

※使用環境
・Jupyter notebook
・Python：ver 3.9.18

ライブラリ
・requests

ライブラリをインストールできていない方はここから

まずは、使用するライブラリをインストールする必要があります。
今回のスクレイピングでは、requestsを使用します。

インストール方法

pipコマンドを用いてインストールします。
以下、Jupyter notebookに記述してください

！pip install requests

ライブラリがインストールできている方はここから

ライブラリのインストールが完了できたら、基本構文を紹介します。

import requests

url = 'データを取得したいサイトのURL'
response = requests.get(url)

print(response.text)

上記がスクレイピングの基本構文になります！

たったの４行しか書かなくてもいいの？って思う方がいるかもしれませんが、このテンプレートに取得したいサイトのURLを入力すれば、スクレイピングができたことになります！

次に各コードを解説していきます。

各コードの解説

1行目では、インストールしたrequestsライブラリをインポートしています。Pythonでは、インポートしないと利用できないので、必須になります。

import requests

2行目では、urlという変数にデータを取得したいWebサイトのURLを格納しています。

url = 'データを取得したいサイトのURL'

3行目では、reaponseという変数にgetメソッドを使用してWebサイトのURL内のHTML情報を取得しています。

response = requests.get(url)

4行目はでは、取得したURL内のHTML情報をprint関数を用いて、表示しています。

print(response.text)

おわりに

ここまで、Pythonでスクレイピングを行う際のテンプレートを紹介しました。実践できたでしょうか？
しかしここで、このような声もあると思います。

もっと難しいプログラミングがしたい！

全体じゃなくて、もっと細かいところを取得したい！

更に難易度の高いスクレイピングを行いたい時は、他のライブラリや条件を絞っていくことで可能になります。

今回の記事では、Webスクレイピングを行う際の始め方やテンプレートを紹介しました。

応用方法に関しては、執筆途中ですので少々お待ちいただければ幸いです。また他のブログ等でも掲載されているので、参考にしてみてください！

Python アイコン by Icons8