【Python初心者必見!】requestsライブラリでHTMLを取得するスクレイピング入門

プログラミング
注意点
  • 利用規約を確認する
  • 著作権やデータ利用の許可を得る
  • サーバーに負担を掛け過ぎない
  • 公正な利用を心掛ける

スクレイピングは、Pythonでできることとして挙げられる人気技術の一つです。

ブラウザからウェブサイトを閲覧するのと同じ方法でデータを取得しているため、
上記の注意点を確認しながら、学習を進めていきましょう!

この記事は、スクレイピングを初めて学んでいく中で、プログラムコードの基本構文をテンプレートとして、利用できるようにしたいという想いで投稿しました。

スクレイピングとは?

ウェブスクレイピング(Web Scraping)とは、ウェブサイトから情報を自動的に取得し、整理して活用する技術です。ウェブ上に公開されているデータ(HTML構造)を抽出し、分析や再利用を目的として扱います。以下では、スクレイピングの始め方やrequestsライブラリを用いたHTMLを取得する構文を紹介します。

スクレイピングの始め方

本記事では、Pythonを用いた方法を紹介します。

※使用環境
・Jupyter notebook
・Python:ver 3.9.18

ライブラリ
・requests

ライブラリをインストールできていない方はここから

まずは、使用するライブラリをインストールする必要があります。
今回のスクレイピングでは、requestsを使用します。

インストール方法

pipコマンドを用いてインストールします。
以下、Jupyter notebookに記述してください

!pip install requests

ライブラリがインストールできている方はここから

ライブラリのインストールが完了できたら、基本構文を紹介します。

import requests

url = 'データを取得したいサイトのURL'
response = requests.get(url)

print(response.text)

上記がスクレイピングの基本構文になります!

たったの4行しか書かなくてもいいの?って思う方がいるかもしれませんが、このテンプレートに取得したいサイトのURLを入力すれば、スクレイピングができたことになります!

次に各コードを解説していきます。

各コードの解説

1行目では、インストールしたrequestsライブラリをインポートしています。Pythonでは、インポートしないと利用できないので、必須になります。

import requests


2行目では、urlという変数にデータを取得したいWebサイトのURLを格納しています。

url = 'データを取得したいサイトのURL'

3行目では、reaponseという変数にgetメソッドを使用してWebサイトのURL内のHTML情報を取得しています。

response = requests.get(url)

4行目はでは、取得したURL内のHTML情報をprint関数を用いて、表示しています。

print(response.text)

おわりに

ここまで、Pythonでスクレイピングを行う際のテンプレートを紹介しました。実践できたでしょうか?
しかしここで、このような声もあると思います。

もっと難しいプログラミングがしたい!

全体じゃなくて、もっと細かいところを取得したい!

更に難易度の高いスクレイピングを行いたい時は、他のライブラリや条件を絞っていくことで可能になります。

今回の記事では、Webスクレイピングを行う際の始め方やテンプレートを紹介しました。

応用方法に関しては、執筆途中ですので少々お待ちいただければ幸いです。また他のブログ等でも掲載されているので、参考にしてみてください!

Python アイコン by Icons8

タイトルとURLをコピーしました