Pythonで簡単データ分析!Pandasを使ったcsvファイルの読み込み方法

プログラミング

Pythonでcsvファイルを読み込むには、データ分析ライブラリ「Pandas」を使用することで、簡単にデータの読み込みや処理ができます。本記事では、そのPandasを使ってcsvファイルを読み込み、基本的なデータ操作を行う方法を解説します。csvデータの取り扱い方を学びたい、これからPythonでデータ分析を始めたいと考えている方は、ぜひ参考にしてみてください。

※実行環境
・Windows11
・Jupyter notebook
・Python  3.12.4
・Pandas ‘2.2.2’

使用データ
・東京都オープンデータカタログサイト
https://portal.data.metro.tokyo.lg.jp/

・csvファイルURL:
https://www.toukei.metro.tokyo.lg.jp/tnenkan/2021/tn21qv020300.csv

Pythonでのデータ分析の特徴と利点

Pythonは、データ分析において多くのユーザーから支持されている有名なプログラミング言語の1つです。その最大の特徴は、豊富なライブラリ群とシンプルな文法構造です。プログラミングに慣れていないユーザーでも簡単に操作できるため、複雑なデータ処理を効率よく進めることができます。Pythonでデータを分析する利点が大きく3つあります。

①無料で利用できる分析ツールが豊富に用意されている
Pandasによるデータ処理、Matplotlibによる可視化、Scikit-learnによる機械学習など、商用ツールに匹敵する機能を無償で利用できます。

②自動化が容易で、反復作業を効率化
毎月のレポート作成や大量のcsvファイル処理も、一度コードを書けば自動的に処理できます。

③拡張性が高く、様々なデータ形式に対応できる
csvだけでなく、ExcelやJSON、データベースなど、多様なデータソースを統一的に扱えます。

Pandasライブラリとは

Pandasは、データ分析に使用するライブラリの一つです。データ処理や分析に特化して設計されており、DataFrame形式を用いることで、テーブル状のデータを簡単に扱うことができます。データの読み込みから加工、出力まで一貫して行えるため、広く利用されています。また、高速かつメモリ効率が高いため、大量のデータ処理にも適しています。数行のコードでデータのフィルタリングやグループ化といった高度な分析ができるため、Pandasは多くの機能で、データ分析の効率を高める役割を担っています。

Pandasのインストール方法

Pandasをインストールするには、Pythonのパッケージ管理ツールであるpipを使用します。

pip install pandas

Pandasのデータ構造

Pandasのデータ構造には、SeriesDataFrameがあります。

・Series:1次元のデータ構造

・DataFrame:2次元のデータ構造

実際にコードを書いて、確認していきます。

Series(1次元)

import pandas as pd

# Seriesの作成
s = pd.Series([1, 2, 3, 4, 5])

print(s)

出力結果

0    1
1    2
2    3
3    4
4    5
dtype: int64

DataFrame(2次元)

import pandas as pd

# DataFrameの作成
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})

print(df)

出力結果

   A  B
0  1  4
1  2  5
2  3  6

Pandasを使ったCSVファイルの読み込み方法

Pandasでcsvファイルを読み込む際、pd.read_csv()が一般的に使用されます。特定の列のみ読み込んだり、文字エンコードを指定したりするパラメータも豊富です。例えば、日本語のcsvファイルでは、encoding="utf-8"を指定することで文字化けを防げます。この関数により、csvの読み込みがスムーズになり、データ分析の準備が簡単に整います。

今回は東京都総務局が提供しているオープンデータを使用して、演習していきます。無料で公開されているので、演習や市場調査に役立てることもできます。
・csvファイルURL:
https://www.toukei.metro.tokyo.lg.jp/tnenkan/2021/tn21qv020300.csv  

import pandas as pd

# CSVファイルの読み込み
df = pd.read_csv('blog.csv')
print(df.head(5))

出力結果

  地域階層    地域コード   項番 Item number    地域    District  大正9年10月1日
0    0      13000.0          NaN    総数    Tokyo-to       3699428
1    1      13100.0          NaN    区部      All ku       3358186 
2    2      13101.0          1.0  千代田区  Chiyoda-ku         217682      ・・・
3    2      13102.0          2.0   中央区     Chuo-ku          269812 
4    2      13103.0          3.0    港区   Minato-ku           330004                                                          
・・・

[注意点]ファイルパスの指定とエラーへの対応

csvファイルを読み込む際、ファイルパスの指定は重要です。
pd.read_csv()では、絶対パスか相対パスを使ってファイルを指定しますが、ファイルが見つからない場合にはエラーメッセージが表示されます。このエラーはパスが間違っているか、ファイルが存在しない場合に発生するため、パスの再確認が必要です。

今回の実行では、同じディレクトリ内にblog.csvを置いています。
以下、画像

上記のように、同じディレクトリ内に置いている場合は、pd.read_csv()にファイル名を記述するだけで良いですが、ディレクトリ構造が異なっている場合は、相対パスや絶対パスを指定する必要があります。今後、ディレクトリ関連の記事も投稿していきますので、そちらをご参考ください。

コメントを残す コメントをキャンセル

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA


コメント

タイトルとURLをコピーしました