Pythonでcsvファイルを読み込むには、データ分析ライブラリ「Pandas」を使用することで、簡単にデータの読み込みや処理ができます。本記事では、そのPandasを使ってcsvファイルを読み込み、基本的なデータ操作を行う方法を解説します。csvデータの取り扱い方を学びたい、これからPythonでデータ分析を始めたいと考えている方は、ぜひ参考にしてみてください。
※実行環境
・Windows11
・Jupyter notebook
・Python 3.12.4
・Pandas ‘2.2.2’
使用データ
・東京都オープンデータカタログサイト
https://portal.data.metro.tokyo.lg.jp/
・csvファイルURL:
https://www.toukei.metro.tokyo.lg.jp/tnenkan/2021/tn21qv020300.csv
Pythonでのデータ分析の特徴と利点
Pythonは、データ分析において多くのユーザーから支持されている有名なプログラミング言語の1つです。その最大の特徴は、豊富なライブラリ群とシンプルな文法構造です。プログラミングに慣れていないユーザーでも簡単に操作できるため、複雑なデータ処理を効率よく進めることができます。Pythonでデータを分析する利点が大きく3つあります。
①無料で利用できる分析ツールが豊富に用意されている
Pandasによるデータ処理、Matplotlibによる可視化、Scikit-learnによる機械学習など、商用ツールに匹敵する機能を無償で利用できます。
②自動化が容易で、反復作業を効率化
毎月のレポート作成や大量のcsvファイル処理も、一度コードを書けば自動的に処理できます。
③拡張性が高く、様々なデータ形式に対応できる
csvだけでなく、ExcelやJSON、データベースなど、多様なデータソースを統一的に扱えます。
Pandasライブラリとは
Pandasは、データ分析に使用するライブラリの一つです。データ処理や分析に特化して設計されており、DataFrame形式を用いることで、テーブル状のデータを簡単に扱うことができます。データの読み込みから加工、出力まで一貫して行えるため、広く利用されています。また、高速かつメモリ効率が高いため、大量のデータ処理にも適しています。数行のコードでデータのフィルタリングやグループ化といった高度な分析ができるため、Pandasは多くの機能で、データ分析の効率を高める役割を担っています。
Pandasのインストール方法
Pandasをインストールするには、Pythonのパッケージ管理ツールであるpipを使用します。
pip install pandas
Pandasのデータ構造
Pandasのデータ構造には、SeriesとDataFrameがあります。
・Series:1次元のデータ構造
・DataFrame:2次元のデータ構造
実際にコードを書いて、確認していきます。
Series(1次元)
import pandas as pd
# Seriesの作成
s = pd.Series([1, 2, 3, 4, 5])
print(s)
出力結果
0 1
1 2
2 3
3 4
4 5
dtype: int64
DataFrame(2次元)
import pandas as pd
# DataFrameの作成
df = pd.DataFrame({
'A': [1, 2, 3],
'B': [4, 5, 6]
})
print(df)
出力結果
A B
0 1 4
1 2 5
2 3 6
Pandasを使ったCSVファイルの読み込み方法
Pandasでcsvファイルを読み込む際、pd.read_csv()
が一般的に使用されます。特定の列のみ読み込んだり、文字エンコードを指定したりするパラメータも豊富です。例えば、日本語のcsvファイルでは、encoding="utf-8"
を指定することで文字化けを防げます。この関数により、csvの読み込みがスムーズになり、データ分析の準備が簡単に整います。
今回は東京都総務局が提供しているオープンデータを使用して、演習していきます。無料で公開されているので、演習や市場調査に役立てることもできます。
・csvファイルURL:
https://www.toukei.metro.tokyo.lg.jp/tnenkan/2021/tn21qv020300.csv
import pandas as pd
# CSVファイルの読み込み
df = pd.read_csv('blog.csv')
print(df.head(5))
出力結果
地域階層 地域コード 項番 Item number 地域 District 大正9年10月1日
0 0 13000.0 NaN 総数 Tokyo-to 3699428
1 1 13100.0 NaN 区部 All ku 3358186
2 2 13101.0 1.0 千代田区 Chiyoda-ku 217682 ・・・
3 2 13102.0 2.0 中央区 Chuo-ku 269812
4 2 13103.0 3.0 港区 Minato-ku 330004
・・・
[注意点]ファイルパスの指定とエラーへの対応
csvファイルを読み込む際、ファイルパスの指定は重要です。pd.read_csv()
では、絶対パスか相対パスを使ってファイルを指定しますが、ファイルが見つからない場合にはエラーメッセージが表示されます。このエラーはパスが間違っているか、ファイルが存在しない場合に発生するため、パスの再確認が必要です。
今回の実行では、同じディレクトリ内にblog.csvを置いています。
以下、画像
上記のように、同じディレクトリ内に置いている場合は、pd.read_csv()
にファイル名を記述するだけで良いですが、ディレクトリ構造が異なっている場合は、相対パスや絶対パスを指定する必要があります。今後、ディレクトリ関連の記事も投稿していきますので、そちらをご参考ください。
コメントを残す コメントをキャンセル