pandas参考書『Python for Data Analysis, 2nd Edition』
<2023-12-03 追記>
2023年8月12日に第3版の日本語版が発売された。
英語版はWebでも公開されている。
<追記ここまで>
pandasの開発者Wes Mckinney氏による『Python for Data Analysis』の第2版。
Oreilly & Associates Inc
2018年7月26日に日本語版『Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理』も発売された。
原著第1版は2012年10月発売と古く、サンプルコードが最新バージョンのライブラリに対応していなかった。
原著第2版は2017年10月発売で、発売時点の最新バージョンのライブラリに対応している。
なお、pandasの開発者が書いた本ということでpandasについての詳しさは随一だが、NumPy, matplotlibの分量は少なめ。NumPy, pandas, matplotlibを基礎からバランスよく学びたい人には『Python Data Science Handbook』、およびその日本語版『Pythonデータサイエンスハンドブック』もオススメ。
- 関連記事: 『Python Data Science Handbook』(英語の無料オンライン版あり)
- 関連記事: 『Pythonデータサイエンスハンドブック』は良書(NumPy, pandasほか)
以下、第1版からの変更点などについて。
- GitHubのサンプルコード
- 第1版からの変更点
- Python, 各ライブラリのバージョンアップ
- 内容追加
- 全体の構成見直し
- こんな人にオススメ
- pandas本を探しているならコレ
- 第1版を持っている人は買うべきか?
GitHubのサンプルコード
GitHubでJupyter Notebook.ipynb
形式のサンプルコードが公開されている。
日本語の第1版『Pythonによるデータ分析入門』を持っている人は英語が苦手でもサンプルコードにざっと目を通してみるといいと思う。構成が若干変わっているので第1版の章と対応しているわけではないが、Jupyter Notebook(.ipynb
)で一通り実行してみると、知らない書き方やメソッドの勉強になるだろう。
第1版からの変更点
Python, 各ライブラリのバージョンアップ
サンプルコードに使われているPythonのバージョンが3.6
、pandasのバージョンが0.20.3
に更新された。
- Updated for Python 3.6
- Updated for latest pandas (0.20.3)
Python for Data Analysis Book - Wes McKinney
第1版のサンプルコードを最新バージョンでそのまま実行するとエラーや警告が発生していたので、これだけでも価値がある。
内容追加
サンプルコードが更新されているのに加え、以下の章が新たに追加された。
Pythonの基本的な文法
Pythonの基本的な文法の説明が追加された。リストやタプルの操作などが一通り説明されている。
- 2章 Pythonの基礎、IPythonとJupyter Notebook
- 3章 Python組み込みのデータ構造と関数、ファイルの扱い
応用編(Advanced pandas)
pandasの応用編(Advanced pandas)としてカテゴリ型やpipe()
メソッドなどについての説明が追加された。分量はそれほど多くない。
- 12章 pandas:応用編
モデリングライブラリ
こちらも分量はあまり多くないが、以下のモデリングライブラリについて説明されている。
- 13章 Pythonにおけるモデリングライブラリ入門
- patsy
- stats-models
- scikit-learn
全体の構成見直し
章が再構成され、見通しが良くなった。
第1版では各章にバラバラに配置されていた実際のデータを使った例が14章にまとめられている。内容は第1版と同じ。
こんな人にオススメ
pandas本を探しているならコレ
pandasの開発者が書いた本なのでpandasについての詳しさは随一。
pandasについて詳しく書かれている本を探しているならこれで間違いない。日本語版もある。
Oreilly & Associates Inc
第1版を持っている人は買うべきか?
第1版を今でもたびたび参照していてそのたびにpandasのバージョンが古くてイライラしている、というのであれば、迷わず第2版を買ったほうが幸せになれる。
ただし、上述のようにサンプルコードが新しいバージョンに対応するよう更新されているものの、内容が大幅に追加されているわけではない。
第1版を持っているのであれば第2版を新たに買い直さなくてもGitHubのサンプルコードを実行して復習するだけで事足りるかもしれない。気になるところがあれば買えばいいし、一度確認してみるといいだろう。
第1版を持っているので第2版を買うほどではない…だけど新しいバージョンのpandasに対応した参考書は欲しい、というのであれば『Pythonデータサイエンスハンドブック』がオススメ。pandasについても基本操作を中心に簡潔にまとめられている。