Python, pandas, seabornでペアプロット図（散布図行列）を作成

Posted: 2018-04-22 | Tags: Python, Matplotlib, seaborn, pandas

Pythonのビジュアライゼーションライブラリseabornとpandasを使うと、ペアプロット図（散布図行列）を簡単に作成できる。

seaborn.pairplot()関数を使う。

seaborn.pairplot — seaborn 0.8.1 documentation

第一引数にpandas.DataFrameを指定するだけで各列同士の散布図がマトリクス上に配置されたペアプロット図が作成できる。対角線にはヒストグラムが配置される。

Irisデータセットを例に、各種引数による設定などを説明する。

Irisデータセット
seaborn.pairplot()関数の使い方とデフォルト設定
カテゴリデータに従って色分け: 引数hue
- カテゴリの順番を指定: 引数hue_order
- カテゴリの色を指定: 引数palette
グラフ化する列を指定: 引数vars, x_vars, y_vars
マーカーを指定: 引数markers
回帰直線を重ねてプロット: 引数kind
対角線のグラフの種類をカーネル密度分布に変更: 引数diag_kind
サイズを指定: 引数size
その他の引数: 引数plot_kws, diag_kws

Jupyter Notebookでグラフをインラインで表示したい場合は%matplotlib inlineを実行しておく。

Irisデータセット

irisデータセットは機械学習でよく使われるアヤメの品種データ。

150件のデータがSetosa, Versicolor, Virginicaの3品種に分類されており、それぞれ、Sepal Length（がく片の長さ）, Sepal Width（がく片の幅）, Petal Length（花びらの長さ）, Petal Width（花びらの幅）の4つの特徴量を持っている。

様々なライブラリにテストデータとして入っている。

The Iris Dataset — scikit-learn 0.19.0 documentation
[https://github.com/pandas-dev/pandas/blob/master/pandas/tests/io/data/csv/iris.csv](https://github.com/pandas-dev/pandas/blob/master/pandas/tests/io/data/csv/iris.csv
https://github.com/mwaskom/seaborn-data/blob/master/iris.csv

pandas.DataFrameとして読み込む。seabornではsns.load_dataset("iris")で読み込むこともできる。

import pandas as pd
import seaborn as sns

df = pd.read_csv('data/src/iris.csv', index_col=0)
# df = sns.load_dataset("iris")

Python, pandas, seabornでペアプロット図（散布図行列）を作成

Irisデータセット

seaborn.pairplot()関数の使い方とデフォルト設定

カテゴリデータに従って色分け: 引数hue

カテゴリの順番を指定: 引数hue_order

カテゴリの色を指定: 引数palette

カラーマップ名を指定

個別に色を指定

グラフ化する列を指定: 引数vars, x_vars, y_vars

マーカーを指定: 引数markers

回帰直線を重ねてプロット: 引数kind

対角線のグラフの種類をカーネル密度推定に変更: 引数diag_kind

サイズを指定: 引数size

その他の引数: 引数plot_kws, diag_kws

関連カテゴリー

関連記事