pandasでユニークな要素の数・頻度（出現回数）をカウント

Modified: 2023-12-14 | Tags: Python, pandas

pandasで、DataFrameの列（=Series）のユニークな要素の数（重複を除いた件数）や要素ごとの頻度（出現回数）を取得する方法を説明する。

Seriesのunique(), value_counts(), nunique()メソッドを使う。nunique()はDataFrameのメソッドとしても提供されている。

pandas.Series.unique()
- ユニークな要素の値の一覧をNumPy配列ndarrayで返す
pandas.Series.value_counts()
- ユニークな要素の値とその頻度（出現回数）をSeriesで返す
pandas.Series.nunique(), pandas.DataFrame.nunique()
- ユニークな要素の数をint, Seriesで返す

ここでは、それぞれのメソッドの基本的な使い方を説明したあと、ユニークな要素の数や一覧などを取得する方法について述べる。

目次

pandas.Series.unique()
pandas.Series.value_counts()
pandas.Series.nunique(), pandas.DataFrame.nunique()
ユニークな要素の数（重複を除いた件数）
ユニークな要素の値のリスト
ユニークな要素の頻度（出現回数）
ユニークな要素とその頻度の辞書
最頻値とその頻度
規格化した頻度

ユニークな要素ではなく条件を満たす要素の個数をカウントしたい場合は以下の記事を参照。

関連記事: pandasで特定の条件を満たす要素数をカウント（全体、行・列ごと）

ユニークな要素の数や最頻値、その頻度（出現回数）などを列ごとに算出するdescribe()メソッドもある。

関連記事: pandasのdescribeで各列の要約統計量（平均、標準偏差など）を取得

本記事のサンプルコードのpandasのバージョンは以下の通り。バージョンによって仕様が異なる可能性があるので注意。例として以下のデータを使用する。説明のため欠損値NaNを代入している。

sample_pandas_normal.csv

import pandas as pd

print(pd.__version__)
# 2.1.4

df = pd.read_csv('data/src/sample_pandas_normal.csv')
df.iloc[1] = float('nan')
print(df)
#       name   age state  point
# 0    Alice  24.0    NY   64.0
# 1      NaN   NaN   NaN    NaN
# 2  Charlie  18.0    CA   70.0
# 3     Dave  68.0    TX   70.0
# 4    Ellen  24.0    CA   88.0
# 5    Frank  30.0    NY   57.0

source: pandas_value_counts.py

pandas.Series.unique()

unique()は、ユニークな要素の値の一覧を一次元のNumPy配列ndarrayで返す。欠損値NaNも含まれる。出現順に並べられる。

pandas.Series.unique — pandas 2.1.4 documentation

print(df['state'].unique())
# ['NY' nan 'CA' 'TX']

print(type(df['state'].unique()))
# <class 'numpy.ndarray'>

source: pandas_value_counts.py

pandas.Series.value_counts()

value_counts()は、ユニークな要素の値をインデックス（ラベル）、その個数を要素とするSeriesを返す。ユニークな要素の頻度（出現回数）が必要な場合に使う。

pandas.Series.value_counts — pandas 2.1.4 documentation

print(df['state'].value_counts())
# state
# NY    2
# CA    2
# TX    1
# Name: count, dtype: int64

print(type(df['state'].value_counts()))
# <class 'pandas.core.series.Series'>

source: pandas_value_counts.py

デフォルトではNaNは除外されるが、引数dropnaをFalseとするとNaNもカウントされる。

print(df['state'].value_counts(dropna=False))
# state
# NY     2
# CA     2
# NaN    1
# TX     1
# Name: count, dtype: int64

source: pandas_value_counts.py

デフォルトでは出現回数が多いものから順（降順）にソートされる。引数ascendingをTrueとすると昇順にソートされ、引数sortをFalseとするとソートされず、元の出現順に並べられる。

print(df['state'].value_counts(dropna=False, ascending=True))
# state
# NaN    1
# TX     1
# NY     2
# CA     2
# Name: count, dtype: int64

print(df['state'].value_counts(dropna=False, sort=False))
# state
# NY     2
# NaN    1
# CA     2
# TX     1
# Name: count, dtype: int64

source: pandas_value_counts.py

引数normalizeをTrueとすると、合計が1になるように規格化した値となる。欠損値NaNが含まれている場合は引数dropnaの設定によって値が変わるので注意。

print(df['state'].value_counts(normalize=True))
# state
# NY    0.4
# CA    0.4
# TX    0.2
# Name: proportion, dtype: float64

print(df['state'].value_counts(dropna=False, normalize=True))
# state
# NY     0.333333
# CA     0.333333
# NaN    0.166667
# TX     0.166667
# Name: proportion, dtype: float64

source: pandas_value_counts.py

pandas.Series.nunique(), pandas.DataFrame.nunique()

Seriesのnunique()はユニークな要素の数（重複を除いた件数）を整数intで返す。

pandas.Series.nunique — pandas 2.1.4 documentation

デフォルトではNaNは除外され、引数dropnaをFalseとするとNaNもユニークな要素としてカウントされる。

print(df['state'].nunique())
# 3

print(type(df['state'].nunique()))
# <class 'int'>

print(df['state'].nunique(dropna=False))
# 4

source: pandas_value_counts.py

DataFrameのnunique()は列ごとのユニークな要素の数をSeriesで返す。

pandas.DataFrame.nunique — pandas 2.1.4 documentation

デフォルトではNaNは除外され、引数dropnaをFalseとするとNaNも含んだ結果となる。また、デフォルトでは列ごとだが、引数axisを1または'columns'とすると行ごとにカウントする。

print(df.nunique())
# name     5
# age      4
# state    3
# point    4
# dtype: int64

print(type(df.nunique()))
# <class 'pandas.core.series.Series'>

print(df.nunique(dropna=False))
# name     6
# age      5
# state    4
# point    5
# dtype: int64

print(df.nunique(dropna=False, axis='columns'))
# 0    4
# 1    1
# 2    4
# 3    4
# 4    4
# 5    4
# dtype: int64

source: pandas_value_counts.py

ユニークな要素の数（重複を除いた件数）

SeriesおよびDataFrameのnunique()によってユニークな要素の数（重複を除いた件数、要素の種類の数）をカウントできる。

print(df['state'].nunique())
# 3

print(df.nunique())
# name     5
# age      4
# state    3
# point    4
# dtype: int64

source: pandas_value_counts.py

ユニークな要素の値のリスト

unique()はユニークな要素の値の一覧をNumPy配列ndarrayで返す。ndarrayはtolist()メソッドでPythonの組み込み型のリストlistに変換可能。

関連記事: NumPy配列ndarrayとPythonのリストを相互に変換

print(df['state'].unique().tolist())
# ['NY', nan, 'CA', 'TX']

print(type(df['state'].unique().tolist()))
# <class 'list'>

source: pandas_value_counts.py

value_counts()が返すSeriesのindex属性にtolist()メソッドを適用してもよい。valuesでNumPy配列ndarrayとして取得することもできる。

print(df['state'].value_counts().index.tolist())
# ['NY', 'CA', 'TX']

print(type(df['state'].value_counts().index.tolist()))
# <class 'list'>

print(df['state'].value_counts().index.values)
# ['NY' 'CA' 'TX']

print(type(df['state'].value_counts().index.values))
# <class 'numpy.ndarray'>

source: pandas_value_counts.py

unique()は常にNaNをユニークな要素としてカウントするが、value_counts()は引数dropnaでNaNをカウントするか指定できる。

print(df['state'].value_counts(dropna=False).index.tolist())
# ['NY', 'CA', nan, 'TX']

source: pandas_value_counts.py

ユニークな要素の頻度（出現回数）

ユニークな要素それぞれの頻度（出現回数）を得るには、value_counts()が返すSeriesの値にアクセスすればよい。

vc = df['state'].value_counts()
print(vc)
# state
# NY    2
# CA    2
# TX    1
# Name: count, dtype: int64

print(vc['NY'])
# 2

print(vc['TX'])
# 1

source: pandas_value_counts.py

forループで要素の値と頻度（出現回数）を取り出すにはitems()メソッドを使う。

pandas.Series.items — pandas 2.1.4 documentation

for index, value in df['state'].value_counts().items():
    print(index, value)
# NY 2
# CA 2
# TX 1

source: pandas_value_counts.py

なお、以前はiteritems()という名前だったがitems()に変更された。iteritems()はpandas 2.0で削除された。

ユニークな要素とその頻度の辞書

value_counts()が返すSeriesにto_dict()メソッドを適用し、辞書dictに変換することもできる。

関連記事: pandas.DataFrame, Seriesを辞書に変換（to_dict）

d = df['state'].value_counts().to_dict()
print(d)
# {'NY': 2, 'CA': 2, 'TX': 1}

print(type(d))
# <class 'dict'>

print(d['NY'])
# 2

print(d['TX'])
# 1

source: pandas_value_counts.py

forループで要素の値と頻度（出現回数）を取り出したい場合はitems()メソッドを使う。

関連記事: Pythonの辞書（dict）のforループ処理（keys, values, items）

for key, value in d.items():
    print(key, value)
# NY 2
# CA 2
# TX 1

source: pandas_value_counts.py

最頻値とその頻度

value_counts()

value_counts()はデフォルトで出現回数が多いものから順にソートされたSeriesを返すので、先頭が最頻値とその頻度となる。

print(df['state'].value_counts())
# state
# NY    2
# CA    2
# TX    1
# Name: count, dtype: int64

print(df['state'].value_counts().index[0])
# NY

print(df['state'].value_counts().iat[0])
# 2

source: pandas_value_counts.py

元のSeriesの要素が結果のSeriesのindexとなる。数値がindexの場合は[番号]で値を指定するとエラーになるためiat[番号]を使って厳密に指定している。

関連記事: pandasのインデックス指定で行・列を抽出

# print(df['age'].value_counts()[0])
# KeyError: 0

print(df['age'].value_counts().iat[0])
# 2

source: pandas_value_counts.py

DataFrameの各列に適用するにはapply()メソッドを使う。

関連記事: pandasで要素・行・列に関数を適用するmap, apply, applymap
関連記事: Pythonのlambda（ラムダ式、無名関数）の使い方

print(df.apply(lambda x: x.value_counts().index[0]))
# name     Alice
# age       24.0
# state       NY
# point     70.0
# dtype: object

print(df.apply(lambda x: x.value_counts().iat[0]))
# name     1
# age      2
# state    2
# point    2
# dtype: int64

source: pandas_value_counts.py

上述のように、デフォルトでは欠損値NaNは除外される。引数dropnaをFalseとするとNaNもカウントされる。

最頻値が複数ある場合、この方法だと一つの最頻値しか取得できないので注意。

mode()

Seriesのmode()は最頻値をSeriesとして返す。このSeriesをtolist()でリスト化すると最頻値をリストとして取得できる。最頻値が一つだけの場合もリストになる。

print(df['state'].mode())
# 0    CA
# 1    NY
# Name: state, dtype: object

print(df['state'].mode().tolist())
# ['CA', 'NY']

print(df['age'].mode().tolist())
# [24.0]

source: pandas_value_counts.py

apply()メソッドで各列に適用すると、最頻値のリストを要素とするSeriesが得られる。

s_list = df.apply(lambda x: x.mode().tolist())
print(s_list)
# name     [Alice, Charlie, Dave, Ellen, Frank]
# age                                    [24.0]
# state                                [CA, NY]
# point                                  [70.0]
# dtype: object

print(type(s_list))
# <class 'pandas.core.series.Series'>

print(s_list['name'])
# ['Alice', 'Charlie', 'Dave', 'Ellen', 'Frank']

print(type(s_list['name']))
# <class 'list'>

source: pandas_value_counts.py

mode()はDataFrameのメソッドとしても用意されている。DataFrameを返す。列ごとに最頻値の数が異なるので空き部分は欠損値NaNとなる。

print(df.mode())
#       name   age state  point
# 0    Alice  24.0    CA   70.0
# 1  Charlie   NaN    NY    NaN
# 2     Dave   NaN   NaN    NaN
# 3    Ellen   NaN   NaN    NaN
# 4    Frank   NaN   NaN    NaN

source: pandas_value_counts.py

デフォルトでは欠損値NaNは除外される。引数dropnaをFalseとするとNaNもカウントされる。mode()の詳細は以下の記事を参照。

関連記事: pandasで行・列ごとの最頻値を取得するmode

describe()

describe()メソッドで列ごとのユニークな要素の数や最頻値、その頻度（出現回数）をまとめて算出可能。topが最頻値、freqがその頻度。各項目はloc[]で取得できる。

print(df.astype('object').describe())
#          name   age state  point
# count       5   5.0     5    5.0
# unique      5   4.0     3    4.0
# top     Alice  24.0    NY   70.0
# freq        1   2.0     2    2.0

print(df.astype('object').describe().loc['top'])
# name     Alice
# age       24.0
# state       NY
# point     70.0
# Name: top, dtype: object

source: pandas_value_counts.py

describe()では列のデータ型dtypeによって算出される項目が異なるのでastype()で型変換している。

describe()では欠損値NaNは除外され、他のメソッドのような引数dropnaは無い。また、最頻値が複数存在する場合でも最頻値（項目top）として返される値は一つだけなので注意。

describe()の詳細は以下の記事を参照。

関連記事: pandasのdescribeで各列の要約統計量（平均、標準偏差など）を取得

規格化した頻度

value_counts()の引数normalizeをTrueにすると、合計が1になるように規格化した値が返される。欠損値NaNが含まれている場合は引数dropnaの設定によって値が異なるので注意。

複数データから頻度分布を比較するときなどに便利。

print(df['state'].value_counts(normalize=True))
# state
# NY    0.4
# CA    0.4
# TX    0.2
# Name: proportion, dtype: float64

print(df['state'].value_counts(dropna=False, normalize=True))
# state
# NY     0.333333
# CA     0.333333
# NaN    0.166667
# TX     0.166667
# Name: proportion, dtype: float64

source: pandas_value_counts.py

関連カテゴリー

関連記事