pandasの要素としてリストを格納し処理

Posted: 2018-05-22 | Tags: Python, pandas

pandas.DataFrame, Seriesの要素としてPythonの組み込み型であるリストlistを格納できる。

例えば区切り文字（デリミタ）で区切られた文字列などは、文字列メソッドで処理するよりもリスト化したほうが便利な場合がある。

ここでは、以下の内容について説明する。

pandas.DataFrameの文字列の列からリストの列を生成
リストの列に関数・メソッドを適用
- リストの要素数を取得
- リストをソート
- リストを文字列に連結
- リストから要素を追加・削除
リストに対する条件で行を抽出

リストとpandas.DataFrame, Seriesを変換する方法については以下の記事を参照。

関連記事: pandas.DataFrame, SeriesとPython標準のリストを相互に変換

以下のpandas.DataFrameを例とする。

import pandas as pd

df = pd.DataFrame({'s': ['X,Y,Z', 'X', 'XY,Y', 'Y,Z,XY']},
                  index=['a', 'b', 'c', 'd'])

print(df)
#         s
# a   X,Y,Z
# b       X
# c    XY,Y
# d  Y,Z,XY

source: pandas_list_as_value.py

pandas.DataFrameの文字列の列からリストの列を生成

文字列メソッドstr.split()を使う。引数expand=Trueとすると複数の列に分割されるが、デフォルト（expand=False）の場合はリストとなる。

関連記事: pandasの文字列を区切り文字や正規表現で複数の列に分割

df['l'] = df['s'].str.split(',')
print(df)
#         s           l
# a   X,Y,Z   [X, Y, Z]
# b       X         [X]
# c    XY,Y     [XY, Y]
# d  Y,Z,XY  [Y, Z, XY]

source: pandas_list_as_value.py

列のデータ型dtypeは文字列の列もリストの列もobjectだが、各要素はそれぞれの型typeになっている。

関連記事: pandasのデータ型dtype一覧とastypeによる変換（キャスト）

print(df.dtypes)
# s    object
# l    object
# dtype: object

print(type(df.at['a', 's']))
# <class 'str'>

print(type(df.at['a', 'l']))
# <class 'list'>

source: pandas_list_as_value.py

なお、X,Y,ZではなくX, Y, Zのように区切り文字のあとにスペースがある場合はstrip()で除外する。この例の場合は変化なし。

無名関数で処理を定義して、apply()で各要素に適用している。map()でもOK。

関連記事: Python, splitでカンマ区切り文字列を分割、空白を削除しリスト化
関連記事: Pythonのlambda（ラムダ式、無名関数）の使い方
関連記事: pandasで要素、行、列に関数を適用するmap, applymap, apply

print(df['s'].apply(lambda x: [s.strip() for s in x.split(',')]))
# a     [X, Y, Z]
# b           [X]
# c       [XY, Y]
# d    [Y, Z, XY]
# Name: s, dtype: object

source: pandas_list_as_value.py

スペースの数が同じ場合はstr.split(', ')のように区切り文字を指定しても問題ない。

リストの列に関数・メソッドを適用

Pythonのリストlist型に対する関数およびメソッドをpandas.DataFrameの列（= pandas.Series）のapply()またはmap()で適用する。

要素を引数としないメソッド（リスト自体のメソッドなど）は無名関数（ラムダ式）を使う。

リストの要素数を取得

組み込み関数len()を適用。

print(df['l'].apply(len))
# a    3
# b    1
# c    2
# d    3
# Name: l, dtype: int64

source: pandas_list_as_value.py

リストをソート

組み込み関数sorted()を適用。

print(df['l'].apply(sorted))
# a     [X, Y, Z]
# b           [X]
# c       [XY, Y]
# d    [XY, Y, Z]
# Name: l, dtype: object

source: pandas_list_as_value.py

リストを文字列に連結

文字列メソッドjoin()を適用。

print(df['l'].apply(','.join))
# a     X,Y,Z
# b         X
# c      XY,Y
# d    Y,Z,XY
# Name: l, dtype: object

source: pandas_list_as_value.py

ソートしてから文字列に連結。

print(df['l'].apply(lambda x: ','.join(sorted(x))))
# a     X,Y,Z
# b         X
# c      XY,Y
# d    XY,Y,Z
# Name: l, dtype: object

source: pandas_list_as_value.py

リストから要素を追加・削除

リストのメソッドappend()で要素を追加。もとのリストに新たな要素が追加される。

関連記事: Pythonでリスト（配列）に要素を追加するappend, extend, insert

df['l'].apply(lambda x: x.append('A'))
print(df)
#         s              l
# a   X,Y,Z   [X, Y, Z, A]
# b       X         [X, A]
# c    XY,Y     [XY, Y, A]
# d  Y,Z,XY  [Y, Z, XY, A]

source: pandas_list_as_value.py

リストのメソッドremove()で要素を削除。remove()は存在しない要素を指定するとエラーになるので、三項演算子を使って対象の要素が存在する場合のみremove()を適用している。

関連記事: Pythonでリスト（配列）の要素を削除するclear, pop, remove, del
関連記事: Pythonの三項演算子（条件演算子）でif文を一行で書く

df['l'].apply(lambda x: x.remove('Z') if 'Z' in x else x)
print(df)
#         s           l
# a   X,Y,Z   [X, Y, A]
# b       X      [X, A]
# c    XY,Y  [XY, Y, A]
# d  Y,Z,XY  [Y, XY, A]

source: pandas_list_as_value.py

リストに対する条件で行を抽出

リストに対してbool値（True, False）を返す関数などを適用し取得したbool型のpandas.Seriesをもとのpandas.DataFrameに渡す。

特定の要素が存在する場合に抽出。inを使う。

print(df['l'].apply(lambda x: 'X' in x))
# a     True
# b     True
# c    False
# d    False
# Name: l, dtype: bool

print(df[df['l'].apply(lambda x: 'X' in x)])
#        s          l
# a  X,Y,Z  [X, Y, A]
# b      X     [X, A]

source: pandas_list_as_value.py

常にリスト化したほうが良いわけではなく、条件によってはもとの文字列に対して文字列メソッドstr.contains()を使うだけでOKな場合もある。

関連記事: pandasで特定の文字列を含む行を抽出（完全一致、部分一致）

print(df['s'].str.contains('Z'))
# a     True
# b    False
# c    False
# d     True
# Name: s, dtype: bool

print(df[df['s'].str.contains('Z')])
#         s           l
# a   X,Y,Z   [X, Y, A]
# d  Y,Z,XY  [Y, XY, A]

source: pandas_list_as_value.py

XとXZのように区切り文字で区切られた要素の一部分が重複していたりするとstr.contains()だと面倒。

pandasの要素としてリストを格納し処理

pandas.DataFrameの文字列の列からリストの列を生成

リストの列に関数・メソッドを適用

リストの要素数を取得

リストをソート

リストを文字列に連結

リストから要素を追加・削除

リストに対する条件で行を抽出

関連カテゴリー

関連記事