pandasの文字列から正規表現で抽出して新たな列を生成

Modified: 2019-08-06 | Tags: Python, pandas

文字列を要素とするpandas.DataFrameの列、pandas.Seriesから正規表現で特定の文字列を抽出して新たな列を生成する方法を説明する。

以下の文字列メソッドを使う。

str.extract(): 最初のマッチ部分のみ抽出
str.extractall(): すべてのマッチ部分を抽出

pandas.DataFrameの列から抽出したい場合はdf['列名']のように列（= pandas.Series）を指定してstr.extract()やstr.extractall()を呼べばOK。

関連記事: pandasのインデックス参照で行・列を選択し取得

文字列の位置・長さを指定して抽出する場合はスライスを使うと簡単。以下の記事を参照。

関連記事: pandasで文字列にスライスを適用して任意の位置・長さの部分を抽出

str.extract(): 最初のマッチ部分のみ抽出

以下のpandas.Seriesを例とする。

import pandas as pd

s_org = pd.Series(['aaa@xxx.com', 'bbb@yyy.net', 'ccc@zzz.co.jp'], index=['A', 'B', 'C'])
print(s_org)
# A      aaa@xxx.com
# B      bbb@yyy.net
# C    ccc@zzz.co.jp
# dtype: object

source: pandas_str_extract_extractall.py

正規表現の最初のマッチ部分のみ抽出するにはstr.extract()メソッドを使う。

pandas.Series.str.extract — pandas 0.22.0 documentation

str.extract()の第一引数に正規表現パターンを指定すると() で囲まれたグループ部分にマッチする文字列が抽出される。

引数expandをTrueとするとpandas.DataFrame、Falseとするとpandas.Seriesとして新たなオブジェクトが生成される。

df_single = s_org.str.extract('(.+)@', expand=True)
print(df_single)
print(type(df_single))
#      0
# A  aaa
# B  bbb
# C  ccc
# <class 'pandas.core.frame.DataFrame'>

s = s_org.str.extract('(.+)@', expand=False)
print(s)
print(type(s))
# A    aaa
# B    bbb
# C    ccc
# dtype: object
# <class 'pandas.core.series.Series'>

source: pandas_str_extract_extractall.py

バージョン0.22.0ではexpand=Falseがデフォルトだが、将来的にはexpand=Trueがデフォルトになるとのこと。バージョンによって結果が変わってしまうのでexpandは明示的に指定しておいたほうが無難。

FutureWarning: currently extract(expand=None) means expand=False (return Index/Series/DataFrame)
but in a future version of pandas this will be changed to expand=True (return DataFrame)

正規表現パターンに名前付きグループ(?P<name>...)を使うと名前がそのまま列名（カラム名）になる。

df_name = s_org.str.extract('(?P<local>.+)@', expand=True)
print(df_name)
print(type(df_name))
#   local
# A   aaa
# B   bbb
# C   ccc
# <class 'pandas.core.frame.DataFrame'>

source: pandas_str_extract_extractall.py

()で囲まれたグループが複数あると、各グループで抽出された部分がそれぞれ列となるpandas.DataFrameが返る。この場合は引数expandがTrueでもFalseでもpandas.DataFrame。

デフォルトでは0始まりの連番が列名となり、名前付きグループ(?P<name>...)を使うとそれが列名となる。

print(s_org.str.extract('(.+)@(.+)'))
#      0          1
# A  aaa    xxx.com
# B  bbb    yyy.net
# C  ccc  zzz.co.jp

print(s_org.str.extract('(?P<local>.+)@(?P<domain>.+)'))
#   local     domain
# A   aaa    xxx.com
# B   bbb    yyy.net
# C   ccc  zzz.co.jp

source: pandas_str_extract_extractall.py

なお、この例の場合はstr.split()メソッドで区切り文字を@として分割することも可能。文字列の分割については以下の記事を参照。

関連記事: pandasの文字列を区切り文字や正規表現で複数の列に分割

マッチする部分がない場合はNaNとなる。

print(s_org.str.extract('(a+)', expand=True))
#      0
# A  aaa
# B  NaN
# C  NaN

source: pandas_str_extract_extractall.py

str.extractall(): すべてのマッチ部分を抽出

以下のpandas.Seriesを例とする。

s_org2 = pd.Series(['aaa@xxx.com, iii@xxx.com', 'bbb@yyy.net, jjj@yyy.net', 'ccc@zzz.co.jp'],
                   index=['A', 'B', 'C'])
print(s_org2)
# A    aaa@xxx.com, iii@xxx.com
# B    bbb@yyy.net, jjj@yyy.net
# C               ccc@zzz.co.jp
# dtype: object

source: pandas_str_extract_extractall.py

str.extract()は最初のマッチ部分のみを返すので、以下のような結果となる。

print(s_org2.str.extract('([a-z]+)@([a-z.]+)', expand=True))
#      0          1
# A  aaa    xxx.com
# B  bbb    yyy.net
# C  ccc  zzz.co.jp

source: pandas_str_extract_extractall.py

すべてのマッチ部分を抽出するにはstr.extractall()メソッドを使う。

pandas.Series.str.extractall — pandas 0.22.0 documentation

str.extractall()の結果は以下の通り。str.extractall()には引数expandは無く、常にindexがマルチインデックスのpandas.DataFrameを返す。

df_all = s_org2.str.extractall('([a-z]+)@([a-z.]+)')
print(df_all)
#            0          1
#   match                
# A 0      aaa    xxx.com
#   1      iii    xxx.com
# B 0      bbb    yyy.net
#   1      jjj    yyy.net
# C 0      ccc  zzz.co.jp

print(df_all.index)
# MultiIndex(levels=[['A', 'B', 'C'], [0, 1]],
#            labels=[[0, 0, 1, 1, 2], [0, 1, 0, 1, 0]],
#            names=[None, 'match'])

source: pandas_str_extract_extractall.py

マルチインデックスのpandas.DataFrameの要素の指定・選択については以下の記事を参照。

関連記事: pandasのMultiIndexから任意の行・列を選択、抽出

マッチする部分が一つしかなくてもindexはマルチインデックスとなるので注意。str.extract()の例で使用したSeriesを使っている。

print(s_org.str.extractall('([a-z]+)@([a-z.]+)'))
#            0          1
#   match                
# A 0      aaa    xxx.com
# B 0      bbb    yyy.net
# C 0      ccc  zzz.co.jp

source: pandas_str_extract_extractall.py

pandasの文字列から正規表現で抽出して新たな列を生成

str.extract(): 最初のマッチ部分のみ抽出

str.extractall(): すべてのマッチ部分を抽出

関連カテゴリー

関連記事