note.nkmk.me

pandas.DataFrame, Seriesのインデックスを振り直すreset_index

Date: 2018-01-13 / tags: Python, pandas

reset_index()メソッドを使うと、pandas.DataFrame, pandas.Seriesのインデックス(行名、行ラベル)を0始まりの連番(行番号)に振り直すことができる。

行番号をインデックスとして使っている場合、ソートして行の順番が変わったときや行を削除して欠番が出たときなどはインデックスを振り直したほうが使いやすい。

また、行名・行ラベルをインデックスとして使っている場合に、現在のインデックスを削除したりデータ列に戻すためにも使う。set_index()reset_index()を使うことで、インデックスを別の列に変更(再設定)することができる。

ここでは、

  • reset_index()でインデックスを連番に振り直し
  • reset_index()set_index()でインデックスを別の列に変更(再設定)

について説明する。

例として以下のデータを使用する。

import pandas as pd

df = pd.read_csv('data/src/sample_pandas_normal.csv')
print(df)
#       name  age state  point
# 0    Alice   24    NY     64
# 1      Bob   42    CA     92
# 2  Charlie   18    CA     70
# 3     Dave   68    TX     70
# 4    Ellen   24    CA     88
# 5    Frank   30    NY     57

サンプルのcsvファイルはコチラ。

例はpandas.DataFrameだが、pandas.Seriesでもreset_index()が用意されている。引数など、使い方はどちらも同じ。

スポンサーリンク

reset_index()でインデックスを連番に振り直し

説明のためsort_values()で行を並び替える。ソート(sort_values(), sort_index())についての詳細は以下の記事参照。

df.sort_values('state', inplace=True)
print(df)
#       name  age state  point
# 1      Bob   42    CA     92
# 2  Charlie   18    CA     70
# 4    Ellen   24    CA     88
# 0    Alice   24    NY     64
# 5    Frank   30    NY     57
# 3     Dave   68    TX     70

indexがバラバラになってしまったので、これを0始まりの連番に振り直す。

引数に何も指定せずreset_index()を使うと、元のindexが新たな列として追加される。

df_r = df.reset_index()
print(df_r)
#    index     name  age state  point
# 0      1      Bob   42    CA     92
# 1      2  Charlie   18    CA     70
# 2      4    Ellen   24    CA     88
# 3      0    Alice   24    NY     64
# 4      5    Frank   30    NY     57
# 5      3     Dave   68    TX     70

元のindexを削除(引数drop)

引数dropTrueとすると、元のindexは削除され、新たなindex(連番)で上書きされる。

df_r = df.reset_index(drop=True)
print(df_r)
#       name  age state  point
# 0      Bob   42    CA     92
# 1  Charlie   18    CA     70
# 2    Ellen   24    CA     88
# 3    Alice   24    NY     64
# 4    Frank   30    NY     57
# 5     Dave   68    TX     70

元のオブジェクトを変更(引数inplace)

デフォルトでは元のオブジェクトは変更されず、新たなオブジェクトが返されるが、引数inplaceTrueとすると元のオブジェクトが変更される。

df.reset_index(inplace=True, drop=True)
print(df)
#       name  age state  point
# 0      Bob   42    CA     92
# 1  Charlie   18    CA     70
# 2    Ellen   24    CA     88
# 3    Alice   24    NY     64
# 4    Frank   30    NY     57
# 5     Dave   68    TX     70

reset_index()とset_index()でインデックスを別の列に変更(再設定)

インデックスとして番号ではなく行名が設定されている場合。

df = pd.read_csv('data/src/sample_pandas_normal.csv', index_col=0)
print(df)
#          age state  point
# name                     
# Alice     24    NY     64
# Bob       42    CA     92
# Charlie   18    CA     70
# Dave      68    TX     70
# Ellen     24    CA     88
# Frank     30    NY     57

reset_index()メソッドを使うと、連番がインデックスに設定され元のインデックスがデータ列に追加される。

df_r = df.reset_index()
print(df_r)
#       name  age state  point
# 0    Alice   24    NY     64
# 1      Bob   42    CA     92
# 2  Charlie   18    CA     70
# 3     Dave   68    TX     70
# 4    Ellen   24    CA     88
# 5    Frank   30    NY     57

別の列をインデックスに変更(再設定)するためにはset_index()メソッドを使う。

元のDataFrameset_index()を適用すると元のインデックスが削除される。

df_s = df.set_index('state')
print(df_s)
#        age  point
# state            
# NY      24     64
# CA      42     92
# CA      18     70
# TX      68     70
# CA      24     88
# NY      30     57

元のインデックスをデータ列として残しておきたい場合は、reset_index()してからset_index()を用いればよい。

df_rs = df.reset_index().set_index('state')
print(df_rs)
#           name  age  point
# state                     
# NY       Alice   24     64
# CA         Bob   42     92
# CA     Charlie   18     70
# TX        Dave   68     70
# CA       Ellen   24     88
# NY       Frank   30     57
スポンサーリンク
シェア
このエントリーをはてなブックマークに追加

関連カテゴリー

関連記事