NumPy配列ndarrayの欠損値np.nanを他の値に置換

Modified: 2023-11-19 | Tags: Python, NumPy

NumPy配列ndarrayの欠損値NaN（np.nan）を置換するには、np.nan_to_num()やnp.isnan()を利用する。任意の値に置き換えたり、欠損値NaNを除外した要素の平均値に置き換えたりできる。

欠損値NaNの発生・生成・判定
np.genfromtxt()の引数filling_valuesを指定
np.nan_to_num()で欠損値NaNを置換
np.isnan()を利用して欠損値NaNを置換

欠損値を置換するのではなく削除する方法については以下の記事を参照。

関連記事: NumPy配列ndarrayの欠損値np.nanを含む行や列を削除

pandasでの欠損値の処理については以下の記事を参照。

関連記事: pandasで欠損値NaNを除外（削除）・置換（穴埋め）・抽出

本記事のサンプルコードのNumPyのバージョンは以下の通り。バージョンによって仕様が異なる可能性があるので注意。

import numpy as np

print(np.__version__)
# 1.26.1

source: numpy_nan_replace.py

欠損値NaNの発生・生成・判定

np.genfromtxt()でCSVファイルを読み取ると、デフォルトではデータが欠落した箇所が欠損値NaN（Not a Number: 非数）となる。print()での出力時はnanと表示される。

sample_nan.csv
関連記事: NumPyでCSVファイルを読み込み・書き込み（入力・出力）

a = np.genfromtxt('data/src/sample_nan.csv', delimiter=',')
print(a)
# [[11. 12. nan 14.]
#  [21. nan nan 24.]
#  [31. 32. 33. 34.]]

source: numpy_nan_replace.py

明示的に欠損値NaNを生成したいときはnp.nanやfloat('nan')などを使う。

関連記事: Pythonにおけるnanの判定

a_nan = np.array([0, 1, np.nan, float('nan')])
print(a_nan)
# [ 0.  1. nan nan]

source: numpy_nan_replace.py

欠損値同士を==で比較してもFalseとなってしまうため、欠損値かどうかを判定するにはnp.isnan()を使う。

numpy.isnan — NumPy v1.26 Manual

print(np.nan == np.nan)
# False

print(np.isnan(np.nan))
# True

source: numpy_nan_replace.py

np.isnan()ではndarrayの各要素に対して欠損値NaNかどうかを判定できる。

print(a_nan == np.nan)
# [False False False False]

print(np.isnan(a_nan))
# [False False  True  True]

source: numpy_nan_replace.py

np.genfromtxt()の引数filling_valuesを指定

元となるCSVファイルのデータが欠落している場合、np.genfromtxt()で読み込むときに引数filling_valuesを指定すると、欠落箇所を任意の値で埋めることができる。

例えば、0で埋めたい場合は以下の通り。

a_fill = np.genfromtxt('data/src/sample_nan.csv', delimiter=',',
                       filling_values=0)
print(a_fill)
# [[11. 12.  0. 14.]
#  [21.  0.  0. 24.]
#  [31. 32. 33. 34.]]

source: numpy_nan_replace.py

欠損値ではない要素の平均値などで埋めたい場合はnp.genfromtxt()での読み込み時には指定できない。以降に説明する方法を使う。

np.nan_to_num()で欠損値NaNを置換

配列ndarrayの欠損値NaNを置換するにはnp.nan_to_num()を使う。

numpy.nan_to_num — NumPy v1.26 Manual

なお、np.nan_to_num()は欠損値NaNだけでなく無限大infも置換する。以下の記事を参照。

関連記事: Pythonで無限大を表すinfの作成・演算・判定・比較

np.nan_to_num()の第一引数に配列ndarrayを指定すると、デフォルトでは欠損値が0に置換された新たなndarrayが生成される。元のndarrayは変更されない。

a = np.genfromtxt('data/src/sample_nan.csv', delimiter=',')
print(a)
# [[11. 12. nan 14.]
#  [21. nan nan 24.]
#  [31. 32. 33. 34.]]

print(np.nan_to_num(a))
# [[11. 12.  0. 14.]
#  [21.  0.  0. 24.]
#  [31. 32. 33. 34.]]

print(a)
# [[11. 12. nan 14.]
#  [21. nan nan 24.]
#  [31. 32. 33. 34.]]

source: numpy_nan_replace.py

第二引数copyをFalseとすると元のndarrayが変更される。

np.nan_to_num(a, copy=False)
print(a)
# [[11. 12.  0. 14.]
#  [21.  0.  0. 24.]
#  [31. 32. 33. 34.]]

source: numpy_nan_replace.py

NumPy1.17以降は第三引数nanで置換する値を指定できる。

a = np.genfromtxt('data/src/sample_nan.csv', delimiter=',')
print(a)
# [[11. 12. nan 14.]
#  [21. nan nan 24.]
#  [31. 32. 33. 34.]]

print(np.nan_to_num(a, nan=-1))
# [[11. 12. -1. 14.]
#  [21. -1. -1. 24.]
#  [31. 32. 33. 34.]]

source: numpy_nan_replace.py

欠損値ではない要素の平均を算出する関数np.nanmean()を利用すると、平均値に置換可能。列・行ごとの平均値で置換することもできる。

関連記事: NumPyで欠損値np.nanを含む配列ndarrayの合計や平均を算出

print(np.nanmean(a))
# 23.555555555555557

print(np.nan_to_num(a, nan=np.nanmean(a)))
# [[11.         12.         23.55555556 14.        ]
#  [21.         23.55555556 23.55555556 24.        ]
#  [31.         32.         33.         34.        ]]

print(np.nanmean(a, axis=0, keepdims=True))
# [[21. 22. 33. 24.]]

print(np.nan_to_num(a, nan=np.nanmean(a, axis=0, keepdims=True)))
# [[11. 12. 33. 14.]
#  [21. 22. 33. 24.]
#  [31. 32. 33. 34.]]

print(np.nanmean(a, axis=1, keepdims=True))
# [[12.33333333]
#  [22.5       ]
#  [32.5       ]]

print(np.nan_to_num(a, nan=np.nanmean(a, axis=1, keepdims=True)))
# [[11.         12.         12.33333333 14.        ]
#  [21.         22.5        22.5        24.        ]
#  [31.         32.         33.         34.        ]]

source: numpy_nan_replace.py

np.nan_to_num()の第三引数nanにndarrayを指定すると、第一引数のndarrayと同じ形状にブロードキャストされる。

関連記事: NumPyのブロードキャスト（形状の自動変換）

np.nanmean()でkeepdims=Trueとすると正しくブロードキャストされて置換される。axis=0ではkeepdims=False（デフォルト）でも問題ないが、axisに関わらずkeepdims=Trueとしておいたほうが間違いは少ない。

関連記事: NumPyの引数axisとkeepdimsの使い方

1.17より前のバージョンでは引数nanが実装されていないので、0以外の値に置換したい場合は次に説明する方法を使う。

np.isnan()を利用して欠損値NaNを置換

欠損値NaNかを判定する関数np.isnan()を使って、欠損値の要素がTrueとなるndarrayを取得できる。

a = np.genfromtxt('data/src/sample_nan.csv', delimiter=',')
print(a)
# [[11. 12. nan 14.]
#  [21. nan nan 24.]
#  [31. 32. 33. 34.]]

print(np.isnan(a))
# [[False False  True False]
#  [False  True  True False]
#  [False False False False]]

source: numpy_nan_replace.py

これをマスクとして利用すると、欠損値の要素に任意の値を代入できる。

a[np.isnan(a)] = 0
print(a)
# [[11. 12.  0. 14.]
#  [21.  0.  0. 24.]
#  [31. 32. 33. 34.]]

source: numpy_nan_replace.py

np.nanmean()を使って平均値に置き換えることも可能。

a = np.genfromtxt('data/src/sample_nan.csv', delimiter=',')

a[np.isnan(a)] = np.nanmean(a)
print(a)
# [[11.         12.         23.55555556 14.        ]
#  [21.         23.55555556 23.55555556 24.        ]
#  [31.         32.         33.         34.        ]]

source: numpy_nan_replace.py

列・行ごとの平均値に置き換えたい場合はnp.where()を使う。

関連記事: NumPyで条件に応じた処理を行うnp.whereの使い方

a = np.genfromtxt('data/src/sample_nan.csv', delimiter=',')

print(np.where(np.isnan(a), np.nanmean(a, axis=0, keepdims=True), a))
# [[11. 12. 33. 14.]
#  [21. 22. 33. 24.]
#  [31. 32. 33. 34.]]

print(np.where(np.isnan(a), np.nanmean(a, axis=1, keepdims=True), a))
# [[11.         12.         12.33333333 14.        ]
#  [21.         22.5        22.5        24.        ]
#  [31.         32.         33.         34.        ]]

source: numpy_nan_replace.py

NumPy配列ndarrayの欠損値np.nanを他の値に置換

欠損値NaNの発生・生成・判定

np.genfromtxt()の引数filling_valuesを指定

np.nan_to_num()で欠損値NaNを置換

np.isnan()を利用して欠損値NaNを置換

関連カテゴリー

関連記事