NumPyでCSVファイルを読み込み・書き込み（入力・出力）

Modified: 2023-11-19 | Tags: Python, NumPy, CSV

NumPyで、CSV（カンマ区切り）やTSV（タブ区切り）などのファイルを配列ndarrayとして読み込むにはnp.loadtxt()またはnp.genfromtxt()、ndarrayをCSVやTSVファイルとして出力（保存）するにはnp.savetxt()を使う。

便宜上、タイトルおよび見出しではCSVとしているが、カンマ区切りに限らず任意の文字列で区切られたテキストファイルを処理できる。

CSVファイルを読み込み（入力）: np.loadtxt()
複雑なCSVファイルを読み込み（入力）: np.genfromtxt()
CSVファイルに書き込み（出力）: np.savetxt()
pandasを利用した読み書き（入出力）

最後に触れるように、ヘッダー（見出し行）を含んでいたり、数値の列と文字列の列が混在していたりするファイルの読み書きにはpandasが便利。

また、他のアプリケーションで使う必要がなければNumPy独自のバイナリ形式で保存する方が楽。以下の記事を参照。

関連記事: NumPy配列ndarrayをバイナリファイル（npy, npz）で保存

本記事のサンプルコードのNumPyのバージョンは以下の通り。バージョンによって仕様が異なる可能性があるので注意。

import numpy as np

print(np.__version__)
# 1.26.1

source: numpy_loadtxt.py

すべての引数について触れているわけではないので詳細は公式ドキュメントを参照されたい。

CSVファイルを読み込み（入力）: np.loadtxt()

基本的な使い方

任意の文字で区切られたテキストファイルをndarrayとして読み込むにはnp.loadtxt()を使う。

numpy.loadtxt — NumPy v1.26 Manual

スペースで数値が区切られた以下のファイルを例とする。説明のため、以降もファイルの中身をopen()およびread()で示す。open()については以下の記事を参照。

関連記事: Pythonでファイルの読み込み、書き込み（作成・追記）

with open('data/src/sample.txt') as f:
    print(f.read())
# 11 12 13 14
# 21 22 23 24
# 31 32 33 34

source: numpy_loadtxt.py

第一引数に読み込むファイルのパスを指定するとndarrayとして読み込まれる。デフォルトではデータ型dtypeはfloat（ビット数は環境依存）。

a = np.loadtxt('data/src/sample.txt')
print(a)
# [[11. 12. 13. 14.]
#  [21. 22. 23. 24.]
#  [31. 32. 33. 34.]]

print(type(a))
# <class 'numpy.ndarray'>

print(a.dtype)
# float64

source: numpy_loadtxt.py

第一引数にはパスの文字列だけでなく、pathlibモジュールのPathオブジェクトも指定可能。

関連記事: Python, pathlibの使い方（パスをオブジェクトとして操作・処理）

区切り文字（デリミタ）を指定: 引数delimiter

カンマ区切りのファイル（CSVファイル）を読み込むには、引数delimiterに文字列でカンマ','を指定する。

with open('data/src/sample.csv') as f:
    print(f.read())
# 11,12,13,14
# 21,22,23,24
# 31,32,33,34

print(np.loadtxt('data/src/sample.csv', delimiter=','))
# [[11. 12. 13. 14.]
#  [21. 22. 23. 24.]
#  [31. 32. 33. 34.]]

source: numpy_loadtxt.py

delimiterのデフォルト値はスペース' 'なので、省略するとエラーとなり読み込めない。

# print(np.loadtxt('data/src/sample.csv'))
# ValueError: could not convert string '11,12,13,14' to float64 at row 0, column 1.

source: numpy_loadtxt.py

TSV（タブ区切り）の場合はdelimiter='\t'とすればよい。

データ型を指定: 引数dtype

上述のようにデフォルトではデータ型dtypeはfloat（ビット数は環境依存）。引数dtypeに任意のデータ型を指定できる。

関連記事: NumPyのデータ型dtype一覧とastypeによる変換（キャスト）

a = np.loadtxt('data/src/sample.csv', delimiter=',', dtype='int64')
print(a)
# [[11 12 13 14]
#  [21 22 23 24]
#  [31 32 33 34]]

print(a.dtype)
# int64

source: numpy_loadtxt.py

読み込む行・列を指定: 引数skiprows, max_rows, usecols

不要なデータが含まれている場合は、引数skiprows, max_rows, usecolsで読み込む行・列を指定できる。

skiprows
- 先頭から何行スキップして読み込むかを整数値で指定
- 空行やコメント行もカウントされる
max_rows
- skiprows行のあとに読み込む行数を整数値で指定
- 空行やコメント行はカウントされない（NumPy1.23以降）
usecols
- 読み込む列のインデックス（0始まり）をリストなどのシーケンスオブジェクトで指定
- 一列のみ読み込む場合は整数値でも指定可能

なお、デフォルトでは#から始まる行はコメントとして無視される。引数commentsにコメントとして扱う先頭文字を文字列または文字列のリストで指定可能。

各引数を指定することで、見出し行と見出し列を含むファイルから任意のデータのみを読み込める。

with open('data/src/sample_header_index.csv') as f:
    print(f.read())
# ,a,b,c,d
# ONE,11,12,13,14
# TWO,21,22,23,24
# THREE,31,32,33,34

a = np.loadtxt('data/src/sample_header_index.csv', delimiter=',', dtype='int64',
               skiprows=1, usecols=[1, 2, 3, 4])
print(a)
# [[11 12 13 14]
#  [21 22 23 24]
#  [31 32 33 34]]

source: numpy_loadtxt.py

後述のように、このようなファイルはpandasを使うほうが楽。

複雑なCSVファイルを読み込み（入力）: np.genfromtxt()

np.genfromtxt()を使うと、欠損値や複数の異なるデータ型を含む複雑な構造のCSVファイルの読み込みが可能。

ただし、特に複数のデータ型を含むファイルはpandasのほうが便利なので、ここでは簡単な紹介のみとする。詳細は以下の公式ドキュメントを参照。pandasについては後述。

numpy.genfromtxt — NumPy v1.26 Manual

基本的な使い方

np.genfromtxt()の基本的な使い方は上述のnp.loadtxt()と同じ。

第一引数に読み込むファイルのパス、引数delimiterに区切り文字（デフォルトはスペース）、引数dtypeにデータ型を指定する。さらに、引数skip_header（np.loadtxt()のskiprowsに相当）, max_rows, usecolsなどで読み込む行・列を指定できる。

with open('data/src/sample_header_index.csv') as f:
    print(f.read())
# ,a,b,c,d
# ONE,11,12,13,14
# TWO,21,22,23,24
# THREE,31,32,33,34

a = np.genfromtxt('data/src/sample_header_index.csv',
                  delimiter=',', dtype='int64',
                  skip_header=1, usecols=[1, 2, 3, 4])
print(a)
# [[11 12 13 14]
#  [21 22 23 24]
#  [31 32 33 34]]

source: numpy_genfromtxt.py

欠損値の処理

以下のように値が欠損しているファイルを例とする。np.loadtxt()だとエラーとなる。

with open('data/src/sample_nan.csv') as f:
    print(f.read())
# 11,12,,14
# 21,,,24
# 31,32,33,34

# a = np.loadtxt('data/src/sample_nan.csv', delimiter=',')
# ValueError: could not convert string '' to float64 at row 0, column 3.

source: numpy_genfromtxt.py

np.genfromtxt()を使うと欠損値がnp.nanとして読み込まれる。

a = np.genfromtxt('data/src/sample_nan.csv', delimiter=',')
print(a)
# [[11. 12. nan 14.]
#  [21. nan nan 24.]
#  [31. 32. 33. 34.]]

source: numpy_genfromtxt.py

引数filling_valuesに欠損値を埋める値を指定可能。

a = np.genfromtxt('data/src/sample_nan.csv', delimiter=',',
                  filling_values=0)
print(a)
# [[11. 12.  0. 14.]
#  [21.  0.  0. 24.]
#  [31. 32. 33. 34.]]

source: numpy_genfromtxt.py

欠損値を欠損値以外の要素の平均値で置換する方法や、その他の欠損値の処理については以下の記事を参照。

関連記事: NumPy配列ndarrayの欠損値np.nanを他の値に置換
関連記事: NumPyで欠損値np.nanを含む配列ndarrayの合計や平均を算出
関連記事: NumPy配列ndarrayの欠損値np.nanを含む行や列を削除

異なるデータ型の処理

以下のように列ごとに異なるデータ型（文字列と数値）を持つファイルを例とする。

with open('data/src/sample_pandas_normal.csv') as f:
    print(f.read())
# name,age,state,point
# Alice,24,NY,64
# Bob,42,CA,92
# Charlie,18,CA,70
# Dave,68,TX,70
# Ellen,24,CA,88
# Frank,30,NY,57

source: numpy_genfromtxt.py

上の説明では省略したが、np.loadtxt()でも引数dtypeに適切な値を指定すればこのようなファイルを構造化配列（Structured array）として読み込むことができる。

a = np.loadtxt('data/src/sample_pandas_normal.csv', delimiter=',', skiprows=1,
               dtype={'names': ('name', 'age', 'state', 'point'),
                      'formats': ('<U7', '<i8', '<U2', '<i8')})
print(a)
# [('Alice', 24, 'NY', 64) ('Bob', 42, 'CA', 92) ('Charlie', 18, 'CA', 70)
#  ('Dave', 68, 'TX', 70) ('Ellen', 24, 'CA', 88) ('Frank', 30, 'NY', 57)]

print(type(a))
# <class 'numpy.ndarray'>

print(a.dtype)
# [('name', '<U7'), ('age', '<i8'), ('state', '<U2'), ('point', '<i8')]

source: numpy_genfromtxt.py

np.genfromtxt()では、引数namesをTrue、引数dtypeをNoneとすると、一行目の値がフィールド名で、列ごとに型が自動的に決定された構造化配列として読み込まれる。

a = np.genfromtxt('data/src/sample_pandas_normal.csv', delimiter=',',
                  names=True, dtype=None, encoding='utf-8')
print(a)
# [('Alice', 24, 'NY', 64) ('Bob', 42, 'CA', 92) ('Charlie', 18, 'CA', 70)
#  ('Dave', 68, 'TX', 70) ('Ellen', 24, 'CA', 88) ('Frank', 30, 'NY', 57)]

print(type(a))
# <class 'numpy.ndarray'>

print(a.dtype)
# [('name', '<U7'), ('age', '<i8'), ('state', '<U2'), ('point', '<i8')]

source: numpy_genfromtxt.py

構造化配列（Structured array）についての詳細は以下の公式ドキュメントを参照。

Structured arrays — NumPy v1.26 Manual

繰り返しになるが、このようなファイルの処理はpandasを使ったほうが簡単。

CSVファイルに書き込み（出力）: np.savetxt()

ndarrayを任意の文字列で区切られたテキストファイルとして保存するにはnp.savetxt()を使う。

numpy.savetxt — NumPy v1.26 Manual

以下のndarrayを例とする。

a = np.arange(6).reshape(2, 3)
print(a)
# [[0 1 2]
#  [3 4 5]]

source: numpy_savetxt.py

基本的な使い方

第一引数に出力先のファイルのパス、第二引数に元のndarrayを指定する。

np.savetxt('data/temp/np_savetxt.txt', a)

source: numpy_savetxt.py

以下のような内容のファイルが作成される。

with open('data/temp/np_savetxt.txt') as f:
    print(f.read())
# 0.000000000000000000e+00 1.000000000000000000e+00 2.000000000000000000e+00
# 3.000000000000000000e+00 4.000000000000000000e+00 5.000000000000000000e+00

source: numpy_savetxt.py

フォーマットを指定: 引数fmt

引数fmtで任意のフォーマットを指定できる。

小数点以下の桁数などを指定できるが、値が丸められた場合は当然そのままテキストとして保存される。あとから復元することはできなくなるので注意。

デフォルトは'%.18e'で、上の例のように小数点以下18桁の指数表記で書き込まれる。.以降の数字は小数点以下の桁数、eは指数表記を表す。

np.savetxt('data/temp/np_savetxt_5e.txt', a, fmt='%.5e')

with open('data/temp/np_savetxt_5e.txt') as f:
    print(f.read())
# 0.00000e+00 1.00000e+00 2.00000e+00
# 3.00000e+00 4.00000e+00 5.00000e+00

source: numpy_savetxt.py

なお、指数表記でもnp.loadtxt()でそのまま読み込めるので、特にこだわりがなければデフォルトのフォーマットにしておけば問題ない。

print(np.loadtxt('data/temp/np_savetxt.txt'))
# [[0. 1. 2.]
#  [3. 4. 5.]]

source: numpy_savetxt.py

fは小数。

np.savetxt('data/temp/np_savetxt_5f.txt', a, fmt='%.5f')

with open('data/temp/np_savetxt_5f.txt') as f:
    print(f.read())
# 0.00000 1.00000 2.00000
# 3.00000 4.00000 5.00000

source: numpy_savetxt.py

dは整数。

np.savetxt('data/temp/np_savetxt_d.txt', a, fmt='%d')

with open('data/temp/np_savetxt_d.txt') as f:
    print(f.read())
# 0 1 2
# 3 4 5

source: numpy_savetxt.py

xは16進数表記。ゼロ埋めも可能。04は全体で4桁、残りを0で埋める、という意味。説明のため10倍して保存する。

print(a * 10)
# [[ 0 10 20]
#  [30 40 50]]

np.savetxt('data/temp/np_savetxt_x.txt', a * 10, fmt='%04x')

with open('data/temp/np_savetxt_x.txt') as f:
    print(f.read())
# 0000 000a 0014
# 001e 0028 0032

source: numpy_savetxt.py

16進数表記はnp.loadtxt()ではそのまま読み込めないので再びNumPyで使うような場合は避けたほうがよい。

そのほかフォーマットの詳細は公式ドキュメントを参照。

numpy.savetxt — NumPy v1.26 Manual

区切り文字（デリミタ）を指定: 引数delimiter

np.loadtxt()やnp.genfromtxt()と同じく、np.savetxt()でもデフォルトの区切り文字（デリミタ）はスペース' '。

引数delimiterで任意の区切り文字を指定できる。

CSV（カンマ区切り）として保存したい場合はdelimiter=','、TSV（タブ区切り）として保存したい場合はdelimiter='\t'とすればよい。

np.savetxt('data/temp/np_savetxt.csv', a, delimiter=',', fmt='%d')

with open('data/temp/np_savetxt.csv') as f:
    print(f.read())
# 0,1,2
# 3,4,5

source: numpy_savetxt.py

np.savetxt('data/temp/np_savetxt.tsv', a, delimiter='\t', fmt='%d')

with open('data/temp/np_savetxt.tsv') as f:
    print(f.read())
# 0 1   2
# 3 4   5

source: numpy_savetxt.py

出力できるのは一次元配列と二次元配列のみ

np.savetxt()で出力できるのは一次元配列と二次元配列のみ。三次元以上だとエラーになる。

a_3d = np.arange(24).reshape(2, 3, 4)
print(a_3d)
# [[[ 0  1  2  3]
#   [ 4  5  6  7]
#   [ 8  9 10 11]]
# 
#  [[12 13 14 15]
#   [16 17 18 19]
#   [20 21 22 23]]]

# np.savetxt('data/temp/np_savetxt_3d.txt', a_3d)
# ValueError: Expected 1D or 2D array, got 3D array instead

source: numpy_savetxt.py

三次元以上の配列はflatten()やreshape()で二次元以下に変換すれば保存できる。

関連記事: NumPy配列ndarrayを一次元化（平坦化）するravelとflatten
関連記事: NumPy配列ndarrayの形状を変換するreshapeの使い方

が、当然ながら、再び元のndarrayとして使うにはloadtxt()などで読み込んだあとでreshape()で元の形状に戻す必要がある。元の形状の情報を別途保存する必要があるのであまり実用的ではないかもしれない。

バイナリファイル（npy, npz）で保存すればデータ型や形状がそのまま保持される。三次元以上の多次元配列もそのまま保存できるので、テキストファイルにこだわらなければそちらのほうが簡単。

関連記事: NumPy配列ndarrayをバイナリファイル（npy, npz）で保存

pandasを利用した読み書き（入出力）

pandasを使うと、ヘッダー（見出し行）がついたデータなどをより簡単に処理できる。NumPyのndarrayとpandasのDataFrameは相互に変換できるので、pandasを経由してndarrayを処理することも可能。

関連記事: pandas.DataFrame, SeriesとNumPy配列ndarrayを相互に変換

ここではいくつかの例を簡単に紹介する。引数の設定などの詳細は以下の記事を参照。

関連記事: pandasでCSV/TSVファイル読み込み（read_csv, read_table）
関連記事: pandasでCSVファイルの書き込み・追記（to_csv）

pandasではExcelのファイルの読み書きもできる。

関連記事: pandasでExcelファイル（xlsx, xls）の読み込み（read_excel）
関連記事: pandasでExcelファイル（xlsx, xls）の書き込み（to_excel）

見出し行・列が付いたCSVファイルの処理

以下のCSVファイルを例とする。

import numpy as np
import pandas as pd

with open('data/src/sample_header_index.csv') as f:
    print(f.read())
# ,a,b,c,d
# ONE,11,12,13,14
# TWO,21,22,23,24
# THREE,31,32,33,34

source: numpy_txt_pandas.py

pd.read_csv()では、デフォルトで1行目が見出し行、引数index_colで指定した列が見出し列として読み込まれる。

df = pd.read_csv('data/src/sample_header_index.csv', index_col=0)
print(df)
#         a   b   c   d
# ONE    11  12  13  14
# TWO    21  22  23  24
# THREE  31  32  33  34

source: numpy_txt_pandas.py

ndarrayとして取得したい場合はDataFrameのvalues属性を使う。

a = df.values
print(a)
# [[11 12 13 14]
#  [21 22 23 24]
#  [31 32 33 34]]

print(type(a))
# <class 'numpy.ndarray'>

source: numpy_txt_pandas.py

ndarrayに見出し行・列を付けて保存したい場合は、コンストラクタの引数index, columnsを指定してDataFrameを生成してからto_csv()で書き込む。

関連記事: pandas.DataFrameの構造とその作成方法

a = np.arange(6).reshape(2, 3)
print(a)
# [[0 1 2]
#  [3 4 5]]

df = pd.DataFrame(a, index=['ONE', 'TWO'], columns=['a', 'b', 'c'])
print(df)
#      a  b  c
# ONE  0  1  2
# TWO  3  4  5

df.to_csv('data/temp/sample_pd.csv')

with open('data/temp/sample_pd.csv') as f:
    print(f.read())
# ,a,b,c
# ONE,0,1,2
# TWO,3,4,5

source: numpy_txt_pandas.py

欠損値の処理

データが欠損した以下のCSVファイルを例とする。

with open('data/src/sample_nan.csv') as f:
    print(f.read())
# 11,12,,14
# 21,,,24
# 31,32,33,34

source: numpy_txt_pandas.py

pd.read_csv()では特に何も設定しなくても欠損値はnanとして扱われる。なお、上述のように、デフォルトで1行目が見出し行（ヘッダー）として処理されるため、この例のように見出し行がない場合は引数headerをNoneとする。

df = pd.read_csv('data/src/sample_nan.csv', header=None)
print(df)
#     0     1     2   3
# 0  11  12.0   NaN  14
# 1  21   NaN   NaN  24
# 2  31  32.0  33.0  34

source: numpy_txt_pandas.py

pandasにおける欠損値の処理については以下の記事を参照。

関連記事: pandasで欠損値NaNを除外（削除）・置換（穴埋め）・抽出
関連記事: pandasで欠損値NaNを前後の値から補間するinterpolate

異なるデータ型の処理

数値と文字列を含む以下のCSVファイルを例とする。

with open('data/src/sample_pandas_normal.csv') as f:
    print(f.read())
# name,age,state,point
# Alice,24,NY,64
# Bob,42,CA,92
# Charlie,18,CA,70
# Dave,68,TX,70
# Ellen,24,CA,88
# Frank,30,NY,57

source: numpy_txt_pandas.py

DataFrameは各列ごとにデータ型を持つ。pd.read_csv()ではデフォルトでそれぞれの列のデータ型が推測され自動的に設定される。

df = pd.read_csv('data/src/sample_pandas_normal.csv')
print(df)
#       name  age state  point
# 0    Alice   24    NY     64
# 1      Bob   42    CA     92
# 2  Charlie   18    CA     70
# 3     Dave   68    TX     70
# 4    Ellen   24    CA     88
# 5    Frank   30    NY     57

print(df.dtypes)
# name     object
# age       int64
# state    object
# point     int64
# dtype: object

source: numpy_txt_pandas.py

pandasにおけるデータ型については以下の記事を参照。

関連記事: pandasのデータ型dtype一覧とastypeによる変換（キャスト）

DataFrameのselect_dtypes()メソッドで任意のデータ型の列を抽出できる。

関連記事: pandas.DataFrameから特定の型の列を抽出・除外するselect_dtypes

print(df.select_dtypes('int'))
#    age  point
# 0   24     64
# 1   42     92
# 2   18     70
# 3   68     70
# 4   24     88
# 5   30     57

source: numpy_txt_pandas.py

以下のように、文字列などの余分なデータを含んだCSVファイルから数値の列のみを抽出してndarrayとして読み込むことが可能。

a = pd.read_csv('data/src/sample_pandas_normal.csv').select_dtypes('int').values
print(a)
# [[24 64]
#  [42 92]
#  [18 70]
#  [68 70]
#  [24 88]
#  [30 57]]

print(type(a))
# <class 'numpy.ndarray'>

print(a.dtype)
# int64

source: numpy_txt_pandas.py

NumPyでCSVファイルを読み込み・書き込み（入力・出力）

CSVファイルを読み込み（入力）: np.loadtxt()

基本的な使い方

区切り文字（デリミタ）を指定: 引数delimiter

データ型を指定: 引数dtype

読み込む行・列を指定: 引数skiprows, max_rows, usecols

複雑なCSVファイルを読み込み（入力）: np.genfromtxt()

基本的な使い方

欠損値の処理

異なるデータ型の処理

CSVファイルに書き込み（出力）: np.savetxt()

基本的な使い方

フォーマットを指定: 引数fmt

区切り文字（デリミタ）を指定: 引数delimiter

出力できるのは一次元配列と二次元配列のみ

pandasを利用した読み書き（入出力）

見出し行・列が付いたCSVファイルの処理

欠損値の処理

異なるデータ型の処理

関連カテゴリー

関連記事