Pythonで全角・半角を変換（mojimojiなど）

Modified: 2023-09-20 | Tags: Python, 文字列, Unicode

Pythonで全角・半角を変換するには、unicodedata.normalize()やサードパーティライブラリのmojimojiなどを使う方法がある。

Unicode正規化: unicodedata.normalize()
- 英数字は半角、カタカナは全角に変換される
- 全角・半角以外も変換される
全角と半角を相互に変換: mojimoji
変換マップを用意して変換: translate()

半角1文字・全角2文字として文字数をカウントする方法や、文字列から漢字・ひらがな・カタカナ・英数字を抽出してカウントする方法については以下の記事を参照。

関連記事: Pythonで半角1文字、全角2文字として文字数（幅）カウント
関連記事: Pythonの正規表現で漢字・ひらがな・カタカナ・英数字を判定・抽出・カウント

Unicode正規化: unicodedata.normalize()

unicodedata.normalize()はUnicode正規化を行う関数。

第一引数に正規化形式を表す文字列'NFC', 'NFKC', 'NFD', 'NFKD'のいずれか、第二引数に処理する文字列を指定する。

全角と半角を変換するといった目的の場合、正規化形式は'NFKC'を指定すればよい。詳細は以下の記事を参照。

関連記事: Pythonで文字列をUnicode正規化（unicodedata.normalize）

unicodedataモジュールをインポートして使う。標準ライブラリに含まれているので追加のインストールは不要。ここでは、正規化形式がNFKCのUnicode正規化によってどのような変換が行われるかを紹介する。

import unicodedata

s = '１２３ａｂｃｱｲｳｴｵ①㈱㌖'
print(unicodedata.normalize('NFKC', s))
# 123abcアイウエオ1(株)キロメートル

source: unicodedata_normalize.py

英数字は半角、カタカナは全角に変換される

英数字は半角、カタカナは全角に変換される。

s = '１２３ａｂｃアイウエオ123abcｱｲｳｴｵ'
print(unicodedata.normalize('NFKC', s))
# 123abcアイウエオ123abcアイウエオ

source: unicodedata_normalize.py

記号については、ASCII文字は半角に、主に日本語で使われる文字（カギカッコや句読点など）は全角に変換される。

s = '（）．，「」。、().,｢｣｡､'
print(unicodedata.normalize('NFKC', s))
# ().,「」。、().,「」。、

source: unicodedata_normalize.py

紛らわしい文字には注意が必要。例えば、～（全角チルダ: U+FF5E）は~（半角チルダ: U+007E）に変換されるが、〜（波ダッシュ: U+301C）は変換されない。

s = '～〜'
print(unicodedata.normalize('NFKC', s))
# ~〜

source: unicodedata_normalize.py

見分けがつかない文字はord()でUnicodeコードポイントを確認できる。

関連記事: PythonでUnicodeコードポイントと文字を相互変換（chr, ord, \x, \u, \U）

print([hex(ord(c)) for c in s])
# ['0xff5e', '0x301c']

print([hex(ord(c)) for c in unicodedata.normalize('NFKC', s)])
# ['0x7e', '0x301c']

source: unicodedata_normalize.py

波ダッシュも半角チルダに変換したい場合は、unicodedata.normalize()のあとで波ダッシュを半角チルダに置換するか、unicodedata.normalize()の前に波ダッシュを全角チルダに変換すればよい。

関連記事: Pythonで文字列を置換（replace, translate, re.sub, re.subn）

s = '～〜'
print(unicodedata.normalize('NFKC', s).replace('〜', '~'))
# ~~

print(unicodedata.normalize('NFKC', s.replace('〜', '～')))
# ~~

source: unicodedata_normalize.py

置換したい文字が複数ある場合は後述のtranslate()が便利。

全角・半角以外も変換される

Unicode正規化では、全角・半角だけでなく、合成済み文字も変換される。

s = '①㈱㌖'
print(unicodedata.normalize('NFKC', s))
# 1(株)キロメートル

source: unicodedata_normalize.py

変換されそうでも変換されない文字もある。

s = '®©💯'
print(unicodedata.normalize('NFKC', s))
# ®©💯

source: unicodedata_normalize.py

どのように変換されるかを確実に把握したい場合は、後述のサードパーティライブラリや変換マップを用意する方法を使う。

全角と半角を相互に変換: mojimoji

moijmojiは全角と半角を相互に変換するためのサードパーティライブラリ。pipでインストールする必要がある。

studio-ousia/mojimoji: A fast converter between Japanese hankaku and zenkaku characters

同様の機能を持ったライブラリにはjaconvがある。こちらは全角・半角だけでなく、ひらがな・カタカナの変換も可能。

ikegami-yukino/jaconv: Pure-Python Japanese character interconverter for Hiragana, Katakana, Hankaku, and Zenkaku

ここでは、全角・半角の相互変換に特化したmojimojiを紹介する。以降のサンプルコードで使用しているmojimojiはバージョン0.0.12。

全角を半角に変換: mojimoji.zen_to_han()

mojimoji.zen_to_han()で全角が半角に変換される。

import mojimoji

s = '１２３ａｂｃ！？アイウエオ123abc!?ｱｲｳｴｵ'
print(mojimoji.zen_to_han(s))
# 123abc!?ｱｲｳｴｵ123abc!?ｱｲｳｴｵ

source: mojimoji_usage.py

半角を全角に変換: mojimoji.han_to_zen()

mojimoji.han_to_zen()で半角が全角に変換される。

s = '１２３ａｂｃ！？アイウエオ123abc!?ｱｲｳｴｵ'
print(mojimoji.han_to_zen(s))
# １２３ａｂｃ！？アイウエオ１２３ａｂｃ！？アイウエオ

source: mojimoji_usage.py

変換対象を選択: 引数ascii, digit, kana

mojimoji.zen_to_han(), mojimoji.han_to_zen()では引数ascii, digit, kanaで変換対象を選択できる。いずれもデフォルトはTrueで、すべてが変換される。Falseを指定すると変換されない。

s = '１２３ａｂｃ！？アイウエオ123abc!?ｱｲｳｴｵ'
print(mojimoji.zen_to_han(s, kana=False))
# 123abc!?アイウエオ123abc!?ｱｲｳｴｵ

print(mojimoji.han_to_zen(s, digit=False, ascii=False))
# １２３ａｂｃ！？アイウエオ123abc!?アイウエオ

source: mojimoji_usage.py

それぞれにどのような文字が割り当てられているかはソースコードを参照。kanaには句読点やカギカッコも含まれている。

https://github.com/studio-ousia/mojimoji/blob/master/mojimoji.pyx

バージョン0.0.12時点では、バックスラッシュ（\: U+005C, ＼: U+FF3C）が設定されていない。issueを立てておいたのでそのうち対応してくれるかもしれない。

バックスラッシュが変換されない · Issue #21 · studio-ousia/mojimoji

なお、unicodedata.normalize()のように、カナは全角、英数字は半角に変換したい場合は、引数を指定した上でzen_to_han()とhan_to_zen()を続けて実行する。

print(mojimoji.han_to_zen(mojimoji.zen_to_han(s, kana=False), digit=False, ascii=False))
# 123abc!?アイウエオ123abc!?アイウエオ

source: mojimoji_usage.py

変換マップを用意して変換: translate()

自分で変換マップを用意して変換する方法もある。文字列strのtranslate()メソッドを使う。変換マップはstr.maketrans()で生成する。

関連記事: Pythonで文字列を置換（replace, translate, re.sub, re.subn）

str.maketrans()の第一引数・第二引数に同じ長さの文字列を指定すると、第一引数の文字が第二引数の対応する文字（同じ位置の文字）に置換される。

例えば数字のみ半角・全角を変換したい場合は以下のようにする。

z_digit = '１２３４５６７８９０'
h_digit = '1234567890'

z2h_digit = str.maketrans(z_digit, h_digit)
h2z_digit = str.maketrans(h_digit, z_digit)

s = '１２３123'
print(s.translate(z2h_digit))
# 123123

print(s.translate(h2z_digit))
# １２３１２３

source: str_translate_maketrans.py

Unicodeコードポイントが連続している文字の場合は以下のように変換マップを生成できる。

関連記事: Pythonで2進数、8進数、16進数の数値・文字列を相互に変換
関連記事: Pythonのrange関数の使い方
関連記事: PythonでUnicodeコードポイントと文字を相互変換（chr, ord, \x, \u, \U）
関連記事: Pythonリスト内包表記の使い方
関連記事: Pythonで文字列を連結・結合（+演算子、joinなど）

以下は、ASCIIの印字可能文字を変換する例。全角スペース（U+3000）は他の全角のASCII文字とコードポイントが離れているので先頭に追加している。

z_ascii = '\u3000' + ''.join(chr(i) for i in range(0xFF01, 0xFF5E + 1))
print(z_ascii)
# 　！＂＃＄％＆＇（）＊＋，－．／０１２３４５６７８９：；＜＝＞？＠ＡＢＣＤＥＦＧＨＩＪＫＬＭＮＯＰＱＲＳＴＵＶＷＸＹＺ［＼］＾＿｀ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｒｓｔｕｖｗｘｙｚ｛｜｝～

h_ascii = ''.join(chr(i) for i in range(0x0020, 0x007E + 1))
print(h_ascii)
#  !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

z2h_ascii = str.maketrans(z_ascii, h_ascii)
h2z_ascii = str.maketrans(h_ascii, z_ascii)

s = '１２３ａｂｃ！？123abc!?'
print(s.translate(z2h_ascii))
# 123abc!?123abc!?

print(s.translate(h2z_ascii))
# １２３ａｂｃ！？１２３ａｂｃ！？

source: str_translate_maketrans.py

ASCIIには円記号（￥: U+00A5, ¥: U+FFE5）は含まれない。追加したい場合は、文字列の末尾に+演算子で追加すればよい。その他の文字も同じ要領で追加できる。

z_ascii_yen = z_ascii + '￥'
h_ascii_yen = h_ascii + '¥'

z2h_ascii_yen = str.maketrans(z_ascii_yen, h_ascii_yen)
h2z_ascii_yen = str.maketrans(h_ascii_yen, z_ascii_yen)

s = '１２３ａｂｃ！？￥123abc!?¥'
print(s.translate(z2h_ascii_yen))
# 123abc!?¥123abc!?¥

print(s.translate(h2z_ascii_yen))
# １２３ａｂｃ！？￥１２３ａｂｃ！？￥

source: str_translate_maketrans.py

なお、濁音・半濁音の半角カナは2文字として扱われるため、str.maketrans()では変換マップを生成できない。

print(len('ガ'))
# 1

print(list('ガ'))
# ['ガ']

print(len('ｶﾞ'))
# 2

print(list('ｶﾞ'))
# ['ｶ', 'ﾞ']

# str.maketrans('ガ', 'ｶﾞ')
# ValueError: the first two maketrans arguments must have equal length

source: str_translate_maketrans.py

半角カナの処理はunicodedata.normalize()やmojimojiなどのライブラリを使うほうが楽。

Pythonで全角・半角を変換（mojimojiなど）

Unicode正規化: unicodedata.normalize()

英数字は半角、カタカナは全角に変換される

全角・半角以外も変換される

全角と半角を相互に変換: mojimoji

全角を半角に変換: mojimoji.zen_to_han()

半角を全角に変換: mojimoji.han_to_zen()

変換対象を選択: 引数ascii, digit, kana

変換マップを用意して変換: translate()

関連カテゴリー

関連記事