Unicodeのコードポイントやプロパティの一覧、詳細情報などを確認
Unicodeコンソーシアムの公式サイトにあるUnicode UtilitiesのページがUnicode関連の情報を確認するのに便利。
- Unicodeコードポイント、文字からその詳細情報を確認
- Unicode文字プロパティの一覧
- ブロックやスクリプト、一般カテゴリごとの文字一覧
とりあえずUnicodeの一覧を確認したい場合はWikipediaも便利。
- WikipediaのUnicode一覧
- WikipediaのUnicodeブロック一覧
- WikipediaのUnicodeスクリプト一覧
PythonでUnicodeコードポイントと文字を相互に変換する方法については以下の記事を参照。
また、PythonでUnicodeプロパティを利用した正規表現パターンを作成するにはサードパーティライブラリregexを使う。以下の記事を参照。
Unicodeコードポイント、文字からその詳細情報を確認
以下のページのフォームに16進数表記のUnicodeコードポイントまたは文字そのものを入力してshow
をクリックすると、その文字の詳細情報が確認できる。
2019年6月8日時点ではなぜかコーヒーカップの絵文字☕がデフォルトでフォームに記入されている。
Unicodeコードポイントはプレフィックス0x
なしの16進数表記で入力する。
例えば、ひらがなのあ
の詳細ページは以下。
あ
はHIRAGANA LETTER A
という名前で、Unicodeコードポイントが3042
(16進数)であることが分かる。
また、各種プロパティが下に記載されている。たくさんあるが、例えば正規表現などでよく使うプロパティの値は以下の通り。
- ブロック(Block):
Hiragana
- 一般カテゴリ(General_Category):
Other_Letter
- スクリプト(Script):
Hiragana
各プロパティの値はリンクになっていて、リンク先ではその値の文字一覧などが確認できる。
Unicode文字プロパティの一覧
Unicode文字プロパティの一覧は以下のページで確認できる。
一見分かりにくいが、例えばブロック(Block)やスクリプト(Script)はページ中ほど(Category
がGeneral
、Datatype
がCatalog
)にあり、Show Values
をクリックすると一覧が展開される。ちなみに一般カテゴリ(General_Category)もそのすぐ下にある。
Show Values
をクリックするとページ先頭に戻ってしまうが、リックした値はちゃんと展開されている。
展開された結果は見やすいとは言えないので、ctrl + f
またはcmd + f
でブラウザのページ内検索を使うといいだろう。
ここでも各プロパティの値はリンクになっているので、リンク先でその値の文字一覧などを確認できる。
ブロックやスクリプト、一般カテゴリごとの文字一覧
上述のように、ブロックやスクリプト、一般カテゴリの値ごとの文字一覧は、文字の詳細情報のページやUnicode文字プロパティの一覧のページのリンクから飛べる。
文字の詳細情報ページは以下。
確認したいブロックやスクリプト、一般カテゴリの値(名称)が分かっている場合は、Unicode文字プロパティの一覧のページから。
確認したいプロパティのShow Values
をクリックして展開、所望の値(名称)のリンクを見つけて飛べばよい。繰り返しになるがブラウザのページ内検索(ctrl + f
またはcmd + f
)が便利。
WikipediaのUnicode一覧
とりあえずUnicodeの一覧を確認したい場合はWikipediaも便利。ページを編集してくれている皆さんありがとうございます。
コードポイント順に一覧表になっている。
WikipediaのUnicodeブロック一覧
WikipediaのUnicodeブロック一覧ページは以下。Unicodeコンソーシアムの公式サイトよりも見やすい。
日本語名称の列のリンクからブロックの詳細に飛べるものもある。ブロックの詳細ページではそのブロックに含まれる文字の一覧が記載されている。
例えばHiragana
ブロックの詳細ページは以下。
WikipediaのUnicodeスクリプト一覧
日本語版のUnicodeスクリプト(用字)のページは説明のみで一覧はない。
英語版には一覧あり。
各スクリプトの詳細ページには文字一覧があるものもないものもある。スクリプトの文字一覧は上述のUnicode Utilitiesのほうが確実。