note.nkmk.me

Unicodeのコードポイントやプロパティの一覧、詳細情報などを確認

Date: 2019-06-09 / tags: Unicode

Unicodeコンソーシアムの公式サイトにあるUnicode UtilitiesのページがUnicode関連の情報を確認するのに非常に便利。あまり言及されていないようなので紹介したい。

  • Unicodeコードポイント、文字からその詳細情報を確認
  • Unicode文字プロパティの一覧
  • ブロックやスクリプト、一般カテゴリごとの文字一覧

とりあえずUnicodeの一覧を確認したい場合はWikipediaも便利。

  • WikiepdiaのUnicode一覧
  • WikipediaのUnicodeブロック一覧
  • WikipediaのUnicodeスクリプト一覧

PythonでUnicodeコードポイントと文字を相互に変換する方法については以下の記事を参照。

また、PythonでUnicodeプロパティを利用した正規表現パターンを作成するにはサードパーティライブラリregexを使う。以下の記事を参照。

スポンサーリンク

Unicodeコードポイント、文字からその詳細情報を確認

以下のページのフォームに16進数表記のUnicodeコードポイントまたは文字そのものを入力してshowをクリックすると、その文字の詳細情報が確認できる。

2019年6月8日時点ではなぜかコーヒーカップの絵文字☕がデフォルトでフォームに記入されている。

Unicodeコードポイントはプレフィックス0xなしの16進数表記で入力する。

例えば、ひらがなのの詳細ページは以下。

HIRAGANA LETTER Aという名前で、Unicodeコードポイントが3042(16進数)であることが分かる。

また、各種プロパティが下に記載されている。たくさんあるが、例えば正規表現などでよく使うプロパティの値は以下の通り。

  • ブロック(Block): Hiragana
  • 一般カテゴリ(General_Category): Other_Letter
  • スクリプト(Script): Hiragana

各プロパティの値はリンクになっていて、リンク先ではその値の文字一覧などが確認できる。

Unicode文字プロパティの一覧

Unicode文字プロパティの一覧は以下のページで確認できる。

一見分かりにくいが、例えばブロック(Block)やスクリプト(Script)はページ中ほど(CategoryGeneralDatatypeCatalog)にあり、Show Valuesをクリックすると一覧が展開される。ちなみに一般カテゴリ(General_Category)もそのすぐ下にある。

Show Valuesをクリックするとページ先頭に戻ってしまうが、リックした値はちゃんと展開されている。

展開された結果は見やすいとは言えないので、ctrl + fまたはcmd + fでブラウザのページ内検索を使うといいだろう。

ここでも各プロパティの値はリンクになっているので、リンク先でその値の文字一覧などを確認できる。

ブロックやスクリプト、一般カテゴリごとの文字一覧

上述のように、ブロックやスクリプト、一般カテゴリの値ごとの文字一覧は、文字の詳細情報のページやUnicode文字プロパティの一覧のページのリンクから飛べる。

文字の詳細情報ページは以下。

確認したいブロックやスクリプト、一般カテゴリの値(名称)が分かっている場合は、Unicode文字プロパティの一覧のページから。

確認したいプロパティのShow Valuesをクリックして展開、所望の値(名称)のリンクを見つけて飛べばよい。繰り返しになるがブラウザのページ内検索(ctrl + fまたはcmd + f)が便利。

WikiepdiaのUnicode一覧

とりあえずUnicodeの一覧を確認したい場合はWikipediaも便利。ページを編集してくれている皆さんありがとうございます。

コードポイント順に一覧表になっている。

WikipediaのUnicodeブロック一覧

WikipediaのUnicodeブロック一覧ページは以下。Unicodeコンソーシアムの公式サイトよりも見やすい。

日本語名称の列のリンクからブロックの詳細に飛べるものもある。ブロックの詳細ページではそのブロックに含まれる文字の一覧が記載されている。

例えばHiraganaブロックの詳細ページは以下。

WikipediaのUnicodeスクリプト一覧

日本語版のUnicodeスクリプト(用字)のページは説明のみで一覧はない。

英語版には一覧あり。

各スクリプトの詳細ページには文字一覧があるものもないものもある。スクリプトの文字一覧は上述のUnicode Utilitiesのほうが確実。

スポンサーリンク
シェア
このエントリーをはてなブックマークに追加

関連カテゴリー

関連記事