HOME備忘帳

UTF-8の文字コード表

UTF-8の文字コード表なのです。いつも検索して、よそ様のページを参照させていただいていたのですが、面倒なので自分で作りました。

perlのスクリプトでガーッと出したので、見栄えはアレですが、とりあえず。

更新履歴

(2018-05-10 追記) コード表を全体的に再出力しました。変更点は以下の通りです。

(2016-04-09 追記) やや雑学寄りですが、Unicodeがどんな風にUTF-8に割当てられているかのページを作成しました。
このページの最終更新日、2009-11-17でした。その頃はスルーしてたUnicodeの追加面が一般に使われているっぽい昨今、4バイト文字のページも作りたいところですね。

蛇足

ところで、文字のバイト列はどのようにして出力できたのでしょうか?

というお問い合わせをいただいたことがあります。

単に、unicode仕様の範囲内で1バイトずつ増やしながらループをまわして、1文字ずつ出力しただけです。

# 3バイト文字列なので、3重のループです。
foreach my $i (0xE0..0xEF) {
    foreach my $j (0x80..0xBF) {
        foreach my $k (0x80..0xBF) {
            # バイト列をUnicode(U)でパック
            print pack( 'U*', $i, $j, $k );
        }
    }
}

ご参考になれば幸いです。

最終更新日:2018/05/10

[ ページ先頭へ ]