UTF-8とは コンピュータの人気・最新記事を集めました - はてな (original) (raw)

Unicode (or UCS) Transformation Format, 8-bit encoding form.
Unicodeでは Unicode Translation Format-8
ISO/IEC 10646では 8-bit UCS Transformation Format
Unicode、ISO/IEC 10646(UCS)のエンコーディング方法のひとつ。
ASCIIの範囲内にある文字は1バイトに、大抵の漢字や仮名は3バイトにエンコーディングする特徴がある。

RFC 2279で、UCS(Unicodeのコード値)からの変換方法が定義されている。

UCS-4 range (hex.) UTF-8 octet sequence (binary) 0000 0000-0000 007F 0xxxxxxx 0000 0080-0000 07FF 110xxxxx 10xxxxxx 0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx 0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

c.f. Invalid sequence 0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 0400 0000-7FFF FFFF 1111110x 10xxxxxx ... 10xxxxxx

詳しくはRFC 3629を参照してください。

IETFにより、STD番号(STD63)が割り振られている。

このタグの解説についてこの解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。