UCS-2 | это... Что такое UCS-2? (original) (raw)

UCS-2

UTF-16 (англ. Unicode Transformation Format) в информатике — один из способов кодирования символов из Unicode в виде последовательности 16-битных слов. Символы с кодами меньше 0x10000 (216) представляются как есть, а символы с кодами 0x10000–0x10FFFE — в виде последовательности двух 16-битных слов, первое из которых лежит в диапазоне 0xD800–0xDBFF, а второе — 0xDC00–0xDFFF. Легко видеть, что имеется как раз 210 * 210 = 220 таких комбинаций.

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

| | DC00 | … | DFFE | DFFF | | | ------- | ------ | ---- | ------ | ------ | | D800 | 010000 | … | 0103FE | 0103FF | | D801 | 010400 | … | 0107FE | 0107FF | | … | … | | | | | DBFF | 10FC00 | … | 10FFFE | |

Следует отметить, что по стандарту никакие символы не могут иметь коды собственно из диапазона 0xD800–0xDFFF (отмечены рыжим и голубым цветами на диаграмме), так что расшифровка кодировки всегда однозначна. Впрочем, в подавляющем большинстве случаев текст в UTF-16 является просто последовательностью символов из UCS-2 (BMP), т.к. символы Unicode после кода 0x10000 используются крайне редко.

UTF-16LE и UTF-16ВE

Т.к. в современных компьютерах размер байта равен 8 битам, то один «байт» кодировки UTF-16 приходится представлять последовательностью двух 8-битных байтов. Который из двух идёт впереди, старший или младший, зависит от порядка байтов. Систему, совместимую с процессорами UTF-16LE (little endian), а с процессорами m68k и UTF-16ВE (big endian).

UTF-16 в ОС Windows

В API Win32, распространённом в современных версиях операционной системы Microsoft Windows, имеется два способа представления текста: в форме традиционных 8-битных кодовых страниц, и в виде UTF-16.

В файловых системах FAT с поддержкой длинных имён, имена файлов записываются в UTF-16LE.

Ссылки

Кодировки символов
Основы → алфавиттекст ( файлданные ) • набор символовконверсия
Исторические кодировки → Докомп.: семафорная (Макарова)МорзеБодоМТК-2 Комп.: 6 битУПП • EBCDIC ( ДКОИ-8 ) • КОИ-7ISO 646
совре-менное 8-битноепредстав-ление символы управляющие • печатные ) не-ASCII ( псевдографика )
8бит. код.стр. Разные → Кириллица: КОИ-8ГОСТ 19768-87 • ISO 8859 → 1(лат.) 2 3 4 5**(кир.)** 6 7 8 9 10 11 12 13 14 15(€) 16
Windows → 1251**(кир.)** 1252 WGL4
IBM&DOS → 850 • 866 «альт.» ( МИК )
Много-байтные Традиционные → GB2312 ) • HTML
Unicode UTF-16 • список символов ( кириллица )
Связанныетемы → интерфейс пользователяраскладки клавиатурлокальперевод строкишрифткрокозябрытранслит Утилиты: recode

Wikimedia Foundation.2010.

Полезное

Смотреть что такое "UCS-2" в других словарях: