UCS-2 | это... Что такое UCS-2? (original) (raw)
UCS-2
UTF-16 (англ. Unicode Transformation Format) в информатике — один из способов кодирования символов из Unicode в виде последовательности 16-битных слов. Символы с кодами меньше 0x10000 (216) представляются как есть, а символы с кодами 0x10000–0x10FFFE — в виде последовательности двух 16-битных слов, первое из которых лежит в диапазоне 0xD800–0xDBFF, а второе — 0xDC00–0xDFFF. Легко видеть, что имеется как раз 210 * 210 = 220 таких комбинаций.
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| | DC00 | … | DFFE | DFFF | | | ------- | ------ | ---- | ------ | ------ | | D800 | 010000 | … | 0103FE | 0103FF | | D801 | 010400 | … | 0107FE | 0107FF | | … | … | | | | | DBFF | 10FC00 | … | 10FFFE | |
Следует отметить, что по стандарту никакие символы не могут иметь коды собственно из диапазона 0xD800–0xDFFF (отмечены рыжим и голубым цветами на диаграмме), так что расшифровка кодировки всегда однозначна. Впрочем, в подавляющем большинстве случаев текст в UTF-16 является просто последовательностью символов из UCS-2 (BMP), т.к. символы Unicode после кода 0x10000 используются крайне редко.
UTF-16LE и UTF-16ВE
Т.к. в современных компьютерах размер байта равен 8 битам, то один «байт» кодировки UTF-16 приходится представлять последовательностью двух 8-битных байтов. Который из двух идёт впереди, старший или младший, зависит от порядка байтов. Систему, совместимую с процессорами UTF-16LE (little endian), а с процессорами m68k и UTF-16ВE (big endian).
UTF-16 в ОС Windows
В API Win32, распространённом в современных версиях операционной системы Microsoft Windows, имеется два способа представления текста: в форме традиционных 8-битных кодовых страниц, и в виде UTF-16.
В файловых системах FAT с поддержкой длинных имён, имена файлов записываются в UTF-16LE.
Ссылки
- Unicode Technical Note #12: Обработка UTF-16 (англ.)
- Unicode FAQ: В чём разница между UCS-2 и UTF-16? (англ.)
- RFC 2781: UTF-16, an encoding of ISO 10646
Кодировки символов | |||
---|---|---|---|
Основы → | алфавит • текст ( файл • данные ) • набор символов • конверсия | ||
Исторические кодировки → | Докомп.: семафорная (Макарова) • Морзе • Бодо • МТК-2 | Комп.: 6 бит • УПП • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646 | |
совре-менное 8-битноепредстав-ление | символы → | управляющие • печатные ) | не-ASCII ( псевдографика ) |
8бит. код.стр. | Разные → Кириллица: КОИ-8 • ГОСТ 19768-87 • ISO 8859 → | 1(лат.) 2 3 4 5**(кир.)** 6 7 8 9 10 11 12 13 14 15(€) 16 | |
Windows → | 1251**(кир.)** 1252 WGL4 | ||
IBM&DOS → | 850 • 866 «альт.» ( МИК ) | ||
Много-байтные | Традиционные → | GB2312 ) • HTML | |
Unicode → | UTF-16 • список символов ( кириллица ) | ||
Связанныетемы → | интерфейс пользователя • раскладки клавиатур • локаль • перевод строки • шрифт • крокозябры • транслит | Утилиты: recode |
Wikimedia Foundation.2010.
Полезное
Смотреть что такое "UCS-2" в других словарях:
- UCS — UCS многозначная аббревиатура: Universal Character Set Универсальный набор символов (англ.) стандарт кодировки символов, определённый ISO/IEC 10646, UCS 2,UCS 4 Uniform Color Scales Унифицированные цветовые шкалы UCS OSA … … Википедия
- UCS — may refer to:* Undergraduate Council of Students, the undergraduate student government at Brown University in the United States * Uniform Color Scales, a color space developed by the Optical Society of America. * Union of Clare Students, a union… … Wikipedia
- UCS — steht als Abkürzung für: die US Wissenschaftlervereinigung Union of Concerned Scientists die Unisource Carrier Services ist ein internationaler Zusammenschluss von Telekommunikationsgesellschaften den Universal Character Set, eine Vereinigung… … Deutsch Wikipedia
- UCS — abbr. universal character set. * * * … Universalium
- UCS — United Counseling Service Short Dictionary of (mostly American) Legal Terms and Abbreviations … Law dictionary
- UCS — [Abk. für Universal Character Set, »universeller Zeichensatz«], der Zeichensatz Unicode … Universal-Lexikon
- UCS — ISO/CEI 10646 Unicode Jeux de caractères UCS (ISO/CEI 10646) ISO 646, ASCII ISO 8859 1 WGL4 UniHan Équivalences normalisées NFC (précomposée) NFD (décomposée) NFKC (compatibilité) NFKD (compatibilité) Propriétés et algorithmes ISO 15924 … Wikipédia en Français
- UCS-4 — Юникод, или Уникод (англ. Unicode) стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (англ. Unicode Consortium,… … Википедия
- UCS-2 — Unicode Kodierungen UTF 7 UTF 8 CESU 8 UTF 16 UTF 32 UTF EBCDIC SCSU Punycode GB 18030 Techniken BOM … Deutsch Wikipedia
- UCS-4 — Unicode Kodierungen UTF 7 UTF 8 CESU 8 UTF 16 UTF 32 UTF EBCDIC SCSU Punycode GB 18030 Techniken BOM … Deutsch Wikipedia
- UCS — La sigla UCS puede tener diversos significados, según el contexto: La UCS, o Universidade de Caxias do Sul es una Universidad Brasilera. En informática, el UCS o Universal Character Set es un estándar ISO que define un conjunto de caracteres.… … Wikipedia Español