Кодировка символов | это... Что такое Кодировка символов? (original) (raw)
Кодировка символов
Кодировка символов
Набор символов (англ. character set) — определённая таблица кодировки конечного множества знаков. Такая таблица сопоставляет каждому символу последовательность длиной в один или несколько байтов.
Хотя термин «набор символов» (англ. character set, charset), узаконенный RFC 2278, сейчас является, пожалуй, наиболее авторитетным, предшествовавший ему термин «кодировка» (англ. encoding) по-прежнему используется в качестве синонима, в частности, в языках программирования [1], [2], [3] и [4].
Нередко также вместо термина «набор символов» неправильно употребляют термин «кодовая страница», означающий на самом деле частный случай набора символов с однобайтным кодированием.
В настоящее время в основном используются кодировки трёх типов: совместимые с EBCDIC и основанные на Юникоде 16-битные, с подавляющим преобладанием первых. Представление Юникода совместимо с ASCII. Кодировки на базе ДКОИ-8) используются только на некоторых мэйнфреймах. Первоначально в каждой операционной системе использовался один набор символов. Теперь используемые наборы символов [5], зависят от типа операционной системы лишь по традиции и устанавливаются согласно локали.
В Википедии и других проектах Фонда Викимедиа используется Юникод UTF-8.
Автоматическое распознавание кодировок
Использование множества кодировок в современном ПО создаёт много неудобств не только программистам, но и пользователям. Согласно одной точке зрения, справиться с крокозябрами можно, если программы будут автоматически распознавать кодировку входящего текста.
Для однобайтных кодировок можно учитывать тот факт, что частота использования разных букв сильно различается (например, в русском часто используется «о», но редко «ъ»). Поэтому, зная язык текста, можно легко выбрать кодировку, в которой частота байтов лучше соответствует частоте букв данного языка.
Альтернативная точка зрения считает подобные эвристические алгоритмы определения кодировки текста вредными, поскольку современные информационные технологии располагают средствами недвусмысленно сопоставить тексту положенную ему кодовую страницу (см., например, программ создания текстовых данных, нарушающих стандарты.
Распространенные кодировки
- ISO 646
- EBCDIC
- ISO 8859:
* ISO 8859-1, ISO 8859-2, ISO 8859-3, ISO 8859-4, ISO 8859-5, ISO 8859-6, ISO 8859-7, ISO 8859-8, ISO 8859-9, ISO 8859-10, ISO 8859-11, ISO 8859-13, ISO 8859-14, ISO 8859-15
* CP850, CP852, CP866, CP869 - Кодировки Microsoft Windows:
*
*
* Windows-1252 для западных языков
*
* Windows-1254 для турецкого языка
Windows-1255 для иврита Windows-1256 для арабского языка Windows-1257 для балтийских языков Windows-1258 для вьетнамского языка
- MacRoman, КОИ8 (KOI8-R, KOI8-U…), КОИ-7
- Болгарская кодировка
- ISCII
- VISCII
- Big5 (наиболее знаменитый вариант Microsoft CP950)
* GB2312
* GBK (Microsoft CP936)
* GB18030 - Shift JIS для японского языка (Microsoft CP932)
- EUC-KR для корейского языка (Microsoft CP949)
- ISO-2022 и EUC для китайской письменности
- Кодировки UTF-16 набора символов Юникод
Примечания
- ↑ Перечень основных «кодировок» в руководстве по Java SE 6
- ↑ Обсуждение темы «кодировок» в документации по языку Perl
- ↑ Обсуждение соотношения терминов «кодировка» и «набор символов» в документации по языку HTML
- ↑ Обсуждение темы «кодировок» в документации по технологии XSLT
- ↑ Спецификации наборов символов на сайте IANA
Кодировки символов Основы → алфавит • текст ( файл • данные ) • набор символов • конверсия Исторические кодировки → Докомп.: семафорная (Макарова) • Морзе • Бодо • МТК-2 Комп.: 6 бит • УПП • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646 совре-менное 8-битноепредстав-ление символы → управляющие • печатные ) не-ASCII ( псевдографика ) 8бит. код.стр. Разные → Кириллица: КОИ-8 • ГОСТ 19768-87 • ISO 8859 → 1(лат.) 2 3 4 5**(кир.)** 6 7 8 9 10 11 12 13 14 15(€) 16 Windows → 1251**(кир.)** 1252 WGL4 IBM&DOS → 850 • 866 «альт.» ( МИК ) Много-байтные Традиционные → GB2312 ) • HTML Unicode → UTF-8 • список символов ( кириллица ) Связанныетемы → интерфейс пользователя • раскладки клавиатур • локаль • перевод строки • шрифт • крокозябры • транслит Утилиты: recode
Wikimedia Foundation.2010.
Полезное
Смотреть что такое "Кодировка символов" в других словарях:
- Кодировка русского языка в компьютерных программах и в Интернете — – Все символы, которые могут отображаться на экране компьютера, описаны в таблице символов. В самой первой таблице символов не было русских букв. Для того работы с русскими буквами их надо было вписать в эту таблицу символов вместо ненужных… … Энциклопедический словарь СМИ
- Кодировка — Набор символов (англ. character set) определённая таблица кодировки конечного множества знаков. Такая таблица сопоставляет каждому символу последовательность длиной в один или несколько байтов. Хотя термин «набор символов» (англ. character set,… … Википедия
- Альтернативная кодировка — Проверить информацию. Необходимо проверить точность фактов и достоверность сведений, изложенных в этой статье. На странице обсуждения должны быть пояснения. «Альтернативная кодировка» основанн … Википедия
- Набор символов — (англ. character set) таблица, задающая кодировку конечного множества символов алфавита (обычно элементов текста: букв, цифр, знаков препинания). Такая таблица сопоставляет каждому символу последовательность длиной в один или несколько… … Википедия
- Набор символов Юникод — Юникод, или Уникод (англ. Unicode) стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (англ. Unicode Consortium,… … Википедия
- Шестибитная кодировка — Шестибитные кодировки применялись в компьютерах, производившихся в США в 1950 х 1960 х годах. Соответственно размер машинного слова на этих компьютерах был кратен 6 бит (например, 12, 18, 24, 36, 48, 60 бит). Такой размер символа позволял… … Википедия
- Основная кодировка — согласно ГОСТ 19768 87 была принята в 1987 г. взамен КОИ 8, однако использовалась мало. Основную кодировку поддерживало только оборудование и программное обеспечение, производившееся в СССР (ЕС ПЭВМ, Лексикон, …), а также некоторые принтеры Epson … Википедия
- Кодировки символов в HTML — HTML HTML и HTML5 Динамически … Википедия
- Представление символов в регулярных выражениях — Содержание 1 Представление символов по их коду 2 Управляющие символы … Википедия
- UTF-8 — (от англ. Unicode Transformation Format, 8 bit «формат преобразования Юникода, 8 битный») распространённая кодировка символов Юникода, совместимая с 8 битными форматами передачи текста. Нашла широкое применение в операционных… … Википедия