Крокозябры | это... Что такое Крокозябры? (original) (raw)
Кракозя́бры (кракозяблы, крокозябры, крюкозябры, крюкозяблы, крякозябры, квакозябры, крокозяблы, кракосямбы, крязозябры, крякозяблики, зюквы, зюки, козяблики, калябушки, черты и резы, иногда бнопня́) — жаргонизм (не имеющий на 2009 устоявшегося нежаргонного эквивалента), обозначающий элементы бессмысленной с точки зрения читателя последовательности символов, полученной в результате перекодированния неправильно настроенным ПО из вполне осмысленного текста, в первую очередь, по причине неправильно настроенной кодовой страницы, а также из-за использования несоответствующего шрифта; в единственном числе — вообще любой компьютерный символ, для которого в русском языке нет подходящего звука, например, значок @. Происходит от слова «крокозябла», которое, в свою очередь, является синонимом выражения «детские каракули». Так о ребёнке, малюющем непонятные, с точки зрения взрослых, картинки, говорят: «Крокозябру рисует». По-японски явление, аналогичное крокозябрам, называется модзибакэ (яп. 文字化け), а по-китайски — луаньма (кит. 乱码 «мешанина из знаков»). Болгары называют этот эффект маймуница («обезьяница»), а сербы — ђубре («мусор»).
В 1980-е и 1990-е пользователи компьютеров и с 1990 г. — пользователи русскоязычной части интернета вынуждены были мириться с существованием нескольких конкурирующих кодировок кириллицы: основная, ГОСТ, альтернативная — DOS 866 (Unix KOI8-R, Windows CP-1251, ISO 8859-5), веб-сайт, неопытные пользователи могли наткнуться на странные необычные символы вместо букв кириллицы.
Название «бнопня» (или, более точно, «бНОПНЯ») напрямую происходит от явления неправильной настройки кодировок в почтовых программах. Так выглядит слово «Вопрос», преобразованное из кодировки CP1251 в KOI8-R. По слову «бНОПНЯ» опытные пользователи сразу определяли новичков, задававших вопрос по настройке кодировки.
Несмотря на всё более широкое распространение Юникода, феномен крокозябр иногда встречается и сегодня. Также есть возможность получить неадекватные символы при использовании неправильных шрифтов при печати на принтере или фотонаборном автомате, неверно настроенной локали программы (когда вместо CP1251 используется CP1252)
Содержание
Примеры
Исходная кодировка | Воспринято как | Результат |
---|---|---|
Правильный текст: (при воспроизведении применяется та же кодировка, что и при создании текста) | Широкая электрификация южных губерний даст мощный толчок подъёму сельского хозяйства. | |
Windows-1252или ISO 8859-1[1] | Øèðîêàÿ ýëåêòðèôèêàöèÿ þæíûõ ãóáåðíèé äàñò ìîùíûé òîë÷îê ïîäú¸ìó ñåëüñêîãî õîçÿéñòâà. | |
KOI8-R | ьХПНЙЮЪ ЩКЕЙРПХТХЙЮЖХЪ ЧФМШУ ЦСАЕПМХИ ДЮЯР ЛНЫМШИ РНКВНЙ ОНДЗ╦ЛС ЯЕКЭЯЙНЦН УНГЪИЯРБЮ. | |
ISO 8859-5 | иш№юърџ §ыхъђ№шєшърішџ ўцэћѕ уѓсх№эшщ фрёђ ьюљэћщ ђюыїюъ яюфњИьѓ ёхыќёъюую ѕючџщёђтр. | |
CP 866 | ╪шЁюър ¤ыхъЄЁшЇшърЎш ■цэ√ї уєсхЁэшщ фрёЄ ью∙э√щ Єюыўюъ яюф·╕ьє ёхы№ёъюую їюч щёЄтр. | |
KOI8-R | Windows-1252или ISO 8859-1[1] | ûÉÒÏËÁÑ ÜÌÅËÔÒÉÆÉËÁÃÉÑ ÀÖÎÙÈ ÇÕÂÅÒÎÉÊ ÄÁÓÔ ÍÏÝÎÙÊ ÔÏÌÞÏË ÐÏÄߣÍÕ ÓÅÌØÓËÏÇÏ ÈÏÚÑÊÓÔ×Á. |
ISO 8859-5 | ћЩвЯЫСб мЬХЫдвЩЦЩЫСУЩб РжЮйШ ЧеТХвЮЩЪ ФСгд ЭЯнЮйЪ дЯЬоЯЫ аЯФпЃЭе гХЬигЫЯЧЯ ШЯкбЪгдзС. | |
CP 866 | √╔╥╧╦┴╤ ▄╠┼╦╘╥╔╞╔╦┴├╔╤ └╓╬┘╚ ╟╒┬┼╥╬╔╩ ─┴╙╘ ═╧▌╬┘╩ ╘╧╠▐╧╦ ╨╧─▀г═╒ ╙┼╠╪╙╦╧╟╧ ╚╧┌╤╩╙╘╫┴. | |
7 бит | {IROKAQ \LEKTRIFIKACIQ @VNYH GUBERNIJ DAST MO]NYJ TOL^OK POD_#MU SELXSKOGO HOZQJSTWA. | |
ISO 8859-5 | Windows-1252или ISO 8859-1[1] | ÈØàÞÚÐï íÛÕÚâàØäØÚÐæØï îÖÝëå ÓãÑÕàÝØÙ ÔÐáâ ÜÞéÝëÙ âÞÛçÞÚ ßÞÔêñÜã áÕÛìáÚÞÓÞ åÞ×ïÙáâÒÐ. |
KOI8-R | хьЮчзпО МшузБЮьДьзпФьО НжщКЕ сЦяуЮщьы тпАБ эчИщКы БчшГчз ъчтЙЯэЦ АушЛАзчсч ЕчвОыАБрп. | |
CP 866 | ╚╪р▐┌╨я э█╒┌тр╪ф╪┌╨ц╪я ю╓▌ых ╙у╤╒р▌╪┘ ╘╨ст ▄▐щ▌ы┘ т▐█ч▐┌ ▀▐╘ъё▄у с╒█ьс┌▐╙▐ х▐╫я┘ст╥╨. | |
CP 866 | Windows-1252[1] | ˜¨à®ª ï í«¥ªâà¨ä¨ª æ¨ï î¦ëå £ã¡¥à¨© ¤ áâ ¬®éë© â®«ç®ª ¯®¤êñ¬ã ᥫì᪮£® 宧ï©á⢠. |
KOI8-R | ≤╗Ю╝╙═О М╚╔╙БЮ╗Д╗╙═Ф╗О Н╕╜КЕ ёЦ║╔Ю╜╗╘ ╓═АБ ╛╝И╜К╘ Б╝╚Г╝╙ ╞╝╓ЙЯ╛Ц А╔╚ЛА╙╝ё╝ Е╝╖О╘АБ╒═. | |
ISO 8859-5 | ?ЈрЎЊ я эЋЅЊтрЈфЈЊ цЈя юІых ЃуЁЅрЈЉ Є ст ЌЎщыЉ тЎЋчЎЊ ЏЎЄъёЌу сЅЋьсЊЎЃЎ хЎЇяЉстЂ . | |
[2] | Windows-1252[1] | Ð¨Ð¸Ñ€Ð¾ÐºÐ°Ñ ÑÐ»ÐµÐºÑ‚Ñ€Ð¸Ñ„Ð¸ÐºÐ°Ñ†Ð¸Ñ ÑŽÐ¶Ð½Ñ‹Ñ… губерний даÑÑ‚ мощный толчок подъёму ÑельÑкого хозÑйÑтва. |
KOI8-R | п╗п╦я─п╬п╨п╟я▐ я█п╩п╣п╨я┌я─п╦я└п╦п╨п╟я├п╦я▐ я▌п╤п╫я▀я┘ пЁя┐п╠п╣я─п╫п╦п╧ п╢п╟я│я┌ п╪п╬я┴п╫я▀п╧ я┌п╬п╩я┤п╬п╨ п©п╬п╢я┼я▒п╪я┐ я│п╣п╩я▄я│п╨п╬пЁп╬ я┘п╬п╥я▐п╧я│я┌п╡п╟. | |
ISO 8859-5 | аЈаИб?аОаКаАб? б?аЛаЕаКб?б?аИб?аИаКаАб?аИб? б?аЖаНб?б? аГб?аБаЕб?аНаИаЙ аДаАб?б? аМаОб?аНб?аЙ б?аОаЛб?аОаК аПаОаДб?б?аМб? б?аЕаЛб?б?аКаОаГаО б?аОаЗб?аЙб?б?аВаА. | |
CP 866 | ╨и╨╕╤А╨╛╨║╨░╤П ╤Н╨╗╨╡╨║╤В╤А╨╕╤Д╨╕╨║╨░╤Ж╨╕╤П ╤О╨╢╨╜╤Л╤Е ╨│╤Г╨▒╨╡╤А╨╜╨╕╨╣ ╨┤╨░╤Б╤В ╨╝╨╛╤Й╨╜╤Л╨╣ ╤В╨╛╨╗╤З╨╛╨║ ╨┐╨╛╨┤╤К╤С╨╝╤Г ╤Б╨╡╨╗╤М╤Б╨║╨╛╨│╨╛ ╤Е╨╛╨╖╤П╨╣╤Б╤В╨▓╨░. |
Примечания
- ↑ 1 2 3 4 5 Кодовая таблица ISO 8859-1 отличается лишь отсутствием ряда изображённых символов. В системе Microsoft Windows вместо кодовой страницы ISO 8859-1 применяется её расширение Windows-1252.
- ↑ Варианты дешифровки по UTF-8 не приводится, т.к. бо́льшая часть русского текста, записанного в 8-битной кодовой странице, будет сочтена ошибочной (не имеющей представления).
Перекодировка
Для восстановления текста (вообще для перекодировки) можно использовать утилиту
$ iconv -t CP1252 source.txt | iconv -f CP1251 > target.txt
Другие искажения, связанные с перекодировкой
Нередко бывает, что перекодировка осуществляется в правильном направлении, но сам перекодировщик работает не совсем корректно. Например, из-за лени программистов многие перекодировщики преобразуют только базовые русские буквы, а все остальные символы оставляют на месте. В итоге при перекодировке KOI8-R → Windows-1251 буква ё превращается в Ј (сербская буква), значок градуса (°) превращается в њ и т. д. (такие тексты в изобилии встречаются в Интернете, достаточно поискать слова «всЈ» или «њС»).
Другой вариант искажений связан с тем, что в целевой кодировке могут отсутствовать символы, имеющиеся в исходной кодировке. В этом случае отсутствующие символы могут просто выбрасываться, заменяться на символ-заменитель (часто знак вопроса — ?, иногда на ?) или же заменяться на похожие символы из U+2212, −) может заменяться на простой дефис (U+002D, -), буква š может заменяться на s и т. д. В случае простого текста такие потери информации неизбежны, однако, если преобразованию подвергается файл HTML или XML, то корректным преобразованием будет замена отсутствующих в целевой кодировке символов на коды с амперсэндом: например, знак минуса должен заменяться на −
или −
буква š должна заменяться на š
или š
и т. д.
Ссылки
- Почтовый декодер Студии Артемия Лебедева
- Универсальный декодер кириллицы — Онлайн-перекодировщик текста крякозябры на кириллице.
Кодировки символов | |||
---|---|---|---|
Основы → | алфавит • текст ( файл • данные ) • набор символов • конверсия | ||
Исторические кодировки → | Докомп.: семафорная (Макарова) • Морзе • Бодо • МТК-2 | Комп.: 6 бит • УПП • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646 | |
совре-менное 8-битноепредстав-ление | символы → | управляющие • печатные ) | не-ASCII ( псевдографика ) |
8бит. код.стр. | Разные → Кириллица: КОИ-8 • ГОСТ 19768-87 • ISO 8859 → | 1(лат.) 2 3 4 5**(кир.)** 6 7 8 9 10 11 12 13 14 15(€) 16 | |
Windows → | 1251**(кир.)** 1252 WGL4 | ||
IBM&DOS → | 850 • 866 «альт.» ( МИК ) | ||
Много-байтные | Традиционные → | GB2312 ) • HTML | |
Unicode → | UTF-8 • список символов ( кириллица ) | ||
Связанныетемы → | интерфейс пользователя • раскладки клавиатур • локаль • перевод строки • шрифт • крокозябры • транслит | Утилиты: recode |
Wikimedia Foundation.2010.