Символы, представленные в Юникоде | это... Что такое Символы, представленные в Юникоде? (original) (raw)
В Юникоде зарезервировано 1 112 064 (= 220 + 216 − 211) позиций символов, из которых сейчас используется свыше 100 000. Первые 256 знакомест совпадают с кодовой таблицей ISO 8859-1 («Латиница-1»).
Кодовое пространство разделено на 17 «плоскостей» по 65 536 (= 216) символов:
- Плоскость 0 (0000—FFFF): Базовая многоязыковая плоскость (Basic Multilingual Plane, BMP)
- Плоскость 1 (10000—1FFFF): Дополнительная многоязыковая плоскость (Supplementary Multilingual Plane, SMP)
- Плоскость 2 (20000—2FFFF): Дополнительная иероглифическая плоскость (Supplementary Ideographic Plane, SIP)
- Плоскость 3 (30000—3FFFF): Третичная иероглифическая плоскость (Tertiary Ideographic Plane, TIP)
- Плоскости 4—13 (40000—DFFFF) не используются
- Плоскость 14 (E0000—EFFFF): Дополнительная плоскость особого назначения (Supplementary Special-purpose Plane, SSP)
- Плоскость 15 (F0000—FFFFF) используется как дополнительная область-A для частного использования (Supplementary Private Use Area-A, SPUA-A)
- Плоскость 16 (100000—10FFFF) используется как дополнительная область-B для частного использования (Supplementary Private Use Area-B, SPUA-B)
Содержание
- 1 Базовая многоязыковая плоскость
- 2 Дополнительная многоязыковая плоскость
- 3 Дополнительная иероглифическая плоскость
- 4 Третичная иероглифическая плоскость
- 5 Дополнительная плоскость особого назначения
- 6 Области для частного использования
- 7 Ссылки
Базовая многоязыковая плоскость
Базовая плоскость UNICODE Чёрный — расширенный латинский алфавит; Голубой — лингвистические символы международного фонетического алфавита IPA; Синий — другие европейские алфавиты; Оранжевый — письменности Ближнего Востока; Светло-оранжевый — письменности Африки; Зелёный — письменности Южной Азии; Фиолетовый — письменности Юго-восточной Азии; Красный — письменности Восточной Азии; Розовый — унифицированные китайско-японско-корейские символы; Жёлтый — письменности аборигенов Северной Америки; Пурпурный — символы; Тёмно-серый — диакритики; Светло-серый — суррогатные пары UTF-16 и области для частного использования; Циан — другие знаки; Белый — не используется. |
Плоскость 0 (Основная многоязыковая плоскость, англ. Basic Multilingual Plane, BMP) содержит символы практически для всех современных письменностей и большое число специальных символов. Большая часть таблицы занята китайско-японскими иероглифами и своеобразными корейскими буквами.
В Unicode 5.2 в этой плоскости представлены следующие наборы символов:
- Управляющие символы C0 (0000—001F)
- Основная латиница (0020—007F)
- Управляющие символы C1 (0080—009F)
- Дополнительные символы Latin-1 (00A0—00FF)
- Расширенная латиница-A (0100—017F)
- Расширенная латиница-B (0180—024F)
- Расширенный набор символов международного фонетического алфавита (0250—02AF)
- Некомбинируемые протяжённые символы-модификаторы (02B0—02FF)
- Комбинируемые диакритические знаки (0300—036F)
- Греческий и коптский алфавиты (0370—03FF)
- Кириллица (0400—04FF), см. также Кириллица в Юникоде
- Дополнительные символы кириллицы (0500—052F)
- Армянский алфавит (0530—058F)
- Письменности с направлением справа налево:
- Иврит (0590—05FF)
- Арабское письмо (0600—06FF)
- Сирийский алфавит (0700—074F)
- Дополнительные символы арабского письма (0750—077F)
- Тана (мальдивское письмо) (0780—07BF)
- Нко (07C0—07FF)
- Самаритянское письмо (0800-083F)
- Мандейский алфавит (0840-085F)
- Расширенный набор символов арабского письма-А (08A0-08FF)
- Индийские письменности:
- Деванагари (0900—097F)
- Бенгальская (0980—09FF)
- Гурмукхи (0A00—0A7F)
- Гуджарати (0A80—0AFF)
- Ория (0B00—0B7F)
- Тамильская (0B80—0BFF)
- Телугу (0C00—0C7F)
- Каннада (0C80—0CFF)
- Малаялам (0D00—0D7F)
- Сингальская (0D80—0DFF)
Тайская письменность (0E00—0E7F) Лаосская письменность (0E80—0EFF) Тибетская письменность (0F00—0FFF) Мьянманская письменность (1000—109F) Грузинский алфавит (10A0—10FF) Хангыль (корейская письменность) (1100—11FF) Эфиопская слоговая письменность (1200—137F) Дополнительные символы эфиопской письменности (1380—139F) Письменность чероки (13A0—13FF) Канадское слоговое письмо (1400—167F) Огам (1680—169F) Руническая письменность (16A0—16FF) Филиппинские письменности: Тагальская (байбайин) (1700—171F) Хануноо (1720—173F) Бухид (1740—175F) Тагбанва (1760—177F) Кхмерская письменность (1780—17FF) Старомонгольская письменность (1800—18AF) Расширенный набор символов канадского слогового письма (18B0-18FF) Письменность лимбу (1900—194F) Письменность тай лэ (1950—197F) Новый алфавит тай лы (1980—19DF) Кхмерские символы (19E0—19FF) Бугийская письменность (лонтара) (1A00—1A1F) Старый алфавит тай лы (Тай Тхам) (1A20—1AAF) Балийская письменность (1B00—1B7F) Сунданская письменность (1B80-1BBF) Батакское письмо (1BC0—1BFF) Письменность лепча (ронг) (1C00—1C4F) Письменность Ол Чики (1C50—1C7F) Ведические символы (1CD0-1CFF) Фонетические расширения (1D00—1D7F) Дополнительные фонетические расширения (1D80—1DBF) Дополнительные комбинируемые диакритические знаки (1DC0—1DFF) Дополнительная расширенная латиница (1E00—1EFF) Расширенный набор символов греческого алфавита (1F00—1FFF) Наборы символов: Знаки пунктуации (2000—206F) Надстрочные и подстрочные знаки (2070—209F) Символы валют (20A0—20CF) Комбинируемые диакритические знаки для символов (20D0—20FF) Буквоподобные символы (2100—214F) Числовые формы (2150—218F) Стрелки (2190—21FF) Математические операторы (2200—22FF) Разнообразные технические символы (2300—23FF) Значки управляющих кодов (2400—243F) Символы оптического распознавания (2440—245F) Вложенные буквы и цифры (2460—24FF) Символы для рисования рамок (2500—257F) Символы заполнения (2580—259F) Геометрические фигуры (25A0—25FF) Разнообразные символы (2600—26FF) Дингбаты (2700—27BF) Разнообразные математические символы-A (27C0—27EF) Дополнительные стрелки-A (27F0—27FF) Азбука Брайля (2800—28FF) Дополнительные стрелки-B (2900—297F) Разнообразные математические символы-B (2980—29FF) Дополнительные математические операторы (2A00—2AFF) Разнообразные символы и стрелки (2B00—2BFF) Глаголица (2C00—2C5F) | Расширенная латиница-C (2C60—2C7F) Коптский алфавит (2C80—2CFF) Дополнительные символы грузинского алфавита (2D00—2D2F) Тифинаг (2D30—2D7F) Расширенный набор символов эфиопского письма (2D80—2DDF) Расширенная кириллица-A (2DE0—2DFF) Дополнительные знаки пунктуации (2E00—2E7F) Дополнительные иероглифические ключи ККЯ (2E80—2EFF) Иероглифические ключи словаря Канси (2F00—2FDF) Символы описания иероглифов (2FF0—2FFF) Символы и пунктуация ККЯ (3000—303F) Хирагана (3040—309F) Катакана (30A0—30FF) Чжуинь (бопомофо) (3100—312F) Чамо, комбинируемое с хангылем (3130—318F) Знаки, используемые в камбуне (3190—319F) Расширенный набор символов бопомофо (31A0—31BF) Черты ККЯ (31C0—31EF) Фонетические расширения катаканы (31F0—31FF) Вложенные буквы и месяцы ККЯ (3200—32FF) Знаки совместимости ККЯ (3300—33FF) Унифицированные иероглифы ККЯ (расширение А) (3400—4DBF) Гексаграммы И-Цзин (4DC0—4DFF) Унифицированные иероглифы ККЯ (4E00—9FFF) Письмо и: Слоги и (A000—A48F) Радикалы и (A490—A4CF) Алфавит лису (A4D0-A4FF) Слоговая письменность ваи (A500—A63F) Расширенная кириллица-B (A640-A69F) Письменность бамум (A6A0-A6FF) Символы изменения тона (A700—A71F) Расширенная латиница-D (A720—A7FF) Силоти Нагри (A800—A82F) Индийские числовые символы (A830-A83F) Квадратное письмо Пагба-ламы (A840—A87F) Саураштра (A880—A8DF) Расширенный набор символов деванагари (A8E0-A8FF) Кайях Ли (A900-A92F) Реджанг (A930-A95F) Хангыль (расширение A) (A960-A97F) Яванская письменность (A980-A9DF) Тямское письмо (AA00—AA5F) Мьянманская письменность (расширение A) (AA60-AA7F) Письменность Тай Вьет (AA80-AADF) Набор символов эфиопского письма (расширение A) (АВ00—АВ2F) Мейтей/Манипури (ABC0—ABFF) Слоги хангыля (AC00—D7AF) Верхняя часть суррогатных пар (D800—DB7F) Верхняя часть суррогатных пар для частного использования (DB80—DBFF) Нижняя часть суррогатных пар (DC00—DFFF) Область для частного использования (E000—F8FF) Совместимые иероглифы ККЯ (F900—FAFF) Алфавитные формы представления (FB00—FB4F) Формы представления арабских букв-A (FB50—FDCF, FDF0-FDFF) Селекторы вариантов начертания (FE00—FE0F) Вертикальные формы (FE10—FE1F) Комбинируемые половинки символов (FE20—FE2F) Формы совместимости ККЯ (FE30—FE4F) Варианты малого размера (FE50—FE6F) Формы представления арабских букв-B (FE70—FEFF) Полуширинные и полноширинные формы (FF00—FFEF) Специальные символы (FFF0—FFFF) |
---|
Наборы символов, предложенные для кодирования и находящиеся на стадии рассмотрения:
- Комбинированные диакритические знаки (расширение A) (1AB0-1AFF)
- Расширенный набор символов сунданского письма (1CC0-1CCF)
- Мьянманская письменность (расширение B) (A9E0-A9FF)
- Расширенный набор символов письменности мейтей (AAE0-AAFF)
- Расширенная латиница-E (AB30—AB8F)
- Варанг-кшити (AB30—AB6F)
- Письменность Бериа для языка загхава (AB90—ABBF)
Дополнительная многоязыковая плоскость
Плоскость 1 (дополнительная многоязыковая плоскость, англ. Supplementary Multilingual Plane, SMP) отведена, в первую очередь, для исторических письменностей, но включает также символы условных обозначений, такие как музыкальные и математические символы.
Дополнительная многоязыковая плоскость разделена на следующие поддиапазоны:
- U+10000—U+100FF Линейное письмо Б
- U+10100—U+1018F Древние системы счисления
- U+10190—U+107FF Алфавиты, слоговые письменности и наборы символов с направлением письма слева направо
- U+10800—U+10FFF Алфавиты и слоговые письменности с направлением письма справа налево
- U+11000—U+11D7F Брахмические письменности
- U+11D80—U+12FFF Клинопись и другие древние письменности
- U+13000—U+15BFF Иероглифы древних египтян и майя
- U+15C00—U+15FFF Ацтекские пиктограммы
- U+16000—U+167FF Вновь созданные письменности
- U+16800—U+16FFF Африканские и другие письменности
- U+17000—U+1B4FF Большие азиатские письменности
- U+1B500—U+1BBFF Протоэламская письменность
- U+1BC00—U+1BFFF Стенография
- U+1C000—U+1CA7F Иероглифы микмак
- U+1CA80—U+1CDFF Ронго-ронго
- U+1CE00—U+1CFFF Не используется
- U+1D000—U+1DFFF Системы условных обозначений
- U+1E000—U+1E7FF Не используется
- U+1E800—U+1EFFF Письменности с направлением справа налево
- U+1F000—U+1F0FF Игровые символы
- U+1F100—U+1F2FF Наборы буквенно-цифровых и иероглифических символов
- U+1F300—U+1F7FF Наборы пиктограмм
- U+1F800—U+1FFFF Не используется
В Unicode 5.2 в этой плоскости представлены следующие наборы символов:
Линейное письмо Б: Слоги линейного письма Б (10000-1007F) Идеограммы линейного письма Б (10080-100FF) Древние системы счисления: Эгейские цифры (10100-1013F) Древнегреческие цифры (10140-1018F) Алфавиты, слоговые письменности и наборы символов с направлением письма слева направо: Древние символы (10190-101CF) Символы фестского диска (101D0-101FF) Ликийский алфавит (10280-1029F) Алфавит карийского языка (102A0-102DF) Этрусский алфавит (10300-1032F) Готский алфавит (10330-1034F) Угаритский алфавит (10380-1039F) Древнеперсидский клинописный алфавит (103A0-103DF) Дезеретский алфавит (10400-1044F) Алфавит Бернарда Шоу (10450-1047F) Сомалийский алфавит (османья) (10480-104AF) Алфавиты и слоговые письменности с направлением письма справа налево: Кипрский алфавит (10800-1083F) Арамейский алфавит (10840-1085F) Финикийский алфавит (10900-1091F) Лидийский алфавит (10920-1093F) Кхароштхи (10A00-10A5F) Южноаравийский алфавит (10A60-10A7F) Авестийский алфавит (10B00-10B3F) Пехлевийское письмо для парфянского языка (10B40-10B5F) Эпиграфическое пехлевийское письмо (10B60-10B7F) Древнетюркское руническое письмо (10C00-10C4F) Цифры системы руми (10E60-10E7F) | Брахмические письменности: Кайтхи (11080-110CF) Клинопись и другие древние письменности: Клинопись (12000-123FF) Клинописные цифры (12400-1247F) Иероглифы древних египтян и майя: Египетское письмо (13000-1342F) Системы условных обозначений: Византийские музыкальные символы (1D000-1D0FF) Музыкальные символы (1D100-1D1FF) Древнегреческие музыкальные символы (1D200-1D24F) Символы Тай Сюань Цзин (1D300-1D35F) Восточноазиатские счётные палочки (1D360-1D37F) Математические буквенно-цифровые символы (1D400-1D7FF) Игровые символы: Символы маджонга (1F000-1F02F) Символы домино (1F030-1F09F) Наборы буквенно-цифровых и иероглифических символов: Набор дополнительных вложенных буквенно-цифровых символов (1F100-1F1FF) Набор дополнительных вложенных иероглифических символов (1F200-1F2FF) |
---|
Наборы символов, предложенные для кодирования и находящиеся на стадии рассмотрения:
Алфавиты, слоговые письменности и наборы символов с направлением письма слева направо: Коптские цифры (102E0-102FF) Древнепермская письменность (10350-1037F) Скорописный алфавит Бернарда Шоу (103E0-103FF) Агванская письменность (10500-1053F) Эльбасанский алфавит (10540-1057F) Алфавит Бютакукье (10580-1059F) Иберская письменность (105A0-105BF) Линейное письмо А (10600-1079F) Кипро-минойская письменность (107C0-107FF) Алфавиты и слоговые письменности с направлением письма справа налево: Пальмирский алфавит (10860-1087F) Набатейский алфавит (10880-1089F) Нумидийский алфавит (108A0-108BF) Хатранский арамейский алфавит (108C0-108DF) Мероитская письменность (10980-1099F) Мероитская письменность (109A0-109FF) Письменность северноаравийских языков (10A80-10A9F) Письменность балти (10AA0-10ABF) Манихейская письменность (10AC0-10AFF) Псалтирное пехлевийское письмо (10B80-10B9F) Книжное пехлевийское письмо (10BA0-10BDF) Езидское письмо (10C50-10C7F) Венгерское руническое письмо (10C80-10CFF) Староуйгурское письмо (10D00-10D5F) Библское письмо (10D90-10DFF) Согдийское письмо (10D00-10D5F) Элимейский алфавит (10F80-10F9F) Брахмические письменности: Брахми (11000-1107F) Соранг Сомпенг (110D0—110FF) Чакма (11100-1114F) Шарада (11180-111DF) Письменность ходжики (11200-1124F) Соёмбо (11280-112BF) Ахомская письменность (112C0-112FF) Грантха (11300-1137F) Сиддхаматрика (11380-113DF) Письменность Прачалит Непали (11400-1145F) Письменность майтхили (11480-114DF) Ранджана (11500-1155F) Письменность Чола (11580-115DF) Письменность Сатавахана (11600-1165F) Такри (11680-116DF) Письменность тулу (11700-1174F) Моди (11780-117DF) Письменность для языка пью (11800-1183F) Леке (11880-118BF) Письменность Чалукья (11900-1195F) Туркестани (11980-119DF) Ланда (11A00-11A4F) Клинопись и другие древние письменности: Лувийские иероглифы (11D80-11FFF) Архаичная клинопись (12480-12DFF) Письменность долины Инда (12E00-12F8F) | Иероглифы древних египтян и майя: Египетское письмо (расширение) (13500-146FF) Египетское письмо (расширение-A) (14700-153FF) Иероглифы майя (15400-158FF) Ацтекские пиктограммы (15C00-15FFF) Вновь созданные письменности и наборы символов: Тенгвар (16000-1607F) Эльфийские руны (Cirth) (16080-160FF) Блиссимволы (16200-165FF) Расширенный набор блиссимволов (16600-166FF) Африканские и другие письменности: Дополнение письменности бамум (16800-16A3F) Мро (16A40-16A6F) Письменность басса (16A70-168FF) Пахау Хмонг (16B00-16B7F) Волеайская письменность (16B80-16BEF) Кпелле (16C00-16C7F) Лома (16D00-16DCF) Письмо Полларда для языка мяо (16F00-168FF) Большие азиатские письменности: Тангутское письмо (17000-1884F) Ключи тангутского письма (18900-18EFF) Киданьское малое письмо (18F00-18F7F) Чжурчжэньское письмо (19000-1955F) Ключи чжурчжэньского письма (19560-1959F) Киданьское большое письмо (19600-1A77F) Наси Геба (1A800-1AAAF) Наси Донгба (1AAC0-1AFFF) Историческая кана (1B000-1B0FF) Нюйшу (1B100-1B28F) Протоэламская письменность (1B500-1BBFF) Стенография (1BC00-1BFFF) Иероглифическая письменность микмак (1C000-1CA7F) Ронго-ронго (1CA80-1CDCF) Системы условных обозначений: Жестовое письмо (1D800-1DBFF) Письменности с направлением письма справа налево: Письменность менде (1E800-1E8CF) Персидские числовые символы сияк (1ED80-1EDFF) Арабские математические буквенные символы (1EE00-1EEFF) Числовые символы сияк (1EF00-1EFFF) Игровые символы: Символы игральных карт (1F0A0-1F0FF) Наборы пиктограмм: Различные пиктографические символы (1F300-1F5FF) Смайлики (1F600-1F64F) Транспортные и картографические символы (1F680-1F6FF) Алхимические символы (1F700-1F77F) |
---|
Дополнительная иероглифическая плоскость
Плоскость 2 (Дополнительная иероглифическая плоскость, англ. Supplementary Ideographic Plane, SIP) отведена для редко используемых иероглифов ККЯ.
В Unicode 5.2 в этой плоскости представлены следующие наборы иероглифов:
- Унифицированные иероглифы ККЯ (расширение B) (20000—2A6DF)
- Дополнение совместимых иероглифов ККЯ (2F800—2FA1F)
Наборы иероглифов, предложенные для кодирования и находящиеся на стадии рассмотрения:
- Унифицированные иероглифы ККЯ (расширение C) (2A700—2B74F)
- Унифицированные иероглифы ККЯ (расширение D) (2B750—2B81F)
- Унифицированные иероглифы ККЯ (расширение E) (2B820—2F7FF)
Третичная иероглифическая плоскость
Плоскость 3 (Третичная иероглифическая плоскость, англ. Tertiary Ideographic Plane, TIP) зарезервирована для архаичных китайских иероглифов.
Третичная иероглифическая плоскость предварительно разделена на следующие поддиапазоны:
- U+30000—U+317FF Гадательные надписи на костях
- U+31800—U+31FFF Не используется
- U+32000—U+32FFF Надписи на бронзовых сосудах
- U+33000—U+33FFF Не используется
- U+34000—U+368FF Письмо стиля «малая печать»
- U+36900—U+3FFFF Не используется
В вышеперечисленные диапазоны предполагается включить следующие наборы иероглифов:
- в диапазон U+30000—U+317FF — древнейшие китайские иероглифы эпохи Шан (цзягувэнь, 甲骨文), встречающиеся в гадательных надписях на панцирях черепах и костях животных.
- в диапазон U+32000—U+32FFF — иероглифы эпох Шан и Чжоу (цзиньвэнь, 金文), встречающиеся в ритуальных надписях на бронзовых сосудах и музыкальных инструментах.
- в диапазон U+34000—U+368FF — иероглифы в стиле «малая печать» (сяочжуань, 小篆).
В будущем также предполагается включить наборы иероглифов Периода Сражающихся царств.
В настоящее время в Консорциуме Юникод поставлен вопрос о будущем названии плоскости 3.
Дополнительная плоскость особого назначения
Плоскость 14 (Дополнительная плоскость особого назначения, англ. Supplementary Special-purpose Plane, SSP) отведена для символов, используемых по особому назначению.
В Unicode 5.2 в этой плоскости представлены следующие наборы символов:
- Символы тегов (E0000—E007F)
- Дополнительные селекторы вариантов начертания (E0100—E01EF)
Области для частного использования
Некоторые диапазоны Юникода выделены для частного использования и экспериментов. Они включают:
- Частную область в Базовой многоязыковой плоскости U+E000—U+F8FF
- Дополнительные плоскости 15 (U+F0000—U+FFFFF) и 16 (U+100000—U+10FFFF)
Ссылки
- The Unicode Standard Latest Version (англ.) — последняя версия стандарта.
- The Unicode Standard 5.0 (англ.)
- Таблица символов Юникода (англ.) (рус.) (нем.)
- Изображения всех Unicode символов в PDF-файлах (англ.)
Кодировки символов | |||
---|---|---|---|
Основы → | алфавит • текст ( файл • данные ) • набор символов • конверсия | ||
Исторические кодировки → | Докомп.: семафорная (Макарова) • Морзе • Бодо • МТК-2 | Комп.: 6 бит • УПП • RADIX-50 • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646 | |
совре-менное 8-битноепредстав-ление | символы → | ASCII ( управляющие • печатные ) | не-ASCII ( псевдографика ) |
8бит. код.стр. | Разные → Кириллица: КОИ-8 • ГОСТ 19768-87 • MacCyrillic | ||
ISO 8859 → | 1(лат.) 2 3 4 5**(кир.)** 6 7 8 9 10 11 12 13 14 15(€) 16 | ||
Windows → | 1250 1251**(кир.)** 1252 1253 1254 1255 1256 1257 1258 | WGL4 | ||
IBM&DOS → | 437 • 850 • 852 • 855 • 866 «альт.» • ( МИК ) • ( НИИ ЭВМ ) | ||
Много-байтные | Традиционные → | DBCS ( GB2312 ) • HTML | |
Unicode → | UTF-16 • UTF-8 • список символов ( кириллица ) | ||
Связанныетемы → | интерфейс пользователя • раскладка клавиатуры • локаль • перевод строки • шрифт • кракозябры • транслит • нестандартные шрифты • текст как изображение | Утилиты: iconv • recode |