UTF-16 (original) (raw)
UTF-16 (anglicky 16-bit Unicode Transformation Format) je způsob kódování znaků ISO 10646/Unicode používající proměnnou délku kódu: pro kódování jednoho znaku se používají jedna nebo dvě 16bitové hodnoty. UTF-16 je rozšířením kódování staršího UCS-2; pro znaky v BMP (znaky v rozmezí U+0000–U+FFFF) se UTF-16 shoduje s UCS-2, tj. kóduje znaky přímo jako 16bitová čísla bez znaménka. Zatímco UCS-2 ostatní znaky (ty s kódy většími než 0xFFFF) kódovat neumožňuje vůbec, UTF-16 je kóduje pomocí dvojice šestnáctibitových hodnot (anglicky označované jako surrogate pair) z intervalu 0xD800 až 0xDFFF.
Property | Value | ||||||
---|---|---|---|---|---|---|---|
dbo:abstract | UTF-16 és una forma de codificació de caràcters UCS i Unicode utilitzant símbols de longitud variable. Es troba oficialment definit en l'annex C de la norma ISO/IEC 10646:2003. També està descrita en l'estàndard Unicode (versió 3.0 o superior). És l'abreviara d'Unicode Transformation Format de 16-plans o més exactament , «UCS Transformation Format for 16 Plans of Group 00» segons la norma internacional . Te les característiques principals següents: * És capaç de representar qualsevol caràcter Unicode. * Utilitza símbols de longitud variable: 1 o 2 paraules de 16 bits per caràcter Unicode (2 o 4 bytes). La unitat d'informació és la paraula de 16 bits. * Està optimitzat per a representar caràcters al pla bàsic multilingüe o BMP, caràcters en el rang U+0000 a O+FFFF. El BMP conté la gran majoria de caràcters i sistemes d'escriptura en ús en l'actualitat. Quan es limita al pla bàsic multilingüe, UTF-16 pot ser considerat una forma de codificació amb símbols de mida fixa (16 bits). * No superposició: Els símbols d'una paraula (16 bits) utilitzen un subconjunt de valors que no es pot utilitzar en símbols de 2 paraules (32 bits). (ca) يو تي اف-16 UTF-16 (تنسيق تحويل Unicode 16 بت) هو ترميز أحرف قادر على ترميز جميع نقاط الكود الصالحة البالغ عددها 1112.064 في الترميز الموحد (في الواقع، تم تحديد هذا العدد من نقاط الشفرة بواسطة تصميم UTF-16). يكون الترميز متغير الطول، حيث يتم ترميز نقاط الترميز بواحدة أو وحدتي رمز 16 بت. نشأ UTF-16 من ترميز 16 بت عرض ثابت قديم قديم، يُعرف الآن باسم UCS-2 (لمجموعة الأحرف العالمية 2 بايت)، بمجرد أن أصبح من الواضح أن هناك حاجة إلى أكثر من 216 (65536) نقطة رمز. يتم استخدام UTF-16 بواسطة أنظمة مثل Microsoft Windows API (والتي تدعم أيضًا صيغة التحويل الموحد-8) ولغة برمجة Java وجافا سكريبت / إي سي إم ايه سكريبت. كما يتم استخدامه أحيانًا للنص العادي وملفات بيانات معالجة الكلمات على مايكروسوفت ويندوز. نادرًا ما يتم استخدامه للملفات على أنظمة شبيهة بـ Unix. قبل حوالي مايو 2019، كانت مايكروسوفت تؤكد على UTF-16 على واجهة برمجة التطبيقات التي تدعم صيغة التحويل الموحد-8، ولكن توصيتها الآن هي «استخدام ترميز أحرف صيغة التحويل الموحد-8 لتقليل أخطاء الترجمة وتقليل نفقات الاختبار». * بوابة كتابة * بوابة علم الحاسوب (ar) UTF-16 (anglicky 16-bit Unicode Transformation Format) je způsob kódování znaků ISO 10646/Unicode používající proměnnou délku kódu: pro kódování jednoho znaku se používají jedna nebo dvě 16bitové hodnoty. UTF-16 je rozšířením kódování staršího UCS-2; pro znaky v BMP (znaky v rozmezí U+0000–U+FFFF) se UTF-16 shoduje s UCS-2, tj. kóduje znaky přímo jako 16bitová čísla bez znaménka. Zatímco UCS-2 ostatní znaky (ty s kódy většími než 0xFFFF) kódovat neumožňuje vůbec, UTF-16 je kóduje pomocí dvojice šestnáctibitových hodnot (anglicky označované jako surrogate pair) z intervalu 0xD800 až 0xDFFF. (cs) UTF-16 (englisch für Universal Multiple-Octet Coded Character Set (UCS) Transformation Format for 16 Planes of Group 00) ist eine Kodierung mit variabler Länge für Unicode-Zeichen. UTF-16 ist optimiert für die häufig gebrauchten Zeichen aus der Basic multilingual plane (BMP). Es ist das älteste der Unicode-Kodierungsformate. (de) UTF-16 estas maniero prezenti unikodajn signonumerojn per sinsekvo da bajto-duoj, foje nomataj vortoj. Ĝi estas difinita en la apendico Q de la normo ISO/IEC 10646 kaj priskribita en la RFC 2781 de IETF kaj en la unikoda normo ekde ĝia versio 3.0. La nomo UTF-16 devenas de la anglalingva mallongigo Unicode Transformation Format (unikoda transforma aranĝo). La nombro "16" indikas la fakton, ke la signonumerojn oni transformas en 16-bitajn vortojn, kutime reprezentatajn kiel bajto-paroj. Ĉiu unikoda signo (kodopunkto) estas reprezentata aŭ per unu aŭ per du tiaj vortoj, do per 16 aŭ 32 bitoj. (eo) UTF-16, que significa en ISO/IEC 10646:2003 “UCS Transformation Format for 16 Planes of Group 00”, es una forma de codificación de caracteres UCS y Unicode utilizando símbolos de longitud variable. Está oficialmente definida en el Anexo C de la norma ISO/IEC 10646:2003. También está descrita en el Estándar Unicode (versión 3.0 o superior), al igual que en la RFC 2781 de la IETF. Sus características principales son: * Es capaz de representar cualquier carácter Unicode. * Utiliza símbolos de longitud variable: 1 o 2 palabras de 16 bits por carácter Unicode (2 o 4 bytes). La unidad de información es la palabra de 16 bits. * Está optimizado para representar caracteres del plano básico multilingüe (BMP) y caracteres del rango U+0000 a U+FFFF. El BMP contiene la gran mayoría de caracteres y sistemas de escritura en uso en la actualidad. Cuando se limita al plano básico multilingüe, UTF-16 puede ser considerado una forma de codificación con símbolos de tamaño fijo (16 bits). * No superposición: Los símbolos de 1 palabra (16 bits) utilizan un subconjunto de valores que no puede utilizarse en símbolos de 2 palabras (32 bits). (es) UTF-16 (16-bit Unicode Transformation Format) adalah suatu pengkodean karakter Unicode yang mampu mengkodekan 1,112,064 angka (disebut ) dalam jangkauan kode Unicode dari 0 sampai 0x10FFFF. Pengkodean ini adalah sebuah "variable-width encoding" karena code point itu dikodekan dengan satu atau dua code units 16-bit . UCS-2 (2-byte) mirip dengan pengkodean karakter yang sekarang digantikan oleh UTF-16 versi 2.0 sebagai standar Unicode pada bulan Juli 1996. Menghasilkan format dengan panjang tetap (fixed-length format) hanya menggunakan code point sebagai unit kode 16-bit dan membuahkan hasil yang tepat sama dengan UTF-16 untuk 97% (63.488; bukan 65.536) dari seluruh code point dalam jangkauan 0-0xFFFF, termasuk semua karakter yang telah diberi nilai saat itu. UTF-16 secara resmi didefinisikan dalam Annex Q dari standar internasional . Juga disebut sebagai "The Unicode Standard" versi 2.0 atau lebih tinggi, serta dalam IETF's RFC 2781. (in) UTF-16 est un codage des caractères définis par Unicode où chaque caractère est codé sur une suite de un ou deux mots de 16 bits. Le codage était défini dans le rapport technique 17 à la norme Unicode. Depuis, cette annexe est devenue obsolète car UTF-16 fait partie intégrante de la norme Unicode, dans son chapitre 3 Conformance qui la définit de façon très stricte. L'UTF-16 ne doit pas être confondu avec l'UCS-2 qui est le codage, plus simple, de chaque caractère sur deux octets. Ces deux normes sont pourtant appelées toutes les deux Unicode, car le codage est le même tant que l'on n'utilise pas les plages U+D800 à U+DFFF (en principe réservées) et les plages après U+FFFF (peu utilisées en occident). (fr) UTF-16 (UCS/Unicode Transformation Format 16) とは、UnicodeおよびISO/IEC 10646の、符号化フォームおよび符号化スキーム(文字符号化方式を参照)のひとつである。 UTF-16では、1文字が、16ビットの符号単位が1つまたは2つで符号化される。これが「-16」の名の由来である。基本多言語面(BMP)内の文字は、符号単位1つの16ビットで表される。BMP以外の文字は、符号単位2つの32ビットで表される。なお、UTF-16は2バイトコードだと誤解されることがあるが、このように4バイトのこともあるため間違いである。 Unicodeにおいては、厳密には、文字符号化フォーム(英: Character Encoding Form)の1つの名称であり、かつ、UTF-16符号化形式のための文字符号化スキーム(英: Character Encoding Scheme)の1つの名称でもある。UTF-16符号化フォームのための文字符号化スキームには、UTF-16の他にUTF-16BE、UTF-16LEがある。 (ja) UTF-16 (16-bit Unicode Transformation Format) is a character encoding capable of encoding all 1,112,064 valid code points of Unicode (in fact this number of code points is dictated by the design of UTF-16). The encoding is variable-length, as code points are encoded with one or two 16-bit code units. UTF-16 arose from an earlier obsolete fixed-width 16-bit encoding, now known as UCS-2 (for 2-byte Universal Character Set), once it became clear that more than 216 (65,536) code points were needed. UTF-16 is used by systems such as the Microsoft Windows API, the Java programming language and JavaScript/ECMAScript. It is also sometimes used for plain text and word-processing data files on Microsoft Windows. It is rarely used for files on Unix-like systems. UTF-16 is often claimed to be more space-efficient than UTF-8 for East Asian languages, since it uses two bytes for characters that take 3 bytes in UTF-8. Since real text contains many spaces, numbers, punctuation, markup, and control characters, which take only one byte in UTF-8, this is only true for artificially constructed dense blocks of text. In addition GB 18030 (which supports all of Unicode as well) is always shorter than UTF-16. UTF-16 is the only web-encoding incompatible with ASCII and never gained popularity on the web, where it is declared by under 0.002% (little over 1 thousandth of 1 percent) of web pages, and even then UTF-8 is often used, even though UTF-16 is (also) specified (i.e. because of "contradictory character encoding specifications" and/or "incorrect character encoding defined"). UTF-8, by comparison, accounts for 98% of all web pages. The Web Hypertext Application Technology Working Group (WHATWG) considers UTF-8 "the mandatory encoding for all [text]" and that for security reasons browser applications should not use UTF-16. It is used by SMS (i.e. the variable-length UTF-16 needed to support all emoji characters, the SMS standard specifies its predecessor fixed-width UCS-2 which do not support most of them). (en) UTF-16, 16-bit Unicode Transformation Format, is een tekencodering met een variabele lengte, die de gehele Unicode-tekenset ondersteunt. De codeerstandaard zet karakters om vanuit een Unicode-codepoint naar een reeks van 16-bitwoorden. Karakters uit het Basic Multilingual Plane (BMP) kunnen worden omgezet naar één woord van 16 bits. De karakters daarboven worden omgezet in twee woorden (een zogenoemd surrogaatpaar). Alle codepoints van U+0000 tot en met U+10FFFF (behalve de oneigenlijke codepoints U+D800–U+DFFF en codepoints voor toekomstig gebruik) kunnen worden omgezet naar UTF-16. Omdat veel computers rekenen in eenheden van bytes, zijn er drie gerelateerde encoding-schema's: UTF-16, UTF-16BE en UTF-16LE. Ze verschillen alleen in de byte order (bytevolgorde) om een 16-bit-eenheid voor te stellen. Alle schema's resulteren in óf een 2- óf een 4-bytereeks voor een karakter. UTF-16 is officieel gedefinieerd in bijlage Q van de internationale standaard -1. Het staat ook beschreven in de Unicode-standaard, versie 3.0 en hoger, alsmede in RFC 2781 van IETF. UCS-2 (2-byte ) is een incourante manier om karakters te coderen. UCS-2 is een voorloper van UTF-16. De UCS-2-standaard is bijna identiek aan UTF-16, behalve dat het geen surrogaatparen ondersteunt en daarom alleen de karakters in het BMP-bereik (van U+0000 t/m U+FFFF) kan coderen. De consequentie van deze vaste-lengtecodering is dat elk karakter een 16-bitwaarde voorstelt. UTF-16 kent drie gerelateerde codeerschema's (UCS-2, UCS-2BE, UCS-2LE) die alle karakters kunnen opleveren in een specifieke bytevolgorde. Vanwege de technische verwantschap en opwaartse compatibiliteit van UCS-2 naar UTF-16 worden de twee standaarden vaak foutief door elkaar gehaald en uitwisselbaar genoemd. Dat wil zeggen, er wordt gezegd dat tekenreeksen die zijn gecodeerd in UTF-16 soms foutief als UCS-2 worden herkend. Voor zowel UTF-16 als UCS-2 geldt dat alle 65.536 codepoints in BMP (vlak 0), met uitzondering van de 2048 speciale tekens, overeenkomen met dezelfde gecodeerde waardes. Dus codepoint U+0000 is gecodeerd als nummer 0 en U+FFFF is gecodeerd als 65.535 (dat is FFFF16 in hexadecimaal). (nl) UTF-16 (Unicode Transformation Format, 16 bit) è una codifica di caratteri Unicode in sequenze di numeri a 16-bit. UTF-16 è definito ufficialmente nell'allegato Q dello standard ISO/IEC 10646, e viene descritto nella versione 3.0 e successive de "the Unicode standard", oltre che nel documento RFC 2781 della IETF. (it) UTF-16(16-bit Unicode Transformation Format)은 유니코드 문자 인코딩 방식의 하나이다. 주로 사용되는 기본 다국어 평면 (BMP, Basic multilingual plane)에 속하는 문자들은 그대로 16비트 값으로 인코딩이 되고 그 이상의 문자는 특별히 정해진 방식으로 32비트로 인코딩이 된다. UTF-16은 유니코드 컨소시엄과 ISO/IEC 10646에 의해 정의되어 있다. 유니코드는 거기에 추가적인 내용을 정하고 있다. 정확한 차이점은 유니코드 4.0 표준의 부록편 C 부분이 자세히 기술되어 있다. ISO 표준은 UCS-2 인코딩도 정의하며 여기선 BMP의 16비트 표현만을 다룬다. 기본 다국어 평면은 U+0000에서 U+FFFF 에 놓인 문자를 담고 있다. 이 영역에는 우리가 쉽게 생각할 수 있는 문자들이 포함되며, 한글, 한자 등은 모두 여기에 포함되어 있다. 이 영역에는 서러게이트 문자(surrogate)들이 준비되어 있어 16비트 이상의 문자를 표현할 때를 대비해 놓았다. 기본 다국어 평면의 문자들은 곧바로 16비트 값으로 대응되어 인코딩되며, 이 경우에는 인코딩된 바이트 스트링의 엔디언만 조심하면 된다. UTF-16-문자 Bit|15 8 | 7 0 | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | y y y y y y y y | x x x x x x x x | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ UTF-16BE-코드 첫 번째 Byte 두 번째 Byte | 7 0 |
dbo:thumbnail | wiki-commons:Special:FilePath/Unifont_Full_Map.png?width=300 | ||||||
dbo:wikiPageExternalLink | https://www.unicode.org/charts/charindex.html https://www.unicode.org/faq/utf_bom.html%23utf16-11 https://www.unicode.org/faq/utf_bom.html%23utf16-4 https://www.unicode.org/notes/tn12/ https://docs.oracle.com/javase/6/docs/api/java/lang/String.html%23charAt(int) | ||||||
dbo:wikiPageID | 40317 (xsd:integer) | ||||||
dbo:wikiPageLength | 33667 (xsd:nonNegativeInteger) | ||||||
dbo:wikiPageRevisionID | 1124854716 (xsd:integer) | ||||||
dbo:wikiPageWikiLink | dbr:Private_Use_Area dbr:Python_(programming_language) dbr:Basic_Multilingual_Plane dbr:Bengali_language dbr:Devanagari dbr:Character_encoding dbr:UTF-8 dbr:Unicode dbr:Unicode_Consortium dbr:Unicode_Transformation_Format dbr:Universal_Character_Set_characters dbr:Unix-like dbr:Internet dbr:Joliet_(file_system) dbr:$ dbr:.NET_Framework dbr:16-bit_computing dbc:Computer-related_introductions_in_1991 dbr:Emoji dbr:Endianness dbr:GB_18030 dbr:MySQL dbr:Apple_Inc. dbr:Short_Message_Service dbr:Comparison_of_Unicode_encodings dbc:Character_encoding dbc:Encodings dbr:C++ dbr:C_Sharp_(programming_language) dbr:UCS-2 dbr:UCS-4 dbr:WHATWG dbr:Windows_10 dbr:Windows_2000 dbr:Windows_2003 dbr:Windows_7 dbr:Windows_CE dbr:Windows_NT dbr:Windows_Vista dbr:Windows_XP dbr:Disjoint_sets dbr:GSM dbr:GSM_03.38 dbr:Unicode_in_Microsoft_Windows dbr:ASCII dbr:D_(programming_language) dbr:ECMAScript dbr:Euro_sign dbr:PHP dbr:International_Components_for_Unicode dbr:Internet_Assigned_Numbers_Authority dbr:JavaScript dbr:Java_(programming_language) dbr:Java_programming_language dbc:Unicode_Transformation_Formats dbr:Binary_Runtime_Environment_for_Wireless dbr:Swift_(programming_language) dbr:Symbian dbr:Code_page dbr:Code_point dbr:Java_Platform,_Standard_Edition dbr:Plain_text dbr:Widget_toolkit dbr:Regional_indicator_symbol dbr:Windows_Insider dbr:Zero-width_non-breaking_space dbr:Byte_order_mark dbr:CCSID dbr:CD-ROM dbr:CDMA2000 dbr:Plane_(Unicode) dbr:IBM_i dbr:IEEE dbr:IETF dbr:IPhone dbr:Microsoft_Windows dbr:Shift_JIS dbr:SMS dbr:UTF-32 dbr:Variable-width_encoding dbr:ISO/IEC_10646 dbr:ISO/IEC_JTC_1/SC_2 dbr:Universal_Coded_Character_Set dbr:UIQ dbr:Self-synchronizing_code dbr:Qt_(toolkit) dbr:Wikt:𤭢 dbr:𐐷 | ||||||
dbp:caption | The first 216 Unicode code points. The stripe of solid gray near the bottom are the surrogate halves used by UTF-16 (en) | ||||||
dbp:classification | dbr:Unicode_Transformation_Format dbr:Variable-width_encoding | ||||||
dbp:encodes | ISO/IEC 10646 (en) | ||||||
dbp:extends | UCS-2 (en) | ||||||
dbp:lang | International (en) | ||||||
dbp:name | UTF-16 (en) | ||||||
dbp:standard | Unicode Standard (en) | ||||||
dbp:wikiPageUsesTemplate | dbt:CVE dbt:= dbt:Anchor dbt:Citation_needed dbt:Color dbt:Hatnote dbt:IETF_RFC dbt:Proper_name dbt:Reflist dbt:Short_description dbt:Snd dbt:Tt dbt:Unreferenced_section dbt:Unicode_navigation dbt:Diagonal_split_header dbt:Character_encoding dbt:Infobox_character_encoding | ||||||
dcterms:subject | dbc:Computer-related_introductions_in_1991 dbc:Character_encoding dbc:Encodings dbc:Unicode_Transformation_Formats | ||||||
gold:hypernym | dbr:Character | ||||||
rdf:type | yago:WikicatUnicodeTransformationFormats yago:Abstraction100002137 yago:Act100030358 yago:Activity100407535 yago:Communication100033020 yago:Cryptography100614489 yago:Encoding100615887 yago:Event100029378 yago:Format106636806 yago:Information106634376 yago:Measure100033615 yago:Message106598915 yago:PsychologicalFeature100023100 yago:WikicatISOStandards yago:Writing100614224 yago:YagoPermanentlyLocatedEntity dbo:FictionalCharacter yago:Standard107260623 yago:SystemOfMeasurement113577171 yago:WikicatEncodings | ||||||
rdfs:comment | UTF-16 (anglicky 16-bit Unicode Transformation Format) je způsob kódování znaků ISO 10646/Unicode používající proměnnou délku kódu: pro kódování jednoho znaku se používají jedna nebo dvě 16bitové hodnoty. UTF-16 je rozšířením kódování staršího UCS-2; pro znaky v BMP (znaky v rozmezí U+0000–U+FFFF) se UTF-16 shoduje s UCS-2, tj. kóduje znaky přímo jako 16bitová čísla bez znaménka. Zatímco UCS-2 ostatní znaky (ty s kódy většími než 0xFFFF) kódovat neumožňuje vůbec, UTF-16 je kóduje pomocí dvojice šestnáctibitových hodnot (anglicky označované jako surrogate pair) z intervalu 0xD800 až 0xDFFF. (cs) UTF-16 (englisch für Universal Multiple-Octet Coded Character Set (UCS) Transformation Format for 16 Planes of Group 00) ist eine Kodierung mit variabler Länge für Unicode-Zeichen. UTF-16 ist optimiert für die häufig gebrauchten Zeichen aus der Basic multilingual plane (BMP). Es ist das älteste der Unicode-Kodierungsformate. (de) UTF-16 estas maniero prezenti unikodajn signonumerojn per sinsekvo da bajto-duoj, foje nomataj vortoj. Ĝi estas difinita en la apendico Q de la normo ISO/IEC 10646 kaj priskribita en la RFC 2781 de IETF kaj en la unikoda normo ekde ĝia versio 3.0. La nomo UTF-16 devenas de la anglalingva mallongigo Unicode Transformation Format (unikoda transforma aranĝo). La nombro "16" indikas la fakton, ke la signonumerojn oni transformas en 16-bitajn vortojn, kutime reprezentatajn kiel bajto-paroj. Ĉiu unikoda signo (kodopunkto) estas reprezentata aŭ per unu aŭ per du tiaj vortoj, do per 16 aŭ 32 bitoj. (eo) UTF-16 (UCS/Unicode Transformation Format 16) とは、UnicodeおよびISO/IEC 10646の、符号化フォームおよび符号化スキーム(文字符号化方式を参照)のひとつである。 UTF-16では、1文字が、16ビットの符号単位が1つまたは2つで符号化される。これが「-16」の名の由来である。基本多言語面(BMP)内の文字は、符号単位1つの16ビットで表される。BMP以外の文字は、符号単位2つの32ビットで表される。なお、UTF-16は2バイトコードだと誤解されることがあるが、このように4バイトのこともあるため間違いである。 Unicodeにおいては、厳密には、文字符号化フォーム(英: Character Encoding Form)の1つの名称であり、かつ、UTF-16符号化形式のための文字符号化スキーム(英: Character Encoding Scheme)の1つの名称でもある。UTF-16符号化フォームのための文字符号化スキームには、UTF-16の他にUTF-16BE、UTF-16LEがある。 (ja) UTF-16 (Unicode Transformation Format, 16 bit) è una codifica di caratteri Unicode in sequenze di numeri a 16-bit. UTF-16 è definito ufficialmente nell'allegato Q dello standard ISO/IEC 10646, e viene descritto nella versione 3.0 e successive de "the Unicode standard", oltre che nel documento RFC 2781 della IETF. (it) UTF-16 (ang. 16-bit Unicode Transformation Format) – jeden ze sposobów kodowania znaków standardu Unicode. Sposób ten wymaga użycia szesnastobitowych słów, przy czym dla znaków na pozycjach poniżej U+10000 (dziesiętnie 65536), a dokładnie w zakresach od U+0000 do U+D7FF i U+E000 do U+FFFF, używane jest jedno słowo, którego wartość odpowiada dokładnie pozycji znaku w standardzie. W systemach Windows kodowanie to jest najczęściej używane do wewnętrznego przechowywania komunikatów Unicode. (pl) Em computação, UTF-16 é um "Formato de Transformação Unicode" de 16-bits. Um formato de transformação Unicode é umacodificação de caracteres que provê uma maneira de representar os diversos caracteresabstratos, presentes no Unicode e no ISO/IEC 10646, como uma série de palavras (neste caso, de 16-bits), para então poder ser armazenados ou transmitidos por uma rede. A codificaçãoUTF-16 é oficialmente definida no Anexo Q do padrão ISO/IEC 10646-1. É também descrita em "The Unicode Standard", versões 3.0 e superiores, bem como no RFC 2781. (pt) UTF-16是Unicode字符编码五层次模型的第三层:字符编码表(Character Encoding Form,也称为"storage format")的一种实现方式。即把Unicode字符集的抽象码位映射为16位长的整数(即码元)的序列,用于数据存储或传递。Unicode字符的码位,需要1个或者2个16位长的码元来表示,因此这是一个变长表示。 UTF是"Unicode/UCS Transformation Format"的首字母缩写,即把Unicode字符转换为某種格式之意。UTF-16正式定義於ISO/IEC 10646-1的附錄C,而RFC2781也定義了相似的做法。 (zh) UTF-16 (англ. Unicode Transformation Format) в информатике — один из способов кодирования символов из Юникода в виде последовательности 16-битных слов. Данная кодировка позволяет записывать символы Юникода в диапазонах U+0000..U+D7FF и U+E000..U+10FFFF (общим количеством 1 112 064). При этом каждый символ записывается одним или двумя словами (суррогатная пара). Кодировка UTF-16 описана в приложении Q к международному стандарту ISO/IEC 10646, а также ей посвящён IETF RFC 2781 «UTF-16, an encoding of ISO 10646». (ru) يو تي اف-16 UTF-16 (تنسيق تحويل Unicode 16 بت) هو ترميز أحرف قادر على ترميز جميع نقاط الكود الصالحة البالغ عددها 1112.064 في الترميز الموحد (في الواقع، تم تحديد هذا العدد من نقاط الشفرة بواسطة تصميم UTF-16). يكون الترميز متغير الطول، حيث يتم ترميز نقاط الترميز بواحدة أو وحدتي رمز 16 بت. نشأ UTF-16 من ترميز 16 بت عرض ثابت قديم قديم، يُعرف الآن باسم UCS-2 (لمجموعة الأحرف العالمية 2 بايت)، بمجرد أن أصبح من الواضح أن هناك حاجة إلى أكثر من 216 (65536) نقطة رمز. * بوابة كتابة * بوابة علم الحاسوب (ar) UTF-16 és una forma de codificació de caràcters UCS i Unicode utilitzant símbols de longitud variable. Es troba oficialment definit en l'annex C de la norma ISO/IEC 10646:2003. També està descrita en l'estàndard Unicode (versió 3.0 o superior). És l'abreviara d'Unicode Transformation Format de 16-plans o més exactament , «UCS Transformation Format for 16 Plans of Group 00» segons la norma internacional . Te les característiques principals següents: (ca) UTF-16, que significa en ISO/IEC 10646:2003 “UCS Transformation Format for 16 Planes of Group 00”, es una forma de codificación de caracteres UCS y Unicode utilizando símbolos de longitud variable. Está oficialmente definida en el Anexo C de la norma ISO/IEC 10646:2003. También está descrita en el Estándar Unicode (versión 3.0 o superior), al igual que en la RFC 2781 de la IETF. Sus características principales son: (es) UTF-16 est un codage des caractères définis par Unicode où chaque caractère est codé sur une suite de un ou deux mots de 16 bits. Le codage était défini dans le rapport technique 17 à la norme Unicode. Depuis, cette annexe est devenue obsolète car UTF-16 fait partie intégrante de la norme Unicode, dans son chapitre 3 Conformance qui la définit de façon très stricte. (fr) UTF-16 (16-bit Unicode Transformation Format) adalah suatu pengkodean karakter Unicode yang mampu mengkodekan 1,112,064 angka (disebut ) dalam jangkauan kode Unicode dari 0 sampai 0x10FFFF. Pengkodean ini adalah sebuah "variable-width encoding" karena code point itu dikodekan dengan satu atau dua code units 16-bit . UTF-16 secara resmi didefinisikan dalam Annex Q dari standar internasional . Juga disebut sebagai "The Unicode Standard" versi 2.0 atau lebih tinggi, serta dalam IETF's RFC 2781. (in) UTF-16 (16-bit Unicode Transformation Format) is a character encoding capable of encoding all 1,112,064 valid code points of Unicode (in fact this number of code points is dictated by the design of UTF-16). The encoding is variable-length, as code points are encoded with one or two 16-bit code units. UTF-16 arose from an earlier obsolete fixed-width 16-bit encoding, now known as UCS-2 (for 2-byte Universal Character Set), once it became clear that more than 216 (65,536) code points were needed. (en) UTF-16(16-bit Unicode Transformation Format)은 유니코드 문자 인코딩 방식의 하나이다. 주로 사용되는 기본 다국어 평면 (BMP, Basic multilingual plane)에 속하는 문자들은 그대로 16비트 값으로 인코딩이 되고 그 이상의 문자는 특별히 정해진 방식으로 32비트로 인코딩이 된다. UTF-16은 유니코드 컨소시엄과 ISO/IEC 10646에 의해 정의되어 있다. 유니코드는 거기에 추가적인 내용을 정하고 있다. 정확한 차이점은 유니코드 4.0 표준의 부록편 C 부분이 자세히 기술되어 있다. ISO 표준은 UCS-2 인코딩도 정의하며 여기선 BMP의 16비트 표현만을 다룬다. 기본 다국어 평면은 U+0000에서 U+FFFF 에 놓인 문자를 담고 있다. 이 영역에는 우리가 쉽게 생각할 수 있는 문자들이 포함되며, 한글, 한자 등은 모두 여기에 포함되어 있다. 이 영역에는 서러게이트 문자(surrogate)들이 준비되어 있어 16비트 이상의 문자를 표현할 때를 대비해 놓았다. 기본 다국어 평면의 문자들은 곧바로 16비트 값으로 대응되어 인코딩되며, 이 경우에는 인코딩된 바이트 스트링의 엔디언만 조심하면 된다. (ko) UTF-16, 16-bit Unicode Transformation Format, is een tekencodering met een variabele lengte, die de gehele Unicode-tekenset ondersteunt. De codeerstandaard zet karakters om vanuit een Unicode-codepoint naar een reeks van 16-bitwoorden. Karakters uit het Basic Multilingual Plane (BMP) kunnen worden omgezet naar één woord van 16 bits. De karakters daarboven worden omgezet in twee woorden (een zogenoemd surrogaatpaar). Alle codepoints van U+0000 tot en met U+10FFFF (behalve de oneigenlijke codepoints U+D800–U+DFFF en codepoints voor toekomstig gebruik) kunnen worden omgezet naar UTF-16. (nl) UTF-16 (16 bitars unicode transformationsformat) är inom datatekniken en längdvarierande teckenkodning som används för att representera Unicodetext som sekvenser av dubbel-oktetter (16-bitstal). Den är en utvidgning av UCS-2. (sv) UTF-16 (англ. Unicode Transformation Format) в інформатиці — один із способів кодування символів із Unicode у вигляді послідовності 16-бітових слів. Символи з кодами менше 0x10000 (216) представляються як є, а символи з кодами 0x10000-0x10FFFF — у вигляді послідовності двох 16-бітових слів, перше з яких лежить в діапазоні 0xD800-0xDBFF, а друге — 0xDC00-0xDFFF. Зрозуміло, що є 210 * 210 = 220 таких комбінацій. (uk) | ||||||
rdfs:label | يو تي اف-16 (ar) UTF-16 (ca) UTF-16 (cs) UTF-16 (de) UTF-16 (eo) UTF-16 (es) UTF-16 (in) UTF-16 (fr) UTF-16 (it) UTF-16 (ko) UTF-16 (ja) UTF-16 (nl) UTF-16 (pl) UTF-16 (pt) UTF-16 (ru) UTF-16 (en) UTF-16 (sv) UTF-16 (zh) UTF-16 (uk) | ||||||
owl:sameAs | freebase:UTF-16 yago-res:UTF-16 wikidata:UTF-16 dbpedia-als:UTF-16 dbpedia-ar:UTF-16 dbpedia-bg:UTF-16 dbpedia-ca:UTF-16 dbpedia-cs:UTF-16 dbpedia-da:UTF-16 dbpedia-de:UTF-16 dbpedia-eo:UTF-16 dbpedia-es:UTF-16 dbpedia-fr:UTF-16 dbpedia-he:UTF-16 dbpedia-hr:UTF-16 dbpedia-hu:UTF-16 dbpedia-id:UTF-16 dbpedia-it:UTF-16 dbpedia-ja:UTF-16 dbpedia-ko:UTF-16 dbpedia-nl:UTF-16 dbpedia-pl:UTF-16 dbpedia-pt:UTF-16 dbpedia-ru:UTF-16 dbpedia-sk:UTF-16 dbpedia-sv:UTF-16 dbpedia-th:UTF-16 dbpedia-uk:UTF-16 http://ur.dbpedia.org/resource/یو_ٹی_ایف-16 dbpedia-zh:UTF-16 https://global.dbpedia.org/id/4v1f2 | ||||||
prov:wasDerivedFrom | wikipedia-en:UTF-16?oldid=1124854716&ns=0 | ||||||
foaf:depiction | wiki-commons:Special:FilePath/Unifont_Full_Map.png | ||||||
foaf:isPrimaryTopicOf | wikipedia-en:UTF-16 | ||||||
is dbo:wikiPageDisambiguates of | dbr:UTF | ||||||
is dbo:wikiPageRedirects of | dbr:UTF-16BE dbr:UTF-16LE dbr:UCS-2BE dbr:UCS-2LE dbr:AL16UTF16 dbr:Surrogate_pairs dbr:Code_page_1200 dbr:Code_page_1201 dbr:Utf-16 dbr:Oracle_AL16UTF16 dbr:UTF16 dbr:UTF16BE dbr:UTF16LE dbr:16-bit_characters dbr:Supplementary_character dbr:Code_page_13488 dbr:Unicode_16 dbr:CsUTF16 dbr:CsUTF16BE dbr:CsUTF16LE dbr:UTF-16/UCS-2 dbr:UTF_16 dbr:Ucs2 dbr:UCS2 dbr:UCS_2 dbr:Windows-1200 dbr:Windows-1201 | ||||||
is dbo:wikiPageWikiLink of | dbr:C_string_handling dbr:C_syntax dbr:Cardfile dbr:List_of_binary_codes dbr:Mojibake dbr:Null-terminated_string dbr:OpenXDF dbr:Base64 dbr:Batch_file dbr:Big5 dbr:Binary-to-text_encoding dbr:List_of_archive_formats dbr:Percent-encoding dbr:Regular_expression dbr:Rich_Text_Format dbr:Character_(computing) dbr:Character_encoding dbr:DBCS dbr:DMS_Software_Reengineering_Toolkit dbr:UTF-16BE dbr:UTF-16LE dbr:UTF-7 dbr:UTF-8 dbr:UTF-EBCDIC dbr:Unicode dbr:Unicode_and_HTML dbr:Universal_Character_Set_characters dbr:Universal_Disk_Format dbr:Index_of_Internet-related_articles dbr:List_of_open_file_formats dbr:.NET_Framework_version_history dbr:Comma-separated_values dbr:Comparison_of_regular_expression_engines dbr:Comparison_of_text_editors dbr:Escape_sequences_in_C dbr:OpenRaster dbr:Orders_of_magnitude_(data) dbr:GB_18030 dbr:GNAT_Programming_Studio dbr:GUID_Partition_Table dbr:NTFS dbr:Polish_orthography dbr:Windows-1255 dbr:AppleScript dbr:Lotus_Multi-Byte_Character_Set dbr:MVS dbr:Mac_OS_Roman dbr:Sigil_(application) dbr:Six-bit_character_code dbr:SubRip dbr:Comparison_of_Unicode_encodings dbr:Comparison_of_e-book_formats dbr:Comparison_of_file_systems dbr:Comparison_of_hex_editors dbr:Comparison_of_programming_languages_(string_functions) dbr:Personal_Storage_Table dbr:Private_Use_Areas dbr:Macintosh_Latin_encoding dbr:C++11 dbr:C0_and_C1_control_codes dbr:Tk_(software) dbr:UCS-2BE dbr:UCS-2LE dbr:Data_Coding_Scheme dbr:Western_Latin_character_sets_(computing) dbr:Windows_Notepad dbr:Windows_Registry dbr:Windows_Terminal dbr:GSM_03.38 dbr:GSM_03.40 dbr:HP_39/40_series dbr:Unicode_in_Microsoft_Windows dbr:7-Zip dbr:ASCII dbr:Acid3 dbr:ActionScript dbr:Adaptive_Server_Enterprise dbr:Cygwin dbr:EBCDIC dbr:EPUB dbr:ExFAT dbr:FastCopy dbr:File_Allocation_Table dbr:Filename dbr:Barcode_library dbr:PHP dbr:Charset_detection dbr:Gothic_alphabet dbr:Text_editor dbr:AL16UTF16 dbr:HFS_Plus dbr:Haml dbr:International_Components_for_Unicode dbr:JSON dbr:TextEdit dbr:Thai_Industrial_Standard_620-2533 dbr:Unicode_input dbr:Unicode_and_email dbr:Character_encodings_in_HTML dbr:Chinese_Character_Code_for_Information_Interchange dbr:Alembic dbr:Kana dbr:Kate_(text_editor) dbr:Binary_Ordered_Compression_for_Unicode dbr:Surrogate_pairs dbr:Swift_(programming_language) dbr:Code_page_1200 dbr:Code_page_1201 dbr:Java_class_file dbr:Java_syntax dbr:Plain_text dbr:Telegraph_code dbr:Text_file dbr:Utf-16 dbr:Bush_hid_the_facts dbr:Byte_order_mark dbr:C++_string_handling dbr:C11_(C_standard_revision) dbr:CCSID dbr:CD-Text dbr:CESU-8 dbr:Plane_(Unicode) dbr:Plastic_SCM dbr:Findstr dbr:IBM_i dbr:ICab dbr:ID3 dbr:ISO/IEC_2022 dbr:ISO_9660 dbr:Implementation_of_emojis dbr:Integer_(computer_science) dbr:Orders_of_magnitude_(numbers) dbr:RAR_(file_format) dbr:Seed7 dbr:Word_(computer_architecture) dbr:XHTML dbr:XML dbr:YAML dbr:Magic_number_(programming) dbr:Short_Message_Peer-to-Peer dbr:Standard_Compression_Scheme_for_Unicode dbr:UTF dbr:UTF-32 dbr:Variable-width_encoding dbr:Shellcode dbr:Snowball_(programming_language) dbr:Extended_Channel_Interpretation dbr:Windows_code_page dbr:Universal_Coded_Character_Set dbr:NT_LAN_Manager dbr:Mpxplay dbr:Slovene_alphabet dbr:Polish_alphabet dbr:Popularity_of_text_encodings dbr:Wide_character dbr:Unicode_equivalence dbr:Oracle_AL16UTF16 dbr:UTF16 dbr:UTF16BE dbr:UTF16LE dbr:16-bit_characters dbr:Supplementary_character dbr:Code_page_13488 dbr:Unicode_16 dbr:CsUTF16 dbr:CsUTF16BE dbr:CsUTF16LE dbr:UTF-16/UCS-2 dbr:UTF_16 dbr:Ucs2 dbr:UCS2 dbr:UCS_2 dbr:Windows-1200 dbr:Windows-1201 | ||||||
is dbp:encodings of | dbr:Universal_Coded_Character_Set | ||||||
is dbp:next of | dbr:Windows_code_page | ||||||
is foaf:primaryTopic of | wikipedia-en:UTF-16 |