UTF-8 (original) (raw)

About DBpedia

UTF-8 (8-bit Unicode Transformation Format) és una normativa de codificació de caràcters, per Unicode.

thumbnail

Property Value
dbo:abstract UTF-8 (8-bit Unicode Transformation Format) és una normativa de codificació de caràcters, per Unicode. (ca) UTF-8 (zkratka pro UCS/Unicode Transformation Format) je jedním ze způsobů kódování znaků, tedy přiřazení číselných kódů znakové sadě (písmenům abecedy a dalším znakům) pro potřeby počítačového zpracování textů. Představuje rozšířený mezinárodní standard dle norem Unicode/ISO/IEC 10646 a dominantní způsob kódování na internetovém webu, který umožňuje ukládat a zobrazovat texty s použitím široké palety světových písem. Používá proměnnou délku znaku od 1 do 4 bajtů, zatímco standardy UTF-16 a UTF-32 mají pevnou délku 2 a 4 bajty (16 a 32 bitů). Byl navržen pro zpětnou kompatibilitu s ASCII, které obsahuje jen základní sadu anglické abecedy a se kterým má totožný způsob kódování 1bajtových (7bitových) znaků. UTF-8 je definováno v ISO 10646-1:2000 Annex D, v a v Unicode 4.0. (cs) صيغة التحويل الموحد-8 (بالإنجليزية: UTF-8)‏ هي اختصار للمصطلح (8-bit Unicode Transformation Format) الذي يترجم إلى صيغة تحويل نظام الحروف الدولي الموحد بقوة 8 بت. هذا الترميز وضع من قبل كل من روب بايك وكين تومسن لتمثيل معيار نظام الحروف الدولي الموحد للحروف الأبجدية لأغلب لغات العالم، ويتم تشفير الرموز فيه في حجم يتراوح بين بايت واحد وأربعة بايت للرمز الواحد. (ar) Το UTF-8 (8-bit Unicode Transformation Format) είναι μη-απωλεστικό σχήμα κωδικοποίησης χαρακτήρων μεταβλητού μήκους για το πρότυπο Unicode που δημιουργήθηκε από τους Ken Thompson και Rob Pike. Χρησιμοποιεί ομάδες από byte για να αναπαραστήσει τα κωδικά σημεία του Unicode. Είναι ιδιαίτερα χρήσιμο για μετάδοση δεδομένων σε 8bit συστήματα ηλεκτρονικού ταχυδρομείου. Συγκεκριμένα χρησιμοποιεί ένα μέχρι τέσσερα byte ανά χαρακτήρα ανάλογα με το σύμβολο και το κωδικό του σημείο. Για παράδειγμα χρειάζεται μόνο ένα byte του UTF-8 για την κωδικοποίηση των 128 ASCII χαρακτήρων στο διάστημα του Unicode U+0000 μέχρι U+007F. Τέσσερα byte μπορεί να φαίνονται πολλά για έναν χαρακτήρα (κωδικό σημείο), παρ'όλα αυτά αυτό αφορά μόνο κωδικά σημεία εκτός του , τα οποία σπάνια χρησιμοποιούνται. Επίσης το (το κύριο εναλλακτικό σχήμα στο UTF-8) επίσης χρειάζεται τέσσερα byte για αυτά τα κωδικά σημεία. Το πιο είναι αποδοτικότερο το UTF-8 ή το UTF-16, εξαρτάται από το εύρος των κωδικών σημείων που θα χρησιμοποιηθούν. Οι διαφορές των δυο σχημάτων μπορούν όμως να γίνουν αμελητέες με την χρήση παραδοσιακών συστημάτων συμπίεσης όπως . Για μικρά κομμάτια κειμένου όπου οι παραδοσιακοί αλγόριθμοι δεν αποδίδουν καλά και όπου το μέγεθος του αρχείου μετράει μπορεί να χρησιμοποιηθεί και το . Η IETF (Internet Engineering Task Force) απαιτεί όλα τα πρωτόκολλα Διαδικτύου να αναγνωρίζουν και να υποστηρίζουν τουλάχιστον ως σχήμα κωδικοποίησης χαρακτήρων τουλάχιστον το UTF-8. (el) UTF-8 estas kodoprezento, maniero prezenti unikodajn signonumerojn per sinsekvo da bajtoj. Ĝia nomo devenas de la anglalingva mallongigo Unicode Transformation Format (unikoda transforma aranĝo). La nombro "8" indikas la fakton, ke la signonumerojn oni malkomponas en 8-bitajn bajtojn, bitokojn.Tia perbajta kodoprezento havas varian longon, de 1 ĝis 4 bajtoj. UTF-8 estas difinita en la normo . Principe ĝia skemo povas uzi ĝis 6 bitokojn por unu signo, sed la Unikodaj signonumeroj ne superas 17·216, kaj por tiuj sufiĉas 4 bitokoj. UTF-8 sekvas la principon, ke la komenca bitoko de signonumero estu klare rekonebla. Tial eblas malkodi kodoprezenton de signoĉeno ne nur ekde la komenco, sed de ajna ties pozicio. Tio funkcias, ĉar la unua bitoko en signonumero neniam komenciĝas per la bitoj "10", sed la sekvaj bitokoj ĉiam. Krome, la unua bitoko klare indikas, kiom da bitokoj havas la prezento de signonumero — nome tiom, kiom da unuoj (kiom da bitoj "1") aperas komence de la unua bitoko. Escepto estas la unubajtaj prezentoj de signonumeroj, kiuj komenciĝas per "0". (eo) UTF-8 (Abkürzung für 8-Bit UCS Transformation Format, wobei UCS wiederum Universal Coded Character Set abkürzt) ist die am weitesten verbreitete Kodierung für Unicode-Zeichen (Unicode und UCS sind praktisch identisch). Die Kodierung wurde im September 1992 von Ken Thompson und Rob Pike bei Arbeiten am Plan-9-Betriebssystem festgelegt. Sie wurde zunächst im Rahmen von X/Open als FSS-UTF bezeichnet (filesystem safe UTF in Abgrenzung zu UTF-1, das diese Eigenschaft nicht hat), in den Folgejahren erfolgte im Rahmen der Standardisierung die Umbenennung auf die heute übliche Bezeichnung UTF-8. UTF-8 ist in den ersten 128 Zeichen (Indizes 0–127) deckungsgleich mit ASCII und eignet sich mit in der Regel nur einem Byte Speicherbedarf für Zeichen vieler westlicher Sprachen, besonders für die Kodierung englischsprachiger Texte, die sich im Regelfall ohne Modifikation daher sogar mit nicht-UTF-8-fähigen Texteditoren ohne Beeinträchtigung bearbeiten lassen, was einen der Gründe für den Status als De-facto-Standard-Zeichenkodierung des Internet und damit verbundener Dokumenttypen darstellt. Im Juli 2022 verwendeten 97,7 % aller Websites UTF-8 und 98,8 % der Top 1000. In anderen Sprachen ist der Speicherbedarf in Byte pro Zeichen größer, wenn diese vom ASCII-Zeichensatz abweichen: Bereits die deutschen Umlaute erfordern zwei Byte, ebenso griechische oder kyrillische Zeichen. Zeichen fernöstlicher Sprachen und von Sprachen aus dem afrikanischen Raum belegen bis zu 4 Byte je Zeichen. Da die Verarbeitung von UTF-8 als Multibyte-Zeichenfolge wegen der notwendigen Analyse jedes Bytes im Vergleich zu Zeichenkodierungen mit fester Byteanzahl je Zeichen mehr Rechenaufwand und für bestimmte Sprachen auch mehr Speicherplatz erfordert, werden abhängig vom Einsatzszenario auch andere UTF-Kodierungen zur Abbildung von Unicode-Zeichensätzen verwendet. So führte Microsoft 1993 mit Windows NT 3.1 die Verwendung von UCS-2 ein, einer Zeichenkodierung, bei der jedes Zeichen fest zwei Bytes belegt. Da durch die spätere Weiterentwicklung von Unicode jedoch mit dieser Kodierung nicht mehr alle Zeichen darstellbar waren, erfolgte mit Windows 2000 ein neuerlicher Umstieg auf den kompatiblen Nachfolger UTF-16 Little Endian, womit man allerdings zugleich die Vorteile einer Kodierung mit fester Byteanzahl wieder verlor. (de) Informatikan, UTF-8 (8 biteko Unicode Transformazio Formatua) testuetako karaktereak kodetzeko modu bat da. Munduan zehar erabiltzen diren alfabeto guztiak erabiltzeko aukera ematen du (latindar alfabetoa, grekoak, ziriliko‎, arabiarra... UNICODEko kodetze-modua erabiliena da gaur egunean. UTF-8 Weberako bereziki kodeketa ohikoena da, baita bigarrena baina askoz gehiago erabilia ere. 2020an Web orrialde guztien %95 baino gehiago dira UTF-8-rekin kodetuta daudenak. Are gehiago, % 100-ra arte ailegatu zen 2020an hizkuntza batzuetarako. (eu) UTF-8 (8-bit Unicode Transformation Format) es un formato de codificación de caracteres Unicode e ISO 10646 que utiliza símbolos de longitud variable. UTF-8 fue creado por Robert C. Pike y Kenneth L. Thompson. Está definido como estándar por la <RFC 3629> de la Internet Engineering Task Force (IETF).​ Actualmente es una de las tres posibilidades de codificación reconocidas por Unicode y lenguajes web, o cuatro en ISO 10646. Sus características principales son: * Es capaz de representar cualquier carácter Unicode. * Usa símbolos de longitud variable (de 1 a 4 bytes por carácter Unicode). * Incluye la especificación US-ASCII de 7 bits, por lo que cualquier mensaje ASCII se representa sin cambios. * Incluye sincronía. Es posible determinar el inicio de cada símbolo sin reiniciar la lectura desde el principio de la comunicación. * No superposición. Los conjuntos de valores que puede tomar cada byte de un carácter multibyte, son disjuntos, por lo que no es posible confundirlos entre sí. Estas características lo hacen atractivo en la codificación de correos electrónicos y páginas web.​​ El IETF requiere que todos los protocolos de Internet indiquen qué codificación utilizan para los textos y que UTF-8 sea una de las codificaciones contempladas.​ El (IMC) recomienda que todos los programas de correo electrónico sean capaces de crear y mostrar mensajes codificados utilizando UTF-8.​ (es) UTF-8 (abréviation de l'anglais Universal Character Set Transformation Format - 8 bits) est un codage de caractères informatiques conçu pour coder l'ensemble des caractères du « répertoire universel de caractères codés », initialement développé par l'ISO dans la norme internationale ISO/CEI 10646, aujourd'hui totalement compatible avec le standard Unicode, en restant compatible avec la norme ASCII limitée à l'anglais de base, mais très largement répandue depuis des décennies. L'UTF-8 est utilisé par 82,2 % des sites web en décembre 2014, 87,6 % en 2016, 90,5 % en 2017, 93,1 % en février 2019 et près de 95,2 % en octobre 2020. Par sa nature, UTF-8 est d'un usage de plus en plus courant sur Internet, et dans les systèmes devant échanger de l'information. Il s'agit également du codage le plus utilisé dans les systèmes GNU/Linux et compatibles pour gérer le plus simplement possible des textes et leurs traductions dans tous les systèmes d'écritures et tous les alphabets du monde. (fr) UTF-8 (Universal Character Set (UCS) Transformation Format — 8-bit) adalah sebuah pengkodean karakter dengan lebar variabel tertentu (variable-width encoding) yang mewakili setiap karakter komputer (character) dalam himpunan karakter Unicode. Didesain untuk backward compatibility dengan ASCII dan untuk menghindari komplikasi endianness dan byte order mark dalam UTF-16 dan UTF-32. UTF-8 telah menjadi metode pengkodean karakter (character encoding) yang dominan untuk World Wide Web, meliputi lebih dari setengah jumlah seluruh halaman Web. Internet Engineering Task Force (IETF) mengharuskan semua protokol Internet untuk mengidentifikasi encoding yang dipakai untuk data karakter, dan pengkodean karakter yang didukung (supported character encoding) untuk menyertakan UTF-8. Internet Mail Consortium (IMC) merekomendasi seluruh program e-mail dapat menayangkan dan membuat e-mail menggunakan UTF-8. UTF-8 juga terus meningkat penggunaannya sebagai default character encoding dalam sistem operasi, bahasa pemrograman, API, dan aplikasi perangkat lunak. (in) UTF-8 is a variable-length character encoding used for electronic communication. Defined by the Unicode Standard, the name is derived from Unicode (or Universal Coded Character Set) Transformation Format – 8-bit. UTF-8 is capable of encoding all 1,112,064 valid character code points in Unicode using one to four one-byte (8-bit) code units. Code points with lower numerical values, which tend to occur more frequently, are encoded using fewer bytes. It was designed for backward compatibility with ASCII: the first 128 characters of Unicode, which correspond one-to-one with ASCII, are encoded using a single byte with the same binary value as ASCII, so that valid ASCII text is valid UTF-8-encoded Unicode as well. UTF-8 was designed as a superior alternative to UTF-1, a proposed variable-length encoding with partial ASCII compatibility which lacked some features including self-synchronization and fully ASCII-compatible handling of characters such as slashes. Ken Thompson and Rob Pike produced the first implementation for the Plan 9 operating system in September 1992. This led to its adoption by X/Open as its specification for FSS-UTF, which would first be officially presented at USENIX in January 1993 and subsequently adopted by the Internet Engineering Task Force (IETF) in RFC 2277 (BCP 18) for future internet standards work, replacing Single Byte Character Sets such as Latin-1 in older RFCs. UTF-8 is the dominant encoding for the World Wide Web (and internet technologies), accounting for 98.0% of all web pages, and up to 100.0% for many languages, as of 2022. (en) UTF-8은 유니코드를 위한 가변 길이 문자 인코딩 방식 중 하나로, 켄 톰프슨과 롭 파이크가 만들었다. UTF-8은 Universal Coded Character Set + Transformation Format – 8-bit의 약자이다. 본래는 FSS-UTF(File System Safe UCS/Unicode Transformation Format)라는 이름으로 제안되었다. UTF-8 인코딩은 유니코드 한 문자를 나타내기 위해 1바이트에서 4바이트까지를 사용한다. 예를 들어서, U+0000부터 U+007F 범위에 있는 ASCII 문자들은 UTF-8에서 1바이트만으로 표시된다. 4바이트로 표현되는 문자는 모두 기본 다국어 평면(BMP) 바깥의 유니코드 문자이며, 거의 사용되지 않는다. UTF-16과 UTF-8 중 어느 인코딩이 더 적은 바이트를 사용하는지는 문자열에서 사용된 코드 포인트에 따라 달라지며, 실제로 DEFLATE와 같은 일반적인 압축 알고리즘을 사용할 경우 이 차이는 무시할 수 있을 정도이다. 이러한 압축 알고리즘을 사용하기 힘들고 크기가 중요할 경우 (Standard Compression Scheme for Unicode)을 대신 사용할 수 있다. (ko) UTF-8 (Unicode Transformation Format, 8 bit) è una codifica di caratteri Unicode in sequenze di lunghezza variabile di byte, creata da Rob Pike e Ken Thompson. UTF-8 usa gruppi di byte per rappresentare i caratteri Unicode, ed è particolarmente utile per il trasferimento tramite sistemi di posta elettronica a 8-bit. (it) UTF-8 (ang. 8-bit Unicode Transformation Format) – system kodowania Unicode, wykorzystujący od 1 do 4 bajtów do zakodowania pojedynczego znaku, w pełni kompatybilny z ASCII. Jest najczęściej wykorzystywany do przechowywania napisów w plikach i komunikacji sieciowej. (pl) UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1〜4バイトの可変長)の文字符号化形式および文字符号化スキーム。 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 当初は、ベル研究所においてPlan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された。 (ja) UTF-8 (8-bit Unicode Transformation Format) is een manier om Unicode/ISO 10646-tekens op te slaan als een stroom van bytes, een zogenaamde tekencodering. Alternatieven zijn UTF-16 en . UTF-8 is een tekencodering met variabele lengte: niet elk teken gebruikt evenveel bytes. Afhankelijk van het teken worden 1 tot 4 bytes gebruikt. Voor de 128 ASCII-tekens is slechts één byte nodig, waarvan de numerieke waarde gelijk is aan de ASCII-code. Voor alle andere tekens zijn twee of meer bytes nodig. Vóór de komst van Unicode gebruikten veel landen een uitbreiding op de ASCII-tekenset met taalspecifieke tekens in de posities 128-255. (nl) UTF-8 (от англ. Unicode Transformation Format, 8-bit — «формат преобразования Юникода, 8-бит») — распространённый стандарт кодирования символов, позволяющий более компактно хранить и передавать символы Юникода, используя переменное количество байт (от 1 до 4), и обеспечивающий полную обратную совместимость с 7-битной кодировкой ASCII. Стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D. Кодировка UTF-8 сейчас является доминирующей в веб-пространстве. Она также нашла широкое применение в UNIX-подобных операционных системах. Формат UTF-8 был разработан 2 сентября 1992 года Кеном Томпсоном и Робом Пайком, и реализован в Plan 9. Идентификатор кодировки в Windows — 65001. UTF-8, по сравнению с UTF-16, наибольший выигрыш в компактности даёт для текстов на латинице, поскольку латинские буквы без диакритических знаков, цифры и наиболее распространённые знаки препинания кодируются в UTF-8 лишь одним байтом, и коды этих символов соответствуют их кодам в ASCII. (ru) UTF-8 (åtta-bitars Unicode transformationsformat) är en längdvarierande teckenkodning som används för att representera text kodad i Unicode, som en sekvens av byte (oktetter). Unicode använder upp till 21 bitar per tecken, vilket inte får plats i en byte, och därför används till exempel i textfiler vanligen en av metoderna UTF-8 eller UTF-16 för att få en serie bytes. UTF-8 har valts som huvudsaklig teckenkodning i internetprotokoll: nya protokoll måste ge stöd till denna teckenkodning, om det inte av speciella skäl är olämpligt. (sv) UTF-8 (8-bit Unicode Transformation Format) é um tipo de codificação binária (Unicode) de comprimento variável criado por Ken Thompson e Rob Pike. Pode representar qualquer caractere universal padrão do Unicode, sendo também compatível com o ASCII. Por esta razão, está lentamente a ser adaptado como tipo de codificação padrão para e-mail, páginas web, e outros locais onde os caracteres são armazenados. UTF-8 usa de um a quatro bytes (estritamente, octetos) por caractere, dependendo do símbolo Unicode que representa. É necessário apenas um byte para codificar os 128 caracteres ASCII (Unicode U+0000 a U+007F). São necessários dois bytes para caracteres Latinos com diacríticos. São também usados dois bytes para representar caracteres dos alfabetos Grego, Cirílico, Armênio, Hebraico, Sírio e Thaana (Unicode U+0080 a U+07FF). São necessários três bytes para o resto do (que contém praticamente todos os caracteres comuns utilizados). Existem ainda outros caracteres que necessitam de quatro bytes. Quatro bytes pode parecer muito para um caractere ("code point"), mas muito raramente são utilizados. Além disso, UTF-16 (a principal alternativa ao UTF-8) necessita também de quatro bytes para estes "code points". A definição de qual dos dois é mais eficiente (UTF-8 ou UTF-16) depende da variedade de "code points" usados. Contudo, as diferenças entre os vários tipos de codificação tornam-se irrelevantes com o uso de sistemas de compressão como o DEFLATE. Para textos curtos nos quais os tradicionais algoritmos não funcionam bem e se faz necessário ter o tamanho em consideração, é geralmente usado o Esquema Padrão de Compressão para Unicode (Standard Compression Scheme for Unicode). O "Internet Engineering Task Force" (IETF) requer que todos os protocolos utilizados na Internet suportem, pelo menos, o UTF-8. O "Internet Mail Consortium" (IMC) [1] recomenda que todos os clientes de e-mail consigam ler e criar mails usando o UTF-8. (pt) UTF-8 (від англ. Unicode Transformation Format — формат перетворення Юнікоду) — кодування, що реалізовує представлення Юнікоду, сумісне з 8-бітовим кодуванням тексту. Текст, що складається тільки з символів, коди яких менші ніж 128, при записі в UTF-8 перетворюється на звичайний текст ASCII. І навпаки, в тексті UTF-8 будь-який байт із значенням менше, ніж 128 зображає символ ASCII з тим же кодом. Решта символів Юнікоду зображається послідовностями завдовжки від 2 до 6 байтів (реально тільки до 4 байтів, оскільки використання кодів більших, ніж 221 не планується), в яких перший байт завжди має вид 11xxxxxx, а решта — 10xxxxxx. Простіше кажучи, у форматі UTF-8 символи латинського алфавіту, розділові знаки і символи управління ASCII записуються кодами US-ASCII, а решта символів кодується за допомогою октетів із старшим бітом 1. В результаті, навіть якщо програма не розпізнає Юнікод, то англійська мова і розмітка все одно відображатимуться правильно. Формат UTF-8 був винайдений 2 вересня 1992 року Кеном Томпсоном і Робом Пайком і реалізований в Plan 9. Зараз стандарт UTF-8 офіційно закріплений в документах RFC 3629 і ISO/IEC 10646 Annex D. Символи UTF-8 виходять з Unicode таким чином: Також теоретично можливі, але не включені в стандарти: Зауваження: Символи, закодовані в UTF-8, можуть бути завдовжки до шести байтів, проте стандарт Unicode не визначає символів вище 0x10ffff, тому символи Unicode можуть мати максимальний розмір в 4 байти в UTF-8. (uk) UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼,也是一种前缀码。它可以用一至四个字节对Unicode字符集中的所有有效编码点进行编码,属于Unicode标准的一部分,最初由肯·汤普逊和提出。由于较小值的编码点一般使用频率较高,直接使用Unicode编码效率低下,大量浪费内存空间。UTF-8就是为了解决向后兼容ASCII码而设计,Unicode中前128个字符,使用与ASCII码相同的二进制值的单个字节进行编码,而且字面与ASCII码的字面一一对应,這使得原來處理ASCII字元的軟體無須或只須做少部份修改,即可繼續使用。因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字優先採用的編碼方式。 自2009年以来,UTF-8一直是万维网的最主要的编码形式(对所有,而不仅是Unicode范围内的编码)(并由WHATWG宣布为强制性的“适用于所有事物(for all things)”,截止到2019年11月, 在所有网页中,UTF-8编码应用率高达94.3%(其中一些仅是ASCII编码,因为它是UTF-8的子集),而在排名最高的1000个网页中占96%。 第二热门的多字节编码方式Shift JIS和GB 2312分别具有0.3%和0.2%的占有率。Internet邮件联盟( Internet Mail Consortium, IMC)建议所有电子邮件程序都能够使用UTF-8展示和创建邮件, W3C建议UTF-8作为XML文件和HTML文件的默认编码方式。網際網路工程工作小組(IETF)要求所有網際網路協議都必須支持UTF-8編碼。(IMC)建議所有電子郵件軟件都支持UTF-8編碼。 (zh)
dbo:thumbnail wiki-commons:Special:FilePath/UTF-8_takes_over.png?width=300
dbo:wikiPageExternalLink https://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt http://www.w3.org/2001/06/utf-8-test/UTF-8-demo.html https://web.archive.org/web/20000917055036/http:/plan9.bell-labs.com/sys/doc/utf.pdf https://web.archive.org/web/20171130213601/http:/www.user.uni-hannover.de/nhtcapri/multilingual1.html http://www.unicode.org/versions/latest/ http://titus.uni-frankfurt.de/indexe.htm%3F/unicode/unitest.htm http://www.tldp.org/HOWTO/Unicode-HOWTO.html http://www.user.uni-hannover.de/nhtcapri/multilingual1.html http://doc.cat-v.org/plan_9/4th_edition/papers/utf https://wiki.gentoo.org/wiki/UTF-8 http://www.cl.cam.ac.uk/~mgk25/unicode.html
dbo:wikiPageID 32188 (xsd:integer)
dbo:wikiPageLength 95448 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID 1124203220 (xsd:integer)
dbo:wikiPageWikiLink dbr:Caret dbr:Cascading_Style_Sheets dbr:Bell_character dbr:Pound_sign dbr:Private_Use_Area dbr:PyPy dbr:Python_(language) dbr:Python_(programming_language) dbr:Q dbr:Qt_(software) dbr:Question_mark dbr:Ruby_(programming_language) dbr:San_Diego dbr:End-of-Text_character dbr:End-of-Transmission_character dbr:Enquiry_character dbr:Mojibake dbr:N'Ko_script dbr:Null-terminated_string dbr:X/Open dbr:Basic_Multilingual_Plane dbr:Bell_Labs dbr:Bitwise_operation dbr:Devanagari dbr:Arabic_(Unicode_block) dbr:Arabic_Supplement dbr:Julia_(programming_language) dbr:Percent_sign dbr:Rob_Pike dbr:Character_encoding dbr:Cyrillic_(Unicode_block) dbr:Cyrillic_Supplement dbr:UTF-1 dbr:UTF-16 dbr:UTF-EBCDIC dbr:Underscore dbr:Unicode dbr:Unicode_Consortium dbr:Unicode_Standard dbr:Unicode_Transformation_Format dbr:Unicode_and_HTML dbr:Universal_Character_Set_characters dbr:Unix dbr:Unix_System_Laboratories dbr:V dbr:Vertical_bar dbr:Devanagari_(Unicode_block) dbr:Input/output dbr:Internet_Mail_Consortium dbr:Latin-1_Supplement_(Unicode_block) dbr:` dbr:0 dbc:Computer-related_introductions_in_1993 dbr:Colon_(punctuation) dbr:Comma_(punctuation) dbr:Coptic_alphabet dbr:Rust_(programming_language) dbr:S dbr:Escape_character dbr:Thaana_(Unicode_block) dbr:Telnet dbr:Emoji dbr:Environment_variable dbr:Equals_sign dbr:Full_stop dbr:G dbr:GB_18030 dbr:GB_2312 dbr:Glossary_of_mathematical_symbols dbr:Go_(programming_language) dbr:Greater-than_sign dbr:Greek_alphabet dbr:Minus_sign dbr:MySQL dbr:N dbr:Cross-site_scripting dbr:Dalvik_(software) dbr:Apostrophe dbr:Arabic_alphabet dbr:Less-than_sign dbr:Line_feed dbr:M dbr:Slash_(punctuation) dbr:Combining_Diacritical_Marks dbr:Combining_character dbr:Comparison_of_Unicode_encodings dbr:Delete_character dbr:Z dbr:Device_Control_1 dbr:Device_Control_2 dbr:Device_Control_3 dbr:Device_Control_4 dbr:Iconv dbr:Path_(computing) dbr:Printer_Command_Language dbr:Private_Use_Areas dbr:Specials_(Unicode_block) dbr:String_literal dbr:Substitute_character dbr:Syriac_(Unicode_block) dbr:Tab_key dbr:Placemat dbr:1 dbr:B dbr:Backslash dbc:Character_encoding dbc:Encodings dbr:Byte dbr:C dbr:C++20 dbr:Tilde dbr:U dbr:UCS-2 dbr:US-ASCII dbr:USENIX dbr:Data_corruption dbr:Data_truncation dbr:W dbr:WHATWG dbr:Web_browser dbr:Windows dbr:Windows_7 dbr:Windows_XP dbr:Curly_brackets dbr:Latin-script_alphabet dbr:Latin_Extended-A dbr:Latin_Extended-B dbr:Long-term_support dbr:Unicode_in_Microsoft_Windows dbr:2 dbr:3 dbr:4 dbr:5 dbr:6 dbr:7 dbr:8 dbr:9 dbr:@ dbr:A dbr:ASCII dbr:Addendum dbr:Alt_code dbr:Ampersand dbr:32-bit_computing dbr:Cyrillic_script dbr:D dbr:E dbr:Euro_sign dbr:Exclamation_mark dbr:F dbr:Form_feed dbr:Null_character dbr:Number_sign dbr:P dbr:Parenthesis dbr:Request_for_Comments dbr:End_of_medium dbr:Prefix_code dbr:Replacement_character dbr:H dbr:HTML dbr:HTML5 dbr:HTTP_headers dbr:Hangul dbr:Hangul_Syllables dbr:Hebrew_alphabet dbr:Hexadecimal dbr:International_Organization_for_Standardization dbr:International_Phonetic_Alphabet dbr:Internet_Assigned_Numbers_Authority dbr:Internet_Engineering_Task_Force dbr:Internet_Information_Services dbr:J dbr:JSON dbr:JavaScript dbr:Java_(programming_language) dbr:Java_Native_Interface dbr:Backspace dbr:Backward_compatibility dbc:Unicode_Transformation_Formats dbr:Tcl dbr:Thaana dbr:Hwair dbr:Phonetic_symbols_in_Unicode dbr:Unicode_and_email dbr:Start_of_heading dbr:Start_of_text dbr:Armenian_alphabet dbr:Asterisk dbr:Character_encodings_in_HTML dbr:K dbr:Ken_Thompson dbr:L dbr:Bitstream dbr:Supplementary_Multilingual_Plane dbr:Supplementary_Special-purpose_Plane dbr:Swift_(programming_language) dbr:Syriac_alphabet dbr:T dbr:Code_page dbr:Code_point dbr:Regional_indicator_symbol dbr:Document_Object_Model dbr:Dollar_sign dbr:Byte-oriented_protocol dbr:Byte_order_mark dbr:CESU-8 dbr:CJK_Unified_Ideographs dbr:CJK_characters dbr:Plan_9_from_Bell_Labs dbr:Plane_(Unicode) dbr:Plus_sign dbr:Square_brackets dbr:Greek_and_Coptic dbr:Data_link_escape dbr:End_of_transmission_block dbr:I dbr:IBM dbr:ISO/IEC_8859-1 dbr:Microsoft_Excel dbr:Microsoft_Visual_Studio dbr:Microsoft_Windows dbr:Microsoft_Word dbr:Negative-acknowledge_character dbr:O dbr:Octal dbr:Octet_(computing) dbr:Operating_system dbr:Oracle_Database dbr:Cancel_character dbr:Carriage_return dbr:Quotation_mark dbr:R dbr:R_(programming_language) dbr:Semicolon dbr:World_Wide_Web_Consortium dbr:X dbr:XML dbr:Xbox dbr:Y dbr:Synchronous_idle dbr:Universal_Character_Set dbr:Variable-width_encoding dbr:Vertical_tab dbr:World_Wide_Web dbr:Extended_ASCII dbr:IPA_Extensions dbr:ISO/IEC_10646 dbr:Thai_alphabet dbr:Unicode_and_HTML_for_the_Hebrew_alphabet dbr:Windows_code_page dbr:Tokenize dbr:NKo_(Unicode_block) dbr:Acknowledge_character dbr:Self-synchronizing_code dbr:Non-blocking_I/O_(Java) dbr:Java_serialization dbr:Unicode_equivalence dbr:String-searching_algorithm dbr:Single_Byte_Character_Set dbr:Microsoft_Game_Development_Kit dbr:File_separator dbr:Class_(file_format) dbr:Group_separator dbr:MirBSD dbr:Record_separator dbr:Latin-1 dbr:Unit_separator dbr:CP1252 dbr:Space_character dbr:Denial_of_service dbr:Shift_in dbr:Shift_out dbr:File:Utf8webgrowth.svg dbr:File:UTF-8_takes_over.png
dbp:classification dbr:Unicode_Transformation_Format dbr:Variable-width_encoding dbr:Extended_ASCII
dbp:date 2017-11-30 (xsd:date)
dbp:encodes ISO/IEC 10646 (en)
dbp:extends dbr:US-ASCII
dbp:id MijmeoH9LT4 (en)
dbp:name UTF-8 (en)
dbp:prev dbr:UTF-1
dbp:standard http://www.unicode.org/versions/latest/
dbp:title Characters, Symbols and the Unicode Miracle (en)
dbp:url https://web.archive.org/web/20171130213601/http:/www.user.uni-hannover.de/nhtcapri/multilingual1.html
dbp:wikiPageUsesTemplate dbt:Rob_Pike_navbox dbt:Ken_Thompson_navbox dbt:= dbt:Anchor dbt:As_of dbt:Citation_needed dbt:Cn dbt:Code dbt:Fontcolor dbt:IETF_RFC dbt:Legend dbt:Main dbt:Mono dbt:Nbsp dbt:Reflist dbt:Refs dbt:Section_link dbt:See_also dbt:Short_description dbt:Snd dbt:Webarchive dbt:YouTube dbt:Pipe dbt:Chset-cell1 dbt:Unicode_navigation dbt:Trivia dbt:Character_encoding dbt:Chset-ctrl1 dbt:Chset-left1 dbt:Infobox_character_encoding
dcterms:subject dbc:Computer-related_introductions_in_1993 dbc:Character_encoding dbc:Encodings dbc:Unicode_Transformation_Formats
gold:hypernym dbr:Character
rdf:type owl:Thing dbo:Language yago:WikicatCharacterSets yago:WikicatUnicodeTransformationFormats yago:Abstraction100002137 yago:Act100030358 yago:Activity100407535 yago:CharacterSet106488880 yago:Communication100033020 yago:Cryptography100614489 yago:Database106637824 yago:Encoding100615887 yago:Event100029378 yago:Format106636806 yago:Information106634376 yago:List106481320 yago:Message106598915 yago:PsychologicalFeature100023100 yago:Writing100614224 yago:YagoPermanentlyLocatedEntity dbo:FictionalCharacter yago:WikicatEncodings
rdfs:comment UTF-8 (8-bit Unicode Transformation Format) és una normativa de codificació de caràcters, per Unicode. (ca) صيغة التحويل الموحد-8 (بالإنجليزية: UTF-8)‏ هي اختصار للمصطلح (8-bit Unicode Transformation Format) الذي يترجم إلى صيغة تحويل نظام الحروف الدولي الموحد بقوة 8 بت. هذا الترميز وضع من قبل كل من روب بايك وكين تومسن لتمثيل معيار نظام الحروف الدولي الموحد للحروف الأبجدية لأغلب لغات العالم، ويتم تشفير الرموز فيه في حجم يتراوح بين بايت واحد وأربعة بايت للرمز الواحد. (ar) Informatikan, UTF-8 (8 biteko Unicode Transformazio Formatua) testuetako karaktereak kodetzeko modu bat da. Munduan zehar erabiltzen diren alfabeto guztiak erabiltzeko aukera ematen du (latindar alfabetoa, grekoak, ziriliko‎, arabiarra... UNICODEko kodetze-modua erabiliena da gaur egunean. UTF-8 Weberako bereziki kodeketa ohikoena da, baita bigarrena baina askoz gehiago erabilia ere. 2020an Web orrialde guztien %95 baino gehiago dira UTF-8-rekin kodetuta daudenak. Are gehiago, % 100-ra arte ailegatu zen 2020an hizkuntza batzuetarako. (eu) UTF-8 (Unicode Transformation Format, 8 bit) è una codifica di caratteri Unicode in sequenze di lunghezza variabile di byte, creata da Rob Pike e Ken Thompson. UTF-8 usa gruppi di byte per rappresentare i caratteri Unicode, ed è particolarmente utile per il trasferimento tramite sistemi di posta elettronica a 8-bit. (it) UTF-8 (ang. 8-bit Unicode Transformation Format) – system kodowania Unicode, wykorzystujący od 1 do 4 bajtów do zakodowania pojedynczego znaku, w pełni kompatybilny z ASCII. Jest najczęściej wykorzystywany do przechowywania napisów w plikach i komunikacji sieciowej. (pl) UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1〜4バイトの可変長)の文字符号化形式および文字符号化スキーム。 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 当初は、ベル研究所においてPlan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された。 (ja) UTF-8 (åtta-bitars Unicode transformationsformat) är en längdvarierande teckenkodning som används för att representera text kodad i Unicode, som en sekvens av byte (oktetter). Unicode använder upp till 21 bitar per tecken, vilket inte får plats i en byte, och därför används till exempel i textfiler vanligen en av metoderna UTF-8 eller UTF-16 för att få en serie bytes. UTF-8 har valts som huvudsaklig teckenkodning i internetprotokoll: nya protokoll måste ge stöd till denna teckenkodning, om det inte av speciella skäl är olämpligt. (sv) UTF-8 (zkratka pro UCS/Unicode Transformation Format) je jedním ze způsobů kódování znaků, tedy přiřazení číselných kódů znakové sadě (písmenům abecedy a dalším znakům) pro potřeby počítačového zpracování textů. Představuje rozšířený mezinárodní standard dle norem Unicode/ISO/IEC 10646 a dominantní způsob kódování na internetovém webu, který umožňuje ukládat a zobrazovat texty s použitím široké palety světových písem. (cs) Το UTF-8 (8-bit Unicode Transformation Format) είναι μη-απωλεστικό σχήμα κωδικοποίησης χαρακτήρων μεταβλητού μήκους για το πρότυπο Unicode που δημιουργήθηκε από τους Ken Thompson και Rob Pike. Χρησιμοποιεί ομάδες από byte για να αναπαραστήσει τα κωδικά σημεία του Unicode. Είναι ιδιαίτερα χρήσιμο για μετάδοση δεδομένων σε 8bit συστήματα ηλεκτρονικού ταχυδρομείου. Η IETF (Internet Engineering Task Force) απαιτεί όλα τα πρωτόκολλα Διαδικτύου να αναγνωρίζουν και να υποστηρίζουν τουλάχιστον ως σχήμα κωδικοποίησης χαρακτήρων τουλάχιστον το UTF-8. (el) UTF-8 (Abkürzung für 8-Bit UCS Transformation Format, wobei UCS wiederum Universal Coded Character Set abkürzt) ist die am weitesten verbreitete Kodierung für Unicode-Zeichen (Unicode und UCS sind praktisch identisch). Die Kodierung wurde im September 1992 von Ken Thompson und Rob Pike bei Arbeiten am Plan-9-Betriebssystem festgelegt. Sie wurde zunächst im Rahmen von X/Open als FSS-UTF bezeichnet (filesystem safe UTF in Abgrenzung zu UTF-1, das diese Eigenschaft nicht hat), in den Folgejahren erfolgte im Rahmen der Standardisierung die Umbenennung auf die heute übliche Bezeichnung UTF-8. (de) UTF-8 estas kodoprezento, maniero prezenti unikodajn signonumerojn per sinsekvo da bajtoj. Ĝia nomo devenas de la anglalingva mallongigo Unicode Transformation Format (unikoda transforma aranĝo). La nombro "8" indikas la fakton, ke la signonumerojn oni malkomponas en 8-bitajn bajtojn, bitokojn.Tia perbajta kodoprezento havas varian longon, de 1 ĝis 4 bajtoj. UTF-8 estas difinita en la normo . Principe ĝia skemo povas uzi ĝis 6 bitokojn por unu signo, sed la Unikodaj signonumeroj ne superas 17·216, kaj por tiuj sufiĉas 4 bitokoj. (eo) UTF-8 (8-bit Unicode Transformation Format) es un formato de codificación de caracteres Unicode e ISO 10646 que utiliza símbolos de longitud variable. UTF-8 fue creado por Robert C. Pike y Kenneth L. Thompson. Está definido como estándar por la <RFC 3629> de la Internet Engineering Task Force (IETF).​ Actualmente es una de las tres posibilidades de codificación reconocidas por Unicode y lenguajes web, o cuatro en ISO 10646. Sus características principales son: (es) UTF-8 (abréviation de l'anglais Universal Character Set Transformation Format - 8 bits) est un codage de caractères informatiques conçu pour coder l'ensemble des caractères du « répertoire universel de caractères codés », initialement développé par l'ISO dans la norme internationale ISO/CEI 10646, aujourd'hui totalement compatible avec le standard Unicode, en restant compatible avec la norme ASCII limitée à l'anglais de base, mais très largement répandue depuis des décennies. (fr) UTF-8 (Universal Character Set (UCS) Transformation Format — 8-bit) adalah sebuah pengkodean karakter dengan lebar variabel tertentu (variable-width encoding) yang mewakili setiap karakter komputer (character) dalam himpunan karakter Unicode. Didesain untuk backward compatibility dengan ASCII dan untuk menghindari komplikasi endianness dan byte order mark dalam UTF-16 dan UTF-32. (in) UTF-8 is a variable-length character encoding used for electronic communication. Defined by the Unicode Standard, the name is derived from Unicode (or Universal Coded Character Set) Transformation Format – 8-bit. UTF-8 is the dominant encoding for the World Wide Web (and internet technologies), accounting for 98.0% of all web pages, and up to 100.0% for many languages, as of 2022. (en) UTF-8은 유니코드를 위한 가변 길이 문자 인코딩 방식 중 하나로, 켄 톰프슨과 롭 파이크가 만들었다. UTF-8은 Universal Coded Character Set + Transformation Format – 8-bit의 약자이다. 본래는 FSS-UTF(File System Safe UCS/Unicode Transformation Format)라는 이름으로 제안되었다. (ko) UTF-8 (8-bit Unicode Transformation Format) is een manier om Unicode/ISO 10646-tekens op te slaan als een stroom van bytes, een zogenaamde tekencodering. Alternatieven zijn UTF-16 en . UTF-8 is een tekencodering met variabele lengte: niet elk teken gebruikt evenveel bytes. Afhankelijk van het teken worden 1 tot 4 bytes gebruikt. Voor de 128 ASCII-tekens is slechts één byte nodig, waarvan de numerieke waarde gelijk is aan de ASCII-code. Voor alle andere tekens zijn twee of meer bytes nodig. (nl) UTF-8 (8-bit Unicode Transformation Format) é um tipo de codificação binária (Unicode) de comprimento variável criado por Ken Thompson e Rob Pike. Pode representar qualquer caractere universal padrão do Unicode, sendo também compatível com o ASCII. Por esta razão, está lentamente a ser adaptado como tipo de codificação padrão para e-mail, páginas web, e outros locais onde os caracteres são armazenados. (pt) UTF-8 (от англ. Unicode Transformation Format, 8-bit — «формат преобразования Юникода, 8-бит») — распространённый стандарт кодирования символов, позволяющий более компактно хранить и передавать символы Юникода, используя переменное количество байт (от 1 до 4), и обеспечивающий полную обратную совместимость с 7-битной кодировкой ASCII. Стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D. Кодировка UTF-8 сейчас является доминирующей в веб-пространстве. Она также нашла широкое применение в UNIX-подобных операционных системах. (ru) UTF-8 (від англ. Unicode Transformation Format — формат перетворення Юнікоду) — кодування, що реалізовує представлення Юнікоду, сумісне з 8-бітовим кодуванням тексту. Текст, що складається тільки з символів, коди яких менші ніж 128, при записі в UTF-8 перетворюється на звичайний текст ASCII. І навпаки, в тексті UTF-8 будь-який байт із значенням менше, ніж 128 зображає символ ASCII з тим же кодом. Решта символів Юнікоду зображається послідовностями завдовжки від 2 до 6 байтів (реально тільки до 4 байтів, оскільки використання кодів більших, ніж 221 не планується), в яких перший байт завжди має вид 11xxxxxx, а решта — 10xxxxxx. Простіше кажучи, у форматі UTF-8 символи латинського алфавіту, розділові знаки і символи управління ASCII записуються кодами US-ASCII, а решта символів кодується за д (uk) UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼,也是一种前缀码。它可以用一至四个字节对Unicode字符集中的所有有效编码点进行编码,属于Unicode标准的一部分,最初由肯·汤普逊和提出。由于较小值的编码点一般使用频率较高,直接使用Unicode编码效率低下,大量浪费内存空间。UTF-8就是为了解决向后兼容ASCII码而设计,Unicode中前128个字符,使用与ASCII码相同的二进制值的单个字节进行编码,而且字面与ASCII码的字面一一对应,這使得原來處理ASCII字元的軟體無須或只須做少部份修改,即可繼續使用。因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字優先採用的編碼方式。 (zh)
rdfs:label صيغة التحويل الموحد-8 (ar) UTF-8 (ca) UTF-8 (cs) UTF-8 (de) UTF-8 (el) UTF-8 (eo) UTF-8 (eu) UTF-8 (es) UTF-8 (in) UTF-8 (en) UTF-8 (it) UTF-8 (fr) UTF-8 (ko) UTF-8 (nl) UTF-8 (ja) UTF-8 (pt) UTF-8 (pl) UTF-8 (ru) UTF-8 (sv) UTF-8 (uk) UTF-8 (zh)
rdfs:seeAlso dbr:Comparison_of_Unicode_encodings dbr:Universal_Coded_Character_Set dbr:Popularity_of_text_encodings
owl:sameAs freebase:UTF-8 wikidata:UTF-8 dbpedia-ar:UTF-8 dbpedia-az:UTF-8 dbpedia-bg:UTF-8 http://bn.dbpedia.org/resource/ইউটিএফ-৮ http://bs.dbpedia.org/resource/UTF-8 dbpedia-ca:UTF-8 dbpedia-cs:UTF-8 http://cv.dbpedia.org/resource/UTF-8 dbpedia-da:UTF-8 dbpedia-de:UTF-8 dbpedia-el:UTF-8 dbpedia-eo:UTF-8 dbpedia-es:UTF-8 dbpedia-eu:UTF-8 dbpedia-fa:UTF-8 dbpedia-fr:UTF-8 dbpedia-he:UTF-8 dbpedia-hr:UTF-8 dbpedia-hu:UTF-8 dbpedia-id:UTF-8 dbpedia-it:UTF-8 dbpedia-ja:UTF-8 dbpedia-ko:UTF-8 http://lt.dbpedia.org/resource/UTF-8 http://lv.dbpedia.org/resource/UTF-8 http://ml.dbpedia.org/resource/യു.ടി.എഫ്-8 dbpedia-ms:UTF-8 dbpedia-nl:UTF-8 dbpedia-nn:UTF-8 dbpedia-no:UTF-8 dbpedia-pl:UTF-8 dbpedia-pt:UTF-8 dbpedia-ru:UTF-8 dbpedia-sk:UTF-8 dbpedia-sl:UTF-8 dbpedia-sr:UTF-8 dbpedia-sv:UTF-8 dbpedia-tr:UTF-8 dbpedia-uk:UTF-8 http://ur.dbpedia.org/resource/یو_ٹی_ایف-8 dbpedia-vi:UTF-8 dbpedia-zh:UTF-8 http://linked-web-apis.fit.cvut.cz/resource/utf-8_format yago-res:UTF-8 https://global.dbpedia.org/id/rnGT
prov:wasDerivedFrom wikipedia-en:UTF-8?oldid=1124203220&ns=0
foaf:depiction wiki-commons:Special:FilePath/UTF-8_takes_over.png wiki-commons:Special:FilePath/Utf8webgrowth.svg
foaf:isPrimaryTopicOf wikipedia-en:UTF-8
is dbo:knownFor of dbr:Rob_Pike dbr:Ken_Thompson
is dbo:language of dbr:Ren'Py
is dbo:wikiPageDisambiguates of dbr:UTF
is dbo:wikiPageRedirects of dbr:MUTF-8 dbr:UTF8 dbr:UTF_8 dbr:Utf-8 dbr:Utf_8 dbr:WTF-8 dbr:CsUTF8 dbr:AL32UTF8 dbr:EF_BB_BF dbr:Modified_UTF-8 dbr:Standard_UTF-8 dbr:File_System_Safe_UCS_Transformation_Format dbr:Wobbly_Transformation_Format dbr:Wtf8 dbr:FSS-UTF dbr:Oracle_AL32UTF8 dbr:Oracle_UTF8 dbr:UTF-2 dbr:UTF-FSS dbr:Utf8 dbr:Code_page_65001 dbr:Unicode_(UTF-8) dbr:UTF-8-BOM dbr:UTF-8_encoded dbr:UTF-8_encoding dbr:UTF8_BIN dbr:Uft-8
is dbo:wikiPageWikiLink of dbr:C_string_handling dbr:C_syntax dbr:Canto_(news_aggregator) dbr:Capella_(notation_program) dbr:Project_Gutenberg dbr:Proxy_auto-config dbr:Puddletag dbr:PunBB dbr:Python_(programming_language) dbr:List_of_binary_codes dbr:List_of_file_signatures dbr:List_of_filename_extensions_(M–R) dbr:Meta_element dbr:Mojibake dbr:Null-terminated_string dbr:M3U dbr:MARC-8 dbr:MUTF-8 dbr:OpenXDF dbr:Open_Icecat dbr:Base64 dbr:Basic_Latin_(Unicode_block) dbr:Be_File_System dbr:Bell_Labs dbr:Bencode dbr:Big5 dbr:BitComet dbr:BitchX dbr:DeaDBeeF dbr:Apple_File_System dbr:Apple_Filing_Protocol dbr:Application_Interface_Specification dbr:Arabic_letter_mark dbr:HuMo-gen dbr:Hunspell dbr:JuffEd dbr:Julia_(programming_language) dbr:List_of_archive_formats dbr:List_of_pioneers_in_computer_science dbr:PeerGuardian dbr:Pegasus_Mail dbr:Percent-encoding dbr:Regular_expression dbr:Ren'Py dbr:Rob_Pike dbr:Character_(computing) dbr:Character_encoding dbr:Character_literal dbr:DBCS dbr:DIN_91379 dbr:DMS_Software_Reengineering_Toolkit dbr:UTF-1 dbr:UTF-16 dbr:UTF-7 dbr:UTF-EBCDIC dbr:UTF8 dbr:UTF_8 dbr:Ubuntu_version_history dbr:Unicode dbr:Unicode_and_HTML dbr:Unified_Hangul_Code dbr:Universal_Character_Set_characters dbr:UseModWiki dbr:Utf-8 dbr:Utf_8 dbr:Utid dbr:VISCII dbr:Vietnamese_alphabet dbr:Vorbis dbr:ES_File_Explorer dbr:Indian_blogosphere dbr:InfinityDB dbr:Inputting_Esperanto_text_on_computers dbr:International_Dunhuang_Project dbr:International_email dbr:Internet_Authentication_Service dbr:JIS_encoding dbr:List_of_open_file_formats dbr:List_of_programmers dbr:OLAT dbr:Sakura_HyperMedia_Desktop dbr:Ƨ dbr:Timeline_of_LiveJournal dbr:.nfo dbr:.properties dbr:010_Editor dbr:Comma-separated_values dbr:Comparison_of_Internet_Relay_Chat_clients dbr:Comparison_of_command_shells dbr:Comparison_of_data-serialization_formats dbr:Comparison_of_email_clients dbr:Comparison_of_file_archivers dbr:Comparison_of_mobile_Internet_Relay_Chat_clients dbr:Comparison_of_programming_languages_(basic_instructions) dbr:Comparison_of_regular_expression_engines dbr:Comparison_of_text_editors dbr:Concerto_Signage dbr:RusNet dbr:Russian_language dbr:S-Lang dbr:Errno.h dbr:Escape_sequences_in_C dbr:Object-oriented_programming dbr:OpenRaster dbr:Wildmat dbr:Python_syntax_and_semantics dbr:RSS_TV dbr:Windows_10_version_1903 dbr:Climm dbr:Coco/R dbr:Code_page_866 dbr:Code_page_932_(Microsoft_Windows) dbr:Elixir_(programming_language) dbr:English_in_computing dbr:GBK_(character_encoding) dbr:GB_18030 dbr:GB_2312 dbr:GEDCOM dbr:GIF dbr:GNAT_Programming_Studio dbr:GNU_Aspell dbr:GNU_Compiler_Collection dbr:GNU_Emacs dbr:GPHPedit dbr:GTFS dbr:GTK dbr:Gaj's_Latin_alphabet dbr:GeneWeb dbr:Genealone dbr:Go_(programming_language) dbr:MirOS_BSD dbr:Miranda_NG dbr:Mp3tag dbr:MusiCAD dbr:Musl dbr:MySQL dbr:Creative_Commons_license dbr:LOLCODE dbr:Polish_orthography dbr:Vorbis_comment dbr:Windows-1255 dbr:LilyPond dbr:LimeSurvey dbr:Links_(web_browser) dbr:Linux_Mint dbr:Linux_console dbr:Lossless_compression dbr:Luit dbr:Löve_(game_engine) dbr:MVS dbr:Mac_OS_Roman dbr:Mandoc dbr:Silverstripe_CMS dbr:Six-bit_character_code dbr:Slackware dbr:SubRip dbr:Comparison_of_Unicode_encodings dbr:Comparison_of_e-book_formats dbr:Comparison_of_file_systems dbr:Comparison_of_hex_editors dbr:Comparison_of_programming_languages_(string_functions) dbr:Computer_file dbr:ZIP_(file_format) dbr:Ï dbr:Ñ dbr:Ł dbr:Email dbr:Email_address dbr:Email_box dbr:Haiku_Applications dbr:Half-width_kana dbr:Overhead_(computing) dbr:Par_(command) dbr:Parchive dbr:Pervasive_PSQL dbr:Petri_dish dbr:Plain_Old_Documentation dbr:Macintosh_Latin_encoding dbr:Specials_(Unicode_block) dbr:String_(computer_science) dbr:Tamil_All_Character_Encoding dbr:MediaWiki_version_history dbr:Microsoft_Layer_for_Unicode dbr:BSON dbr:8-bit_clean dbr:Bugzilla dbr:C++11 dbr:C++20 dbr:C0_and_C1_control_codes dbr:CBOR dbr:COBOL dbr:CVSNT dbr:Centericq dbr:Tiki_Wiki_CMS_Groupware dbr:Tin_(newsreader) dbr:TinyXML dbr:Torrent_file dbr:Tux_Paint dbr:Twist_(software) dbr:URL dbr:WTF-8 dbr:WebVTT dbr:Western_Latin_character_sets_(computing) dbr:WinRAR dbr:Windows-1250 dbr:Windows-1251 dbr:Windows-1258 dbr:Windows_Notepad dbr:Windows_Terminal dbr:Document_file_format dbr:GIFT_(file_format) dbr:CsUTF8 dbr:H_with_descender dbr:Japanese_language_and_computers dbr:Locale_(computer_software) dbr:Logogram dbr:Unicode_in_Microsoft_Windows dbr:Windows-1256 dbr:X.690 dbr:ASCII dbr:ASMO_449 dbr:A_Simple_Response_to_an_Elemental_Message dbr:Acid3 dbr:AkelPad dbr:4Dwm dbr:Cygwin dbr:Cyrillic_numerals dbr:Cyrillic_script dbr:DMOZ dbr:DR-WebSpyder dbr:D_(programming_language) dbr:Drizzle_(database_server) dbr:EDI_(software) dbr:EPUB dbr:Amar_Nastaleeq dbr:Euro_sign dbr:Extended_Unix_Code dbr:FVWM95 dbr:Fcitx dbr:File_Transfer_Protocol dbr:Filename dbr:Fldigi dbr:Barcode_library dbr:Nokia_N8 dbr:Notation3 dbr:Notepad++ dbr:Null_character dbr:PMB_(software) dbr:PSPad dbr:Charset_detection dbr:Direct_Connect_(protocol) dbr:Directive_(programming) dbr:Directory_traversal_attack dbr:Formatted_text dbr:Glottal_stop_(letter) dbr:Graphing_calculator dbr:Left-to-right_mark dbr:List_of_RFCs dbr:Text_editor dbr:Prefix_code dbr:Primitive_data_type dbr:Right-to-left_mark dbr:AL32UTF8 dbr:HTML dbr:Haml dbr:Hanthana_Linux_(operating_system) dbr:Harald_Tveit_Alvestrand dbr:Hatena_(company) dbr:Heirloom_Project dbr:Hierarchical_Data_Format dbr:International_Components_for_Unicode dbr:Internationalized_Resource_Identifier dbr:Internationalized_domain_name dbr:Internet_Relay_Chat dbr:JEdit dbr:JHOVE dbr:JIS_X_0201 dbr:JOVE dbr:JSON dbr:Back-of-the-envelope_calculation dbr:BagIt dbr:Tar_(computing) dbr:Terminator_(terminal_emulator) dbr:TextEdit dbr:Textpattern dbr:Hwair dbr:EF_BB_BF dbr:Unicode_and_email dbr:Wave_dash dbr:Asterisk dbr:APE_tag dbr:Character_encodings_in_HTML dbr:Chicken_(Scheme_implementation) dbr:JetUML dbr:Joe's_Own_Editor dbr:KOI-8 dbr:KOI8-R dbr:Kajona dbr:Kana dbr:Kate_(text_editor)
is dbp:encodings of dbr:Universal_Coded_Character_Set
is dbp:knownFor of dbr:Rob_Pike dbr:Ken_Thompson
is dbp:next of dbr:UTF-1
is rdfs:seeAlso of dbr:Unicode dbr:ASCII
is foaf:primaryTopic of wikipedia-en:UTF-8