Variable-width encoding (original) (raw)
Multibyte Character Set (MBCS) bezeichnet Zeichenkodierungen, bei denen abhängig vom zu speichernden Zeichen unterschiedlich viele Bytes verwendet werden. Die wichtigsten Vertreter von MBCS sind: UTF-8, UTF-16, UTF-7, Shift-JIS, Big5 und GB2312.
Property | Value |
---|---|
dbo:abstract | Multibyte Character Set (MBCS) bezeichnet Zeichenkodierungen, bei denen abhängig vom zu speichernden Zeichen unterschiedlich viele Bytes verwendet werden. Die wichtigsten Vertreter von MBCS sind: UTF-8, UTF-16, UTF-7, Shift-JIS, Big5 und GB2312. (de) A variable-width encoding is a type of character encoding scheme in which codes of differing lengths are used to encode a character set (a repertoire of symbols) for representation, usually in a computer. Most common variable-width encodings are multibyte encodings, which use varying numbers of bytes (octets) to encode different characters.(Some authors, notably in Microsoft documentation, use the term multibyte character set, which is a misnomer, because representation size is an attribute of the encoding, not of the character set.) Early variable width encodings using less than a byte per character were sometimes used to pack English text into fewer bytes in adventure games for early microcomputers. However disks (which unlike tapes allowed random access allowing text to be loaded on demand), increases in computer memory and general purpose compression algorithms have rendered such tricks largely obsolete. Multibyte encodings are usually the result of a need to increase the number of characters which can be encoded without breaking backward compatibility with an existing constraint. For example, with one byte (8 bits) per character, one can encode 256 possible characters; in order to encode more than 256 characters, the obvious choice would be to use two or more bytes per encoding unit, two bytes (16 bits) would allow 65,536 possible characters, but such a change would break compatibility with existing systems and therefore might not be feasible at all. (en) 가변 너비 인코딩(variable-width encoding), 가변 길이 인코딩은 컴퓨터에서 표현을 위해 문자 집합을 인코딩하기 위해 사용되는 가변 길이 코드를 사용하는 문자 인코딩 스킴 유형이다. 대부분의 공통 가변 너비 인코딩은 멀티바이트 인코딩(multibyte encoding)이라고 하며 다양한 수의 바이트(옥텟)을 사용하여 각기 다른 문자들을 인코딩한다. 특히 마이크로소프트 문서에서 일부 개발자들은 멀티바이트 문자 집합(multibyte character set, MBCS)이라는 용어를 사용하지만 이는 부적절한 명칭인데 그 이유는 MBCS는 표현 크기가 문자 집합의 것이 아닌 인코딩의 속성이기 때문이다. 문자 당 1바이트 미만을 사용하는 초기 가변 길이 인코딩은 종종 초기 마이크로컴퓨터용 어드벤처 게임에서 영어 텍스트를 더 적은 바이트로 패킹(pack)하기 위해 사용되었다. 멀티바이트 인코딩은 일반적으로 기존 제약이 있는 하위 호환성을 유지하면서 인코딩이 가능한 문자 수 증가의 필요의 결과물이다. 예를 들어 문자 당 1바이트(8비트)를 가지고 256개의 잠재적인 문자를 인코딩할 수 있다. 256자를 초과하여 인코딩하기 위해 인코딩 단위 당 둘 이상의 바이트를 사용할 수 있으며 2바이트(16비트)는 65,536개의 잠재적 문자를 허용하지만 이러한 변화는 기존 시스템과의 호환성을 유지하지 못하며 그러므로 실현 가능하지 않을 수 있다. (ko) マルチバイト文字(マルチバイトもじ)とは、 * 1文字を複数バイトで表す体系 * 1文字のバイト数が可変であるような体系 * そのような体系で表される文字 を指すが、文脈により意味合いが異なる。 (ja) Uma codificação de largura variável é um tipo de esquema codificação de caracteres em que códigos de comprimentos diferentes são usados para codificar um conjunto de caracteres (um repertório de símbolos) para representação em um computador. As codificações de largura variável mais comuns são as codificações multibyte, que usam vários números de bytes (octetos) para codificar diferentes caracteres.Alguns autores, principalmente na documentação da Microsoft, usam o termo conjunto de caracteres multibyte (que é um , porque o tamanho da representação é um atributo da codificação, não do conjunto de caracteres). Codificações iniciais de largura variável usando menos de um byte por caractere às vezes eram usadas para compactar texto em inglês em menos bytes em jogos de aventuras pros primeiros microcomputadores. No entanto, os (que, ao contrário das fitas, permitem acesso aleatório, permitindo que o texto seja carregado sob demanda), os aumentos na memória do computador e os algoritmos de compressão de uso geral tornaram esses truques amplamente obsoletos. Codificações multibyte são geralmente o resultado de uma necessidade de aumentar o número de caracteres que podem ser codificados sem quebrar a compatibilidade com versões anteriores com uma restrição existente. Por exemplo, com um byte (de 8 bits) por caractere, pode-se codificar 256 caracteres possíveis. Para codificar mais de 256 caracteres, a escolha óbvia seria usar dois ou mais bytes por unidade de codificação (dois bytes (16 bits) permitiriam 65.536 caracteres possíveis) mas tal mudança quebraria a compatibilidade com os sistemas existentes e, portanto, pode não ser viável em tudo. (pt) 可变宽度编码是一种字符编码方案,其中藉由不同长度的代码,对字符集(符号库)进行编码以表示文字,通常使用于计算机中。最常见的可变宽度编码为多字节编码,它使用不同数量的字节(或称八位字节)来编码不同的字符。(有些作者,尤其在微軟文档中,使用“多字节字符集”这一术语。但这样实属用词不当,因表示大小是编码的属性,而非字符集的属性。 ) 在早期的微型计算机的冒险游戏中,有时为将英文文本打包成更少的字节,使用每个字符少于一个字节的早期可变宽度编码。然而,因与磁带不同,它允许随机访问,允许按需加载文本的磁盘的产生与计算机内存的增加和通用压缩算法的运用,使这些技巧在很大程度上已经过时。 多字节编码多为因增加字符数量而不致破坏与已存在的限制之间的向后兼容性而产生。例如,若每个字符以一个字节(8比特)存储,则最多可编码256个可能的字符;故为了编码数量超过256个的字符,显而易见的选择则是每个编码单元使用两个及以上数量的字节,如两个字节(16比特)可编码65536个可能的字符,但这样的改变将会破坏与已存在之系统的兼容性,故可能根本便不可行。 (zh) |
dbo:wikiPageID | 1307226 (xsd:integer) |
dbo:wikiPageLength | 10389 (xsd:nonNegativeInteger) |
dbo:wikiPageRevisionID | 1106866574 (xsd:integer) |
dbo:wikiPageWikiLink | dbr:Big5 dbr:Character_encoding dbr:UTF-1 dbr:UTF-16 dbr:UTF-8 dbr:Unicode dbr:Unix dbr:Computer dbr:Morse_code dbr:Lotus_Multi-Byte_Character_Set dbc:Character_encoding dbr:Byte dbr:Triple-Byte_Character_Set dbr:Disk_storage dbr:ASCII dbr:DOS dbr:Double-Byte_Character_Set dbr:Hexadecimal dbr:Backward_compatibility dbr:Adventure_game dbr:Misnomer dbr:Plan_9_from_Bell_Labs dbr:ISO/IEC_2022 dbr:I_Love_New_York dbr:Microsoft_Windows dbr:Octet_(computing) dbr:Shift_JIS dbr:UTF-32 dbr:Wchar_t dbr:ISO_10646 dbr:Character_set dbr:Microcomputers dbr:Single-Byte_Character_Set dbr:Compression_algorithm dbr:Shift-JIS |
dbp:wikiPageUsesTemplate | dbt:About dbt:Citation_needed dbt:Efn dbt:More_citations_needed dbt:Notelist dbt:Reflist dbt:Short_description dbt:Use_dmy_dates dbt:Character_encoding |
dct:subject | dbc:Character_encoding |
gold:hypernym | dbr:Character |
rdf:type | dbo:FictionalCharacter |
rdfs:comment | Multibyte Character Set (MBCS) bezeichnet Zeichenkodierungen, bei denen abhängig vom zu speichernden Zeichen unterschiedlich viele Bytes verwendet werden. Die wichtigsten Vertreter von MBCS sind: UTF-8, UTF-16, UTF-7, Shift-JIS, Big5 und GB2312. (de) マルチバイト文字(マルチバイトもじ)とは、 * 1文字を複数バイトで表す体系 * 1文字のバイト数が可変であるような体系 * そのような体系で表される文字 を指すが、文脈により意味合いが異なる。 (ja) 可变宽度编码是一种字符编码方案,其中藉由不同长度的代码,对字符集(符号库)进行编码以表示文字,通常使用于计算机中。最常见的可变宽度编码为多字节编码,它使用不同数量的字节(或称八位字节)来编码不同的字符。(有些作者,尤其在微軟文档中,使用“多字节字符集”这一术语。但这样实属用词不当,因表示大小是编码的属性,而非字符集的属性。 ) 在早期的微型计算机的冒险游戏中,有时为将英文文本打包成更少的字节,使用每个字符少于一个字节的早期可变宽度编码。然而,因与磁带不同,它允许随机访问,允许按需加载文本的磁盘的产生与计算机内存的增加和通用压缩算法的运用,使这些技巧在很大程度上已经过时。 多字节编码多为因增加字符数量而不致破坏与已存在的限制之间的向后兼容性而产生。例如,若每个字符以一个字节(8比特)存储,则最多可编码256个可能的字符;故为了编码数量超过256个的字符,显而易见的选择则是每个编码单元使用两个及以上数量的字节,如两个字节(16比特)可编码65536个可能的字符,但这样的改变将会破坏与已存在之系统的兼容性,故可能根本便不可行。 (zh) A variable-width encoding is a type of character encoding scheme in which codes of differing lengths are used to encode a character set (a repertoire of symbols) for representation, usually in a computer. Most common variable-width encodings are multibyte encodings, which use varying numbers of bytes (octets) to encode different characters.(Some authors, notably in Microsoft documentation, use the term multibyte character set, which is a misnomer, because representation size is an attribute of the encoding, not of the character set.) (en) 가변 너비 인코딩(variable-width encoding), 가변 길이 인코딩은 컴퓨터에서 표현을 위해 문자 집합을 인코딩하기 위해 사용되는 가변 길이 코드를 사용하는 문자 인코딩 스킴 유형이다. 대부분의 공통 가변 너비 인코딩은 멀티바이트 인코딩(multibyte encoding)이라고 하며 다양한 수의 바이트(옥텟)을 사용하여 각기 다른 문자들을 인코딩한다. 특히 마이크로소프트 문서에서 일부 개발자들은 멀티바이트 문자 집합(multibyte character set, MBCS)이라는 용어를 사용하지만 이는 부적절한 명칭인데 그 이유는 MBCS는 표현 크기가 문자 집합의 것이 아닌 인코딩의 속성이기 때문이다. 문자 당 1바이트 미만을 사용하는 초기 가변 길이 인코딩은 종종 초기 마이크로컴퓨터용 어드벤처 게임에서 영어 텍스트를 더 적은 바이트로 패킹(pack)하기 위해 사용되었다. (ko) Uma codificação de largura variável é um tipo de esquema codificação de caracteres em que códigos de comprimentos diferentes são usados para codificar um conjunto de caracteres (um repertório de símbolos) para representação em um computador. As codificações de largura variável mais comuns são as codificações multibyte, que usam vários números de bytes (octetos) para codificar diferentes caracteres.Alguns autores, principalmente na documentação da Microsoft, usam o termo conjunto de caracteres multibyte (que é um , porque o tamanho da representação é um atributo da codificação, não do conjunto de caracteres). (pt) |
rdfs:label | Multibyte Character Set (de) マルチバイト文字 (ja) 가변 너비 인코딩 (ko) Codificação de largura variável (pt) Variable-width encoding (en) 可变宽度编码 (zh) |
owl:sameAs | freebase:Variable-width encoding wikidata:Variable-width encoding dbpedia-de:Variable-width encoding dbpedia-ja:Variable-width encoding dbpedia-ko:Variable-width encoding dbpedia-pt:Variable-width encoding dbpedia-simple:Variable-width encoding dbpedia-zh:Variable-width encoding https://global.dbpedia.org/id/3aBvW |
prov:wasDerivedFrom | wikipedia-en:Variable-width_encoding?oldid=1106866574&ns=0 |
foaf:isPrimaryTopicOf | wikipedia-en:Variable-width_encoding |
is dbo:wikiPageDisambiguates of | dbr:VWE |
is dbo:wikiPageRedirects of | dbr:PCMB_(encoding) dbr:Multi_Byte_Character_Set dbr:Multi-byte_Character_Set dbr:Multi_byte_character_set dbr:Multiple-Byte_Character_Set dbr:Multiple-byte_Character_Set dbr:Multiple-byte_character dbr:Multiple-byte_character_set dbr:Multiple_Byte_Character_Set dbr:Multiple_byte_character_set dbr:MBCS_(encoding) dbr:MB_(character_set) dbr:Mixed_Multi-Byte_Character_Set dbr:Mixed_Multi-byte_Character_Set dbr:Mixed_Multi_Byte_Character_Set dbr:Mixed_Multiple-Byte_Character_Set dbr:Mixed_Multiple-byte_Character_Set dbr:Mixed_Multiple_Byte_Character_Set dbr:Mixed_multi-byte_character_set dbr:Mixed_multi_byte_character_set dbr:Mixed_multiple-byte_character_set dbr:Mixed_multiple_byte_character_set dbr:Variable-width dbr:Variable_width_encoding dbr:Multi-Byte_Character_Set dbr:Multi-byte_character dbr:Multi-byte_character_set dbr:Multibyte_character dbr:Multibyte_character_set |
is dbo:wikiPageWikiLink of | dbr:C_string_handling dbr:C_syntax dbr:Big5 dbr:Character_encoding dbr:DBCS dbr:UTF-1 dbr:UTF-16 dbr:UTF-7 dbr:UTF-8 dbr:Unicode dbr:Unified_Hangul_Code dbr:VISCII dbr:Wildmat dbr:Code_page_932_(Microsoft_Windows) dbr:Code_page_949_(IBM) dbr:GBK_(character_encoding) dbr:GB_18030 dbr:Krauss_wildcard-matching_algorithm dbr:PCMB_(encoding) dbr:C0_and_C1_control_codes dbr:Logogram dbr:Unicode_in_Microsoft_Windows dbr:Almquist_shell dbr:Extended_Unix_Code dbr:HZ_(character_encoding) dbr:Internationalized_domain_name dbr:Japanese_language_in_EBCDIC dbr:Kana dbr:Lasso_(programming_language) dbr:Code dbr:Telegraph_code dbr:C++_string_handling dbr:CJK_characters dbr:ISO/IEC_2022 dbr:Octet_(computing) dbr:Canonicalization dbr:Seed7 dbr:Shift_JIS dbr:Multi_Byte_Character_Set dbr:SBCS dbr:Singleton dbr:VLE dbr:VWE dbr:Vietnamese_language_and_computers dbr:Multi-byte_Character_Set dbr:Multi_byte_character_set dbr:Multiple-Byte_Character_Set dbr:Multiple-byte_Character_Set dbr:Multiple-byte_character dbr:Multiple-byte_character_set dbr:Multiple_Byte_Character_Set dbr:Multiple_byte_character_set dbr:MBCS_(encoding) dbr:MB_(character_set) dbr:Wide_character dbr:Mixed_Multi-Byte_Character_Set dbr:Mixed_Multi-byte_Character_Set dbr:Mixed_Multi_Byte_Character_Set dbr:Mixed_Multiple-Byte_Character_Set dbr:Mixed_Multiple-byte_Character_Set dbr:Mixed_Multiple_Byte_Character_Set dbr:Mixed_multi-byte_character_set dbr:Mixed_multi_byte_character_set dbr:Mixed_multiple-byte_character_set dbr:Mixed_multiple_byte_character_set dbr:Telex_(input_method) dbr:String-searching_algorithm dbr:Variable-width dbr:Variable_width_encoding dbr:Multi-Byte_Character_Set dbr:Multi-byte_character dbr:Multi-byte_character_set dbr:Multibyte_character dbr:Multibyte_character_set |
is dbp:classification of | dbr:UTF-1 dbr:UTF-16 dbr:UTF-7 dbr:UTF-8 dbr:Code_page_949_(IBM) dbr:HZ_(character_encoding) |
is foaf:primaryTopic of | wikipedia-en:Variable-width_encoding |