UTF-EBCDIC (original) (raw)
UTF-EBCDIC est un codage de caractères utilisé pour représenter les caractères Unicode. Il est conçu pour être compatible avec l’EBCDIC, de sorte que les applications EBCDIC existantes sur les mainframes puissent accepter et traiter les caractères sans grosse difficulté. Ses avantages pour les systèmes existants basés sur l’EBCDIC sont similaires à ceux de l’UTF-8 pour les systèmes basés sur l’ASCII. Les détails sur la transformation UTF-EBCDIC sont définis dans le Rapport technique Unicode n°16 (UTR #16).
Property | Value |
---|---|
dbo:abstract | UTF-EBCDIC est un codage de caractères utilisé pour représenter les caractères Unicode. Il est conçu pour être compatible avec l’EBCDIC, de sorte que les applications EBCDIC existantes sur les mainframes puissent accepter et traiter les caractères sans grosse difficulté. Ses avantages pour les systèmes existants basés sur l’EBCDIC sont similaires à ceux de l’UTF-8 pour les systèmes basés sur l’ASCII. Les détails sur la transformation UTF-EBCDIC sont définis dans le Rapport technique Unicode n°16 (UTR #16). (fr) UTF-EBCDIC is a character encoding capable of encoding all 1,112,064 valid character code points in Unicode using one to five one-byte (8-bit) code units (in contrast to a maximum of four for UTF-8). It is meant to be EBCDIC-friendly, so that legacy EBCDIC applications on mainframes may process the characters without much difficulty. Its advantages for existing EBCDIC-based systems are similar to UTF-8's advantages for existing ASCII-based systems. Details on UTF-EBCDIC are defined in Unicode Technical Report #16. To produce the UTF-EBCDIC encoded version of a series of Unicode code points, an encoding based on UTF-8 (known in the specification as UTF-8-Mod) is applied first (creating what the specification calls an I8 sequence). The main difference between this encoding and UTF-8 is that it allows Unicode code points U+0080 through U+009F (the C1 control codes) to be represented as a single byte and therefore later mapped to corresponding EBCDIC control codes. In order to achieve this, UTF-8-Mod uses 101XXXXX instead of 10XXXXXX as the format for trailing bytes in a multi-byte sequence. As this can only hold 5 bits rather than 6, the UTF-8-Mod encoding of codepoints above U+03FF are larger than the UTF-8 encoding. The UTF-8-Mod transformation leaves the data in an ASCII-based format (for example, U+0041 "A" is still encoded as 01000001), so each byte is fed through a reversible (one-to-one) lookup table to produce the final UTF-EBCDIC encoding. For example, 01000001 in this table maps to 11000001; thus the UTF-EBCDIC encoding of U+0041 (Unicode's "A") is 0xC1 (EBCDIC's "A"). This encoding form is rarely used, even on the EBCDIC-based mainframes for which it was designed. IBM EBCDIC-based mainframe operating systems, such as z/OS, usually use UTF-16 for complete Unicode support. For example, IBM Db2, COBOL, PL/I, Java and the IBM XML toolkit support UTF-16 on IBM mainframes. (en) UTF-EBCDICはUnicode文字の表現に使われる文字コードである。EBCDICと親和性があり、メインフレーム上で動作する従来のEBCDICアプリケーションが大きな困難なしに文字を処理できるようにすることを意図している。既存のEBCDICベースのシステムにとっての利点は、既存のASCIIベースシステムにとってのUTF-8の利点に類似する。UTF-EBCDICの詳細はUnicode技術報告 #16で定義されている。 UTF-EBCDICで符号化されたUnicode符号位置の並びを得るには、UTF-8に基づいた符号化 (UTF-8-Modと呼ばれる仕様) をまず適用する。この符号化がUTF-8と主に異なる点は、Unicode符号位置のU+0080からU+009Fまで を、後で対応するEBCDICの制御文字へマップするため1バイトで表現できるようにしている点である。これを達成するため、10XXXXXXの代わりに101XXXXXがマルチバイトシーケンスにおける後続バイトの形式として使われる。これは1バイトあたり6ビット保持できるUTF-8と異なり5ビットしか保持できないため、一般にUTF-EBCDICは同じ入力データに対してUTF-8よりも大きな出力を生成する。 この変換ではデータはまだASCIIベースの形式であるため、表索引を用いて可逆なバイト単位の変換をこのデータに適用し、可能な限り通常のEBCDICコードページに近づける。これらの手順を逆にたどることにより容易にUnicode符号位置へ復元できる。 一般に、設計対象であったEBCDICベースのメインフレームにおいてさえ、この符号化形式は滅多に使われない。z/OSのような、IBM製のEBCDICベースのメインフレームのオペレーティングシステムは、通常完全なUnicodeサポートにUTF-16を使用する。たとえば、DB2 UDB、COBOL、PL/I、JavaおよびIBM XMLツールキットはIBMのメインフレーム上でUTF-16をサポートする。 (ja) UTF-EBCDIC은 유니코드 문자를 표현하기 위해 사용되는 문자 인코딩의 하나이다. EBCDIC 친화적이므로 메인프레임의 레거시 EBCDIC 애플리케이션들은 큰 문제 없이 문자들을 처리할 수 있다. 기존 EBCDIC 기반 시스템의 이점은 기존 ASCII 기반 시스템의 UTF-8의 이점과 비슷하다. UTF-EBCDC에 관한 자세한 설명은 유니코드 기술 보고서 #16에 정의되어 있다. (ko) UTF-EBCDIC — EBCDIC-совместимый способ кодирования символов Unicode, похожий на UTF-8. Главное различие между UTF-8 и UTF-EBCDIC заключается в том, что в данной кодировке допустимо использование символов U+0080 … U+009F в качестве управляющих символов EBCDIC. Для того, чтобы достичь этого, вместо используемых в UTF-8 битов признака продолжения (10) используются биты (101).Данная кодировка используется чрезвычайно редко, даже на EBCDIC мэйнфреймах, для которых эта кодировка и была создана. Большинство операционных систем от IBM, использующих EBCDIC, такие как z/OS, поддерживают UTF-16. (ru) |
dbo:wikiPageExternalLink | https://www.unicode.org/reports/tr16/ |
dbo:wikiPageID | 1328586 (xsd:integer) |
dbo:wikiPageLength | 21605 (xsd:nonNegativeInteger) |
dbo:wikiPageRevisionID | 1123161510 (xsd:integer) |
dbo:wikiPageWikiLink | dbr:Carriage_Return dbr:5_(number) dbr:6_(number) dbr:8_(number) dbr:Bell_character dbr:Q dbr:Question_mark dbr:Enquiry_character dbr:C1_control_code dbr:Bracket dbr:Percent_sign dbr:Character_encoding dbr:UTF-1 dbr:UTF-16 dbr:UTF-8 dbr:Underscore dbr:Unicode dbr:V dbr:Vertical_bar dbr:` dbr:0_(number) dbr:Colon_(punctuation) dbr:Comma dbr:Control_Sequence_Introducer dbr:S dbr:Escape_character dbr:Circumflex dbr:Code_page_1047 dbr:Code_page_37 dbr:Equals_sign dbr:Full_stop dbr:G dbr:N dbr:Apostrophe dbr:M dbr:Slash_(punctuation) dbr:Delete_character dbr:Z dbr:Z/OS dbr:Device_Control_1 dbr:Device_Control_2 dbr:Device_Control_3 dbr:Device_Control_4 dbr:1_(number) dbr:B dbr:Backslash dbc:Character_encoding dbr:Byte dbr:C dbr:COBOL dbr:Tilde dbr:U dbr:W dbr:4_(number) dbr:7_(number) dbr:A dbr:ASCII dbr:Ampersand dbr:D dbr:E dbr:EBCDIC dbr:Exclamation_mark dbr:F dbr:Null_character dbr:Number_sign dbr:P dbr:PL/I dbr:Data_Link_Escape dbr:Mainframe_computer dbr:9_(number) dbr:H dbr:J dbr:Java_(programming_language) dbr:BOCU-1 dbr:Backspace dbc:Unicode_Transformation_Formats dbr:Start_of_Heading dbr:Start_of_Text dbr:Asterisk dbr:At_sign dbr:Acknowledgement_(data_networks) dbr:K dbr:L dbr:T dbr:Code_point dbr:Dollar_sign dbr:2_(number) dbr:3_(number) dbr:CCSID dbr:CESU-8 dbr:Plus_and_minus_signs dbr:End_Transmission_Block_character dbr:Application_Program_Command dbr:End_of_Medium dbr:End_of_Protected_Area dbr:End_of_Selected_Area dbr:End_of_Text dbr:End_of_Transmission dbr:Message_Waiting dbr:I dbr:IBM dbr:IBM_Db2 dbr:O dbr:Cancel_character dbr:Quotation_mark dbr:R dbr:Semicolon dbr:X dbr:XML dbr:Y dbr:Synchronous_Idle dbr:Shift_Out dbr:Shift_In dbr:Form_Feed dbr:Acknowledge_character dbr:Oracle_database dbr:Line_Feed dbr:Set_Transmit_State dbr:File_Separator dbr:Next_Line dbr:Operating_System_Command dbr:Group_Separator dbr:Index_character dbr:Reverse_Line_Feed dbr:Device_Control_String dbr:Partial_Line_Backward dbr:Partial_Line_Forward dbr:Private_Use_1 dbr:Private_Use_2 dbr:Record_Separator dbr:Vertical_Tab dbr:Mksh dbr:Unit_Separator dbr:Space_character dbr:Horizontal_Tab dbr:Start_of_Protected_Area dbr:Start_of_Selected_Area dbr:Start_of_String dbr:String_Terminator dbr:Break_permitted_here dbr:Character_tabulation_set dbr:Character_tabulation_with_justification dbr:High_octet_preset dbr:Line_tabulation_set dbr:No_break_here dbr:Padding_character dbr:Privacy_Message dbr:Single-Shift_2 dbr:Single-Shift_3 dbr:Single_character_introducer dbr:Single_graphic_character_introducer dbr:Substitute_Character |
dbp:wikiPageUsesTemplate | dbt:= dbt:Anchor dbt:Legend dbt:Reflist dbt:Short_description dbt:Pipe dbt:Chset-cell1 dbt:Unicode_navigation dbt:Character_encoding dbt:Chset-ctrl1 dbt:Chset-left1 |
dcterms:subject | dbc:Character_encoding dbc:Unicode_Transformation_Formats |
gold:hypernym | dbr:Character |
rdf:type | yago:WikicatUnicodeTransformationFormats yago:Abstraction100002137 yago:Communication100033020 yago:Format106636806 yago:Information106634376 yago:Message106598915 dbo:FictionalCharacter |
rdfs:comment | UTF-EBCDIC est un codage de caractères utilisé pour représenter les caractères Unicode. Il est conçu pour être compatible avec l’EBCDIC, de sorte que les applications EBCDIC existantes sur les mainframes puissent accepter et traiter les caractères sans grosse difficulté. Ses avantages pour les systèmes existants basés sur l’EBCDIC sont similaires à ceux de l’UTF-8 pour les systèmes basés sur l’ASCII. Les détails sur la transformation UTF-EBCDIC sont définis dans le Rapport technique Unicode n°16 (UTR #16). (fr) UTF-EBCDIC은 유니코드 문자를 표현하기 위해 사용되는 문자 인코딩의 하나이다. EBCDIC 친화적이므로 메인프레임의 레거시 EBCDIC 애플리케이션들은 큰 문제 없이 문자들을 처리할 수 있다. 기존 EBCDIC 기반 시스템의 이점은 기존 ASCII 기반 시스템의 UTF-8의 이점과 비슷하다. UTF-EBCDC에 관한 자세한 설명은 유니코드 기술 보고서 #16에 정의되어 있다. (ko) UTF-EBCDIC — EBCDIC-совместимый способ кодирования символов Unicode, похожий на UTF-8. Главное различие между UTF-8 и UTF-EBCDIC заключается в том, что в данной кодировке допустимо использование символов U+0080 … U+009F в качестве управляющих символов EBCDIC. Для того, чтобы достичь этого, вместо используемых в UTF-8 битов признака продолжения (10) используются биты (101).Данная кодировка используется чрезвычайно редко, даже на EBCDIC мэйнфреймах, для которых эта кодировка и была создана. Большинство операционных систем от IBM, использующих EBCDIC, такие как z/OS, поддерживают UTF-16. (ru) UTF-EBCDIC is a character encoding capable of encoding all 1,112,064 valid character code points in Unicode using one to five one-byte (8-bit) code units (in contrast to a maximum of four for UTF-8). It is meant to be EBCDIC-friendly, so that legacy EBCDIC applications on mainframes may process the characters without much difficulty. Its advantages for existing EBCDIC-based systems are similar to UTF-8's advantages for existing ASCII-based systems. Details on UTF-EBCDIC are defined in Unicode Technical Report #16. (en) UTF-EBCDICはUnicode文字の表現に使われる文字コードである。EBCDICと親和性があり、メインフレーム上で動作する従来のEBCDICアプリケーションが大きな困難なしに文字を処理できるようにすることを意図している。既存のEBCDICベースのシステムにとっての利点は、既存のASCIIベースシステムにとってのUTF-8の利点に類似する。UTF-EBCDICの詳細はUnicode技術報告 #16で定義されている。 UTF-EBCDICで符号化されたUnicode符号位置の並びを得るには、UTF-8に基づいた符号化 (UTF-8-Modと呼ばれる仕様) をまず適用する。この符号化がUTF-8と主に異なる点は、Unicode符号位置のU+0080からU+009Fまで を、後で対応するEBCDICの制御文字へマップするため1バイトで表現できるようにしている点である。これを達成するため、10XXXXXXの代わりに101XXXXXがマルチバイトシーケンスにおける後続バイトの形式として使われる。これは1バイトあたり6ビット保持できるUTF-8と異なり5ビットしか保持できないため、一般にUTF-EBCDICは同じ入力データに対してUTF-8よりも大きな出力を生成する。 (ja) |
rdfs:label | UTF-EBCDIC (fr) UTF-EBCDIC (ja) UTF-EBCDIC (ko) UTF-EBCDIC (en) UTF-EBCDIC (ru) |
owl:sameAs | freebase:UTF-EBCDIC yago-res:UTF-EBCDIC wikidata:UTF-EBCDIC dbpedia-fr:UTF-EBCDIC dbpedia-hu:UTF-EBCDIC dbpedia-ja:UTF-EBCDIC dbpedia-ko:UTF-EBCDIC dbpedia-ru:UTF-EBCDIC https://global.dbpedia.org/id/4u6mW |
prov:wasDerivedFrom | wikipedia-en:UTF-EBCDIC?oldid=1123161510&ns=0 |
foaf:isPrimaryTopicOf | wikipedia-en:UTF-EBCDIC |
is dbo:wikiPageRedirects of | dbr:UTFE dbr:Oracle_UTFE dbr:UTF-E |
is dbo:wikiPageWikiLink of | dbr:List_of_file_signatures dbr:UTF-8 dbr:Unicode dbr:Comparison_of_Unicode_encodings dbr:EBCDIC dbr:Number_sign dbr:At_sign dbr:Binary_Ordered_Compression_for_Unicode dbr:Byte_order_mark dbr:UTFE dbr:Oracle_UTFE dbr:UTF-E |
is foaf:primaryTopic of | wikipedia-en:UTF-EBCDIC |