Японский язык в EBCDIC

Кодировки символов для японского языка на мэйнфреймах EBCDIC

Несколько взаимно несовместимых версий расширенного двоично-десятичного кода обмена ( EBCDIC ) использовались для представления японского языка на компьютерах, включая варианты, определенные Hitachi , Fujitsu , IBM и другими. Некоторые из них являются кодировками переменной ширины , использующими коды сдвига блокировки для переключения между однобайтовыми и двухбайтовыми режимами. [1] В отличие от других локалей EBCDIC, строчные основные латинские буквы часто не сохраняются в своих обычных местах. [2]

Символы, которые присутствуют в двухбайтовом японском коде, используемом IBM с EBCDIC, но не присутствуют в первом издании JIS X 0208 , также повлияли на расширения поставщиков, обнаруженные в некоторых не-EBCDIC кодировках, таких как кодовая страница IBM 932 («DBCS-PC») и кодовая страница Windows 932. [ 3]

Однобайтовые коды

Подобно JIS X 0201 (который сам включен в Shift JIS ), японские кодировки EBCDIC часто включают набор однобайтовых катакан . Несколько различных вариантов однобайтового кода EBCDIC используются в японской локали разными поставщиками; определенный поставщик может также определить два различных однобайтовых кода, один из которых предпочтителен для полуширинной катаканы , а другой — для латинского алфавита . Варианты EBCDIC, предпочитаемые определенным поставщиком для использования с катаканой, иногда называются EBCDIK , что означает Extended Binary-Coded Decimal Interchange Kana code . [1] [4]

Кодовые страницы, включающие полуширинную кана, являются исключением из инвариантного набора символов EBCDIC IBM, который определяет набор символов, которые обычно кодируются одинаково во всех кодовых страницах EBCDIC. В частности, они иногда включают символы катаканы в кодовых точках, которые используются для строчных букв основного латинского алфавита в инвариантном наборе. [2] Кодировка строчных букв, когда символы катаканы включены в эти места, и кодировка символов катаканы, когда строчные буквы сохраняются в своих обычных местах, могут различаться у разных поставщиков, как показано ниже.

Microsoft Windows реализует два японских однобайтовых варианта EBCDIC с номерами кодовых страниц на 20000 выше, чем номера кодовых страниц IBM для его вариантов, как кодовые страницы 20290 (документировано как IBM290«IBM EBCDIC Japanese Katakana Extended») [5] и 21027 («Extended/Ext Alpha Lowercase»). Кодовая страница 21027, реализованная в Windows, является неполной реализацией, в ней отсутствуют двусторонние сопоставления для нескольких букв и каны [6] и в настоящее время она устарела. [5]

Кодовые страницы IBM были позже обновлены, чтобы включить знак евро в 0xE1, сохранив свои исходные номера CPGID, но получив новые номера CCSID. Таким образом, CCSID 290 относится к исходной версии кодовой страницы 290, в то время как версия кодовой страницы 290 со знаком евро также известна как CCSID 8482. [7] Аналогично, CCSID 1027 относится к исходной версии кодовой страницы 1027, в то время как версия CPGID 1027 со знаком евро получила CCSID 5123. [8]

Наряду с версиями двухбайтовой японской кодовой страницы DBCS-Host IBM (CPGID 300, CCSID 300 или 16684) в качестве двухбайтового компонента, кодовая страница IBM 290 используется в качестве однобайтового компонента многобайтовой кодовой страницы IBM-930 [9] [10] и (как обновленный для Европы CCSID 8482) обновленной версии IBM-1390. [11] [12] Кодовая страница IBM 1027 используется в качестве однобайтового компонента многобайтовой кодовой страницы IBM-939 [13] [14] и (как обновленный для Европы CCSID 5123) обновленной версии IBM-1399. [15] [16]

В следующей таблице соответствие инвариантному набору отмечено зеленым цветом; столкновение с инвариантным набором отмечено красным цветом.

Однобайтовые коды в японских вариантах EBCDIC (исключая управляющие коды)
ШестнадцатеричныйСтрочные буквы в неизменяемых местах, кана отсутствует или смещенаСтрочные буквы отсутствуют или заменены каной
Fujitsu EBCDIC [17]Хитачи EBCDIC [18]HP EBCDIK [19]IBM 298 [20]IBM 1027
[13] [15] [21] [22]
IBM 1031 [23]Fujitsu EBCDIK [17]Хитачи EBCDIK [18]
IBM 1136 [24]
NEC EBCDIC [25] [26]IBM 290
[9] [11] [27] [28]
IBM 887 [29]IBM 1030 [30]
0x40СПСПСПСПСПСПСПСПСПСПСПСП
0x41
0x42
0x43
0x44
0x45
0x46
0x47
0x48
0x49
0x4A£[¢¢¢£[[£££
0x4Б............
0x4C<<)<<<<<<<<<
0x4D(([(((((((((
0x4E++<+++++++++
0x4F|!||||!!|||
0x50&&+&&&&&&&&&
0x51
0x52
0x53
0x54
0x55
0x56
0x57а
0x58
0x59аб
0x5А!]!!!!]]!!!
0x5Б\¥$$$$\¥\¥¥¥
0x5С************
0x5D))])))))))))
0x5E;;;;;;;;;;;;
0x5F¬^¬¬¬¬^^¬¬¬
0x60------------
0x61////////////
0x62бсаа
0x63сгбб
0x64гесс
0x65ефгг
0x66фгее
0x67гчасфф
0x68часягг
0x69яджчасчас
0x6A¦||¦||
0x6Б,,,,,,,,,,,,
0x6С%%(%%%%%%%%%
0x6D____________
0x6E>>¥>>>>>>>>>
0x6F???????????
0x70джк[[
0x71кляя
0x72лмдждж
0x73мнкк
0x74нолл
0x75ソソソソソопмм
0x76пднн
0x77дгоо
0x78гспп
0x79```````````
0x7A:::::::::::
0x7Б##=#########
0x7С@@'@@@@@@@@@
0x7D'':'''''''''
0x7E==>=========
0x7F""""""""""""
0x80ст]]
0x81аааааа
0x82бббббб
0x83сссссс
0x84гггггг
0x85ееееее
0x86фффффф
0x87гггггг
0x88часчасчасчасчасчас
0x89яяяяяя
0x8A
0x8Бттыдд
0x8С
0x8D
0x8E
0x8F
0x90ソソソソソソ
0x91дждждждждждж
0x92кккккк
0x93лллллл
0x94мммммм
0x95нннннн
0x96оооооо
0x97пппппп
0x98дддддд
0x99гггггг
0x9A
0x9Бтывгг
0x9Cвж
0x9D
0x9E
0x9F
0xA0¯¯жх~~
0xA1~~¯~~~~~~¯¯¯
0xA2сссссс
0xA3тттттт
0xА4тытытытытыты
0xA5вввввв
0xA6жжжжжж
0xA7хххххх
0xA8уууууу
0xA9зззззз
0xАА
0xABхусс
0xAC
0xAD[[
0xAE
0xАФ
0xB0^^уз^^
0xB1££з¢¢
0xB2¥¥\\
0xB3тт
0xB4тыты
0xB5вв
0xB6жж
0xB7хх
0xB8уу
0xB9зз
0xBA
0xBB
0xBC
0xBD]]
0xBE
0xБФ
0xC0{{?{{{{{{{{
0xC1АААААААААААА
0xC2ББББББББББББ
0xC3СССССССССССС
0xC4ДДДДДДДДДДДД
0xC5ЭЭЭЭЭЭЭЭЭЭЭЭ
0xC6ФФФФФФФФФФФФ
0xC7ГГГГГГГГГГГГ
0xC8ЧАСЧАСЧАСЧАСЧАСЧАСЧАСЧАСЧАСЧАСЧАСЧАС
0xC9яяяяяяяяяяяя
0xCA
0xCB
0xCC
0xCD
0xCE
0xCF
0xD0}}!}}}}}}}}
0xD1Дж.Дж.Дж.Дж.Дж.Дж.Дж.Дж.Дж.Дж.Дж.Дж.
0xD2КККККККККККК
0xD3ЛЛЛЛЛЛЛЛЛЛЛЛ
0xD4ММММММММММММ
0xD5НННННННННННН
0xD6ОООООООООООО
0xD7ПППППППППППП
0xD8ВВВВВВВВВВВВ
0xD9РРРРРРРРРРРР
0xDA
0xДБ°
0xDC±
0xДД
0xDE
0xDF
0xE0$$¥\\$$$$$$
0xE1
0xE2СССССССССССС
0xE3ТТТТТТТТТТТТ
0xE4УУУУУУУУУУУУ
0xE5ВВВВВВВВВВВВ
0xE6ВтВтВтВтВтВтВтВтВтВтВтВт
0xE7ХХХХХХХХХХХХ
0xE8ИИИИИИИИИИИИ
0xE9ЗЗЗЗЗЗЗЗЗЗЗЗ
0xEA
0xEB
0xEC
0xED
0xEE
0xEFΩ
0xF0000000000000
0xF1111111111111
0xF2222222222222
0xF3333333333333
0xF4444444444444
0xF5555555555555
0xF6666666666666
0xF7777777777777
0xF8888888888888
0xF9999999999999
0xFA
0xФБ
0xFC
0xФДµ
0xFE

Двухбайтовые коды

Для японского языка с EBCDIC используются три двухбайтовых кода символов: [31] [32] [3] IBM code page 300 (также называемая IBM Kanji или IBM Japanese DBCS-Host) от IBM , [33] KEIS от Hitachi , [31] и JEF от Fujitsu . [17] Это кодировки DBCS-Host, использующие различные коды сдвига для переключения между однобайтовым EBCDIC и двухбайтовым режимами. [1] Коды от 0x41 до 0xFE (используемые для графических символов в EBCDIC) используются парами для представления символов из сетки 190×190; код 0x40 ( пробел в EBCDIC) используется вдвойне как идеографический пробел , но не как часть любого другого двухбайтового кода. [1] [33]

В версии кода DBCS-Host от IBM код 0x0Fпереключается в однобайтовый режим, а код 0x0Eпереключается в двухбайтовый режим, [1] [9] [13] [11] [15] что схоже с двухбайтовыми кодами EBCDIC от IBM для других языков CJK , [1] такими как версия EBCDIC Johab для корейского языка . [34] В отличие от KEIS и JEF, макет кодовой страницы IBM 300 не связан с JIS X 0208 , и преобразование между ними должно выполняться с помощью таблицы; [31] однако, ее набор символов обновлялся с последующими пересмотрами JIS X 0208, чтобы оставаться надмножеством набора JIS X 0208. [3] Старшие байты 0x41–0x44 используются для символов, не являющихся кандзи, старшие байты 0x45–0x68 используются для символов кандзи, а старшие байты 0x69–0x89 используются для UDC ( определяемых пользователем символов ). [33]

Существование японского кода DBCS-Host от IBM имело влияние за пределами систем EBCDIC, поскольку IBM также определила варианты Shift JIS («DBCS-PC», определенный в чистой двухбайтовой кодовой странице 301 и используемый в кодовой странице переменной ширины 932 и 942 ) и EUC-JP , которые кодируют весь репертуар кодовой страницы IBM 300, включая 28 некандзи и 360 кандзи в дополнение к тем, которые изначально были включены в JIS X 0208 (хотя некандзи, поскольку знак ∵, а не знак¬, были позже добавлены в JIS X 0208 в 1983 году). Они называются символами «IBM-selected» и включены в качестве расширений, например, в кодовую страницу Windows 932. [ 3]

В некоторые более новые версии кодовой страницы IBM-300 добавлены дополнительные кандзи со старшими байтами от 0xB8 до 0xD5 и дополнительные не-кандзи со старшими байтами от 0xD6 до 0xE9. [33] Эта редакция обновила набор для JIS X 0213 , включая знак евро , и, сохранив CPGID 300, получила новый CCSID 16684. [35] Кодовые страницы IBM-930 (с кодовой страницей 290 в качестве однобайтового набора), [9] IBM-931 (с кодовой страницей 37 в качестве однобайтового набора) и IBM-939 (с кодовой страницей 1027 в качестве однобайтового набора) [13] исключают эти дополнения, в то время как IBM-1390 (с версией знака евро кодовой страницы 290 / CCSID 8482) [11] и IBM-1399 (с версией знака евро кодовой страницы 1027 / CCSID 5123) [15] включают их.

В Hitachi KEIS [31] (Расширенная информационная система обработки кандзи) последовательность 0x0A 0x41переключается в однобайтовый режим, а последовательность 0x0A 0x42переключается в двухбайтовый режим. [a] Символы JIS X 0208 кодируются с использованием тех же байтовых последовательностей, которые использовались для их кодирования в EUC-JP , т. е. оба байта находятся между 0xA1 и 0xFE включительно. Это приводит к дублированию кодировок для идеографического пространства — 0x4040 согласно структуре кода DBCS-Host и 0xA1A1, как в EUC-JP. Однако диапазон ведущих байтов расширяется обратно до 0x59, из которых ведущие байты 0x81–A0 предназначены для определяемых пользователем символов, [1] а остальные используются для определяемых корпорацией символов, включая как кандзи, так и не-кандзи. [3]

В Fujitsu JEF [17] (Japanese-processing Extended Feature) 0x29переключается в однобайтовый режим и 0x28переключается в двухбайтовый режим. Аналогично KEIS, коды JIS X 0208 представлены так же, как в EUC-JP. [1] В отличие от KEIS, редакция JIS X 0208, используемая в этой зоне JEF, является исходным JIS C 6226:1978. [31] [17] Диапазон ведущих байтов расширен обратно до 0x41, при этом 0x80–A0 назначены для определения пользователем; ведущим байтам 0x41–7F назначены номера строк от 101 до 163 для целей kuten , хотя строка 162 (ведущий байт 0x7E) не используется. [1] [3] Строки с 101 по 148 используются для расширенных кандзи, а строки с 149 по 163 используются для расширенных не-кандзи. [3]

Сноски

  1. ^ Эти шестнадцатеричные формы этих последовательностей сдвига соответствуют десятичным формам ( 10 65и 10 66), перечисленным Лунде. [1] Лунде перечисляет шестнадцатеричные формы для обоих сдвигов как 0xA0 0x42, по-видимому, по ошибке.

Ссылки

  1. ^ abcdefghij Lunde, Ken (2009). "Приложение F: Методы кодирования поставщиков" (PDF) . Обработка информации CJKV: китайская, японская, корейская и вьетнамская вычислительная техника (2-е изд.). Севастополь, Калифорния : O'Reilly . ISBN 978-0-596-51447-1.
  2. ^ ab "Инвариантный набор символов". Документация IBM i 7.1 . IBM . 14 августа 2018 г.
  3. ^ abcdefg Лунде, Кен (2009). "Приложение E: Стандарты набора символов поставщика" (PDF) . Обработка информации CJKV: китайская, японская, корейская и вьетнамская вычислительная техника (2-е изд.). Севастополь, Калифорния : O'Reilly . ISBN 978-0-596-51447-1.
  4. ^ «EBCDIK: Расширенный двоично-десятичный код обмена кана».通信用語の基礎知識.
  5. ^ ab "Идентификаторы кодовых страниц". Центр разработки Windows . Microsoft.
  6. ^ Стил, Шон. "Кодовая страница 21027 "Расширенный/Расширенный альфа-строчный регистр"". Microsoft .
  7. ^ "CCSID 8482". Кодированные идентификаторы набора символов . IBM . Архивировано из оригинала 29.11.2014.
  8. ^ "CCSID 5123". Кодированные идентификаторы набора символов . IBM . Архивировано из оригинала 2014-11-29.
  9. ^ abcd "ibm-930_P120-1999". Международные компоненты для Unicode . Консорциум Unicode .
  10. ^ "CCSID 930". Кодированные идентификаторы набора символов . IBM . Архивировано из оригинала 2014-12-01.
  11. ^ abcd "ibm-1390_P110-2003". Международные компоненты для Unicode . Консорциум Unicode .
  12. ^ "CCSID 1390". Кодированные идентификаторы набора символов . IBM . Архивировано из оригинала 2014-11-29.
  13. ^ abcd "ibm-939_P120-1999". Международные компоненты для Unicode . Консорциум Unicode .
  14. ^ "CCSID 939". Кодированные идентификаторы набора символов . IBM . Архивировано из оригинала 2014-12-01.
  15. ^ abcd "ibm-1399_P110-2003". Международные компоненты для Unicode . Консорциум Unicode .
  16. ^ "CCSID 1399". Кодированные идентификаторы набора символов . IBM . Архивировано из оригинала 2014-11-29.
  17. ^ abcde Идзуно, Хидекацу (20 октября 2021 г.). «jef4j: поддержка кодировки JEF для Java». Гитхаб .
  18. ^ ab "EBCDIC/EBCDIKのコード表". Хитачи . Архивировано из оригинала 3 июня 2021 г. Проверено 29 мая 2021 г.
  19. ^ "Таблица преобразования JIS/EBCDIK". Справочное руководство FCOPY . Hewlett-Packard .[1] Примечание: таблица в источнике отображает все входные байты, иногда в коды, которые на самом деле не определены в JIS X 0201 , но она асимметрична и не всегда выполняет круговой обход. Показанные здесь символы — это те, где таблицы в источнике отображают круговой обход символов в коды, которые на самом деле определены в JIS X 0201.
  20. ^ "Кодовая страница 00298" (PDF) . IBM . Архивировано из оригинала (PDF) 2015-07-08.
  21. ^ "Кодовая страница 01027" (PDF) . РЕЕСТР: Наборы графических символов и кодовые страницы . IBM . 1999.
  22. ^ "Кодовая страница 01027" (PDF) . IBM . Архивировано (PDF) из оригинала 2015-07-08.
  23. ^ "Кодовая страница 01031" (PDF) . IBM . Архивировано из оригинала (PDF) 2015-07-08.
  24. ^ "Кодовая страница 01136" (PDF) . IBM . Архивировано из оригинала (PDF) 2015-07-08.
  25. ^ "EBCDICカナ文字からの変換".コード変換 マニュアル - はじめに (HULFT8) (на японском языке). Информационные системы Сезона.
  26. ^ Коидзуми, Мориёси. «EBCDIC-кана».
  27. ^ "Кодовая страница 00290" (PDF) . РЕЕСТР: Наборы графических символов и кодовые страницы . IBM . 1999.
  28. ^ "Кодовая страница 00290" (PDF) . IBM . Архивировано (PDF) из оригинала 2015-07-08.
  29. ^ "Кодовая страница 00887" (PDF) . IBM . Архивировано из оригинала (PDF) 2015-07-08.
  30. ^ "Кодовая страница 01030" (PDF) . IBM . Архивировано из оригинала (PDF) 2015-07-08.
  31. ^ abcde "付録K.3 文字コード変換". Хитачи .
  32. ^ "2 Кодировки и преобразование кодировок". Технический справочник DIGITAL UNIX по использованию японских функций . Compaq .
  33. ^ abcd "Набор японских графических символов IBM, Kanji" (PDF) . IBM . 1999. Корпоративная спецификация IBM CH 3-3220-024.
  34. ^ "ibm-1364_P110-2007". Международные компоненты для Unicode . Консорциум Unicode .
  35. ^ "CCSID 16684". Кодированные идентификаторы набора символов . IBM . Архивировано из оригинала 2014-11-29.
Взято с "https://en.wikipedia.org/w/index.php?title=Японский_язык_в_EBCDIC&oldid=1242253877"