MIME/IANA | ГБ18030 |
---|---|
Псевдоним(ы) | Код страницы 54936 |
Язык(и) | Международный, но в первую очередь предназначен для китайцев |
Стандарт | ГБ 18030-2022, ГБ 18030-2005, ГБ 18030-2000 |
Классификация | Формат преобразования Unicode , расширенный ASCII , [a] кодировка переменной ширины , кодировка CJK |
Расширяет | EUC-CN , GBK |
Преобразует/Кодирует | ISO 10646 ( Юникод ) |
Предшествовал | ГБК , ГБ2312 |
| |
GB 18030 — это китайский государственный стандарт , описываемый как «Информационные технологии — набор китайских кодированных символов» , который определяет требуемую поддержку языка и символов, необходимую для программного обеспечения в Китае . GB18030 — это зарегистрированное интернет-имя официального набора символов Китайской Народной Республики ( КНР), заменяющее GB2312 . [1] Как формат преобразования Unicode [a] (т. е. кодировка всех кодовых точек Unicode ), GB18030 поддерживает как упрощенные , так и традиционные китайские символы . Он также совместим с устаревшими кодировками, включая GB/T 2312 , CP936 , [b] и GBK 1.0.
Консорциум Unicode предупредил разработчиков, что последняя версия этого китайского стандарта, GB 18030-2022 , вводит то, что они называют «разрушительными изменениями» по сравнению с предыдущей версией GB 18030-2005, «включая 33 различных символа и 55 позиций кода». [2] GB 18030-2022 вступил в силу с 1 августа 2023 года. [3] Он был реализован в ICU 73.2; и в Java 21, [4] и перенесен в более старые версии Java 8, 11, 17 (выпуски LTS) и 20.0.2. [5]
В дополнение к методу кодирования этот стандарт содержит требования о том, какие дополнительные письменности и языки должны быть представлены, и к кому этот стандарт применим. [6] Однако этот стандарт не определяет официальные формы символов для китайских иероглифов; это стандартизировано в Списке общепринятых стандартных китайских иероглифов .
Набор символов GB18030 официально называется «Китайский национальный стандарт GB 18030-2005: Информационные технологии — китайский набор кодированных символов». GB — это сокращение от Guójiā Biāozhǔn (国家标准), что означает национальный стандарт на китайском языке. Стандарт был опубликован издательством China Standard Press в Пекине 8 ноября 2005 года. Только часть стандарта является обязательной. [6] С 1 мая 2006 года поддержка обязательного подмножества официально требуется для всех программных продуктов, продаваемых в КНР.
Последовательность байтов ГБ | Кодовая точка Unicode | |
---|---|---|
ГБ 18030-2000 | ГБ 18030-2005 | |
A8 BC (ḿ) | U+E7C7 | U+1E3F ḿ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА M С АКУТОМ |
81 35 Ф4 37 | U+1E3F ḿ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА M С АКУТОМ | U+E7C7 |
Более старая версия стандарта, известная как «Китайский национальный стандарт GB 18030-2000: Информационные технологии — Набор кодированных символов китайских идеограмм для обмена информацией — Расширение для базового набора», была опубликована 17 марта 2000 года. Схема кодирования в новой версии осталась прежней, и единственное отличие в сопоставлении GB-Unicode заключается в том, что GB 18030-2000 сопоставлял символ A8 BC
(ḿ) с кодовой точкой частного использования U+E7C7, а символ 81 35 F4 37
(без указания какого-либо глифа) — с U+1E3F (ḿ), тогда как GB 18030-2005 меняет местами эти два назначения сопоставления. [7] : 534 В связи с обновлением Unicode , особенно появлением расширения CJK Unified Ideographs Extension B, с символами теперь связано больше кодовых точек. Также были добавлены некоторые символы, используемые этническими меньшинствами Китая , такие как монгольские иероглифы и тибетские символы (GB 16959-1997 и GB/T 20542-2006), что объясняет переименование стандарта.
По сравнению с его предшественниками, отображение GB 18030 в Unicode было изменено для 81 символа, которым была временно назначена кодовая точка Unicode Private Use Area (U+E000–F8FF) в GBK 1.0 и которые позже были закодированы в Unicode. [8] Это указано в Приложении E к GB 18030. [7] : 534 [9] : 499 В GB 18030-2005 есть 24 символа, которые по-прежнему отображаются в Unicode PUA. [10]
В обновлении GB 18030-2022 требования к символам, которые должны быть сопоставлены с PUA, были полностью сняты, и все символы должны быть сопоставлены со своими стандартными кодовыми точками Unicode. Из них 18 сопоставлений были обновлены путем замены позиций, аналогично тому, что произошло между GBK и GB 18030. Остальные шесть сохранили двухбайтовые сопоставления PUA, поэтому для соответствия предпочтению non-PUA необходимо изменение на 4-байтовую последовательность. [11]
Последовательность байтов ГБ | Кодовая точка Unicode [a] | |||
---|---|---|---|---|
ГБК 1.0 [12] [7] : 534 | ГБ 18030-2005 [10] | Юникод 4.1 | ГБ 18030-2022 [11] | |
А6 Д9 [13] : 108 | U+E78D | U+FE10 ︐ ФОРМА ПРЕДСТАВЛЕНИЯ ВЕРТИКАЛЬНОЙ ЗАПЯТОЙ | ||
А6 ДА | U+E78E | U+FE12 ︒ ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ИДЕОГРАФИЧЕСКОЙ ТОЧКИ | ||
А6 ДБ | U+E78F | U+FE11 ︑ ФОРМА ПРЕДСТАВЛЕНИЯ ВЕРТИКАЛЬНОЙ ИДЕОГРАФИЧЕСКОЙ ЗАПЯТОЙ | ||
А6 DC | U+E790 | U+FE13 ︓ ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ТОЛСТОЙ КИШКИ | ||
А6 ДД | U+E791 | U+FE14 ︔ ФОРМА ПРЕДСТАВЛЕНИЯ ВЕРТИКАЛЬНОЙ ТОЧКИ С ЗАПЯТОЙ | ||
А6 ДЕ | U+E792 | U+FE15 ︕ ФОРМА ПРЕДСТАВЛЕНИЯ ВЕРТИКАЛЬНОГО ВОСКЛИЦАТЕЛЬНОГО ЗНАКА | ||
А6 ДФ | U+E793 | U+FE16 ︖ ФОРМА ПРЕДСТАВЛЕНИЯ ВЕРТИКАЛЬНОГО ВОПРОСА | ||
А6 ЕС | U+E794 | U+FE17 ︗ ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ЛЕВОЙ БЕЛОЙ ДВУХСТОРОННЕЙ СКОБКИ | ||
А6 ЭД | U+E795 | U+FE18 ︘ ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ПРАВОЙ БЕЛОЙ ДВУХСТОРОННЕЙ СКОБКИ | ||
А6 Ф3 | U+E796 | U+FE19 ︙ ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНО-ГОРИЗОНТАЛЬНОГО ЭЛЛИПСИСА | ||
А8 БК | U+E7C7 | U+1E3F ḿ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА M С АКУТОМ | ||
А8 БФ | U+E7C8 | U+01F9 ǹ ЛАТИНСКАЯ СТРОЧНАЯ БУКВА N С ГРАВОЙ | ||
А9 89 | U+E7E7 | U+303E 〾 ИДЕОГРАФИЧЕСКИЙ ИНДИКАТОР ВАРИАЦИИ | ||
А9 8А | U+E7E8 | U+2FF0 ⿰ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА СЛЕВА НАПРАВО | ||
А9 8Б | U+E7E9 | U+2FF1 ⿱ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА СВЕРХУ ВНИЗ | ||
А9 8С | U+E7EA | U+2FF2 ⿲ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА СЛЕВА В ЦЕНТР И СПРАВА | ||
А9 8Д | U+E7EB | U+2FF3 ⿳ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА СВЕРХУ ДО СРЕДНЕГО И НИЖЕ | ||
А9 8Е | U+E7EC | U+2FF4 ⿴ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА ПОЛНОЕ ОКРУЖЕНИЕ | ||
А9 8Ф | U+E7ED | U+2FF5 ⿵ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ ПЕРСОНАЖА ОКРУЖЕНИЕ СВЕРХУ | ||
А9 90 | U+E7EE | U+2FF6 ⿶ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ ПЕРСОНАЖА ОКРУЖЕНИЕ СНИЗУ | ||
А9 91 | U+E7EF | U+2FF7 ⿷ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ ПЕРСОНАЖА ОКРУЖЕНИЕ СЛЕВА | ||
А9 92 | U+E7F0 | U+2FF8 ⿸ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ ОКРУЖЕНИЕ ПЕРСОНАЖА С ВЕРХНЕГО ЛЕВОГО УГЛА | ||
А9 93 | U+E7F1 | U+2FF9 ⿹ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ ОКРУЖЕНИЕ СИМВОЛА С ВЕРХНЕГО ПРАВОГО КРАЯ | ||
А9 94 [13] : 173 | U+E7F2 | U+2FFA ⿺ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ ОКРУЖЕНИЕ СИМВОЛА С НИЖНЕГО ЛЕВОГО КРАЯ | ||
А9 95 | U+E7F3 | U+2FFB ⿻ ИДЕОГРАФИЧЕСКОЕ ОПИСАНИЕ СИМВОЛА НАЛОЖЕНО | ||
ФЭ 50 | U+E815 | U+2E81 ⺁ CJK РАДИКАЛЬНЫЙ КЛИФФ | ||
ФЕ 51 | U+E816 | U+20087 𠂇 CJK ЕДИНАЯ ИДЕОГРАФИЯ-20087 [b] | U+E816 | |
ФЕ 52 | U+E817 | U+20089 𠂉 CJK ЕДИНАЯ ИДЕОГРАФИЯ-20089 [c] | U+E817 | |
ФЕ 53 | U+E818 | U+200CC 𠃌 CJK ЕДИНАЯ ИДЕОГРАФИЯ-200CC [d] | U+E818 | |
ФЕ 54 | U+E819 | U+2E84 ⺄ CJK РАДИКАЛ ВТОРАЯ ТРИ | ||
ФЕ 55 | U+E81A | U+3473 㑳 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3473 | ||
ФЕ 56 | U+E81B | U+3447 㑇 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3447 | ||
ФЕ 57 | U+E81C | U+2E88 ⺈ CJK РАДИКАЛЬНЫЙ НОЖ ОДИН | ||
ФЕ 58 | U+E81D | U+2E8B ⺋ CJK РАДИКАЛЬНАЯ ПЕЧАТЬ | ||
ФЕ 59 | U+E81E | U+9FB4 龴 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB4 | ||
ФЭ 5А | U+E81F | U+359E 㖞 CJK ЕДИНАЯ ИДЕОГРАФИЯ-359E | ||
ФЭ 5Б | U+E820 | U+361A 㘚 CJK ЕДИНАЯ ИДЕОГРАФИЯ-361A | ||
ФЭ 5С | U+E821 | U+360E 㘎 CJK ЕДИНАЯ ИДЕОГРАФИЯ-360E | ||
ФЭ 5Д | U+E822 | U+2E8C ⺌ CJK РАДИКАЛ МАЛЕНЬКИЙ | ||
ФЭ 5Е | U+E823 | U+2E97 ⺗ CJK РАДИКАЛЬНОЕ СЕРДЦЕ ДВА | ||
ФЭ 5Ф | U+E824 | U+396E 㥮 CJK ЕДИНАЯ ИДЕОГРАФИЯ-396E | ||
ФЭ 60 | U+E825 | U+3918 㤘 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3918 | ||
ФЕ 61 | U+E826 | U+9FB5 龵 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB5 | ||
ФЕ 62 | U+E827 | U+39CF 㧏 CJK ЕДИНАЯ ИДЕОГРАФИЯ-39CF | ||
ФЭ 63 | U+E828 | U+39DF 㧟 CJK ЕДИНАЯ ИДЕОГРАФИЯ-39DF | ||
ФЕ 64 | U+E829 | U + 3A73 㩳 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3A73 | ||
ФЭ 65 | U+E82A | U+39D0 㧐 CJK ЕДИНАЯ ИДЕОГРАФИЯ-39D0 | ||
ФЕ 66 | U+E82B | U+9FB6 龶 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB6 | ||
ФЕ 67 | U+E82C | U + 9FB7 龷 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB7 | ||
ФЕ 68 | U+E82D | U+3B4E 㭎 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3B4E | ||
ФЕ 69 | U+E82E | U+3C6E 㱮 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3C6E | ||
ФЭ 6А | U+E82F | U+3CE0 㳠 CJK ЕДИНАЯ ИДЕОГРАФИЯ-3CE0 | ||
ФЭ 6Б | U+E830 | U+2EA7 ⺧ CJK РАДИКАЛЬНАЯ КОРОВА | ||
ФЭ 6С | U+E831 | U+215D7 𡗗 CJK ЕДИНАЯ ИДЕОГРАФИЯ-215D7 [e] | U+E831 | |
ФЭ 6Д | U+E832 | U+9FB8 龸 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB8 | ||
ФЭ 6Е | U+E833 | U+2EAA ⺪ CJK РАДИКАЛЬНЫЙ РОЛИК ТКАНИ | ||
ФЭ 6Ф | U+E834 | U+4056 䁖 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4056 | ||
ФЭ 70 | U+E835 | U+415F 䅟 CJK ЕДИНАЯ ИДЕОГРАФИЯ-415F | ||
ФЕ 71 | U+E836 | U+2EAE ⺮ CJK РАДИКАЛЬНЫЙ БАМБУК | ||
ФЭ 72 | U+E837 | U+4337 䌷 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4337 | ||
ФЭ 73 | U+E838 | U+2EB3 ⺳ CJK РАДИКАЛЬНАЯ СЕТЬ ТРИ | ||
ФЭ 74 | U+E839 | U+2EB6 ⺶ CJK РАДИКАЛЬНАЯ ОВЦА | ||
ФЭ 75 | U+E83A | U+2EB7 ⺷ CJK РАДИКАЛ RAM | ||
ФЕ 76 | U+E83B | U+2298F 𢦏 CJK ЕДИНАЯ ИДЕОГРАФИЯ-2298F [f] | U+E83B | |
ФЕ 77 | U+E83C | U+43B1 䎱 CJK ЕДИНАЯ ИДЕОГРАФИЯ-43B1 | ||
ФЭ 78 | U+E83D | U+43AC 䎬 CJK ЕДИНАЯ ИДЕОГРАФИЯ-43AC | ||
ФЕ 79 | U+E83E | U+2EBB ⺻ CJK РАДИКАЛЬНАЯ ЩЕТКА ДВА | ||
ФЭ 7А | U+E83F | U+43DD 䏝 CJK ЕДИНАЯ ИДЕОГРАФИЯ-43DD | ||
ФЭ 7Б | U+E840 | U+44D6 䓖 CJK ЕДИНАЯ ИДЕОГРАФИЯ-44D6 | ||
ФЭ 7С | U+E841 | U+4661 䙡 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4661 | ||
ФЭ 7Д | U+E842 | U+464C 䙌 CJK ЕДИНАЯ ИДЕОГРАФИЯ-464C | ||
ФЭ 7Е | U+E843 | U+9FB9 龹 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FB9 | ||
ФЭ 80 | U+E844 | U+4723 䜣 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4723 | ||
ФЕ 81 | U+E845 | U+4729 䜩 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4729 | ||
ФЕ 82 | U+E846 | U+477C 䝼 CJK ЕДИНАЯ ИДЕОГРАФИЯ-477C | ||
ФЕ 83 | U+E847 | U+478D 䞍 CJK ЕДИНАЯ ИДЕОГРАФИЯ-478D | ||
ФЕ 84 | U+E848 | U+2ECA ⻊ CJK РАДИКАЛЬНАЯ СТОПА | ||
ФЕ 85 | U+E849 | U+4947 䥇 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4947 | ||
ФЕ 86 | U+E84A | U+497A 䥺 CJK ЕДИНАЯ ИДЕОГРАФИЯ-497A | ||
ФЕ 87 | U+E84B | U+497D 䥽 CJK ЕДИНАЯ ИДЕОГРАФИЯ-497D | ||
ФЕ 88 | U+E84C | U+4982 䦂 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4982 | ||
ФЕ 89 | U+E84D | U+4983 䦃 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4983 | ||
ФЭ 8А | U+E84E | U+4985 䦅 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4985 | ||
ФЭ 8Б | U+E84F | U+4986 䦆 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4986 | ||
ФЭ 8С | U+E850 | U+499F 䦟 CJK ЕДИНАЯ ИДЕОГРАФИЯ-499F | ||
ФЭ 8Д | U+E851 | U+499B 䦛 CJK ЕДИНАЯ ИДЕОГРАФИЯ-499B | ||
ФЕ 8Е | U+E852 | U + 49B7 䦷 CJK ЕДИНАЯ ИДЕОГРАФИЯ-49B7 | ||
ФЭ 8Ф | U+E853 | U+49B6 䦶 CJK ЕДИНАЯ ИДЕОГРАФИЯ-49B6 | ||
ФЭ 90 | U+E854 | U+9FBA 龺 CJK UNIFIED IDEOGRAPH-9FBA | ||
ФЕ 91 | U+E855 | U+241FE 𤇾 ЕДИНАЯ ИДЕОГРАФИЯ CJK-241FE [g] | U+E855 | |
ФЕ 92 | U+E856 | U+4CA3 䲣 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4CA3 | ||
ФЕ 93 | U+E857 | U+4C9F 䲟 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4C9F | ||
ФЕ 94 | U+E858 | U+4CA0 䲠 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4CA0 | ||
ФЭ 95 | U+E859 | U+4CA1 䲡 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4CA1 | ||
ФЕ 96 | U+E85A | U+4C77 䱷 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4C77 | ||
ФЕ 97 | U+E85B | U+4CA2 䲢 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4CA2 | ||
ФЕ 98 | U+E85C | U+4D13 䴓 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D13 | ||
ФЕ 99 | U+E85D | U+4D14 䴔 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D14 | ||
ФЭ 9А | U+E85E | U+4D15 䴕 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D15 | ||
ФЕ 9Б | U+E85F | U+4D16 䴖 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D16 | ||
ФЭ 9С | U+E860 | U+4D17 䴗 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D17 | ||
ФЭ 9Д | U+E861 | U+4D18 䴘 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D18 | ||
ФЕ 9Е | U+E862 | U+4D19 䴙 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4D19 | ||
ФЭ 9Ф | U+E863 | U+4DAE 䶮 CJK ЕДИНАЯ ИДЕОГРАФИЯ-4DAE | ||
ФЭ А0 | U+E864 | U+9FBB 龻 CJK ЕДИНАЯ ИДЕОГРАФИЯ-9FBB | ||
Примечания
|
Первая версия GB 18030, обозначенная как GB 18030-2000 Information Technology—Chinese coded character set for information interchange — Extension for the basic set , состоит из 1-байтовых и 2-байтовых кодировок вместе с 4-байтовой кодировкой для CJK Unified Ideographs Extension A, соответствующей таковым в Unicode 3.0. Соответствующие кодовые точки Unicode этого подмножества, включая временные частные назначения, полностью лежат в BMP . Эти части являются полностью обязательными в GB 18030-2000. [6] : 2 Большинство крупных компьютерных компаний уже стандартизировали некоторую версию Unicode в качестве основного формата для использования в своих двоичных форматах и вызовах ОС. Однако в основном они поддерживали только кодовые точки в BMP, изначально определенном в Unicode 1.0, который поддерживал только 65 536 кодовых точек и часто кодировался в 16 бит как UCS-2 . Этот стандарт по сути представляет собой расширение на основе GBK с дополнительными символами в расширении A унифицированных идеографических символов CJK.
Вторая версия, обозначенная как GB 18030-2005 Information Technology — Chinese coded character set, имеет тот же обязательный поднабор, что и GB 18030-2000, из 1-, 2- и 4-байтовых кодировок. [7] : 3 Эта версия также включает полное расширение CJK Unified Ideographs Extension B в разделе 4-байтовой кодировки, которое находится за пределами BMP [10] в качестве требования поддержки предложений. [14] Однако, поскольку включение расширения CJK Unified Ideographs Extension B в 4-байтовую область требуется поддерживать во время обработки информации, программное обеспечение больше не может обходиться без обработки символов как 16-битных объектов фиксированной ширины ( UCS-2 ). Поэтому они должны либо обрабатывать данные как формат переменной ширины (как с UTF-8 или UTF-16 ), что является наиболее распространенным выбором, либо перейти на более крупный формат фиксированной ширины (например, UTF-32 ). Microsoft осуществила переход с UCS-2 на UTF-16 в Windows 2000. Эта версия соответствует Unicode 3.1, а также обеспечивает поддержку хангыля ( корейского ), монгольского (включая маньчжурский , четкий шрифт , сибе хэргэн , галик ), тайского нуэа , тибетского , уйгурского / казахского / киргизского и и .
Третья и последняя версия, GB 18030-2022 Information Technology—Chinese coded character set , предписывает часть поддержки предложений CJK Unified Ideographs Extension B в GB 18030-2005, а также обновления до Unicode 11.0, включая радикалы канси и CJK Unified Ideographs URO , Extension C, D, E и F. Дополнительные языки также признаются GB 18030-2022, такие как часть арабского , тайле , нового тайлуэ , тайтхам , лису и мяо . GB 18030-2022 также вводит три уровня реализации с требованием «все продукты, использующие этот стандарт, должны реализовывать уровень реализации 1», который включает 66 новых символов BMP в 4-байтовой области кодировки, которые были добавлены между Unicode 3.1 и Unicode 11.0. Уровень реализации 2 требует поддержки Списка общепринятых стандартных китайских иероглифов , а уровень реализации 3 требует всех остальных указанных в стандарте регионов. [11]
С конца 2022 по 2023 год проекты дополнительных поправок должны быть доступны для публичного обсуждения в GB 18030-2022. Текущий проект обновляет до Unicode 15.1 символы идеографического описания , унифицированные идеограммы CJK URO, расширения A, B, C, G, H и I. [15] [16] [17] Первоначально, в конце 2022 года, он должен был поместить 897 новых синографических символов в Плоскость 10 ( шестнадцатеричная : 0A), еще не названную астральную плоскость Unicode , для сертификации настоящих имен граждан в Китае, но в конечном итоге репертуар (сокращенный до 622 символов после экспертной оценки) был ускоренно включен в Unicode 15.1 в сентябре 2023 года в качестве блока расширения I унифицированных идеограмм CJK . [18] После этого проект поправки был изменен для использования кодовых точек расширения I. [17]
GB 18030 определяет однобайтовую (ASCII), двухбайтовую (расширенная GBK) или четырехбайтовую (UTF) кодировку. Двухбайтовые коды определяются в таблице поиска, тогда как четырехбайтовые коды определяются последовательно (следовательно, алгоритмически) для заполнения некодированных частей в UCS . GB 18030 наследует плохие аспекты GBK , в частности, необходимость специального кода для безопасного поиска символов ASCII в последовательности GB18030.
ГБ 18030 | кодовые точки [c] | Юникод | |||
---|---|---|---|---|---|
байт 1 (старший байт) | байт 2 | байт 3 | байт 4 | ||
00 –7F | 128 | 0000 –007F | |||
80 | — | недействительный [d] | |||
81 –FE | 40 – FE кроме 7F [е] | 23 940 | 0080 – FFFF кроме D800 – DFFF [ф] | ||
81 –84 | 30 –39 | 81 –FE | 30 –39 | 39 420 | |
85 | — (12 600 ) | зарезервировано для будущего расширения персонажа | |||
86 –8F | — (126 000 ) | зарезервировано для будущего идеографического расширения | |||
неназначенный | — | D800 – DFFF [г] | |||
90 –E3 | 30 –39 | 81 –FE | 30 –39 | 1 048 576 | 10000 –10FFFF |
E4 –FC | — (315 000 ) | зарезервировано для будущего стандартного расширения | |||
FD –FE | — (25 200 ) | определяемый пользователем | |||
FF | — | неверный | |||
Общий | 1 112 064 |
Одно- и двухбайтовые кодовые точки по сути являются GBK со знаком евро, отображениями PUA для неназначенных/определенных пользователем точек и вертикальными знаками препинания. Четырехбайтовую схему можно рассматривать как состоящую из двух единиц, каждая из двух байтов. Каждая единица имеет формат, аналогичный двухбайтовому символу GBK, но с диапазоном значений для второго байта 0x30–0x39 (коды ASCII для десятичных цифр). Первый байт имеет диапазон от 0x81 до 0xFE, как и раньше. Это означает, что процедура поиска строки, которая безопасна для GBK, также должна быть разумно [ требуется разъяснение ] безопасной для GB18030 (во многом так же, как базовая процедура поиска , ориентированная на байты , разумно безопасна для EUC ).
Это дает в общей сложности 1 587 600 (126 × 10 × 126 × 10) возможных 4-байтовых последовательностей, что вполне достаточно для покрытия 1 112 064 (17 × 65 536 − 2048 суррогатов) назначенных, зарезервированных и несимвольных кодовых точек Unicode .
К сожалению, чтобы еще больше усложнить ситуацию, нет простых правил для перевода между последовательностью из 4 байтов и соответствующей ей кодовой точкой . Вместо этого коды выделяются последовательно (первый байт содержит самую значимую часть, а последний — наименее значимую часть) только для кодовых точек Unicode, которые не отображаются каким-либо другим образом. [h] Например:
U+00DE (Þ) → 81 30 89 37U+00DF (ß) → 81 30 89 38U+00E0 (а) → А8 А4U+00E1 (б) → A8 A2U+00E2 (в) → 81 30 89 39U+00E3 (г) → 81 30 8A 30
Таблица смещений используется в версии GB 18030 WHATWG и W3C для эффективного перевода кодовых точек. [20] ICU [19] и glibc используют похожие определения диапазонов, чтобы избежать траты места на большие последовательные блоки.
Этот раздел нуждается в расширении . Вы можете помочь, дополнив его. ( Октябрь 2016 ) |
GB 18030 поддерживается в Windows с момента выпуска Windows 95 как кодовая страница 54936. [21] Windows 2000 и XP предлагают пакет поддержки GB18030. [22] База данных PostgreSQL с открытым исходным кодом поддерживает GB18030 посредством полной поддержки UTF-8, т. е. путем преобразования в UTF-8 и обратно. Аналогично Microsoft SQL Server поддерживает GB18030 путем преобразования в UTF-16 и обратно.
Более конкретно, поддержка кодировки GB18030 в Windows означает, что кодовая страница 54936 поддерживается MultiByteToWideChar
и WideCharToMultiByte
. Благодаря обратной совместимости сопоставления многие файлы в GB18030 могут быть фактически успешно открыты как устаревшая кодовая страница 936, то есть GBK, даже если кодовая страница 54936 не поддерживается. Однако это верно только в том случае, если рассматриваемый файл содержит только символы GBK. Загрузка завершится неудачей или приведет к повреждению результата, если файл содержит символы, которых нет в GBK (см. примеры в § Технические подробности).
GNU glibc gconv, библиотека кодеков символов, используемая в большинстве дистрибутивов Linux, поддерживает GB 18030-2000 с версии 2.2 [23] и GB 18030-2005 с версии 2.14; [24] glibc в частности включает не-PUA сопоставления для GB 18030-2005 для достижения преобразования в обе стороны. [25] GNU libiconv , альтернативная реализация iconv , часто используемая в не-glibc UNIX-подобных средах, таких как Cygwin , поддерживает GB 18030 с версии 1.4. [26]
По состоянию на 2022 год «поддержка некитайских письменностей остается необязательной» [27] (предположительно, только для поддержки отображения/шрифта; и в Китае, поскольку кодировка представляет собой полную UTF). Известно, что стандарт поддерживает английский/ASCII, и «следующие некитайские письменности признаются GB 18030-2022: арабский, тибетский, монгольский, тай-ле, новый тай-луэ, тай-тхам, и, лису, хангыль (корейский) и мяо». [27]
Пакет поддержки GB18030 для Windows содержит SimSun18030.ttc, файл коллекции шрифтов TrueType, который объединяет два китайских шрифта, SimSun-18030 и NSimSun-18030. Шрифт SimSun 18030 включает все символы [ необходимо разъяснение ] в Unicode 2.1, а также новые символы, найденные в блоке Unicode CJK Unified Ideographs Extension A, хотя, несмотря на свое название, он не содержит глифов для всех символов, закодированных GB 18030, поскольку все (около миллиона) кодовых точек Unicode до U+10FFFF могут быть закодированы как GB 18030. Сертификация соответствия GB 18030 требует только правильной обработки и распознавания глифов в обязательной (двухбайтовой и CJK Ext. A) китайской части. [6] : 4 Тем не менее, требование символов PUA в стандарте затруднило эту реализацию. [28]
Microsoft YaHei и DengXian, предоставленные Microsoft, обновлены в 2023 году для соответствия уровню реализации GB 18030-2022 2, а SimSun обновлен для соответствия уровню реализации 3. [29]
Source Han Sans (и его аналог Noto Sans CJK) уже соответствуют уровню реализации GB 18030-2022 2, когда стандартное обновление для GB 18030 будет объявлено в ноябре 2022 года [обновлять]. Однако Source Han Serif (и его аналог Noto Serif CJK) на данный момент не соответствует, и предоставляется обновление, гарантирующее соответствие шрифта уровню реализации 2. Аналогично Microsoft YaHei и PingFang (Apple) требуют небольшого количества дополнений URO, связанных с уровнем реализации 1, чтобы соответствовать уровню реализации GB 18030-2022 2. [27]
Другие семейства шрифтов CJK , такие как HAN NOM [30] и Hanazono Mincho [31], обеспечивают более широкий охват блоков расширения Unicode CJK, чем SimSun-18030 или даже SimSun (Founder Extended), но они не поддерживают все кодовые точки, определенные в GB 18030.
84 31 A4 39
на странице 239 стандарта 2005 года, хотя стандарт дает сведения только 84 39 FE 39
для отображения BMP.Страница 4.
Руководство по эксплуатации, англ.出、处理GB 18030-2005强制部分规定的全部汉字字符;②产品可以正确识别GB [Изделие, соответствующее обязательной части GB 18030, должно быть способно правильно а) вводить, выводить и обрабатывать все китайские символы, определенные в обязательном наборе; б) распознавать кодировки символов обязательного набора.]
Альтернативный URL-адрес
{{cite book}}
: |work=
проигнорировано ( помощь )Страница 4.
Руководство по эксплуатации, англ.出、处理GB 18030-2005强制部分规定的全部汉字字符;②产品可以正确识别GB [Изделие, соответствующее обязательной части GB 18030, должно быть способно правильно а) вводить, выводить и обрабатывать все китайские символы, определенные в обязательном наборе; б) распознавать кодировки символов обязательного набора.]
Кроме того, поддержка кодовых точек PUA в контексте шрифтов Noto CJK и Source Han — это полная неудача, в основном потому, что это шрифты Pan-CJK, а использование PUA в таких контекстах крайне опасно. [...] Один из моих друзей в CESI несколько дней назад поделился со мной текстом из финального черновика. Это подтвердило, что требование PUA для 24 символов снимается.