ИСО/МЭК 8859-6

Стандартные кодировки символов на основе ASCII для арабского языка
ISO-8859-6 (АСМО 708)
MIME/IANAИСО-8859-6
Псевдоним(ы)iso-ir-127, ECMA-114, ASMO-708, арабский, csISOLatinАрабский [1]
СтандартASMO 708, ECMA-114, ISO/IEC 8859-6
Классификациярасширенный ASCII , ISO 8859
РасширенияOEM-708, Mac OS арабский (почти)
ПредшествовалАСМО 449
ПреемникЮникод
Другие связанные кодировкиWindows-1256 (несовместимо, перемещает несколько букв)

ISO/IEC 8859-6:1999 , Информационные технологии — 8-битные однобайтовые кодированные графические наборы символов — Часть 6: Латинский/арабский алфавит , является частью серии ISO/IEC 8859 стандартных кодировок символов на основе ASCII , первое издание опубликовано в 1987 году. Его неофициально называют латинским/арабским . Он был разработан для арабского языка . Кодируются только номинальные буквы, никаких предварительно сформированных форм букв, поэтому для отображения требуется обработка формирования. Он не включает дополнительные буквы, необходимые для записи большинства языков с арабской графикой, кроме самого арабского (например, персидского, урду и т. д.).

ISO-8859-6 — это предпочитаемое IANA название набора символов для этого стандарта, когда оно дополнено управляющими кодами C0 и C1 из ISO/IEC 6429. Текст находится в логическом порядке, поэтому для отображения требуется обработка BiDi . Номинально ISO-8859-6 ( кодовая страница 28596 ) предназначено для «визуального порядка», а ISO-8859-6-I ( кодовая страница 38596 ) — для логического порядка. Но на практике, и это требуется для документов HTML и XML, ISO-8859-6 также обозначает текст в логическом порядке. Существует также ISO-8859-6-E , который предположительно требует явного указания направленности с помощью специальных управляющих символов; этот последний вариант на практике не используется. IBM присвоила кодовую страницу/ CCSID 1089 для ISO 8859-6. [2] [3] Это эмуляция для их операционной системы AIX .

ISO-8859-6 использовался в качестве эталонного стандарта для кодирования арабского письма в Unicode [4] , но в настоящее время технологически устарел . [5] Unicode является предпочтительным в современных приложениях, особенно в Интернете; это означает доминирующую кодировку UTF-8 для веб-страниц (см. также Арабское письмо в Unicode , для полного охвата, в отличие от, например, ISO-8859-6 или Windows 1256 , которые не охватывают дополнительные возможности). Менее 0,0002% всех веб-страниц используют ISO-8859-6, [6] [7], и это даже не третий по популярности вариант кодировки для арабского языка в Интернете.

История

ASMO 708 был разработан ныне несуществующей Арабской организацией по стандартизации и метрологии [8] в 1986 году как 8-битный стандарт для использования в арабоязычных странах. Дизайн этого набора символов был вдохновлен предыдущим 7-битным стандартом — ASMO 449 — но это не просто 7-битный набор символов, перемещенный в верхнюю часть; есть некоторые различия.

ASMO 708 — это двунаправленный набор символов. Нижняя часть набора символов отличается от стандарта ISO 646 цифрами и некоторыми знаками препинания. В зависимости от контекста (находятся ли цифры в латинском или арабском алфавите) цифры отображаются либо как латинские, либо как арабские цифры. Кроме того, в зависимости от контекста симметричные знаки препинания меняются местами, т. е. всякий раз, когда есть открывающий знак препинания, форма отображается по-разному в соответствии с направлением алфавита.

Верхняя часть набора символов содержит только арабские буквы, арабскую пунктуацию, отличную от латинской, а также несколько других символов.

ASMO 708 был разработан в тесном сотрудничестве [9] с ECMA , которая приняла его в качестве своего собственного стандарта ECMA-114 в 1986 году. Он также был утвержден в качестве стандарта ISO как ISO 8859-6 . [10] Он также был зарегистрирован в Международном регистре кодированных наборов символов как IR 127 [11] в 1986 году.

Связь с другими наборами символов

Некоторые другие наборы символов связаны с ASMO 708:

  • ASMO 708/French 1 [12] добавляет строчные французские символы;
  • French 1/ASMO 708 [12] добавляет французские строчные символы в их кодовые точки ISO 8859-1 и смещает арабские;
  • ISO/IR 167 [13] добавляет французские и немецкие символы;
  • Кодовая страница Microsoft 708 для MS-DOS добавляет французские символы в их типичные кодовые точки из кодовой страницы 437, а также добавляет символы рисования рамок;
  • Кодовая страница Microsoft 710 (прозрачный арабский) и кодовая страница Microsoft 720 (прозрачный ASMO) для MS-DOS добавляют французские символы в их типичные кодовые точки из кодовой страницы 437, но смещают арабские символы, чтобы позволить символам рисования рамок из кодовой страницы 437 находиться в их исходных кодовых точках;
  • В Windows 1256 от Microsoft в кодовые точки Windows 1252 добавлены строчные буквы французского алфавита , а арабские символы смещены ;

Кодовая таблица

ИСО/МЭК 8859-6 [14] [15] [16] [17]
0123456789АБСДЭФ
0x
1x
2x СП !"#$% / ٪&'()* / ٭+,-./
3x0/01/12/23/34/45/56/ф7/٧8/ф9/٩:;<=>?
4x@АБСДЭФГЧАСяДж.КЛМНО
5xПВРСТУВВтХИЗ[\]^_
6x`абсгефгчасяджклмно
7xпдгсттывжхуз{|}~
8x
9x
ТопорНБСП¤,ЗАСТЕНЧИВЫЙ
Вх;؟
СхءАãДАåАاБةتЬДжحخد
ДксذرòСشхضطظعغ
Бывшийـفقкلмнхوىй◌ً◌ٌ◌ٍ◌َ◌ُ
Фх◌ِ◌ّ◌ْ

Комбинированным символам присваиваются кодовые значения 0xEB–0xF2 .

Смотрите также

Ссылки

  1. ^ Наборы символов, Управление по распределению адресов в Интернете (IANA), 2018-12-12
  2. ^ "Информационный документ о кодовой странице 1089". Архивировано из оригинала 2016-03-17.
  3. ^ "Информационный документ CCSID 1089". Архивировано из оригинала 27.03.2016.
  4. ^ «Стандарт Unicode v15.0 Глава 9» (PDF) .
  5. Вычислительная техника и Коран. Некоторые предостережения, 2007, Томас Мило
  6. ^ "Статистика использования ISO-8859-6 для веб-сайтов, октябрь 2022 г.". w3techs.com . Получено 25.10.2022 .
  7. ^ «Часто задаваемые вопросы».
  8. ^ Информационная кодировка арабского письма: d'ASMO 449 в Unicode и ISO/CEI 10646.
  9. ^ Стандарт ECMA-114
  10. ^ "ISO/IEC 8859-6:1999". Международная организация по стандартизации . Получено 21 сентября 2024 г.
  11. ^ Европейская ассоциация производителей компьютеров , Арабская организация по стандартизации и метрологии (1986-11-30). Правая часть латинского/арабского алфавита (PDF) . ITSCJ/ IPSJ . ISO-IR -127.
  12. ^ ab Справочное руководство программиста эмуляции Printronix ACA
  13. ^ Европейская ассоциация производителей компьютеров (1992-07-12). Набор на арабском/французском/немецком языках (PDF) . ITSCJ/ IPSJ . ISO-IR -167.
  14. ^ "ISO 8859-6:1999 в Unicode". 1999-07-27.
  15. ^ Кодовая страница CPGID 01089 (pdf) (PDF) , IBM
  16. ^ Кодовая страница CPGID 01089 (txt), IBM
  17. ^ Международные компоненты для Unicode (ICU), ibm-1089_P100-1995.ucm, 2002-12-03
  • ИСО/МЭК 8859-6:1999
  • Стандарт ECMA-114: 8-битные однобайтовые кодированные графические наборы символов — латинский/арабский алфавит, 2-е издание (декабрь 2000 г.)
  • ISO-IR 127 Правая часть латинского/арабского алфавита (30 ноября 1986 г.)
Взято с "https://en.wikipedia.org/w/index.php?title=ISO/IEC_8859-6&oldid=1263973339"