ИСО/МЭК 8859-1

Кодировка символов
ИСО/МЭК 8859-1:1998
Макет кодовой страницы ISO/IEC 8859-1
MIME/IANAИСО-8859-1
Псевдоним(ы)iso-ir-100, csISOLatin1, latin1, l1, IBM819, CP819
Язык(и)Английский , разные другие
СтандартИСО/МЭК 8859
КлассификацияРасширенный ASCII , ISO/IEC 8859
РасширяетUS-ASCII
На основеДЕК МКС
Преемник
Другие связанные кодировки

ISO/IEC 8859-1:1998 , Информационные технологии — 8-битные однобайтовые кодированные графические наборы символов — Часть 1: Латинский алфавит № 1 , является частью серии ISO/IEC 8859 стандартных кодировок символов на основе ASCII , первое издание опубликовано в 1987 году. ISO/IEC 8859-1 кодирует то, что он называет « латинским алфавитом № 1 », состоящим из 191 символа латинского алфавита . Эта схема кодировки символов используется по всей Америке , Западной Европе , Океании и большей части Африки . Она является основой для некоторых популярных 8-битных наборов символов и первых двух блоков символов в Unicode .

По состоянию на июль 2024 года [обновлять]1,2% всех веб-сайтов используют ISO/IEC 8859-1 . [1] [2] Это наиболее заявленная однобайтовая кодировка символов, но поскольку веб-браузеры и стандарт HTML5 [3] интерпретируют их как надмножество Windows-1252 , эти документы могут включать символы из этого набора. В зависимости от страны или языка использование веб-сайта может быть выше среднего мирового показателя: в Бразилии оно составляет 3,4%, [4] а в Германии — 2,7%. [5] [6]

ISO-8859-1 был (согласно стандарту, по крайней мере) кодировкой по умолчанию для документов, доставляемых по HTTP с типом MIME , начинающимся с text/, кодировкой по умолчанию для значений определенных описательных заголовков HTTP и определял набор символов, разрешенных в документах HTML  3.2. Он указан многими другими стандартами. [ нужен пример ] На практике надмножественная кодировка Windows-1252 является более вероятной эффективной кодировкой по умолчанию [7] и все чаще стандарты (по крайней мере неофициально) [ требуется разъяснение ] используют по умолчанию UTF-8 .

ISO-8859-1 — это предпочитаемое IANA название для этого стандарта, дополненное управляющими кодами C0 и C1 из ISO/IEC 6429. Зарегистрированы следующие другие псевдонимы: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 , Кодовая страница 28591 , также известная как Windows-28591, используется для него в Windows. [8] IBM называет его кодовой страницей 819 или CP819 ( CCSID  819 ). [9] [10] [11] [12] Oracle называет его WE8ISO8859P1 . [13]

Покрытие

Каждый символ кодируется как одно восьмибитное кодовое значение. Эти кодовые значения могут использоваться практически в любой системе обмена данными для общения на следующих языках (хотя это может исключать правильные кавычки , например, для многих языков, включая немецкий и исландский ):

Современные языки с полным охватом

Примечания
  1. ^ Базовая классическая орфография
  2. ^ Письмо Руми
  3. ^ Букмол и нюнорск
  4. ^ Европейские и бразильские

Языки с неполным покрытием

ISO-8859-1 обычно использовался [ требуется ссылка ] для некоторых языков, даже несмотря на то, что в нем отсутствуют символы, используемые этими языками. В большинстве случаев отсутствуют только несколько букв или они используются редко, и их можно заменить символами, которые есть в ISO-8859-1, используя некоторую форму типографской аппроксимации . В следующей таблице перечислены такие языки.

ЯзыкОтсутствующие символыТипичное решениеПри поддержке
каталонскийĿ , ŀ (устарело)Л·, л·
датскийǾ , ǿ (ударение необязательно, ǿ встречается очень редко)Ø, ø или øe
ГолландскийIJ , ij (спорно); в подчеркнутых словах, например, "blíj́f"диграфы IJ, ij или ÿ; blíjf
Эстонский , финскийŠ , š, Ž , ž (присутствует только в заимствованных словах)Ш, ш, Ж, жISO-8859-15 , Windows-1252
ФранцузскийŒ , œ и очень редкие Ÿдиграфы OE, oe; Y или ÝISO-8859-15 , Windows-1252
немецкий (заглавная ß, используется только во всех заглавных буквах)диграф СС или СЗ
венгерскийŐ , ő, Ű , űÖ, ö, Ü, ü
Õ , õ, Û , û (символы заменены в 8859-2 )
ISO-8859-2 , Windows-1250
Ирландский ( традиционная орфография )Ḃ, ḃ, Ċ, ċ, Ḋ, ḋ, Ḟ, ḟ, Ġ, ġ, Ṁ, ṁ, Ṗ, ṗ, Ṡ, ṡ, Ṫ, ṫЧ, ч, Ч, ч, Дч, дх, Фч, фч, Гх, гх, Мч, мч, Пх, ф, Ш, ш, Чт, чтИСО-8859-14
валлийский , ẁ, , ẃ, Ŵ , ŵ, , ẅ, , ỳ, Ŷ , ŷ, ŸW, w, Y, y, Ý, ýИСО-8859-14

Буква ÿ , которая встречается во французском языке очень редко, в основном в названиях городов, таких как L'Haÿ-les-Roses, и никогда не встречается в начале слов, включается только в строчной форме. Место, соответствующее ее заглавной форме, занимает строчная буква ß из немецкого языка, в котором на момент создания стандарта не было заглавной формы .

Кавычки

Для некоторых языков, перечисленных выше, отсутствуют правильные типографские кавычки« » , так как включены только , " ", и ' '. Кроме того, эта схема не предусматривает ориентированные (6- или 9-образные) одинарные или двойные кавычки. Некоторые шрифты будут отображать пробельный гравис (0x60) и апостроф (0x27) как соответствующую пару ориентированных одинарных кавычек (см. Кавычки § Пишущие машинки и ранние компьютеры ), но это не считается частью современного стандарта.

Надстрочные цифры

Только 3 надстрочные цифры были закодированы: ²в 0xB2 ³, в 0xB3 и ¹в 0xB9, без цифры 0 и цифр 4–9. Кроме того, ни одна из подстрочных цифр не была закодирована. Обходным путем было бы использование форматирования расширенного текста для цифр, не охваченных этим стандартом.

История

ISO 8859-1 был основан на наборе многонациональных символов (MCS), который использовался Digital Equipment Corporation (DEC) в популярном терминале VT220 в 1983 году. Он был разработан в Европейской ассоциации производителей компьютеров (ECMA) и опубликован в марте 1985 года как ECMA-94 [14] , под этим названием он иногда известен и по сей день. Второе издание ECMA-94 (июнь 1986 года) [15] также включало ISO 8859-2 , ISO 8859-3 и ISO 8859-4 как часть спецификации.

Первоначальный проект ISO 8859-1 поместил французские Œ и œ в кодовые точки 215 (0xD7) и 247 (0xF7), как в MCS. Однако делегат из Франции, не будучи ни лингвистом, ни типографом, ложно заявил, что это не независимые французские буквы сами по себе, а просто лигатуры (вроде fi или fl ), что было поддержано делегатской командой из Bull Publishing Company, которая в то время регулярно не печатала французский язык с Œ/œ в своем фирменном стиле. Англоязычный делегат из Канады настоял на сохранении Œ/œ, но получил отказ от французского делегата и команды из Bull. Эти кодовые точки вскоре были заполнены × и ÷ по предложению немецкой делегации. Поддержка французского языка еще больше сократилась, когда было снова ложно заявлено, что буква ÿ «не французская», что привело к отсутствию заглавной Ÿ . Фактически, буква ÿ встречается в ряде французских имен собственных, а заглавная буква использовалась в словарях и энциклопедиях. [16] Эти символы были добавлены в ISO/IEC 8859-15:1999 . BraSCII соответствует оригинальному проекту.

В 1985 году Commodore приняла ECMA-94 для своей новой операционной системы AmigaOS . [17] Матричный принтер Seikosha MP-1300AI, используемый с Amiga 1000, включал эту кодировку. [ необходима цитата ]

В 1990 году первая версия Unicode использовала кодовые точки ISO-8859-1 в качестве первых 256 кодовых точек Unicode.

В 1992 году IANA зарегистрировала таблицу символов ISO_8859-1:1987 , более известную по ее предпочтительному имени MIME ISO-8859-1 (обратите внимание на дополнительный дефис над ISO 8859-1), надмножество ISO 8859-1, для использования в Интернете . Эта карта назначает управляющие коды C0 и C1 неназначенным кодовым значениям, таким образом, обеспечивая 256 символов через каждое возможное 8-битное значение.

Макет кодовой страницы

ИСО/МЭК 8859-1
0123456789АБСДЭФ
0x
1x
2x  СП  !"#$%&'()*+,-./
3x0123456789:;<=>?
4x@АБСДЭФГЧАСяДж.КЛМНО
5xПВРСТУВВтХИЗ[\]^_
6x`абсгефгчасяджклмно
7xпдгсттывжхуз{|}~
8x
9x
Топор НБСП ¡¢£¤¥¦§¨©ª«¬ ЗАСТЕНЧИВЫЙ ®¯
Вх°±²³´µ·¸¹º»¼½¾¿
СхААÂÃÄÅÆÇЭЭКËЯЯЯЯ
ДксÐСТОÔХÖ×ØÙÚÛÜÝÞSS
Бывшийаавгдåæçèéêëяяяя
Фхðсòóохö÷øùуûüýþÿ
  Неопределенный
  Символы и знаки препинания
  Не определено в первом выпуске ECMA-94 (1985). [14] В первоначальном проекте Œ находился в положении 0xD7, а œ — в положении 0xF7.

Похожие наборы символов

ИСО/МЭК 8859-15

ISO/IEC 8859-15 был разработан в 1999 году как обновление ISO/IEC 8859-1. Он предоставляет некоторые символы для французского и финского текста и знак евро , которые отсутствуют в ISO/IEC 8859-1. Это потребовало удаления некоторых редко используемых символов из ISO/IEC 8859-1, включая символы дробей и диакритические знаки без букв: ¤, ¦, ¨, ´, ¸, ¼, ½, и ¾. По иронии судьбы, три из недавно добавленных символов ( Œ, œ, и Ÿ) уже присутствовали в наборе многонациональных символов (MCS) DEC 1983 года , предшественнике ISO/IEC 8859-1 (1987). Поскольку их исходные кодовые точки теперь использовались повторно для других целей, символы пришлось ввести заново под другими, менее логичными кодовыми точками.

ISO-IR-204, более незначительная модификация (называемая кодовой страницей 61235 в FreeDOS), [18] была зарегистрирована в 1998 году, изменяя ISO-8859-1 путем замены универсального знака валюты (¤) на знак евро [19] (та же замена, что и в ISO-8859-15).

Windows-1252

Популярный набор символов Windows-1252 добавляет все недостающие символы, предусмотренные ISO/IEC 8859-15 , а также ряд типографских символов, заменяя редко используемые элементы управления C1 в диапазоне от 128 до 159 ( шестнадцатеричные от 80 до 9F). Очень часто текст Windows-1252 ошибочно маркируют как текст в ISO-8859-1. Обычным результатом было то, что все кавычки и апострофы (созданными «умными кавычками» в программном обеспечении для обработки текстов) были заменены вопросительными знаками или квадратиками в операционных системах, отличных от Windows, что затрудняло чтение текста. Многие веб-браузеры и почтовые клиенты будут интерпретировать управляющие коды ISO-8859-1 как символы Windows-1252, и это поведение было позже стандартизировано в HTML5 . [20]

Мак Роман

Компьютер Apple Macintosh представил кодировку символов под названием Mac Roman в 1984 году. Она была предназначена для использования в западноевропейских настольных издательских системах . Это надмножество ASCII, в котором содержится большинство символов, входящих в ISO-8859-1, и все дополнительные символы из Windows-1252, но в совершенно ином расположении. Несколько печатных символов, входящих в ISO/IEC 8859-1, но не входящих в этот набор, часто являются источником проблем при редактировании текста на веб-сайтах с использованием старых браузеров Macintosh, включая последнюю версию Internet Explorer для Mac .

Другой

В DOS есть кодовая страница 850 , в которой есть все печатные символы, имеющиеся в ISO-8859-1, хотя и в совершенно ином расположении, а также наиболее широко используемые графические символы из кодовой страницы 437 .

В период с 1989 [21] по 2015 год компания Hewlett-Packard использовала другой надмножество ISO-8859-1 на многих своих калькуляторах. Этот фирменный набор символов иногда также назывался просто «ECMA-94». [21] У HP также есть кодовая страница 1053 , которая добавляет средний оттенок (▒, U+2592) в 0x7F. [22]

Несколько кодовых страниц EBCDIC были специально разработаны так, чтобы иметь тот же набор символов, что и ISO-8859-1, чтобы обеспечить простоту преобразования между ними.

Смотрите также

Ссылки

  1. ^ "Исторические тенденции в статистике использования кодировок символов для веб-сайтов, июль 2024 г.". W3Techs . Архивировано из оригинала 4 апреля 2024 г. Получено 2024-07-19 .
  2. ^ Коуэн, Джон; Солтано, Сэм (август 2014 г.). «Источник статистики кодирования символов?». W3Techs . Архивировано из оригинала 4 апреля 2024 г.
  3. ^ "Encoding". WHATWG . 27 января 2015 г., раздел 5.2 Имена и метки. Архивировано из оригинала 4 февраля 2015 г. Получено 4 февраля 2015 г.
  4. ^ "Распределение кодировок символов среди веб-сайтов, использующих Бразилию". W3Techs . Архивировано из оригинала 4 апреля 2024 г. Получено 2024-07-19 .
  5. ^ "Распределение кодировок символов среди веб-сайтов, использующих .de". W3Techs . Архивировано из оригинала 4 апреля 2024 года . Получено 2024-07-19 .
  6. ^ "Распределение кодировок символов среди веб-сайтов, использующих немецкий язык". W3Techs . Архивировано из оригинала 4 апреля 2024 г. Получено 2023-01-16 .
  7. ^ "c++ - Какова собственная узкая строковая кодировка в Windows?". Stack Overflow . Январь 2011 г. Получено 16.02.2023 .
  8. ^ "Идентификаторы кодовых страниц". Microsoft Corporation . Получено 2010-12-19 .
  9. ^ "Информационный документ о кодовой странице 819". Архивировано из оригинала 2017-01-16.
  10. ^ "Информационный документ CCSID 819". Архивировано из оригинала 27.03.2016.
  11. ^ Кодовая страница CPGID 00819 (pdf) (PDF) , IBM
  12. ^ Кодовая страница CPGID 00819 (txt), IBM
  13. ^ Бэрд, Кэти; Чиба, Дэн; Чу, Уинсон; Фань, Джессика; Хо, Клэр; Лоу, Саймон; Ли, Джефф; Линсли, Питер; Мацуда, Кени; Оскрофт, Тамзин; Такеда, Шиге; Танака, Линус; Тозава, Макото; Трут, Барри; Цудзимото, Маюми; Ву, Ин; Яу, Майкл; Ю, Тим; Ван, Чао; Вонг, Саймон; Чжан, Вейран; Чжэн, Лэй; Чжу, Янь; Мур, Валери (2002) [1996]. "Приложение A: Данные о локали". Руководство по поддержке глобализации баз данных Oracle9i (PDF) (выпуск 2 (9.2) ред.). Корпорация Oracle . Oracle A96529-01. Архивировано (PDF) из оригинала 2017-02-14 . Получено 14.02.2017 .
  14. ^ ab Стандарт ECMA-94: 8-битный однобайтовый кодированный графический набор символов (PDF) (1-е изд.). Европейская ассоциация производителей компьютеров (ECMA). Март 1985 г. [1984-12-14]. Архивировано (PDF) из оригинала 2016-12-02 . Получено 2016-12-01 . […] С 1982 года в ECMA, а также в ANSI/X3L2 была признана срочность необходимости в 8-битном однобайтовом кодированном наборе символов, и между двумя группами состоялся обмен многочисленными рабочими документами. В феврале 1984 года ECMA TC1 представил в ISO/TC97/SC2 предложение о таком кодированном наборе символов. На своем заседании в апреле 1984 года SC решил представить в TC97 предложение о новом пункте работы по этой теме. Технические обсуждения во время и после этой встречи привели к тому, что TC1 принял схему кодирования, предложенную X3L2. Часть 1 проекта международного стандарта DTS 8859 основана на этом совместном предложении ANSI/ECMA. […] Принят в качестве стандарта ECMA Генеральной Ассамблеей 13–14 декабря 1984 г. […]
  15. ^ "Второе издание ECMA-94 (июнь 1986 г.)" (PDF) .
  16. ^ Андре, Жак (1996). «ISO Latin-1, норма кодировки европейских символов? Трое французских символов в отсутствии!» (PDF) . Cahiers GUTenberg (на французском языке) (25): 65–77. дои : 10.5802/cg.205.
  17. ^ Малышев, Михаил (2003-01-10). "Регистрация новой кодировки [Amiga-1251]". ATO-RU (Организация переводов Amiga - Русский отдел). Архивировано из оригинала 2016-12-05 . Получено 2016-12-05 .
  18. ^ "Cpi/CPIISO/Codepage.TXT в главном · FDOS/Cpi". GitHub .
  19. ^ ITS Information Technology Standardization (1998-09-16). Дополнительный набор для альтернативы Latin-1 со знаком EURO (PDF) . ITSCJ/ IPSJ . ISO-IR -204.
  20. ^ van Kesteren, Anne (27 января 2015 г.). "5.2 Имена и метки". Стандарт кодирования . WHATWG . Архивировано из оригинала 4 февраля 2015 г. Получено 4 февраля 2015 г.
  21. ^ ab HP 82240B Infrared Printer (1-е изд.). Корваллис, штат Орегон, США: Hewlett-Packard . Август 1989 г. Номер повторного заказа HP 82240-90014.
  22. ^ "Кодовая страница 1053" (PDF) . Архивировано из оригинала (PDF) 2013-01-21.
  • ИСО/МЭК 8859-1:1998
  • ISO/IEC FDIS 8859-1:1998 Архивировано 30 сентября 2020 г. на Wayback Machine  — 8-битные однобайтовые кодированные графические наборы символов, Часть 1: Латинский алфавит № 1 (черновик от 12 февраля 1998 г., опубликован 15 апреля 1998 г.)
  • Стандарт ECMA-94: 8-битные однобайтовые кодированные графические наборы символов — латинские алфавиты № 1–4, 2 -е издание (июнь 1986 г.)
  • ISO-IR 100 Правая часть латинского алфавита № 1 (1 февраля 1986 г.)
  • База данных писем
  • Czyborra, Roman (1998-12-01). "The ISO 8859 Alphabet Soup". Архивировано из оригинала 2016-12-01 . Получено 2016-12-01 .[1] [2]
Взято с "https://en.wikipedia.org/w/index.php?title=ISO/IEC_8859-1&oldid=1257049901"