MIME/IANA | ИСО-8859-1 |
---|---|
Псевдоним(ы) | iso-ir-100, csISOLatin1, latin1, l1, IBM819, CP819 |
Язык(и) | Английский , разные другие |
Стандарт | ИСО/МЭК 8859 |
Классификация | Расширенный ASCII , ISO/IEC 8859 |
Расширяет | US-ASCII |
На основе | ДЕК МКС |
Преемник | |
Другие связанные кодировки | |
ISO/IEC 8859-1:1998 , Информационные технологии — 8-битные однобайтовые кодированные графические наборы символов — Часть 1: Латинский алфавит № 1 , является частью серии ISO/IEC 8859 стандартных кодировок символов на основе ASCII , первое издание опубликовано в 1987 году. ISO/IEC 8859-1 кодирует то, что он называет « латинским алфавитом № 1 », состоящим из 191 символа латинского алфавита . Эта схема кодировки символов используется по всей Америке , Западной Европе , Океании и большей части Африки . Она является основой для некоторых популярных 8-битных наборов символов и первых двух блоков символов в Unicode .
По состоянию на июль 2024 года [обновлять]1,2% всех веб-сайтов используют ISO/IEC 8859-1 . [1] [2] Это наиболее заявленная однобайтовая кодировка символов, но поскольку веб-браузеры и стандарт HTML5 [3] интерпретируют их как надмножество Windows-1252 , эти документы могут включать символы из этого набора. В зависимости от страны или языка использование веб-сайта может быть выше среднего мирового показателя: в Бразилии оно составляет 3,4%, [4] а в Германии — 2,7%. [5] [6]
ISO-8859-1 был (согласно стандарту, по крайней мере) кодировкой по умолчанию для документов, доставляемых по HTTP с типом MIME , начинающимся с text/
, кодировкой по умолчанию для значений определенных описательных заголовков HTTP и определял набор символов, разрешенных в документах HTML 3.2. Он указан многими другими стандартами. [ нужен пример ] На практике надмножественная кодировка Windows-1252 является более вероятной эффективной кодировкой по умолчанию [7] и все чаще стандарты (по крайней мере неофициально) [ требуется разъяснение ] используют по умолчанию UTF-8 .
ISO-8859-1 — это предпочитаемое IANA название для этого стандарта, дополненное управляющими кодами C0 и C1 из ISO/IEC 6429. Зарегистрированы следующие другие псевдонимы: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 , Кодовая страница 28591 , также известная как Windows-28591, используется для него в Windows. [8] IBM называет его кодовой страницей 819 или CP819 ( CCSID 819 ). [9] [10] [11] [12] Oracle называет его WE8ISO8859P1 . [13]
Каждый символ кодируется как одно восьмибитное кодовое значение. Эти кодовые значения могут использоваться практически в любой системе обмена данными для общения на следующих языках (хотя это может исключать правильные кавычки , например, для многих языков, включая немецкий и исландский ):
ISO-8859-1 обычно использовался [ требуется ссылка ] для некоторых языков, даже несмотря на то, что в нем отсутствуют символы, используемые этими языками. В большинстве случаев отсутствуют только несколько букв или они используются редко, и их можно заменить символами, которые есть в ISO-8859-1, используя некоторую форму типографской аппроксимации . В следующей таблице перечислены такие языки.
Язык | Отсутствующие символы | Типичное решение | При поддержке |
---|---|---|---|
каталонский | Ŀ , ŀ (устарело) | Л·, л· | |
датский | Ǿ , ǿ (ударение необязательно, ǿ встречается очень редко) | Ø, ø или øe | |
Голландский | IJ , ij (спорно); j́ в подчеркнутых словах, например, "blíj́f" | диграфы IJ, ij или ÿ; blíjf | |
Эстонский , финский | Š , š, Ž , ž (присутствует только в заимствованных словах) | Ш, ш, Ж, ж | ISO-8859-15 , Windows-1252 |
Французский | Œ , œ и очень редкие Ÿ | диграфы OE, oe; Y или Ý | ISO-8859-15 , Windows-1252 |
немецкий | ẞ (заглавная ß, используется только во всех заглавных буквах) | диграф СС или СЗ | |
венгерский | Ő , ő, Ű , ű | Ö, ö, Ü, ü Õ , õ, Û , û (символы заменены в 8859-2 ) | ISO-8859-2 , Windows-1250 |
Ирландский ( традиционная орфография ) | Ḃ, ḃ, Ċ, ċ, Ḋ, ḋ, Ḟ, ḟ, Ġ, ġ, Ṁ, ṁ, Ṗ, ṗ, Ṡ, ṡ, Ṫ, ṫ | Ч, ч, Ч, ч, Дч, дх, Фч, фч, Гх, гх, Мч, мч, Пх, ф, Ш, ш, Чт, чт | ИСО-8859-14 |
валлийский | Ẁ , ẁ, Ẃ , ẃ, Ŵ , ŵ, Ẅ , ẅ, Ỳ , ỳ, Ŷ , ŷ, Ÿ | W, w, Y, y, Ý, ý | ИСО-8859-14 |
Буква ÿ , которая встречается во французском языке очень редко, в основном в названиях городов, таких как L'Haÿ-les-Roses, и никогда не встречается в начале слов, включается только в строчной форме. Место, соответствующее ее заглавной форме, занимает строчная буква ß из немецкого языка, в котором на момент создания стандарта не было заглавной формы .
Для некоторых языков, перечисленных выше, отсутствуют правильные типографские кавычки« »
, так как включены только , " "
, и ' '
. Кроме того, эта схема не предусматривает ориентированные (6- или 9-образные) одинарные или двойные кавычки. Некоторые шрифты будут отображать пробельный гравис (0x60) и апостроф (0x27) как соответствующую пару ориентированных одинарных кавычек (см. Кавычки § Пишущие машинки и ранние компьютеры ), но это не считается частью современного стандарта.
Только 3 надстрочные цифры были закодированы: ²
в 0xB2 ³
, в 0xB3 и ¹
в 0xB9, без цифры 0 и цифр 4–9. Кроме того, ни одна из подстрочных цифр не была закодирована. Обходным путем было бы использование форматирования расширенного текста для цифр, не охваченных этим стандартом.
ISO 8859-1 был основан на наборе многонациональных символов (MCS), который использовался Digital Equipment Corporation (DEC) в популярном терминале VT220 в 1983 году. Он был разработан в Европейской ассоциации производителей компьютеров (ECMA) и опубликован в марте 1985 года как ECMA-94 [14] , под этим названием он иногда известен и по сей день. Второе издание ECMA-94 (июнь 1986 года) [15] также включало ISO 8859-2 , ISO 8859-3 и ISO 8859-4 как часть спецификации.
Первоначальный проект ISO 8859-1 поместил французские Œ и œ в кодовые точки 215 (0xD7) и 247 (0xF7), как в MCS. Однако делегат из Франции, не будучи ни лингвистом, ни типографом, ложно заявил, что это не независимые французские буквы сами по себе, а просто лигатуры (вроде fi или fl ), что было поддержано делегатской командой из Bull Publishing Company, которая в то время регулярно не печатала французский язык с Œ/œ в своем фирменном стиле. Англоязычный делегат из Канады настоял на сохранении Œ/œ, но получил отказ от французского делегата и команды из Bull. Эти кодовые точки вскоре были заполнены × и ÷ по предложению немецкой делегации. Поддержка французского языка еще больше сократилась, когда было снова ложно заявлено, что буква ÿ «не французская», что привело к отсутствию заглавной Ÿ . Фактически, буква ÿ встречается в ряде французских имен собственных, а заглавная буква использовалась в словарях и энциклопедиях. [16] Эти символы были добавлены в ISO/IEC 8859-15:1999 . BraSCII соответствует оригинальному проекту.
В 1985 году Commodore приняла ECMA-94 для своей новой операционной системы AmigaOS . [17] Матричный принтер Seikosha MP-1300AI, используемый с Amiga 1000, включал эту кодировку. [ необходима цитата ]
В 1990 году первая версия Unicode использовала кодовые точки ISO-8859-1 в качестве первых 256 кодовых точек Unicode.
В 1992 году IANA зарегистрировала таблицу символов ISO_8859-1:1987 , более известную по ее предпочтительному имени MIME ISO-8859-1 (обратите внимание на дополнительный дефис над ISO 8859-1), надмножество ISO 8859-1, для использования в Интернете . Эта карта назначает управляющие коды C0 и C1 неназначенным кодовым значениям, таким образом, обеспечивая 256 символов через каждое возможное 8-битное значение.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | Э | Ф | |
0x | ||||||||||||||||
1x | ||||||||||||||||
2x | СП | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | А | Б | С | Д | Э | Ф | Г | ЧАС | я | Дж. | К | Л | М | Н | О |
5x | П | В | Р | С | Т | У | В | Вт | Х | И | З | [ | \ | ] | ^ | _ |
6x | ` | а | б | с | г | е | ф | г | час | я | дж | к | л | м | н | о |
7x | п | д | г | с | т | ты | в | ж | х | у | з | { | | | } | ~ | |
8x | ||||||||||||||||
9x | ||||||||||||||||
Топор | НБСП | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | ЗАСТЕНЧИВЫЙ | ® | ¯ |
Вх | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
Сх | А | А | Â | Ã | Ä | Å | Æ | Ç | Э | Э | К | Ë | Я | Я | Я | Я |
Дкс | Ð | С | Т | О | Ô | Х | Ö | × | Ø | Ù | Ú | Û | Ü | Ý | Þ | SS |
Бывший | а | а | в | г | д | å | æ | ç | è | é | ê | ë | я | я | я | я |
Фх | ð | с | ò | ó | о | х | ö | ÷ | ø | ù | у | û | ü | ý | þ | ÿ |
Неопределенный Символы и знаки препинания Не определено в первом выпуске ECMA-94 (1985). [14] В первоначальном проекте Œ находился в положении 0xD7, а œ — в положении 0xF7. |
ISO/IEC 8859-15 был разработан в 1999 году как обновление ISO/IEC 8859-1. Он предоставляет некоторые символы для французского и финского текста и знак евро , которые отсутствуют в ISO/IEC 8859-1. Это потребовало удаления некоторых редко используемых символов из ISO/IEC 8859-1, включая символы дробей и диакритические знаки без букв: ¤
, ¦
, ¨
, ´
, ¸
, ¼
, ½
, и ¾
. По иронии судьбы, три из недавно добавленных символов ( Œ
, œ
, и Ÿ
) уже присутствовали в наборе многонациональных символов (MCS) DEC 1983 года , предшественнике ISO/IEC 8859-1 (1987). Поскольку их исходные кодовые точки теперь использовались повторно для других целей, символы пришлось ввести заново под другими, менее логичными кодовыми точками.
ISO-IR-204, более незначительная модификация (называемая кодовой страницей 61235 в FreeDOS), [18] была зарегистрирована в 1998 году, изменяя ISO-8859-1 путем замены универсального знака валюты (¤) на знак евро [19] (та же замена, что и в ISO-8859-15).
Популярный набор символов Windows-1252 добавляет все недостающие символы, предусмотренные ISO/IEC 8859-15 , а также ряд типографских символов, заменяя редко используемые элементы управления C1 в диапазоне от 128 до 159 ( шестнадцатеричные от 80 до 9F). Очень часто текст Windows-1252 ошибочно маркируют как текст в ISO-8859-1. Обычным результатом было то, что все кавычки и апострофы (созданными «умными кавычками» в программном обеспечении для обработки текстов) были заменены вопросительными знаками или квадратиками в операционных системах, отличных от Windows, что затрудняло чтение текста. Многие веб-браузеры и почтовые клиенты будут интерпретировать управляющие коды ISO-8859-1 как символы Windows-1252, и это поведение было позже стандартизировано в HTML5 . [20]
Компьютер Apple Macintosh представил кодировку символов под названием Mac Roman в 1984 году. Она была предназначена для использования в западноевропейских настольных издательских системах . Это надмножество ASCII, в котором содержится большинство символов, входящих в ISO-8859-1, и все дополнительные символы из Windows-1252, но в совершенно ином расположении. Несколько печатных символов, входящих в ISO/IEC 8859-1, но не входящих в этот набор, часто являются источником проблем при редактировании текста на веб-сайтах с использованием старых браузеров Macintosh, включая последнюю версию Internet Explorer для Mac .
В DOS есть кодовая страница 850 , в которой есть все печатные символы, имеющиеся в ISO-8859-1, хотя и в совершенно ином расположении, а также наиболее широко используемые графические символы из кодовой страницы 437 .
В период с 1989 [21] по 2015 год компания Hewlett-Packard использовала другой надмножество ISO-8859-1 на многих своих калькуляторах. Этот фирменный набор символов иногда также назывался просто «ECMA-94». [21] У HP также есть кодовая страница 1053 , которая добавляет средний оттенок (▒, U+2592) в 0x7F. [22]
Несколько кодовых страниц EBCDIC были специально разработаны так, чтобы иметь тот же набор символов, что и ISO-8859-1, чтобы обеспечить простоту преобразования между ними.
[…] С 1982 года в ECMA, а также в ANSI/X3L2 была признана срочность необходимости в 8-битном однобайтовом кодированном наборе символов, и между двумя группами состоялся обмен многочисленными рабочими документами. В феврале 1984 года ECMA TC1 представил в ISO/TC97/SC2 предложение о таком кодированном наборе символов. На своем заседании в апреле 1984 года SC решил представить в TC97 предложение о новом пункте работы по этой теме. Технические обсуждения во время и после этой встречи привели к тому, что TC1 принял схему кодирования, предложенную X3L2. Часть 1 проекта международного стандарта DTS 8859 основана на этом совместном предложении ANSI/ECMA. […] Принят в качестве стандарта ECMA Генеральной Ассамблеей 13–14 декабря 1984 г. […]