Windows-1252

Набор символов Windows для латинского алфавита
Windows-1252
MIME/IANAокна-1252 [1]
Псевдоним(ы)cp1252 ( кодовая страница 1252)
Язык(и)Все поддерживаются стандартом ISO/IEC 8859-1, а также полная поддержка французского и финского языков, а также лигатурных форм для английского языка ; например, датский (за исключением редкой исключительной буквы ) , ирландский, итальянский, норвежский, португальский, испанский, шведский, немецкий (отсутствует заглавная ), исландский, фарерский, люксембургский, албанский, эстонский, суахили, тсвана, каталонский, баскский, окситанский, ротокас , токипона, ложбанский, ретороманский, голландский (за исключением символа IJ/ij, замененного на IJ / ij или ÿ ) и словенский (за исключением символа č , замененного на ç ).
СозданоМайкрософт
СтандартСтандарт кодирования WHATWG
Классификациярасширенный ASCII , Windows-125x
РасширяетISO 8859-1 (за исключением элементов управления C1)
Преобразует/КодируетИСО 8859-15
ПреемникЮникод ( UTF-8 , UTF-16 )

Windows-1252 или CP-1252 ( кодовая страница Windows 1252) — устаревшая однобайтовая кодировка символов [2] , которая используется по умолчанию (как «кодовая страница ANSI») в Microsoft Windows в Северной и Южной Америке , Западной Европе , Океании и большей части Африки . [3]

Первоначально он был таким же, как ISO 8859-1 , но с выходом Windows 2.0 начал отличаться, добавив дополнительные символы в диапазоне от 0x80 до 0x9F ( hex ) (стандарты ISO резервируют этот диапазон для управляющих кодов C1 ). Среди известных дополнительных символов — фигурные кавычки и все печатные символы из ISO 8859-15 .

Это наиболее используемая однобайтовая кодировка символов в мире. Хотя почти все веб-сайты теперь используют многобайтовую кодировку символов UTF-8 , по состоянию на декабрь 2024 года [обновлять]1,1% [4] веб-сайтов заявили о ISO 8859-1 , который рассматривается как Windows-1252 всеми современными браузерами (как того требует стандарт HTML5 [5] ), плюс 0,3% заявили Windows-1252 напрямую, [4] [6] в общей сложности 1,4%. Некоторые страны или языки показывают более высокое использование, чем в среднем по миру, в 2024 году Бразилия, согласно использованию веб-сайтов, использовала 2,9% [7], а в Германии — 2,5% [8] [9] (это суммы заявлений ISO-8859-1 и CP-1252).

Имя

В Windows он известен под номером кодовой страницы 1252 и под одобренным IANA именем «windows-1252».

Исторически фраза «кодовая страница ANSI» использовалась в Windows для обозначения кодировок, отличных от DOS; предполагалось, что большинство из них будут стандартами ANSI , такими как ISO-8859-1 . Несмотря на то, что Windows-1252 была первой и самой популярной кодовой страницей, названной так в терминологии Microsoft Windows, эта кодовая страница никогда не была стандартом ANSI. Microsoft поясняет: «Термин ANSI, используемый для обозначения кодовых страниц Windows, является исторической ссылкой, но в настоящее время является неправильным наименованием, которое продолжает сохраняться в сообществе Windows». [10]

LaTeX может вводить Windows-1252, используя inputenc.sty с параметром ansinew (и с недавних пор cp1252 ). [11] [12]

IBM использует кодовую страницу 1252 ( CCSID 1252 и расширенный CCSID знака евро 5348) для Windows-1252. [13] [14] [15]

В базе данных Oracle он называется «WE8MSWIN1252» . [16]

История

  • Первая версия кодовой страницы использовалась в Microsoft Windows 1.0 . Она соответствовала стандарту ISO-8859-1 (включая неопределенные кодовые точки 0xD7 и 0xF7, поскольку на тот момент их не было в стандарте).
  • Вторая версия кодовой страницы была введена в Microsoft Windows 2.0 . В этой версии определены кодовые точки 0xD7, 0xF7, 0x91 и 0x92.
  • Третья версия кодовой страницы была представлена ​​в Microsoft Windows 3.1 . Она определила все кодовые точки, используемые в финальной версии, за исключением знака евро и пары символов Z с кароном .
  • Окончательная версия (показана ниже) была представлена ​​в Microsoft Windows 98 .

Начиная с 1990-х годов многие продукты Microsoft , которые могли генерировать HTML, включали символы, эксклюзивные для Windows-1252, но помечали кодировку как ISO-8859-1, ASCII или необъявленную. [ требуется ссылка ] Символы, эксклюзивные для Windows-1252, отображались некорректно в операционных системах, отличных от Windows (часто как вопросительные знаки). [17] [18] В частности, типографские кавычки — фигурные варианты стандартных прямых апострофов и кавычек в US-ASCII — обычно использовались в файлах, созданных в приложениях Windows, таких как Microsoft Word, из-за функции интеллектуальных кавычек , которая может автоматически преобразовывать прямые апострофы и кавычки в фигурные варианты. [19] Чтобы исправить это, к 2000 году большинство веб-браузеров и почтовых клиентов обрабатывали наборы символов ISO-8859-1 и US-ASCII как Windows-1252 [ требуется ссылка ] — такое поведение теперь требуется спецификацией HTML5. [5] Необъявленные кодировки в HTML также считаются Windows-1252. [20] [21]

Хотя Windows NT поддерживала Unicode и пыталась поощрять программы использовать его, она предоставляла только 16-битные кодовые единицы UCS-2 / UTF-16 , несмотря на существующую поддержку других многобайтовых кодировок символов, таких как Shift-JIS . Поскольку многие приложения предпочитали использовать 8-битные строки, Windows-1252 оставалась самой популярной кодировкой в ​​Windows. [ необходима цитата ] UTF-8 поддерживается с Windows 10, поэтому это постепенно меняется. [ необходима цитата ]

Макет кодовой страницы

В следующей таблице показан Windows-1252. Отличия от ISO-8859-1 имеют номер кодовой точки Unicode под символом, основанный на сопоставлении Unicode.org Windows-1252 с "наилучшим соответствием". Подсказка, обычно доступная только при наведении указателя непосредственно справа от символа, показывает имя кодовой точки Unicode и десятичный код Alt .

Windows-1252 (CP1252) [22] [23] [24] [25] [26]
0123456789АБСДЭФ
0_НУЛЕВОЙСАХСТХЭТХЭОТENQАСКБЕЛБСХТЛФВТФФCRТАКСИ
1_ДЛЕДК1ДК2ДК3DC4НАКСИНЭТБМОЖЕТЭМСУБЕСКФСГСРСНАС
2_ СП !"#$%&'()*+,-./
3_0123456789:;<=>?
4_@АБСДЭФГЧАСяДж.КЛМНО
5_ПВРСТУВВтХИЗ[\]^_
6_`абсгефгчасяджклмно
7_пдгсттывжхуз{|}~ДЕЛ
8_
20AC

201А
ƒ
0192

201E

2026

2020

2021
ˆ
02C6

2030
Ш
0160

2039
0152
Ž
017D
9_'
2018
'
2019
«
201С

201D

2022

2013

2014
˜
02DC

2122

0161

203А
œ
0153
ž
017E
Ÿ
0178
А_НБСП¡¢£¤¥¦§¨©ª«¬ЗАСТЕНЧИВЫЙ®¯
Б_°±²³´µ·¸¹º»¼½¾¿
С_ААÂÃÄÅÆÇЭЭКËЯЯЯЯ
Д_ÐСТОÔХÖ×ØÙÚÛÜÝÞSS
Е_аавгдåæçèéêëяяяя
Ф_ðсòóохö÷øùúûüýþÿ

  Согласно информации на веб-сайтах Microsoft и Unicode Consortium, позиции 81, 8D, 8F, 90 и 9D не используются; однако Windows API MultiByteToWideCharсопоставляет их с соответствующими кодами управления C1 . Сопоставление «наилучшего соответствия» также документирует это поведение. [22]

Смотрите также

Ссылки

  1. ^ Наборы символов, Управление по распределению адресов в Интернете (IANA), 2018-12-12
  2. ^ "Encoding. Living Standard". WHATWG . 13 июня 2024 г. § 9. Устаревшие однобайтовые кодировки . Получено 28.06.2024 .
  3. ^ Karl-Bridge-Microsoft (2021-10-26). "Кодовые страницы - приложения Win32". learn.microsoft.com . Получено 2024-10-09 .
  4. ^ ab "Исторические тенденции в статистике использования кодировок символов для веб-сайтов, декабрь 2024 г.". w3techs.com . Получено 16.12.2024 .
  5. ^ ab "Encoding". WHATWG . 27 января 2015 г., раздел 5.2 Имена и метки. Архивировано из оригинала 4 февраля 2015 г. Получено 4 февраля 2015 г.
  6. ^ "Часто задаваемые вопросы". w3techs.com .
  7. ^ "Распределение кодировок символов среди веб-сайтов, использующих Бразилию". W3Techs . Получено 2024-12-16 .
  8. ^ "Распределение кодировок символов среди веб-сайтов, использующих .de". W3Techs . Получено 2024-12-16 .
  9. ^ "Распределение кодировок символов среди веб-сайтов, использующих немецкий язык". W3Techs . Архивировано из оригинала 4 апреля 2024 г. Получено 16 декабря 2024 г.
  10. ^ Виссинк, Кэти (5 апреля 2002 г.). «Unicode и Windows XP» (PDF) . Microsoft . стр. 1. Архивировано из оригинала (PDF) 4 февраля 2015 г. . Получено 4 февраля 2015 г. .
  11. ^ "LaTeX News, Issue 28" (PDF; 379 КБ) . Проект LaTeX. Апрель 2018 г. Получено 27 июля 2024 г.
  12. ^ "Inputenc – Принимать различные входные кодировки". Проект LaTeX. 2024-02-08 . Получено 2024-07-27 .
  13. ^ "Информационный документ о кодовой странице 1252". IBM. 30 сентября 1997 г. Архивировано из оригинала 2016-03-03.
  14. ^ "Информационный документ CCSID 1252". IBM. Архивировано из оригинала 2016-03-26.
  15. ^ "Информационный документ CCSID 5348". IBM. Архивировано из оригинала 29.11.2014.
  16. ^ "Руководство по установке клиента базы данных". Oracle . Получено 2021-02-14 .
  17. ^ Texin, Tex. «Сравнение символов в Windows-1252, ISO-8859-1, ISO-8859-15». I18nQA.com .
  18. ^ ван Эмден, Ева (28 января 2011 г.). «Как сделать типографские кавычки в HTML». vancouvereditor.com . Получено 7 января 2024 г. Если вы используете типографские кавычки, не указав правильную кодировку символов для вашего HTML-файла, некоторые из ваших зрителей увидят вопросительные знаки, квадратики или другие безумные символы вместо красивых фигурных кавычек, которые вы хотели им показать.
  19. ^ "Умные кавычки в Word". Поддержка Microsoft . Microsoft . Получено 7 января 2024 г. .
  20. ^ "NetWare Web Search: Understanding Character Set Encodings". Документация Novell . Novell. если документ не содержит значение кодировки CHARSET, то кодировкой по умолчанию для HTML-документов является ISO-8859-1, также известная как Latin1. Кодировкой по умолчанию для простых текстовых документов является US-ASCII.
  21. ^ Наблюдаемое поведение в Chrome, в некоторых браузерах это может быть UTF-8. [ оригинальное исследование? ]
  22. ^ ab "Unicode mappings of Windows-1252 with 'Best Fit'". Unicode . Архивировано из оригинала 4 февраля 2015 . Получено 4 февраля 2015 .
  23. Кодовая страница 01252 (PDF) , IBM, 1998, архивировано (PDF) из оригинала 27 октября 2023 г.
  24. Кодовая страница (CPGID) 01252 (txt) , IBM, 1998, архивировано из оригинала 8 апреля 2023 г.
  25. ^ Международные компоненты для Unicode (ICU), ibm-1252_P100-2000.ucm, 2002-12-03
  26. ^ Международные компоненты для Unicode (ICU), ibm-5348_P100-1997.ucm, 2002-12-03
  • Кодовые таблицы Microsoft для Windows-1252 («Кодовая страница 1252 Windows Latin 1 (ANSI)»)
  • Таблица соответствия Unicode и определение кодовой страницы с наилучшими соответствиями для Windows-1252
Взято с "https://en.wikipedia.org/w/index.php?title=Windows-1252&oldid=1272617478"