MIME/IANA | окна-1252 [1] |
---|---|
Псевдоним(ы) | cp1252 ( кодовая страница 1252) |
Язык(и) | Все поддерживаются стандартом ISO/IEC 8859-1, а также полная поддержка французского и финского языков, а также лигатурных форм для английского языка ; например, датский (за исключением редкой исключительной буквы ) , ирландский, итальянский, норвежский, португальский, испанский, шведский, немецкий (отсутствует заглавная ẞ ), исландский, фарерский, люксембургский, албанский, эстонский, суахили, тсвана, каталонский, баскский, окситанский, ротокас , токипона, ложбанский, ретороманский, голландский (за исключением символа IJ/ij, замененного на IJ / ij или ÿ ) и словенский (за исключением символа č , замененного на ç ). |
Создано | Майкрософт |
Стандарт | Стандарт кодирования WHATWG |
Классификация | расширенный ASCII , Windows-125x |
Расширяет | ISO 8859-1 (за исключением элементов управления C1) |
Преобразует/Кодирует | ИСО 8859-15 |
Преемник | Юникод ( UTF-8 , UTF-16 ) |
Windows-1252 или CP-1252 ( кодовая страница Windows 1252) — устаревшая однобайтовая кодировка символов [2] , которая используется по умолчанию (как «кодовая страница ANSI») в Microsoft Windows в Северной и Южной Америке , Западной Европе , Океании и большей части Африки . [3]
Первоначально он был таким же, как ISO 8859-1 , но с выходом Windows 2.0 начал отличаться, добавив дополнительные символы в диапазоне от 0x80 до 0x9F ( hex ) (стандарты ISO резервируют этот диапазон для управляющих кодов C1 ). Среди известных дополнительных символов — фигурные кавычки и все печатные символы из ISO 8859-15 .
Это наиболее используемая однобайтовая кодировка символов в мире. Хотя почти все веб-сайты теперь используют многобайтовую кодировку символов UTF-8 , по состоянию на декабрь 2024 года [обновлять]1,1% [4] веб-сайтов заявили о ISO 8859-1 , который рассматривается как Windows-1252 всеми современными браузерами (как того требует стандарт HTML5 [5] ), плюс 0,3% заявили Windows-1252 напрямую, [4] [6] в общей сложности 1,4%. Некоторые страны или языки показывают более высокое использование, чем в среднем по миру, в 2024 году Бразилия, согласно использованию веб-сайтов, использовала 2,9% [7], а в Германии — 2,5% [8] [9] (это суммы заявлений ISO-8859-1 и CP-1252).
В Windows он известен под номером кодовой страницы 1252 и под одобренным IANA именем «windows-1252».
Исторически фраза «кодовая страница ANSI» использовалась в Windows для обозначения кодировок, отличных от DOS; предполагалось, что большинство из них будут стандартами ANSI , такими как ISO-8859-1 . Несмотря на то, что Windows-1252 была первой и самой популярной кодовой страницей, названной так в терминологии Microsoft Windows, эта кодовая страница никогда не была стандартом ANSI. Microsoft поясняет: «Термин ANSI, используемый для обозначения кодовых страниц Windows, является исторической ссылкой, но в настоящее время является неправильным наименованием, которое продолжает сохраняться в сообществе Windows». [10]
LaTeX может вводить Windows-1252, используя inputenc.sty с параметром ansinew (и с недавних пор cp1252 ). [11] [12]
IBM использует кодовую страницу 1252 ( CCSID 1252 и расширенный CCSID знака евро 5348) для Windows-1252. [13] [14] [15]
В базе данных Oracle он называется «WE8MSWIN1252» . [16]
Начиная с 1990-х годов многие продукты Microsoft , которые могли генерировать HTML, включали символы, эксклюзивные для Windows-1252, но помечали кодировку как ISO-8859-1, ASCII или необъявленную. [ требуется ссылка ] Символы, эксклюзивные для Windows-1252, отображались некорректно в операционных системах, отличных от Windows (часто как вопросительные знаки). [17] [18] В частности, типографские кавычки — фигурные варианты стандартных прямых апострофов и кавычек в US-ASCII — обычно использовались в файлах, созданных в приложениях Windows, таких как Microsoft Word, из-за функции интеллектуальных кавычек , которая может автоматически преобразовывать прямые апострофы и кавычки в фигурные варианты. [19] Чтобы исправить это, к 2000 году большинство веб-браузеров и почтовых клиентов обрабатывали наборы символов ISO-8859-1 и US-ASCII как Windows-1252 [ требуется ссылка ] — такое поведение теперь требуется спецификацией HTML5. [5] Необъявленные кодировки в HTML также считаются Windows-1252. [20] [21]
Хотя Windows NT поддерживала Unicode и пыталась поощрять программы использовать его, она предоставляла только 16-битные кодовые единицы UCS-2 / UTF-16 , несмотря на существующую поддержку других многобайтовых кодировок символов, таких как Shift-JIS . Поскольку многие приложения предпочитали использовать 8-битные строки, Windows-1252 оставалась самой популярной кодировкой в Windows. [ необходима цитата ] UTF-8 поддерживается с Windows 10, поэтому это постепенно меняется. [ необходима цитата ]
В следующей таблице показан Windows-1252. Отличия от ISO-8859-1 имеют номер кодовой точки Unicode под символом, основанный на сопоставлении Unicode.org Windows-1252 с "наилучшим соответствием". Подсказка, обычно доступная только при наведении указателя непосредственно справа от символа, показывает имя кодовой точки Unicode и десятичный код Alt .
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | Э | Ф | |
0_ | НУЛЕВОЙ | САХ | СТХ | ЭТХ | ЭОТ | ENQ | АСК | БЕЛ | БС | ХТ | ЛФ | ВТ | ФФ | CR | ТАК | СИ |
1_ | ДЛЕ | ДК1 | ДК2 | ДК3 | DC4 | НАК | СИН | ЭТБ | МОЖЕТ | ЭМ | СУБ | ЕСК | ФС | ГС | РС | НАС |
2_ | СП | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3_ | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4_ | @ | А | Б | С | Д | Э | Ф | Г | ЧАС | я | Дж. | К | Л | М | Н | О |
5_ | П | В | Р | С | Т | У | В | Вт | Х | И | З | [ | \ | ] | ^ | _ |
6_ | ` | а | б | с | г | е | ф | г | час | я | дж | к | л | м | н | о |
7_ | п | д | г | с | т | ты | в | ж | х | у | з | { | | | } | ~ | ДЕЛ |
8_ | € 20AC | ‚ 201А | ƒ 0192 | „ 201E | … 2026 | † 2020 | ‡ 2021 | ˆ 02C6 | ‰ 2030 | Ш 0160 | ‹ 2039 | 0152 | Ž 017D | |||
9_ | ' 2018 | ' 2019 | « 201С | ” 201D | • 2022 | – 2013 | — 2014 | ˜ 02DC | ™ 2122 | № 0161 | › 203А | œ 0153 | ž 017E | Ÿ 0178 | ||
А_ | НБСП | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | ЗАСТЕНЧИВЫЙ | ® | ¯ |
Б_ | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
С_ | А | А | Â | Ã | Ä | Å | Æ | Ç | Э | Э | К | Ë | Я | Я | Я | Я |
Д_ | Ð | С | Т | О | Ô | Х | Ö | × | Ø | Ù | Ú | Û | Ü | Ý | Þ | SS |
Е_ | а | а | в | г | д | å | æ | ç | è | é | ê | ë | я | я | я | я |
Ф_ | ð | с | ò | ó | о | х | ö | ÷ | ø | ù | ú | û | ü | ý | þ | ÿ |
Согласно информации на веб-сайтах Microsoft и Unicode Consortium, позиции 81, 8D, 8F, 90 и 9D не используются; однако Windows API MultiByteToWideChar
сопоставляет их с соответствующими кодами управления C1 . Сопоставление «наилучшего соответствия» также документирует это поведение. [22]
вы используете типографские кавычки, не указав правильную кодировку символов для вашего HTML-файла, некоторые из ваших зрителей увидят вопросительные знаки, квадратики или другие безумные символы вместо красивых фигурных кавычек, которые вы хотели им показать.
если документ не содержит значение кодировки CHARSET, то кодировкой по умолчанию для HTML-документов является ISO-8859-1, также известная как Latin1. Кодировкой по умолчанию для простых текстовых документов является US-ASCII.