В Unicode область частного использования ( PUA ) представляет собой диапазон кодовых точек , которым по определению не будут назначены символы стандартом. [1] Определены три области частного использования: одна в базовой многоязыковой плоскости ( U+E000–U+F8FF ) и по одной в плоскостях 15 и 16 , и почти покрывающих их ( U+F0000–U+FFFFD , U+100000–U+10FFFD ). Они намеренно оставлены неопределенными, чтобы третьи стороны могли назначать свои собственные символы, не конфликтуя с назначениями Консорциума Unicode. В соответствии с Политикой стабильности Unicode [2] области частного использования останутся выделенными для этой цели во всех будущих версиях Unicode.
Назначения для символов области частного использования не обязательно должны быть «частными» в смысле строго внутренних для организации; ряд схем назначения были опубликованы несколькими организациями. Такая публикация может включать шрифт, который поддерживает определение (показ глифов), и программное обеспечение, использующее символы частного использования (например, графический символ для функции «печати документа»). По определению, несколько частных сторон могут назначать разные символы одной и той же кодовой точке, в результате чего пользователь может увидеть один частный символ из установленного шрифта там, где предполагался другой.
Согласно определению Unicode, кодовые точки в зонах частного использования не являются несимволами, зарезервированными или неназначенными. Их категория — « Other, private use (Co)
», и имена символов не указаны. Репрезентативные глифы не предоставляются, а семантика символов оставлена на усмотрение частного соглашения.
Символам частного использования назначаются кодовые точки Unicode, интерпретация которых не указана в настоящем стандарте и использование которых может определяться частным соглашением между сотрудничающими пользователями. Эти символы предназначены для частного использования и не имеют определенной, интерпретируемой семантики, за исключением частного соглашения. ... Для символов частного использования не предоставляются таблицы, поскольку любые такие символы по своей природе определены только вне контекста настоящего стандарта. [3]
В базовой многоязычной плоскости (плоскость 0) блок под названием «Зона частного использования» имеет 6400 кодовых точек.
Плоскости 15 и 16 почти [примечание 1] полностью назначены двум дополнительным областям частного использования, Supplementary Private Use Area-A и Supplementary Private Use Area-B соответственно. В UTF-16 подмножество высоких суррогатов (U+DB80..U+DBFF) используется для этих и только этих плоскостей и называется High Private Use Surrogates .
Unicode: зоны частного использования | ||||
---|---|---|---|---|
Определение по свойству символа: Общая категория=Co [a] [b] | ||||
Диапазон | Самолет | Имя блока | Количество кодовых точек | Примечание |
U+E000..U+F8FF | БМП (0) | Зона частного пользования | 6,400 | |
U+F0000..U+FFFFD [c] | ЩЕНОК (15) [д] | Дополнительная зона частного пользования-A | 65,534 | UTF-16 кодирует эти символы с помощью кодовых точек из блока High Private Use Surrogates (U+DB80..U+DBFF) в BMP. |
U+100000..U+10FFFD [c] | ЩЕНОК (16) [д] | Дополнительная зона частного пользования-B | 65,534 | |
Примечания
|
В Unicode есть три блока PUA. [3]
Зона частного пользования | |
---|---|
Диапазон | U+E000..U+F8FF (6400 кодовых точек) |
Самолет | БМП |
Скрипты | Неизвестный |
Назначенный | 6400 кодовых точек |
Неиспользованный | 0 зарезервированных кодовых точек |
История версий Unicode | |
1.0.0 (1991) | 5,632 (+5,632) |
1.0.1 (1992) | 6400 (+768) |
Документация по Юникоду | |
Кодовая таблица ∣ Веб-страница | |
Примечание : в версии 1.0.1 блок «Зона частного использования» перемещен и расширен (ранее располагался по адресу U+E800-U+FDFF в версии 1.0.0). [4] [5] [6] |
Дополнительная зона частного пользования-A | |
---|---|
Диапазон | U+F0000..U+FFFFF (65 536 кодовых точек) |
Самолет | СПУА-А |
Скрипты | Неизвестный |
Назначенный | 65 534 кодовых точек |
Неиспользованный | 0 зарезервированных кодовых точек 2 несимвола |
История версий Unicode | |
2.0 (1996) | 65 534 (+65 534) |
Диаграмма | |
Кодовая таблица | |
Примечание : [5] [6] |
Дополнительная зона частного пользования-B | |
---|---|
Диапазон | U+100000..U+10FFFF (65 536 кодовых точек) |
Самолет | СПУА-Б |
Скрипты | Неизвестный |
Назначенный | 65 534 кодовых точек |
Неиспользованный | 0 зарезервированных кодовых точек 2 несимвола |
История версий Unicode | |
2.0 (1996) | 65 534 (+65 534) |
Диаграмма | |
Кодовая таблица | |
Примечание : [5] [6] |
В Unicode 1.0.0 область частного использования простиралась от U+E800 до U+FDFF (т.е. не включала U+E000..E7FF, но дополнительно включала диапазон U+F900..FDFF, который сейчас занят идеографами совместимости CJK , алфавитными формами представления и арабскими формами представления-A ). [7] Это было изменено на U+E000..F8FF в Unicode 1.0.1, [4] и оставалось таковым в Unicode 1.1. [8] Вопреки заблуждению, диапазон U+D800..DFFF (зарезервированный для суррогатов UTF-16 со времен Unicode 2.0) не был включен в диапазон частного использования какой-либо версии Unicode 1.x.
Исторически плоскости E0 (224) через FF (255) и группы 60 (96) через 7F (127) Универсального набора кодированных символов (т. е. U+E00000 через U+FFFFFF и U+60000000 через U+7FFFFFFF) также были обозначены как частное использование. Эти диапазоны были удалены из указанных диапазонов частного использования, когда UCS была ограничена семнадцатью плоскостями, достижимыми в UTF-16. [9]
Многие люди и учреждения создали коллекции символов для PUA. Некоторые из этих соглашений о частном использовании опубликованы, поэтому другие разработчики PUA могут ориентироваться на неиспользуемые или менее используемые кодовые точки, чтобы предотвратить наложения. Несколько символов и сценариев, ранее закодированных в соглашениях о частном использовании, фактически были полностью закодированы в Unicode, что потребовало сопоставления из PUA с другими кодовыми точками Unicode.
Одно из наиболее известных и широко применяемых соглашений PUA поддерживается ConScript Unicode Registry (CSUR). CSUR, который официально не одобрен и не связан с Unicode Consortium, обеспечивает сопоставление для сконструированных письменностей, таких как Klingon pIqaD и Ferengi script (Star Trek), Tengwar и Cirth (курсивные и рунические письменности Дж. Р. Р. Толкиена), Visible Speech Александра Мелвилла Белла и алфавит доктора Сьюза из On Beyond Zebra . Ранее CSUR кодировал нерасшифрованные символы Phaistos , а также алфавиты Shavian и Deseret , которые все были приняты для официального кодирования в Unicode.
Другое общее соглашение PUA поддерживается Medieval Unicode Font Initiative (MUFI). Этот проект пытается поддержать все аббревиатуры писцов, лигатуры, предкомпозитные символы , символы и альтернативные формы букв , встречающиеся в средневековых текстах, написанных латинским алфавитом. Явная цель MUFI — экспериментально определить, какие символы необходимы для представления этих текстов, и официально закодировать эти символы в Unicode. Начиная с версии Unicode 5.1, в официальную кодировку Unicode было включено 152 символа MUFI. [ требуется обновление ]
Некоторые согласованные коллекции символов PUA существуют частично или полностью, потому что Консорциум Unicode не спешит их кодировать. Некоторые, например, непредставленные языки, скорее всего, будут закодированы в будущем. Некоторые необычные случаи, такие как вымышленные языки, находятся за пределами обычной сферы действия Unicode, но явно не исключены принципами Unicode и могут появиться в конечном итоге (например, системы письма Star Trek и Tolkien). В других случаях предлагаемая кодировка нарушает один или несколько принципов Unicode и, следовательно, вряд ли когда-либо будет официально признана Unicode — в основном, когда пользователи хотят напрямую кодировать альтернативные формы, лигатуры или комбинации базовый символ-плюс-диакритический знак (например, схема TUNE).
Издательская организация | Тема | Площадь PUA используется | Шрифт |
---|---|---|---|
CSUR | Искусственные и некоторые древние/средневековые письмена | ПУА (БМП) и самолет 15 | Код2000 |
МУФИ | Средневековые письмена | ПУА (БМП) | несколько |
СИЛ | Фонетика и языки | ПУА (БМП) | Харис СИЛ |
ТИТ | Древние и средневековые письмена | ПУА (БМП) | ТИТУС Кибербит Базовый |
Неформально диапазон U+F000 через U+F8FF известен как Corporate Use Area. Это происходит из ранних версий Unicode, которые определяли "End User Zone" (Зону конечного пользователя), простирающуюся от U+E000 вверх, и "Corporate Use Zone" (Зону корпоративного использования), простирающуюся от U+F8FF вниз, при этом граница между ними оставалась неопределенной. [8]
U+F000
.U+F000
— это последовательность цифр, начинающаяся с 13 или 18 в некоторых видеоиграх, таких как Agar.io.U+E0FF
как логотип «Circle Of Friends» [21] и U+F200
представляет собой «ubuntu» в шрифте Ubuntu с надстрочным текстом «Circle Of Friends» (это само по себе U+F0FF
). [22]U+F100
.U+E000
изображен Тукс , талисман Linux.U+E003
отображается логотип Mozilla (голова динозавра).U+F862
- U+F89F
и U+F8FB
- U+F8FE
) в области частного использования для символов, не определенных в Unicode. Из них, U+F8FB
как известно, зарезервирован для символа валюты крона ("Kr"), а U+F8FC
и U+F8FD
были позже сопоставлены с U+FB02
( fl ) и U+FB01
( fi ) соответственно. Кроме того, когда коды UTF-16 встроены в LMBCS, коды UTF-16, соответствующие U+F601
through, U+F6FF
заменяются кодами UTF-16, которые содержали бы нулевые байты , поскольку LMBCS разработан так, чтобы не содержать встроенных нулевых байтов. [26] [27]U+F000
to U+F0FF
для экранирования специальных символов .U+E000
предоставляет несколько дополнительных иконок, например , которая соответствует левой стрелке вниз, U+EA00
которая соответствует птице Twitter и U+F8FF
которая соответствует логотипу Apple, возможно, для совместимости со шрифтами Apple. [33]Концепция резервирования определенных кодовых точек для частного использования основана на аналогичном более раннем использовании в других наборах символов. В частности, многие устаревшие символы в восточноазиатских письменностях продолжают использоваться в определенных именах или других ситуациях, и поэтому некоторые наборы символов для этих письменностей допускают использование символов частного использования (таких как определяемые пользователем плоскости CNS 11643 или гайдзи в некоторых японских кодировках). Стандарт Unicode ссылается на эти использования под названием «Определение конечного пользователя» (EUCD). [3]
Кроме того, блок управления C1 содержит два кода, предназначенных для частного использования «функций управления» по ECMA-48 : 0x91 частного использования один (PU1) и 0x92 частного использования два (PU2). [34] [35] Unicode включает их в U+0091 <control-0091> и U+0092 <control-0092> но определяет их как управляющие символы (категория Cc
), а не как символы частного использования (категория Co
). [5] [36]
Кодировки, не имеющие областей частного использования, но имеющие более или менее неиспользуемые области, такие как ISO/IEC 8859 и Shift JIS , стали свидетелями неконтролируемых вариантов этих кодировок. [37] Что касается Unicode, компании-разработчики программного обеспечения могут использовать области частного использования для своих желаемых дополнений.
Недопустимые символы имени файла NTFS кодируются [
sic
] с использованием символов Unicode частного использования SFM (Services for Macintosh).
Область, показанная на диаграмме выше, представляет только 254 байта строки FF в плоскости 0F.
Область, показанная на диаграмме выше, представляет только 254 байта строки FF в плоскости 0F.
IBM выделила 195 позиций от U+F83D до U+F8FF для использования в качестве IBM Corporate-zone и намерена использовать их последовательно в IBM всякий раз, когда возникает необходимость в сохранении целостности символов IBM при передаче.
{{citation}}
: CS1 maint: числовые имена: список авторов ( ссылка )