Свойство символа Unicode

Имена свойств кодовых точек Unicode

Стандарт Unicode присваивает различные свойства каждому символу и кодовой точке Unicode . [1] [2]

Свойства могут использоваться для обработки символов (кодовых точек) в процессах, таких как разрыв строки, направление письма справа налево или применение элементов управления. Некоторые «свойства символов» также определены для кодовых точек, которым не назначен символ, и кодовых точек, помеченных как «<не символ>». Свойства символов описаны в Стандартном приложении № 44. [2]

Свойства имеют уровни силы: нормативный, информативный, вспомогательный или предварительный. Для простоты спецификации свойство символа может быть назначено путем указания непрерывного диапазона кодовых точек, которые имеют то же свойство. [3]

Семантические элементы

Свойства отображаются в следующем порядке: [4]

[код];[имя];[gc];[cc];[bc];[разложение];[nv-dec];[nv-dig];[nv-num];[bm];[псевдоним];;[верхний регистр];[нижний регистр];[заглавный регистр]
  • 'alias' = исправленное имя. Устарело. Теперь отслеживается с помощью отдельной базы данных, но остается для имен Unicode 1 и т. д.
  • 'bc' = двунаправленная (bidi) категория [L, R и т.д.]
  • 'bm' = зеркальное отображение биди [N или Y]
  • 'cc' = объединяющий класс [позиция диакритического знака]
  • тип разложения или <отображение> = буква + диакритический знак, лигатура XY, надстрочный индекс X, шрифт X, начальный X, срединный X, конечный X, изолированный X, вертикальный X и т. д.
  • 'gc' = общая категория [буква, символ, цифра, знак препинания, регистр и т. д.]
  • 'nv' = числовой тип и значение [цифры]. Если числовой тип - 'decimal', то заполняются все 3 слота. Если 'digit', то первый будет нулевым. (Это прекращено.) Если 'numeric', то первые два будут нулевыми, и только последний будет использоваться.

Свойство между «псевдонимом» и «верхним регистром» устарело и теперь равно нулю для всех символов Unicode.

Код

Первое свойство — это шестнадцатеричный код .

Имя и псевдоним

Символу Unicode присваивается уникальное Имя (na). [1] Имя состоит из заглавных букв A–Z, цифр 0–9, дефиса-минуса и пробела . Некоторые последовательности исключаются: имена, начинающиеся с пробела или дефиса, имена, заканчивающиеся пробелом или дефисом, повторяющиеся пробелы или дефисы, а также пробел после дефиса не допускаются. Имя гарантированно уникально в Unicode и может использоваться для идентификации кодовой точки и ее символа. Идеографические символы, которых десятки тысяч, именуются по шаблону " cjk unified ideograph - hhhh ". Например, U+4E00 CJK UNIFIED IDEOGRAPH-4E00 . Символы форматирования также именуются: U+00A0 NO-BREAK SPACE .  

Следующие классы кодовых точек не имеют имени (na=""): элементы управления (общая категория: Cc), частное использование (Co), суррогат (Cs), несимволы (Cn) и зарезервированные (Cn). На них можно ссылаться неформально с помощью общего или специального мета-имени, называемого "метками кодовых точек": <control>, <control-0088>, <reserved>, <noncharacter- hhhh >, <private-use- hhhh > или <surrogate>. Поскольку эти метки содержат скобки <>, они никогда не могут отображаться как имя, что предотвращает путаницу.

Имена версии 1.0

В версии 2.0 Unicode многие имена были изменены. С этого момента вступило в силу правило «имя никогда не изменится», включая строгое (нормативное) использование псевдонимов. Неиспользуемые имена версии 1.0 были перемещены в свойство Alias, чтобы обеспечить некоторую обратную совместимость.

Имя персонажа псевдоним

Начиная с версии Unicode 2.0, опубликованное имя для кодовой точки никогда не изменится. Поэтому в случае неправильного написания имени символа или если имя символа полностью неверно или серьезно вводит в заблуждение, символу может быть назначен формальный псевдоним имени символа , и этот псевдоним может использоваться приложениями вместо фактического дефектного имени символа. [1] Например, U+FE18ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ПРАВОЙ БЕЛОЙ ДВУХСТОРОННЕЙ СКОБКИ имеет псевдоним имени символа " ФОРМА ПРЕДСТАВЛЕНИЯ ДЛЯ ВЕРТИКАЛЬНОЙ ПРАВОЙ БЕЛОЙ ДВУХСТОРОННЕЙ СКОБКИ " для того, чтобы смягчить неправильное написание "bracket" как "brakcet" [ sic ] в фактическом имени символа; U+A015СЛОГОВЫЙ И И У имеет псевдоним имени персонажа «ЗНАК ПОВТОРЕНИЯ СЛОГА И И», поскольку, в отличие от имени персонажа, он не имеет фиксированного слогового значения.

В дополнение к псевдонимам имен символов, которые являются исправлениями для некорректных имен символов, некоторым символам назначаются псевдонимы, которые являются альтернативными именами или сокращениями. В стандарте Unicode определены пять типов псевдонимов имен символов:

  • Исправление: исправления неправильно написанных или серьезно неверных имен персонажей;
  • Управление: имена ISO 6429 для функций управления C0 и C1 (которым не присвоены имена символов в стандарте Unicode);
  • Альтернатива: альтернативные названия для некоторых символов формата (только U+FEFF ZERO WIDTH NO-BREAK SPACE , который имеет псевдоним "BYTE ORDER MARK" );
  • Рисунок: Документированные метки для некоторых функций управляющего кода C1, которые не являются фактическими именами ни в одном стандарте;
  • Сокращение: сокращения или аббревиатуры для управляющих кодов, символов форматирования, пробелов и селекторов вариантов.

Все формальные псевдонимы имен персонажей следуют правилам для допустимых имен персонажей и гарантированно являются уникальными как в пределах псевдонима имени персонажа, так и в пределах пространств имен имен персонажей (по этой причине имя ISO 6429 "BELL" не определено как псевдоним для U+0007 <control-0007> ). потому что U+1F514 называется "BELL"). [1]

Начиная с версии Unicode 16.0, тридцать пять формальных псевдонимов имен символов определены как исправления для дефектных имен символов. [5]

Помимо этих нормативных имен, в таблицах кодов Unicode могут быть показаны неформальные имена . Это другие общеупотребительные имена для символа, и они не имеют тех же ограничений на символы. Эти неформальные имена не гарантируют уникальность и могут быть изменены или удалены в более поздних версиях стандарта.

Общая категория

Каждой кодовой точке назначается значение для категории General. Это одно из свойств символа, которое также определяется для неназначенных кодовых точек и кодовых точек, которые определены как "не символ".

Общая категория (свойство символа Unicode) [a]
ЦенитьКатегория Major, minorБазовый тип [б]Назначен символ [b]Количество [c] (на 16.0)
Замечания
 
L , буква; LC , регистровая буква (только Lu, Ll и Lt) [d]
ЛуБуква, заглавнаяГрафическийХарактер1,858
ЛлБуква, строчнаяГрафическийХарактер2,258
лейтенантБуква, заглавнаяГрафическийХарактер31Лигатуры или диграфы, содержащие заглавную букву, за которой следует строчная часть (например, Dž , Lj , Nj и Dz )
ЛмБуква, модификаторГрафическийХарактер404Буква -модификатор
ЛоПисьмо, другоеГрафическийХарактер136,477Идеограмма или буква в однобуквенном алфавите
М , Марк
МнМарк, без пробеловГрафическийХарактер2,020
МакМарк, интервал, объединениеГрафическийХарактер468
МнеМарк, прилагаюГрафическийХарактер13
Н , Число
ндЧисло, десятичная цифраГрафическийХарактер760Все они, и только они, имеют числовой тип = De [e]
НлЧисло, букваГрафическийХарактер236Цифры, состоящие из букв или буквоподобных символов (например, римские цифры )
НетНомер, другойГрафическийХарактер915Например, обыкновенные дроби , надстрочные и подстрочные цифры, двадцатеричные цифры
П , Пунктуация
ПКПунктуация, соединительГрафическийХарактер10Включает пробельные символы подчеркивания , такие как "_", и другие пробельные символы связи . В отличие от других знаков пунктуации, они могут быть классифицированы как символы "слова" библиотеками регулярных выражений . [f]
ПдЗнаки препинания, тиреГрафическийХарактер27Включает несколько символов дефиса
ПсПунктуация открытаяГрафическийХарактер79Символы открывающих скобок
ПеПунктуация, закрытьГрафическийХарактер77Символы закрывающих скобок
ПиПунктуация, начальная цитатаГрафическийХарактер12Открывающая кавычка . Не включает в себя "нейтральную" кавычку ASCII. Может вести себя как Ps или Pe в зависимости от использования
ПфПунктуация, заключительная цитатаГрафическийХарактер10Закрывающая кавычка. Может вести себя как Ps или Pe в зависимости от использования
ПоПунктуация, прочееГрафическийХарактер640
S , Символ
СмСимвол, математикаГрафическийХарактер950Математические символы (например, + , , = , × , ÷ , , , ). Не включает круглые и квадратные скобки, которые находятся в категориях Ps и Pe. Также не включает ! , * , - или / , которые, несмотря на частое использование в качестве математических операторов, в первую очередь считаются «знаками препинания».
СцСимвол, валютаГрафическийХарактер63Символы валют
СкСимвол, модификаторГрафическийХарактер125
ТакСимвол, другойГрафическийХарактер7,376
Z , Разделитель
ЗсРазделитель, пространствоГрафическийХарактер17Включает пробел, но не TAB , CR или LF , которые являются Cc
ЗлРазделитель, линияФорматХарактер1Только U+2028 РАЗДЕЛИТЕЛЬ СТРОК (LSEP)
ЗпРазделитель, абзацФорматХарактер1Только U+2029 РАЗДЕЛИТЕЛЬ АБЗАЦЕВ (PSEP)
С , Другое
КопияДругое, контрольКонтрольХарактер65 (никогда не изменится) [э]Без имени, [g] <control>
Ср.Другой, форматФорматХарактер170Включает в себя мягкий дефис , соединительные управляющие символы ( ZWNJ и ZWJ ), управляющие символы для поддержки двунаправленного текста и символы языковых тегов.
CsДругое, суррогатноеСуррогатная матьНет (используется только в UTF-16 )2,048 (никогда не изменится) [e]Без имени, [г] <суррогат >
КоДругое, частное использованиеЧастное использованиеХарактер (но интерпретация не указана)137 468 всего (никогда не изменится) [e] ( 6 400 в БМП , 131 068 в самолетах 15–16 )Без имени, [г] <частное использование>
CnДругое, не назначеноНехарактерныйНет66 (не изменится, если диапазон кодовых точек Unicode не будет расширен) [e]Без имени, [г] <не персонаж>
СдержанныйНет819,467Без имени, [г] <зарезервировано>
  1. ^ "Таблица 4-4: Общая категория". Стандарт Unicode . Консорциум Unicode. Сентябрь 2024 г.
  2. ^ ab "Таблица 2-3: Типы кодовых точек". Стандарт Unicode . Консорциум Unicode. Сентябрь 2024 г.
  3. ^ "DerivedGeneralCategory.txt". Консорциум Unicode. 2024-04-30.
  4. ^ "5.7.1 Значения общей категории". UTR #44: База данных символов Unicode . Консорциум Unicode. 2024-08-27.
  5. ^ abcde Политики стабильности кодировки символов Unicode: Политика стабильности значения свойства: Некоторые группы gc никогда не изменятся. gc=Nd соответствует числовому типу=De (десятичный).
  6. ^ "Приложение C: Свойства совместимости (§ word)". Регулярные выражения Unicode . Версия 23. Консорциум Unicode . 2022-02-08. Технический стандарт Unicode № 18.
  7. ^ abcde "Таблица 4-9: Построение меток кодовых точек". Стандарт Unicode . Консорциум Unicode. Сентябрь 2024 г.Метка кодовой точки может использоваться для идентификации безымянной кодовой точки. Например, <control- hhhh >, <control-0088>. Имя остается пустым, что может предотвратить непреднамеренную замену в документации имени элемента управления на настоящий код элемента управления. Unicode также использует <not a character> для <noncharacter>.

Пунктуация

Символы имеют отдельные свойства, указывающие на то, что они являются символами пунктуации . Все свойства имеют значения Да/Нет : Dash , Quotation_Mark , Sentence_Terminal , Terminal_Punctuation . Свойство Punctuation относится к символам, которые используются для разделения или структурирования текста, и они классифицируются по разным типам в зависимости от их ролей. Unicode назначает этим символам пунктуации определенные категории.

Пробелы

Пробел — это широко используемая концепция для типографского эффекта. В основном она охватывает невидимые символы, которые имеют эффект пробела в отображаемом тексте. Она включает пробелы , табуляции и элементы управления форматированием новой строки. В Unicode такой символ имеет свойство "WSpace=yes". В версии 16.0 существует 25 пробельных символов.

ИмяКодовая точкаШирина коробкиМожет сломаться ?В
IDN ?
СценарийБлокироватьОбщая
категория
Примечания
табуляция символовU+00099ДаНетОбщийБазовая латыньДругое,
контроль
HT, Горизонтальная табуляция . Именованная сущность HTML/XML : &Tab;, LaTeX : \tab, C escape:\t
подача строкиУ+000А10Является ли переносом строкиОбщийБазовая латыньДругое,
контроль
LF, Перевод строки . Именованная сущность HTML/XML: &NewLine;, C escape:\n
строка табуляцииУ+000Б11Является ли переносом строкиОбщийБазовая латыньДругое,
контроль
VT, вертикальная табуляция . C escape:\v
подача формыУ+000С12Является ли переносом строкиОбщийБазовая латыньДругое,
контроль
FF, подача страницы . C escape:\f
возврат кареткиУ+000Д13Является ли переносом строкиОбщийБазовая латыньДругое,
контроль
CR, Возврат каретки . C escape:\r
космосU+002032 ДаНетОбщийБазовая латыньРазделитель,
пространство
Наиболее распространенный (обычный пробел ASCII). LaTeX:
следующая строкаU+0085133Является ли переносом строкиОбщий
Дополнение Latin-1
Другое,
контроль
NEL, Следующая строка . LaTeX:\\
пространство без перерываУ+00А0160 НетНетОбщий
Дополнение Latin-1
Разделитель,
пространство
Неразрывный пробел : идентичен U+0020, но не является точкой, в которой строка может быть разорвана.
HTML/XML именованная сущность: &nbsp;, &NonBreakingSpace;, LaTeX:~
огамический знак пространстваУ+16805760ДаНетОгамОгамРазделитель,
пространство
Используется для разделения слов в тексте огамом . Обычно вертикальная линия в вертикальном тексте или горизонтальная линия в горизонтальном тексте, но может также быть пустым пространством в шрифтах «без основы». Требуется шрифт огамом.
вчетверомУ+20008192 ДаНетОбщийОбщая
пунктуация
Разделитель,
пространство
Ширина одного en . U+2002 канонически эквивалентен этому символу; U+2002 предпочтительнее.
эм квадроУ+20018193ДаНетОбщийОбщая
пунктуация
Разделитель,
пространство
Также известен как «баранина квадратная». Ширина в один em . U+2003 канонически эквивалентен этому символу; U+2003 предпочтительнее.
в пространствеУ+20028194ДаНетОбщийОбщая
пунктуация
Разделитель,
пространство
Также известен как «орех». Ширина одного en . U+2000 En Quad канонически эквивалентен этому символу; предпочтительнее U+2002.
HTML/XML именованная сущность: &ensp;, LaTeX: \enspace(пробел en LaTeX является неразрывным)
эм пространствоУ+20038195ДаНетОбщийОбщая
пунктуация
Разделитель,
пространство
Также известен как «баран». Ширина одного em . U+2001 Em Quad канонически эквивалентен этому символу; U+2003 предпочтительнее.
HTML/XML именованная сущность: &emsp;, LaTeX:\quad
пространство из трех штукУ+20048196ДаНетОбщийОбщая
пунктуация
Разделитель,
пространство
Также известен как «толстый пробел». Ширина — одна треть em.
HTML/XML-именованная сущность: &emsp13;, LaTeX: \;(толстый пробел LaTeX — это неразрывный пробел)
пространство из четырех клетокУ+20058197ДаНетОбщийОбщая
пунктуация
Разделитель,
пространство
Также известно как «промежуток между строками». Ширина — одна четвертая часть em.
HTML/XML-именованная сущность:&emsp14;
пространство из шести клетокУ+20068198ДаНетОбщийОбщая
пунктуация
Разделитель,
пространство
Одна шестая часть em в ширину. В компьютерной типографике иногда приравнивается к U+2009.
пространство для фигурУ+20078199НетНетОбщийОбщая
пунктуация
Разделитель,
пространство
Интервал между цифрами . В шрифтах с моноширинными цифрами, равный ширине одной цифры.
HTML/XML именованная сущность:&numsp;
пробел пунктуацииУ+20088200ДаНетОбщийОбщая
пунктуация
Разделитель,
пространство
Ширина узкой пунктуации в шрифте, т.е. ширина точки или запятой. [6]
Именованная сущность HTML/XML:&puncsp;
тонкое пространствоУ+20098201ДаНетОбщийОбщая
пунктуация
Разделитель,
пространство
Тонкий пробел ; одна пятая (иногда одна шестая) ширины em. Рекомендуется использовать в качестве разделителя тысяч для измерений, выполненных в единицах СИ . В отличие от U+2002 до U+2008, его ширина может быть скорректирована при наборе. [7]
Именованный объект HTML/XML: &thinsp;, &ThinSpace;, LaTeX: \,(тонкий пробел LaTeX является неразрывным пробелом)
пространство для волосУ+200А8202ДаНетОбщийОбщая
пунктуация
Разделитель,
пространство
Тоньше тонкого пробела. HTML/XML именованная сущность: &hairsp;,&VeryThinSpace;
разделитель строкУ+20288232Является ли переносом строкиОбщийОбщая
пунктуация
Разделитель,
линия
разделитель абзацевУ+20298233Является ли переносом строкиОбщийОбщая
пунктуация
Разделитель,
абзац
узкое пространство без перерывовУ+202Ф8239НетНетОбщийОбщая
пунктуация
Разделитель,
пространство
Узкий неразрывный пробел . По функциям схож с U+00A0 Неразрывный пробел. При использовании с монгольским его ширина обычно составляет одну треть обычного пробела; в другом контексте его ширина иногда напоминает ширину тонкого пробела (U+2009). LaTeX:\,
среднее математическое пространствоУ+205Ф8287ДаНетОбщийОбщая
пунктуация
Разделитель,
пространство
MMSP. Используется в математических формулах. Четыре восемнадцатых em. [8] В математической типографике ширина пробелов обычно указывается в целых кратных восемнадцатой em, и 4/18 em может использоваться в нескольких ситуациях, например, между a и + и между + и b в выражении a + b . [9]
HTML/XML именованная сущность: &MediumSpace;, LaTeX: \:(средний пробел LaTeX является неразрывным пробелом)
идеографическое пространствоУ+300012288 ДаНетОбщий
Символы и
пунктуация CJK
Разделитель,
пространство
Ширина ячейки символа CJK ( полная ширина ). Используется, например, в тай тоу .
 Имя Кодовая точкаШирина коробкиМожет сломаться ?В
IDN ?
СценарийБлокироватьОбщая
категория
Примечания
монгольский разделитель гласныхУ+180Е6158ДаНетмонгольскиймонгольскийДругое,
Формат
MVS. Узкий пробельный символ, используемый в монгольском языке для придания двум последним символам слова разных форм. [10] Он больше не классифицируется как пробельный символ (т. е. в категории Zs) в Unicode 6.3.0, хотя и классифицировался в предыдущих версиях стандарта.
пространство нулевой шириныУ+200Б8203ДаНет?Общая
пунктуация
Другое,
Формат
ZWSP, пробел нулевой ширины . Используется для обозначения границ слов в системах обработки текста при использовании скриптов, не использующих явные интервалы. Он похож на мягкий дефис , с той разницей, что последний используется для обозначения границ слогов и должен отображать видимый дефис, когда строка прерывается на нем. Именованный объект
HTML/XML : [11] [c]&ZeroWidthSpace;
нулевая ширина несоединительный элементУ+200С8204ДаКонтекстно-зависимый [16]?Общая
пунктуация
Другое,
Формат
ZWNJ, несоединитель нулевой ширины . При размещении между двумя символами, которые в противном случае были бы соединены, ZWNJ заставляет их печататься в их конечной и начальной формах соответственно.
Именованная сущность HTML/XML:&zwnj;
соединитель нулевой шириныУ+200Д8205ДаКонтекстно-зависимый [17]?Общая
пунктуация
Другое,
Формат
ZWJ, соединитель нулевой ширины . При размещении между двумя символами, которые в противном случае не были бы соединены, ZWJ заставляет их печататься в их соединенных формах. Может также использоваться для отображения соединяющихся форм изолированно. В зависимости от того, ожидается ли лигатура или конъюнкт по умолчанию, может либо вызывать (как в эмодзи и в сингальском языке ), либо подавлять (как в деванагари ) замену одним глифом, при этом все еще разрешая использование отдельных соединяющихся форм (в отличие от ZWNJ).
Именованная сущность HTML/XML:&zwj;
соединитель словУ+20608288НетНет?Общая
пунктуация
Другое,
Формат
WJ, соединитель слов . Аналогично U+200B, но не является точкой, в которой может быть разорвана строка.
Именованная сущность HTML/XML:&NoBreak;
неразрывный пробел нулевой шириныУ+FEFF65279НетНет?Арабские формы
представления
-B
Другое,
Формат
Неразрывный пробел нулевой ширины . Используется в основном как знак порядка байтов . Использование в качестве указания на неразрывность устарело, начиная с Unicode 3.2; вместо этого см. U+2060.
  1. ^ White_Space — это двоичное свойство Unicode. [18]
  2. ^ "PropList-16.0.0.txt". Unicode . 2024-05-31 . Получено 2024-09-13 .
  3. ^ Хотя &ZeroWidthSpace;это одна именованная сущность HTML5 для U+200B, дополнительные имена NegativeMediumSpace, NegativeThickSpace, NegativeThinSpaceи NegativeVeryThinSpace(которые являются именами, используемыми в Wolfram Language для отрицательных-продвинутых пробелов, которые он сопоставляет с областью частного использования ) [12] [13] [14] [15] также определены HTML5 как псевдонимы для U+200B (например, &NegativeMediumSpace;). [11]


Корпус

Значение регистра в Unicode — Normataive. Оно относится к тем письменностям, в которых есть заглавные (т. е. заглавные, маюскульные) и строчные (т. е. малые, минускульные) буквы. Разница в регистре встречается в адламском, армянском, чероки, коптском, кириллическом, дезеретском, гарайском, глаголическом, греческом, грузинском, хуцури и мхедрули, латинском, медефаидринском, древневенгерском, осейджском, виткуки и варанг-сити.

(верхний, нижний, титульный, складной — как простой, так и полный)

Другие общие характеристики

Идеографический, алфавитный, несимвольный.

Объединение классов

Некоторые распространённые коды:

0 = пробельная буква, символ или модификатор (например, a, (, ʰ)
1 = наложение
6 = чтение по-ханьски (диакритические знаки чтения CJK)
7 = нукта (диакритический знак нукта в брахмийском письме )
8 = знаки озвучивания каны
9 = вирама

10–199 = различные классы с фиксированной позицией

Знаки, прикрепляемые к базовой букве:

200 = прикреплено внизу слева
202 = прикрепляется непосредственно ниже (например, седиль на ç)
204 = прикреплено внизу справа
208 = прикреплен к левому
210 = прикреплен справа
212 = прикреплен к верхнему левому углу
214 = прикреплено непосредственно выше
216 = прикреплено вверху справа

Знаки, не прикрепленные к базовой букве:

218 = внизу слева
220 = прямо под (например, кольцо на n̥)
222 = внизу справа
224 = левый
226 = справа
228 = вверху слева
230 = выше (например, острый удар на á)
232 = вверху справа
233 = двойной снизу (состоит из двух оснований)
234 = двойной сверху (расширяет два основания)
240 = нижний индекс йота (только греческий диакритический знак)

Двунаправленное письмо

Шесть свойств символов относятся к двунаправленному письму: Bidi_Class , Bidi_Control , Bidi_Mirrored , Bidi_Mirroring_Glyph , Bidi_Paired_Bracket и Bidi_Paired_Bracket_Type .

Одной из основных особенностей Unicode является поддержка двунаправленного ( Bidi ) отображения текста справа налево (R-to-L) и слева направо (L-to-R). Двунаправленный алгоритм Unicode UAX9 [19] описывает процесс представления текста с изменяющимися направлениями письма. Например, он позволяет использовать цитату на иврите в английском тексте. Bidi_Character_Type отмечает поведение символа при направленном письме. Для переопределения направления Unicode определил специальные символы управления форматированием ( Bidi-Control s). Эти символы могут задавать направление и по определению влияют только на двунаправленное письмо.

Каждая кодовая точка имеет свойство Bidi_Class . Оно определяет ее поведение в двунаправленном тексте, интерпретируемом алгоритмом:

Тип двунаправленного символа ( свойство символа Unicode Bidi_Class ) [1]
Тип [2]ОписаниеСилаНаправленностьОбщая область примененияСимвол Bidi_Control [3]
ЛСлева направоСильныйСлева направоБольшинство алфавитных и слоговых символов, китайские иероглифы, неевропейские или неарабские цифры, символы LRM, ...U+200E МЕТКА СЛЕВА НАПРАВО (LRM)
РСправа налевоСильныйП-в-ЛАдлам, Гарай, иврит, мандейский язык, Менде Кикакуи, Н'Ко, самаритянин, древние письменности, такие как Харошти и Набатейский, символы RLM, ...U+200F МАРКИРОВКА СПРАВА НАЛЕВО (RLM)
АЛАрабская букваСильныйП-в-ЛАрабский, ханифи-рохинджа, согдийский, сирийский и тханский алфавиты, а также большинство знаков препинания, характерных для этих алфавитов, символ ALM, ...U+061C АРАБСКИЙ БУКВЕННЫЙ ЗНАК (ALM)
RUЕвропейский номерСлабыйЕвропейские цифры, восточные арабо-индийские цифры, коптские цифры-эпакты, ...
ЭСЕвропейский СепараторСлабыйзнак плюс , знак минус , ...
ETЕвропейский номерной терминаторСлабыйзнак градуса , символы валют, ...
АНАрабские цифрыСлабыйАрабско-индийские цифры, арабские десятичные разделители и разделители тысяч, цифры Руми, цифры Ханифи рохинджа, ...
КСОбщий разделитель чиселСлабыйдвоеточие , запятая , точка , неразрывный пробел , ...
НСМНепробеловая отметкаСлабыйСимволы в общих категориях Знак, не содержащий пробелов, и Знак, заключающий в себе (Mn, Me)
БННейтральный на границеСлабыйИгнорируемые по умолчанию, несимволы, управляющие символы, отличные от явно заданных других типов
БРазделитель абзацевНейтральныйРазделитель абзацев , соответствующие функции новой строки, определение абзаца протокола более высокого уровня
СРазделитель сегментовНейтральныйВкладки
WSПробелыНейтральныйпробел , пробел между цифрами , разделитель строк , перевод страницы , общие пробелы в блоках пунктуации (набор меньше, чем список пробелов Unicode)
НАДругие нейтральныеНейтральныйВсе остальные символы, включая символы замены объектов
ЖРДВстраивание слева направоЯвныйСлева направоТолько символ LREU+202A ВНЕДРЕНИЕ СЛЕВА НАПРАВО (LRE)
МРОПереопределение слева направоЯвныйСлева направоТолько персонаж LROU+202D ПЕРЕОПРЕДЕЛЕНИЕ СЛЕВА НАПРАВО (LRO)
РЛЭВстраивание справа налевоЯвныйП-в-Лтолько символ RLEU+202B ВНЕДРЕНИЕ СПРАВА НАЛЕВО (RLE)
РЛОПереопределение справа налевоЯвныйП-в-ЛТолько символ RLOU+202E ПЕРЕОПРЕДЕЛЕНИЕ СПРАВА НАЛЕВО (RLO)
PDFФормат поп-направленияЯвныйтолько символ PDFU+202C POP НАПРАВЛЕННОЕ ФОРМАТИРОВАНИЕ (PDF)
ЛРИИзолировать слева направоЯвныйСлева направоТолько символ LRIU+2066 ИЗОЛЯЦИЯ СЛЕВА НАПРАВО (LRI)
РЛИИзолировать справа налевоЯвныйП-в-ЛТолько символ RLIU+2067 ИЗОЛЯЦИЯ СПРАВА НАЛЕВО (RLI)
ФСИПервый сильный изолятЯвныйТолько символ FSIU+2068 ПЕРВЫЙ СИЛЬНЫЙ ИЗОЛЯТ (FSI)
ПДИПоп-направленный изолятЯвныйтолько символ PDIU+2069 ПОП НАПРАВЛЕННЫЙ ИЗОЛЯТ (PDI)
Примечания
1. ^ Двунаправленный алгоритм Unicode (UAX#9), начиная с версии Unicode 16.0
2. ^ Возможные типы двунаправленных символов для свойства символа: Bidi_Class или 'type'
3. ^ Символы Bidi_Control: Определены двенадцать символов форматирования Bidi_Control. Они невидимы и не имеют никакого эффекта, кроме направленности. Девять из них имеют уникальный, переопределяющий тип BiDi, который используется алгоритмом. Их тип также является их аббревиатурой (например, символ 'LRE' имеет тип BiDi 'LRE').

В обычных ситуациях алгоритм может определить направление текста по этому свойству символа. Для управления более сложными ситуациями Bidi, например, когда английский текст имеет кавычки на иврите, в Unicode добавляются дополнительные параметры. Двенадцать символов имеют свойство Bidi_Control=Yes: ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM и RLO, как указано в таблице. Это невидимые символы управления форматированием, используемые только алгоритмом и не имеющие эффекта за пределами двунаправленного форматирования. [19] Несмотря на название, они являются символами форматирования, а не управляющими символами, и имеют общую категорию Другие, формат (Cf) в определении Unicode.

По сути, алгоритм определяет последовательность символов с тем же сильным типом направления (R-to-L или L-to-R), принимая во внимание переопределение специальными элементами управления Bidi. Числовые строки (слабые типы) назначаются направлению в соответствии с их сильным окружением, как и нейтральные символы. Наконец, символы отображаются в соответствии с направлением строки.

Два свойства символа имеют значение для определения зеркального отображения глифа в двунаправленном тексте: Bidi_Mirrored=Yesуказывает, что глиф должен быть зеркальным при написании от R к L. Bidi_Mirroring_Glyph=U+hhhhЗатем свойство может указывать на зеркальный символ. Например, скобки ( , ) зеркально отображаются таким образом. Формирование курсивных шрифтов, таких как арабский, и зеркальное отображение глифов, имеющих направление, не является частью алгоритма.

Числовые значения и типы

Десятичная дробь

Символы классифицируются с типом Numeric . [1] Такие символы, как дроби, подстрочные и надстрочные индексы, римские цифры, числители валют, обведенные числа и цифры, специфичные для письменности, имеют тип Numeric. Они имеют числовое значение , которое может быть десятичным, включая ноль и отрицательные числа, или вульгарной дробью. Если такого значения нет, как у большинства символов, то числовой тип — «None».

Символы, имеющие числовое значение, делятся на три группы: десятичные (De), цифровые (Di) и числовые (Nu, т. е. все остальные). «Десятичный» означает, что символ является прямой десятичной цифрой. Только символы, являющиеся частью непрерывного закодированного диапазона 0..9, имеют числовой тип Decimal. Другие цифры, такие как надстрочные индексы, имеют числовой тип Digit. Все числовые символы, такие как дроби и римские цифры, в конечном итоге имеют тип «Numeric». Предполагаемый эффект заключается в том, что простой синтаксический анализатор может использовать эти десятичные числовые значения, не отвлекаясь, скажем, на числовой надстрочный индекс или дробь. Восемьдесят три идеограммы CJK, представляющие число, включая те, которые используются для бухгалтерского учета, имеют тип Numeric.

С другой стороны, символы, которые могут иметь числовое значение в качестве второго значения, по-прежнему помечены как Numeric type None и не имеют числового значения. Например, латинские буквы могут использоваться в нумерации абзацев, как "II.A.1.b", но буквы "I", "A" и "b" не являются числовыми (тип None ) и не имеют числового значения.

Числовой тип [a] [b]  ( свойство символа Unicode )
Числовой типКодИмеет числовое значениеПримерЗамечания
Не числовое<none>Нет
  • А
  • X  (латиница)
  • !
  • Д
  • μ
Числовое значение="NaN"
Десятичная дробьDeДа
  • 0
  • 1
  • 9
  •  (Деванагари 6)
  •  (Каннада 6)
  • 𝟨  (Математический, стилизованный шрифт без засечек)
Прямая цифра (десятичное основание ). Соответствует в обоих случаях общей категории=Nd [a]
ЦифраDiДа
  • ¹  (верхний индекс)
  •  (цифра с точкой)
Десятичная дробь, но в типографском контексте
ЧисловойNuДа
  • ¾
  •  (тамильское число десять)
  •  (римская цифра)
  •  (Хань номер 6)
Числовое значение, но не десятичное
а. ^ "Раздел 4.6: Числовое значение". Стандарт Unicode . Консорциум Unicode. Сентябрь 2024 г.
б. ^ "Производные числовые типы Unicode 16.0". База данных символов Unicode . Консорциум Unicode. 2024-04-30.

Шестнадцатеричные цифры

Шестнадцатеричные символы — это символы в серии с шестнадцатеричными значениями 0...9ABCDEF (шестнадцать символов, десятичное значение 0–15). Свойство символа Hex_Digit устанавливается в значение Yes, когда символ находится в такой серии:

Символы в Unicode, обозначенные [a]Hex_Digit=Yes
0123456789ABCDEFБазовая латынь, заглавные буквыТакжеASCII_Hex_Digit=Yes
0123456789abcdefБазовая латиница, строчные буквыТакжеASCII_Hex_Digit=Yes
0123456789ABCDEFПолноширинные формы , заглавные буквы
0123456789abcdefПолноширинные формы, строчные буквы
а. ^ "Unicode 16.0 UCD: PropList.txt". 2024-05-31 . Получено 2024-09-13 .

Сорок четыре символа обозначены как Hex_Digit . Символы в блоке Basic Latin также обозначены как ASCII_Hex_Digit .

В Unicode нет отдельных символов для шестнадцатеричных значений. Следствием этого является то, что при использовании обычных символов невозможно определить, подразумевается ли шестнадцатеричное значение или подразумевается ли значение вообще. Это должно определяться на более высоком уровне, например, путем добавления 0x к шестнадцатеричному числу или по контексту. Единственная особенность заключается в том, что Unicode может отмечать, может ли последовательность быть или не быть шестнадцатеричным значением.

Блокировать

Блок это уникальный поименованный, непрерывный диапазон кодовых точек. Он идентифицируется первой и последней кодовой точкой. Блоки не перекрываются . Блок может содержать зарезервированные, не назначенные и т. д. кодовые точки. Каждый назначенный символ имеет одно значение «имя блока» из 338 имен, назначенных в версии Unicode 16.0. Неназначенные кодовые точки за пределами существующего блока имеют значение по умолчанию «No_block».

СамолетДиапазон блокаИмя блокаКодовые точки [a]Назначенные символыСценарии [б] [в] [г] [д] [е]
 0 БМПU+0000..U+007FБазовая латынь [г]128128Латинский (52 символа), Общий (76 символов)
 0 БМПU+0080..U+00FFLatin-1 Дополнение [h]128128Латинский (64 символа), Общий (64 символа)
 0 БМПU+0100..U+017FРасширенная латиница-А128128латинский
 0 БМПU+0180..U+024FРасширенная латиница-B208208латинский
 0 БМПU+0250..U+02AFРасширения IPA9696латинский
 0 БМПU+02B0..U+02FFБуквы-модификаторы интервала8080Бопомофо (2 символа), Латинский (14 символов), Общий (64 символа)
 0 БМПU+0300..U+036FОбъединение диакритических знаков112112Унаследованный
 0 БМПU+0370..U+03FFГреческий и коптский144135Коптский (14 символов), греческий (117 символов), общий (4 символа)
 0 БМПU+0400..U+04FFкириллица256256Кириллица (254 символа), Наследуемый (2 символа)
 0 БМПU+0500..U+052FКириллическое дополнение4848кириллица
 0 БМПU+0530..U+058Fармянский9691армянский
 0 БМПU+0590..U+05FFиврит11288иврит
 0 БМПU+0600..U+06FFарабский256256Арабский (238 символов), Общий (6 символов), Унаследованный (12 символов)
 0 БМПU+0700..U+074Fсирийский8077сирийский
 0 БМПU+0750..U+077FАрабское приложение4848арабский
 0 БМПU+0780..U+07BFТана6450Тана
 0 БМПU+07C0..U+07FFНКо6462Н'Ко
 0 БМПU+0800..U+083Fсамаритянин6461самаритянин
 0 БМПU+0840..U+085Fмандейский3229мандейский
 0 БМПU+0860..U+086FСирийское дополнение1611сирийский
 0 БМПU+0870..U+089FАрабский расширенный-B4842арабский
 0 БМПU+08A0..U+08FFАрабский расширенный-А9696Арабский (95 символов), Общий (1 символ)
 0 БМПU+0900..U+097FДеванагари128128Деванагари (122 символа), Общий (2 символа), Унаследованный (4 символа)
 0 БМПU+0980..U+09FFбенгальский12896бенгальский
 0 БМПУ+0А00..У+0А7ФГурмукхи12880Гурмукхи
 0 БМПУ+0А80..У+0АФФгуджарати12891гуджарати
 0 БМПU+0B00..U+0B7FОрия12891Ория
 0 БМПU+0B80..U+0BFFтамильский12872тамильский
 0 БМПU+0C00..U+0C7Fтелугу128100телугу
 0 БМПU+0C80..U+0CFFканнада12891каннада
 0 БМПU+0D00..U+0D7Fмалаялам128118малаялам
 0 БМПU+0D80..U+0DFFсингальский12891сингальский
 0 БМПU+0E00..U+0E7Fтайский12887Тайский (86 символов), Общий (1 символ)
 0 БМПU+0E80..U+0EFFЛаосский12883Лаосский
 0 БМПU+0F00..U+0FFFтибетский256211Тибетский (207 символов), Общий (4 символа)
 0 БМПУ+1000..У+109ФМьянма160160Мьянма
 0 БМПУ+10А0..У+10ФФгрузинский9688Грузинский (87 символов), Общий (1 символ)
 0 БМПU+1100..U+11FFХангыль Джамо256256Хангыль
 0 БМПУ+1200..У+137ФЭфиопский384358Эфиопский
 0 БМПУ+1380..У+139ФЭфиопская добавка3226Эфиопский
 0 БМПУ+13А0..У+13ФФчероки9692чероки
 0 БМПУ+1400..У+167ФЕдиная канадская аборигенная слоговая система640640Канадские аборигены
 0 БМПУ+1680..У+169ФОгам3229Огам
 0 БМПУ+16А0..У+16ФФРунический9689Рунический (86 символов), Общий (3 символа)
 0 БМПУ+1700..У+171Фтагальский3223тагальский
 0 БМПУ+1720..У+173ФХануноо3223Хануноо (21 символ), Обычный (2 символа)
 0 БМПУ+1740..У+175ФБухид3220Бухид
 0 БМПУ+1760..У+177ФТагбанва3218Тагбанва
 0 БМПU+1780..U+17FFкхмерский128114кхмерский
 0 БМПУ+1800..У+18АФмонгольский176158Монгольский (155 символов), Общий (3 символа)
 0 БМПU+18B0..U+18FFРасширенная унифицированная канадская аборигенная слоговая система8070Канадские аборигены
 0 БМПУ+1900..У+194ФЛимбу8068Лимбу
 0 БМПУ+1950..У+197ФТай Ле4835Тай Ле
 0 БМПУ+1980..У+19ДФНовый Тай Лю9683Новый Тай Лю
 0 БМПU+19E0..U+19FFКхмерские символы3232кхмерский
 0 БМПУ+1А00..У+1А1Фбугийский3230бугийский
 0 БМПУ+1А20..У+1ААФТай Тхам144127Тай Тхам
 0 БМПU+1AB0..U+1AFFРасширенное объединение диакритических знаков8031Унаследованный
 0 БМПU+1B00..U+1B7Fбалийский128127балийский
 0 БМПU+1B80..U+1BBFСуданский6464Суданский
 0 БМПU+1BC0..U+1BFFБатак6456Батак
 0 БМПU+1C00..U+1C4FЛепча8074Лепча
 0 БМПУ+1С50..У+1С7ФОл Чики4848Ол Чики
 0 БМПU+1C80..U+1C8FКириллица расширенная-С1611кириллица
 0 БМПU+1C90..U+1CBFГрузинский расширенный4846грузинский
 0 БМПU+1CC0..U+1CCFСуданская добавка168Суданский
 0 БМПU+1CD0..U+1CFFВедические расширения4843Обычный (16 символов), Наследуемый (27 символов)
 0 БМПU+1D00..U+1D7FФонетические расширения128128Кириллица (2 символа), греческий (15 символов), латиница (111 символов)
 0 БМПU+1D80..U+1DBFДополнение к фонетическим расширениям6464Греческий (1 символ), латинский (63 символа)
 0 БМПU+1DC0..U+1DFFДополнение к комбинированным диакритическим знакам6464Унаследованный
 0 БМПU+1E00..U+1EFFРасширенная латиница Дополнительный256256латинский
 0 БМПU+1F00..U+1FFFГреческий расширенный256233греческий
 0 БМПУ+2000..У+206ФОбщая пунктуация112111Обычный (109 символов), Унаследованный (2 символа)
 0 БМПУ+2070..У+209ФНадстрочные и подстрочные индексы4842Латинский (15 символов), Общий (27 символов)
 0 БМПУ+20А0..У+20CFСимволы валют4833Общий
 0 БМПU+20D0..U+20FFОбъединение диакритических знаков для символов4833Унаследованный
 0 БМПУ+2100..У+214ФБуквоподобные символы8080Греческий (1 символ), Латинский (4 символа), Общий (75 символов)
 0 БМПУ+2150..У+218ФЧисловые формы6460Латинский (41 символ), Общий (19 символов)
 0 БМПU+2190..U+21FFСтрелки112112Общий
 0 БМПU+2200..U+22FFМатематические операторы256256Общий
 0 БМПU+2300..U+23FFРазное техническое256256Общий
 0 БМПУ+2400..У+243ФКонтрольные картинки6442Общий
 0 БМПУ+2440..У+245ФОптическое распознавание символов3211Общий
 0 БМПU+2460..U+24FFВложенные буквенно-цифровые символы160160Общий
 0 БМПУ+2500..У+257ФРисунок коробки128128Общий
 0 БМПУ+2580..У+259ФБлочные элементы3232Общий
 0 БМПУ+25А0..У+25ФФГеометрические фигуры9696Общий
 0 БМПU+2600..U+26FFРазные символы256256Общий
 0 БМПУ+2700..У+27БФДингбаты192192Общий
 0 БМПU+27C0..U+27EFРазличные математические символы-А4848Общий
 0 БМПU+27F0..U+27FFДополнительные стрелки-A1616Общий
 0 БМПU+2800..U+28FFШаблоны Брайля256256шрифт Брайля
 0 БМПУ+2900..У+297ФДополнительные стрелки-B128128Общий
 0 БМПU+2980..U+29FFРазличные математические символы-B128128Общий
 0 БМПU+2A00..U+2AFFДополнительные математические операторы256256Общий
 0 БМПU+2B00..U+2BFFРазличные символы и стрелки256253Общий
 0 БМПU+2C00..U+2C5FГлаголица9696Глаголица
 0 БМПУ+2С60..У+2С7ФРасширенная латиница-C3232латинский
 0 БМПU+2C80..U+2CFFкоптский128123коптский
 0 БМПU+2D00..U+2D2FГрузинское дополнение4840грузинский
 0 БМПУ+2Д30..У+2Д7ФТифинаг8059Тифинаг
 0 БМПУ+2Д80..У+2ДДФЭфиопский расширенный9679Эфиопский
 0 БМПU+2DE0..U+2DFFКириллица расширенная-А3232кириллица
 0 БМПУ+2Е00..У+2Е7ФДополнительная пунктуация12894Общий
 0 БМПU+2E80..U+2EFFДополнение CJK Radicals128115Хан
 0 БМПУ+2Ф00..У+2ФДФРадикалы Канси224214Хан
 0 БМПУ+2ФФ0..У+2ФФФИдеографическое описание символов1616Общий
 0 БМПУ+3000..У+303ФСимволы и пунктуация CJK6464Хан (15 символов), Хангыль (2 символа), Общий (43 символа), Унаследованный (4 символа)
 0 БМПУ+3040..У+309ФХирагана9693Хирагана (89 символов), Общая (2 символа), Унаследованная (2 символа)
 0 БМПУ+30А0..У+30ФФКатакана9696Катакана (93 символа), Общий (3 символа)
 0 БМПУ+3100..У+312ФБопомофо4843Бопомофо
 0 БМПУ+3130..У+318ФСовместимость с Хангылем Jamo9694Хангыль
 0 БМПУ+3190..У+319ФКанбун1616Общий
 0 БМПУ+31А0..У+31БФБопомофо расширенный3232Бопомофо
 0 БМПU+31C0..U+31EFCJK-штрихи4839Общий
 0 БМПU+31F0..U+31FFФонетические расширения катаканы1616Катакана
 0 БМПU+3200..U+32FFПрилагаемые письма CJK и месяцы256255Хангыль (62 символа), Катакана (47 символов), Общий (146 символов)
 0 БМПU+3300..U+33FFСовместимость с CJK256256Катакана (88 символов), Общий (168 символов)
 0 БМПU+3400..U+4DBFРасширение A унифицированных идеограмм CJK6,5926,592Хан
 0 БМПU+4DC0..U+4DFFСимволы гексаграммы Ицзин6464Общий
 0 БМПU+4E00..U+9FFFУнифицированные идеограммы CJK20,99220,992Хан
 0 БМПУ+А000..У+А48ФСлоги И1,1681,165Йи
 0 БМПU+A490..U+A4CFРадикалы Йи6455Йи
 0 БМПU+A4D0..U+A4FFЛису4848Лису
 0 БМПУ+А500..У+А63ФВай320300Вай
 0 БМПУ+А640..У+А69ФКириллица расширенная-Б9696кириллица
 0 БМПУ+А6А0..У+А6ФФБамум9688Бамум
 0 БМПУ+А700..У+А71ФБуквы модификатора тона3232Общий
 0 БМПU+A720..U+A7FFРасширенная латиница-D224199Латинский (194 символа), Общий (5 символов)
 0 БМПУ+А800..У+А82ФСилоти Нагри4845Силоти Нагри
 0 БМПУ+А830..У+А83ФФормы общих индийских чисел1610Общий
 0 БМПУ+А840..У+А87ФПхагс-па6456Фагс Па
 0 БМПУ+А880..У+А8ДФСаураштра9682Саураштра
 0 БМПU+A8E0..U+A8FFРасширенный деванагари3232Деванагари
 0 БМПУ+А900..У+А92ФКая Ли4848Кая Ли (47 символов), Обычный (1 символ)
 0 БМПУ+А930..У+А95ФРеджанг4837Реджанг
 0 БМПУ+А960..У+А97ФХангыль Джамо Расширенный-А3229Хангыль
 0 БМПУ+А980..У+А9ДФяванский9691Яванский (90 символов), Общий (1 символ)
 0 БМПU+A9E0..U+A9FFМьянма Расширенный-B3231Мьянма
 0 БМПУ+АА00..У+АА5ФЧам9683Чам
 0 БМПУ+АА60..У+АА7ФМьянма Расширенный-A3232Мьянма
 0 БМПУ+АА80..У+ААДФТай Вьет9672Тай Вьет
 0 БМПУ+ААЕ0..У+ААФФРасширения Meetei Mayek3223Митэй Майек
 0 БМПU+AB00..U+AB2FЭфиопский расширенный-А4832Эфиопский
 0 БМПУ+АВ30..У+АВ6ФРасширенная латиница-E6460Латинский (56 символов), греческий (1 символ), общий (3 символа)
 0 БМПУ+АБ70..У+АББФДополнение Чероки8080Чероки
 0 БМПU+ABC0..U+ABFFМитэй Майек6456Митэй Майек
 0 БМПU+AC00..U+D7AFСлоги хангыля11,18411,172Хангыль
 0 БМПU+D7B0..U+D7FFХангыль Джамо Расширенный-B8072Хангыль
 0 БМПU+D800..U+DB7FВысокие суррогаты8960Неизвестный
 0 БМПU+DB80..U+DBFFВысокое частное использование суррогатов1280Неизвестный
 0 БМПU+DC00..U+DFFFНизкие суррогаты1,0240Неизвестный
 0 БМПU+E000..U+F8FFЗона частного пользования6,4006,400Неизвестный
 0 БМПU+F900..U+FAFFСовместимость идеограмм CJK512472Хан
 0 БМПU+FB00..U+FB4FАлфавитные формы представления8058Армянский (5 символов), Иврит (46 символов), Латынь (7 символов)
 0 БМПУ+ФБ50..У+ФДФФАрабские формы представления-A688631Арабский (629 символов), Общий (2 символа)
 0 БМПU+FE00..U+FE0FСелекторы вариаций1616Унаследованный
 0 БМПУ+ФЕ10..У+ФЕ1ФВертикальные формы1610Общий
 0 БМПУ+ФЕ20..У+ФЕ2ФОбъединение половинных отметок1616Кириллица (2 символа), Наследуемый (14 символов)
 0 БМПУ+ФЕ30..У+ФЕ4ФФормы совместимости CJK3232Общий
 0 БМПУ+ФЕ50..У+ФЕ6ФМалые варианты формы3226Общий
 0 БМПU+FE70..U+FEFFАрабские формы представления-B144141Арабский (140 символов), Общий (1 символ)
 0 БМПU+FF00..U+FFEFФормы половинной и полной ширины240225Хангыль (52 символа), Катакана (55 символов), Латиница (52 символа), Общий (66 символов)
 0 БМПУ+ФФФ0..У+ФФФФСпециальные предложения165Общий
 1 СМПU+10000..U+1007FЛинейное слоговое письмо Б12888Линейное письмо Б
 1 СМПU+10080..U+100FFИдеограммы линейного письма Б128123Линейное письмо Б
 1 СМПU+10100..U+1013FЭгейские числа6457Общий
 1 СМПU+10140..U+1018FДревнегреческие числа8079греческий
 1 СМПU+10190..U+101CFДревние Символы6414Греческий (1 символ), Общий (13 символов)
 1 СМПU+101D0..U+101FFФестский диск4846Обычный (45 символов), Унаследованный (1 символ)
 1 СМПU+10280..U+1029FЛикийский3229Ликийский
 1 СМПУ+102А0..У+102ДФКарианский6449Карианский
 1 СМПU+102E0..U+102FFКоптские числа Эпакта3228Обычный (27 символов), Унаследованный (1 символ)
 1 СМПU+10300..U+1032FСтарый курсив4839Старый курсив
 1 СМПU+10330..U+1034Fготика3227готика
 1 СМПU+10350..U+1037FСтарый Пермский4843Старый Пермский
 1 СМПU+10380..U+1039FУгаритский3231Угаритский
 1 СМПU+103A0..U+103DFДревнеперсидский6450Древнеперсидский
 1 СМПU+10400..U+1044FДезерет8080Дезерет
 1 СМПU+10450..U+1047FШэвиан4848Шэвиан
 1 СМПU+10480..U+104AFОсмания4840Османия
 1 СМПU+104B0..U+104FFОсейдж8072Осейдж
 1 СМПU+10500..U+1052FЭльбасан4840Эльбасан
 1 СМПU+10530..U+1056FКавказский албанец6453Кавказский албанец
 1 СМПU+10570..U+105BFВиткуки8070Виткуки
 1 СМПU+105C0..U+105FFТодри6452Тодри
 1 СМПU+10600..U+1077FЛинейное письмо А384341Линейное письмо А
 1 СМПU+10780..U+107BFРасширенная латиница-F6457латинский
 1 СМПU+10800..U+1083FКипрская слоговая азбука6455кипрский
 1 СМПU+10840..U+1085FИмперский арамейский3231Имперский арамейский
 1 СМПU+10860..U+1087FПальмирена3232Пальмирена
 1 СМПU+10880..U+108AFнабатейский4840набатейский
 1 СМПU+108E0..U+108FFХатран3226Хатран
 1 СМПU+10900..U+1091Fфиникийский3229финикийский
 1 СМПU+10920..U+1093FЛидийский3227Лидийский
 1 СМПU+10980..U+1099FМероитские иероглифы3232Мероитские иероглифы
 1 СМПU+109A0..U+109FFМероитский курсив9690Мероитский курсив
 1 СМПУ+10А00..У+10А5ФКхароштхи9668Кхароштхи
 1 СМПУ+10А60..У+10А7ФДревний южноаравийский3232Древний южноаравийский
 1 СМПУ+10А80..У+10А9ФДревний североаравийский3232Древний североаравийский
 1 СМПU+10AC0..U+10AFFМанихейский6451Манихейский
 1 СМПU+10B00..U+10B3Fавестийский6461авестийский
 1 СМПU+10B40..U+10B5FПарфянские надписи3230Парфянские надписи
 1 СМПU+10B60..U+10B7FНадписи на пехлеви3227Надписи на пехлеви
 1 СМПU+10B80..U+10BAFПсалтырь пехлевийский4829Псалтырь пехлевийский
 1 СМПU+10C00..U+10C4FДревнетюркский8073Древнетюркский
 1 СМПU+10C80..U+10CFFстаровенгерский128108старовенгерский
 1 СМПU+10D00..U+10D3FХанифи Рохинджа6450Ханифи Рохинджа
 1 СМПУ+10Д40..У+10Д8ФГарай8069Гарай
 1 СМПU+10E60..U+10E7FЧисловые символы Руми3231арабский
 1 СМПU+10E80..U+10EBFезидский6447езидский
 1 СМПU+10EC0..U+10EFFАрабский расширенный-C647арабский
 1 СМПU+10F00..U+10F2FДревний согдийский4840Древний согдийский
 1 СМПU+10F30..U+10F6Fсогдийский6442согдийский
 1 СМПU+10F70..U+10FAFСтарый уйгурский6426Старый уйгурский
 1 СМПU+10FB0..U+10FDFХорезмский4828Хорезмский
 1 СМПU+10FE0..U+10FFFЕлимейский3223Елимейский
 1 СМПU+11000..U+1107FБрахми128115Брахми
 1 СМПU+11080..U+110CFКайти8068Кайти
 1 СМПU+110D0..U+110FFСора Сомпенг4835Сора Сомпенг
 1 СМПU+11100..U+1114FЧакма8071Чакма
 1 СМПU+11150..U+1117FМахаджани4839Махаджани
 1 СМПU+11180..U+111DFШарада9696Шарада
 1 СМПU+111E0..U+111FFСингальские архаичные числа3220сингальский
 1 СМПU+11200..U+1124FХоджки8065Ходжки
 1 СМПU+11280..U+112AFМултани4838Мултани
 1 СМПU+112B0..U+112FFХудавади8069Худавади
 1 СМПU+11300..U+1137FГрантха12886Grantha (85 символов), Унаследованный (1 символ)
 1 СМПU+11380..U+113FFТулу-Тигалари12880Тулу Тигалари
 1 СМПU+11400..U+1147FНьюа12897Ньюа
 1 СМПU+11480..U+114DFТирута9682Тирута
 1 СМПU+11580..U+115FFСиддхам12892Сиддхам
 1 СМПU+11600..U+1165FМоди9679Моди
 1 СМПU+11660..U+1167FМонгольское дополнение3213монгольский
 1 СМПU+11680..U+116CFТакри8068Такри
 1 СМПU+116D0..U+116FFМьянма Расширенный-C4820Мьянма
 1 СМПU+11700..U+1174FАхом8065Ахом
 1 СМПU+11800..U+1184FДогра8060Догра
 1 СМПU+118A0..U+118FFВаранг Сити9684Варанг Сити
 1 СМПU+11900..U+1195FНыряет Акуру9672Ныряет Акуру
 1 СМПU+119A0..U+119FFНандинагари9665Нандинагари
 1 СМПU+11A00..U+11A4FПлощадь Занабазара8072Площадь Занабазара
 1 СМПU+11A50..U+11AAFСоёмбо9683Соёмбо
 1 СМПU+11AB0..U+11ABFРасширенная версия канадской аборигенной слоговой письменности (А)1616Канадские аборигены
 1 СМПU+11AC0..U+11AFFПау Син Хау6457Пау Син Хау
 1 СМПU+11B00..U+11B5FРасширенный Деванагари-А9610Деванагари
 1 СМПU+11BC0..U+11BFFСунувар6444Сунувар
 1 СМПU+11C00..U+11C6FБхайксуки11297Бхайксуки
 1 СМПU+11C70..U+11CBFМархен8068Мархен
 1 СМПU+11D00..U+11D5FМасарам Гонди9675Масарам Гонди
 1 СМПU+11D60..U+11DAFГунджала Гонди8063Гунджала Гонди
 1 СМПU+11EE0..U+11EFFМакасар3225Макасар
 1 СМПU+11F00..U+11F5FКави9687Кави
 1 СМПU+11FB0..U+11FBFДобавка Лису161Лису
 1 СМПU+11FC0..U+11FFFДополнение на тамильском языке6451тамильский
 1 СМПU+12000..U+123FFКлинопись1,024922Клинопись
 1 СМПU+12400..U+1247FКлинописные цифры и знаки препинания128116Клинопись
 1 СМПU+12480..U+1254FРанняя династическая клинопись208196Клинопись
 1 СМПU+12F90..U+12FFFКипро-минойский11299кипро-минойский
 1 СМПU+13000..U+1342FЕгипетские иероглифы1,0721,072Египетские иероглифы
 1 СМПU+13430..U+1345FЭлементы управления форматом египетских иероглифов4838Египетские иероглифы
 1 СМПU+13460..U+143FFЕгипетские иероглифы расширенные-A40003,995Египетские иероглифы
 1 СМПU+14400..U+1467FАнатолийские иероглифы640583Анатолийские иероглифы
 1 СМПU+16100..U+1613FГурунг Кхема6458Гурунг Кхема
 1 СМПU+16800..U+16A3FДополнение Бамум576569Бамум
 1 СМПУ+16А40..У+16А6ФМро4843Мро
 1 СМПU+16A70..U+16ACFТангса9689Тангса
 1 СМПU+16AD0..U+16AFFБасса Вах4836Басса Вах
 1 СМПU+16B00..U+16B8FПахау Хмонг144127Пахау Хмонг
 1 СМПУ+16Д40..У+16Д7ФКират Рай6458Кират Рай
 1 СМПU+16E40..U+16E9FМедефаидрин9691Медефаидрин
 1 СМПU+16F00..U+16F9FМяо160149Мяо
 1 СМПU+16FE0..U+16FFFИдеографические символы и знаки препинания327Хань (4 символа), киданьское мелкое письмо (1 символ), нушу (1 символ), тангутское письмо (1 символ)
 1 СМПU+17000..U+187FFтангутский6,1446,136тангутский
 1 СМПU+18800..U+18AFFТангутские компоненты768768тангутский
 1 СМПU+18B00..U+18CFFКиданьское мелкое письмо512471Киданьское мелкое письмо
 1 СМПU+18D00..U+18D7FТангутская добавка1289тангутский
 1 СМПU+1AFF0..U+1AFFFКана расширенная-B1613Катакана
 1 СМПU+1B000..U+1B0FFДополнение к Кана256256Хирагана (255 символов), катакана (1 символ)
 1 СМПU+1B100..U+1B12FКана расширенная-А4835Хирагана (32 символа), катакана (3 символа)
 1 СМПU+1B130..U+1B16FМалое расширение Кана649Хирагана (4 символа), катакана (5 символов)
 1 СМПU+1B170..U+1B2FFНушу400396Нюшу
 1 СМПU+1BC00..U+1BC9FДуплоян160143Дуплоян
 1 СМПU+1BCA0..U+1BCAFЭлементы управления сокращенным форматом164Общий
 1 СМПU+1CC00..U+1CEBFСимволы для дополнения Legacy Computing704686Общий
 1 СМПU+1CF00..U+1CFCFЗнаменная музыкальная нотация208185Обычный (116 символов), Унаследованный (69 символов)
 1 СМПU+1D000..U+1D0FFВизантийские музыкальные символы256246Общий
 1 СМПU+1D100..U+1D1FFМузыкальные символы256233Обычный (211 символов), Унаследованный (22 символа)
 1 СМПU+1D200..U+1D24FДревнегреческая музыкальная нотация8070греческий
 1 СМПU+1D2C0..U+1D2DFКактовик Цифры3220Общий
 1 СМПU+1D2E0..U+1D2FFЦифры майя3220Общий
 1 СМПУ+1Д300..У+1Д35ФСимволы Тай Сюань Цзин9687Общий
 1 СМПU+1D360..U+1D37FСчетные стержни с цифрами3225Общий
 1 СМПU+1D400..U+1D7FFМатематические буквенно-цифровые символы1,024996Общий
 1 СМПU+1D800..U+1DAAFSutton SignWriting688672Написание жестов
 1 СМПU+1DF00..U+1DFFFРасширенная латиница-G25637латинский
 1 СМПU+1E000..U+1E02FГлаголическое дополнение4838Глаголица
 1 СМПU+1E030..U+1E08FКириллица расширенная-D9663кириллица
 1 СМПУ+1Е100..У+1Е14ФНьякенг Пуачуэ Хмонг8071Ньякенг Пуачуэ Хмонг
 1 СМПU+1E290..U+1E2BFТото4831Тото
 1 СМПU+1E2C0..U+1E2FFВанчо6459Ванчо
 1 СМПU+1E4D0..U+1E4FFНаг Мундари4842Мундари
 1 СМПU+1E5D0..U+1E5FFОл Онал4844Ол Онал
 1 СМПU+1E7E0..U+1E7FFЭфиопский расширенный-B3228Эфиопский
 1 СМПU+1E800..U+1E8DFМенде Кикакуи224213Менде Кикакуи
 1 СМПU+1E900..U+1E95FАдлам9688Адлам
 1 СМПU+1EC70..U+1ECBFИндийские числа Siyaq8068Общий
 1 СМПU+1ED00..U+1ED4FОсманские числа Сияка8061Общий
 1 СМПU+1EE00..U+1EEFFАрабские математические алфавитные символы256143арабский
 1 СМПU+1F000..U+1F02FПлитки Маджонга4844Общий
 1 СМПU+1F030..U+1F09FПлитки домино112100Общий
 1 СМПU+1F0A0..U+1F0FFИгральные карты9682Общий
 1 СМПU+1F100..U+1F1FFПрилагаемое буквенно-цифровое дополнение256200Общий
 1 СМПU+1F200..U+1F2FFПрилагаемое идеографическое приложение25664Хирагана (1 символ), Общая (63 символа)
 1 СМПU+1F300..U+1F5FFРазличные символы и пиктограммы768768Общий
 1 СМПU+1F600..U+1F64FСмайлики8080Общий
 1 СМПU+1F650..U+1F67FОрнаментальные дингбаты4848Общий
 1 СМПU+1F680..U+1F6FFТранспортные и картографические символы128118Общий
 1 СМПU+1F700..U+1F77FАлхимические символы128124Общий
 1 СМПU+1F780..U+1F7FFГеометрические фигуры расширены128103Общий
 1 СМПU+1F800..U+1F8FFДополнительные стрелки-C256162Общий
 1 СМПU+1F900..U+1F9FFДополнительные символы и пиктограммы256256Общий
 1 СМПU+1FA00..U+1FA6FШахматные символы11298Общий
 1 СМПU+1FA70..U+1FAFFСимволы и пиктограммы расширенные-A144114Общий
 1 СМПU+1FB00..U+1FBFFСимволы для устаревших вычислений256249Общий
 2 СИПU+20000..U+2A6DFРасширение B унифицированных идеограмм CJK42,72042,720Хан
 2 СИПU+2A700..U+2B73FРасширение C унифицированных идеограмм CJK4,1604,154Хан
 2 СИПU+2B740..U+2B81FРасширение D унифицированных идеограмм CJK224222Хан
 2 СИПU+2B820..U+2CEAFРасширение унифицированных идеограмм CJK E5,7765,762Хан
 2 СИПU+2CEB0..U+2EBEFРасширение унифицированных идеограмм CJK F7,4887,473Хан
 2 СИПU+2EBF0..U+2EE5FРасширение унифицированных идеограмм CJK I624622Хан
 2 СИПU+2F800..U+2FA1FДополнение к идеограммам совместимости CJK544542Хан
 3 СОВЕТU+30000..U+3134FРасширение унифицированных идеограмм CJK G4,9444,939Хан
 3 СОВЕТU+31350..U+323AFРасширение унифицированных идеограмм CJK H4,1924,192Хан
14 ССПU+E0000..U+E007FТеги12897Общий
14 ССПU+E0100..U+E01EFДополнение к селекторам вариаций240240Унаследованный
15 ПУА-АU+F0000..U+FFFFFДополнительная зона частного пользования-A65,53665,534Неизвестный
16 ПУА-БU+100000..U+10FFFFДополнительная зона частного пользования-B65,53665,534Неизвестный
  1. ^ Количество кодовых точек включает неназначенные кодовые точки: несимвольные , зарезервированные и т. д.
  2. ^ Скрипт имеет один или несколько символов в блоке, как определено Свойством скрипта. Это не зависит от имени блока
  3. ^ «Общий» и «Неизвестный» (Zyyy) и «Унаследованный» (Zinh или Qaai) относятся к скриптам в ISO 15924.
  4. ^ Файл данных Unicode Blocks. Начиная с версии Unicode 16.0
  5. ^ UAX 24: Свойство скрипта Unicode (4-буквенный код)
  6. ^ UAX 24: Файл данных скрипта
  7. ^ В стандарте ISO/IEC 10646 он называется «Элементы управления C0 и базовая латиница».
  8. ^ Называется «C1 Controls and Latin-1 Supplement» в ISO/IEC 10646

Сценарий

Каждый назначенный символ может иметь одно значение для своего свойства «Script», обозначающее, к какому скрипту он принадлежит. [20] Значение представляет собой четырехбуквенный код в диапазоне Aaaa-Zzzz, как указано в ISO 15924, который сопоставлен с системой письма . За исключением случаев описания предыстории и использования скрипта, Unicode не использует связь между скриптом и языками , которые его используют. Таким образом, «иврит» относится к еврейскому скрипту, а не к еврейскому языку.

Специальный код Zyyy для "Common" допускает одно значение для символа, который используется в нескольких скриптах. Код Zinh "Inherited script", используемый для объединения символов и некоторых других специальных кодовых точек, указывает, что символ "наследует" свою идентичность скрипта от символа, с которым он объединен. (Ранее Unicode использовал для этой цели частный код Qaai.) Код Zzzz "Unknown" используется для всех символов, которые не принадлежат скрипту (т. е. значение по умолчанию), таких как символы и символы форматирования. В целом, символы одного скрипта могут быть разбросаны по нескольким блокам, как латинские символы . И наоборот: несколько скриптов могут присутствовать в одном блоке, например, блок Letterlike Symbols содержит символы из латинского, греческого и общего скриптов.

Если Script равен "" (пустой), то согласно Unicode символ не принадлежит к скрипту. Это относится к символам, поскольку существующие коды скрипта ISO "Zmth" (математическая нотация), "Zsym" (символ) и "Zsye" (символ, вариант эмодзи) не используются в Unicode. Свойство "Script" также пусто для кодовых точек, которые не являются типографскими символами, такими как элементы управления, заменители и кодовые точки частного использования.

Если в ISO 15924 есть определенное имя псевдонима письма, оно используется в имени символа: U+0041 A ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A и U+05D0 א ЕВРЕЙСКАЯ БУКВА ALEF .

ИСО 15924Скрипт в Unicode [e]
КодНомер ISOОфициальное название ISOНаправленностьПсевдоним Unicode [f]ВерсияПерсонажиПримечанияОписание
Адлм166Адламписьмо справа налево Адлам9.088Гл 19.9
Афак439АфакаварьируетсяZZ — Не в Unicode, предложение изучается [i]
Агхб239Кавказский албанецслева направо Кавказский албанец7.053Древний/историческийГл 8.11
Ахом338Ахом, Тай Ахомслева направо Ахом8.065Древний/историческийГл 15.16
арабский160арабскийписьмо справа налево арабский1.01,373Гл. 9.2
Аран161Арабский (вариант насталик)смешанныйZZ — Типографский вариант арабского языка (см. § Арабский)
Арми124Имперский арамейскийписьмо справа налево Имперский арамейский5.231Древний/историческийГл. 10.4
Армн230армянскийслева направо армянский1.096Гл 7.6
Авст134авестийскийписьмо справа налево авестийский5.261Древний/историческийГл 10.7
Бали360балийскийслева направо балийский5.0127Гл 17.3
Баму435Бамумслева направо Бамум5.2657Гл 19.6
Бас259Басса Вахслева направо Басса Вах7.036Древний/историческийГл 19.7
Батк365Батакслева направо Батак6.056Гл 17.6
Бенг325Бенгальский (Бенгальский)слева направо бенгальский1.096Гл 12.2
Бхкс334Бхайксукислева направо Бхайксуки9.097Древний/историческийГл 14.3
Блис550BlissymbolsварьируетсяZZ — Не в Unicode, предложение изучается [i]
Бопо285Бопомофописьмо слева направо, справа налево Бопомофо1.077Гл 18.3
Братан300Брахмислева направо Брахми6.0115Древний/историческийГл 14.1
Брай570шрифт Брайляслева направо шрифт Брайля3.0256Гл 21.1
Буги367бугийскийслева направо бугийский4.130Гл 17.2
Бухд372Бухидслева направо Бухид3.220Гл 17.1
Какм349Чакмаслева направо Чакма6.171Гл 13.11
Банки440Единая канадская аборигенная слоговая системаслева направо Канадские аборигены3.0726Гл 20.2
Кари201Карианскийписьмо слева направо, справа налево Карианский5.149Древний/историческийГл 8.5
Чам358Чамслева направо Чам5.183Гл 16.10
Шер445черокислева направо Чероки3.0172Гл 20.1
Чис298Чисоислева направоZZ — Не в Unicode, предложение зрелое [ii]
Хрс109Хорезмскийписьмо справа налево , сверху вниз Хорезмский13.028Древний/историческийГл 10.8
Цирт291КиртварьируетсяZZ — Не в Unicode
Коптский204коптскийслева направо коптский1.0137Древний/исторический, отделившийся от греческого в 4.1Гл 7.3
Cpmn402Кипро-минойскийслева направокипро-минойский14.099Древний/историческийГл 8.4
Cprt403Кипрская слоговая азбукаписьмо справа налево кипрский4.055Древний/историческийГл 8.3
Сирл220кириллицаслева направо кириллица1.0508Включает типографский вариант старославянского языка (см. § Cyrs)Гл 7.4
Cyrs221Кириллица (старославянский вариант)варьируетсяZZ — Типографский вариант кириллицы (см. § Cyrl); Древний/исторический
Дэва315Деванагари (Нагари)слева направо Деванагари1.0164Гл 12.1
Диак342Ныряет Акуруслева направо Ныряет Акуру13.072Древний/историческийГл 15.15
Догр328Дограслева направо Догра11.060Древний/историческийГл 15.18
Dsrt250Дезерет (мормоны)слева направо Дезерет3.180Гл 20.4
Дупл755Дюплоянская стенография, Дюплоянская стенографияслева направо Дуплоян7.0143Гл 21.6
Египтянин070египетское демотическое письмосмешанныйZZ — Не в Unicode
Егых060египетский иератическийсмешанныйZZ — Не в Unicode
Египет050Египетские иероглифыписьмо справа налево , письмо слева направо Египетские иероглифы5.25,105Древний/историческийГл 11.4
Эльба226Эльбасанслева направо Эльбасан7.040Древний/историческийГл 8.10
Элим128Елимейскийписьмо справа налево Елимейский12.023Древний/историческийГл 10.9
Эти430Эфиопский (геэз)слева направо Эфиопский3.0523Гл 19.1
Гара164Гарайсправа налевоГарай16.069
Геок241Хуцури (Асомтаврули и Нусхури)слева направо грузинскийЮникод группирует Хуцори, Асомтаврули и Нусхури в «грузинский язык» (см. § Геок). Точно так же Мхедрули и Мтаврули являются «грузинскими» (см. § Георг).Гл 7.7
Джордж240Грузинский (мхедрули и мтаврули)слева направо грузинский1.0173В Unicode сюда также входит нусхури ( геок ).Гл 7.7
Глаг225Глаголицаслева направо Глаголица4.1134Древний/историческийГл 7.5
Гонг312Гунджала Гондислева направо Гунджала Гонди11.063Гл 13.15
Гонм313Масарам Гондислева направо Масарам Гонди10.075Гл 13.14
Гот206готикаслева направо готика3.127Древний/историческийГл 8.9
Гран343Грантхаслева направо Грантха7.085Древний/историческийГл 15.14
Греческий200греческийслева направо греческий1.0518Направленность иногда как бустрофедонГл 7.2
Гуджр320гуджаратислева направо гуджарати1.091Гл 12.4
Гукх397Гурунг Кхемаслева направоГурунг Кхема16.058
Гуру310Гурмукхислева направо Гурмукхи1.080Гл 12.3
Ханб503Хан с Бопомофо (псевдоним Хан + Бопомофо)смешанныйZZ — См. § Хани, § Бопо
Вешать286Хангыль (Hangŭl, Хангыль)слева направо, вертикально справа налево Хангыль1.011,739Слоги хангыля перемещены в версии 2.0Гл 18.6
Хани500Хан (ханзи, кандзи, ханджа)сверху вниз, столбцы справа налево (исторически)Хан1.099,030Гл 18.1
Хано371Хануноо (Hanunóo)слева направо, снизу вверх Хануноо3.221Гл 17.1
Ганс501Хан (упрощенный вариант)варьируетсяZZ — подмножество Хана (Ханзи, Кандзи, Ханджа) (см. § Хани)
Хант502Хан (традиционный вариант)варьируетсяZZ — Подмножество § Хани
Хатр127Хатранписьмо справа налево Хатран8.026Древний/историческийГл 10.12
иврит125ивритписьмо справа налево иврит1.0134Гл. 9.1
Хира410Хираганавертикально справа налево, слева направо Хирагана1.0381Гл 18.4
Хлув080Анатолийские иероглифы (лувийские иероглифы, хеттские иероглифы)слева направо Анатолийские иероглифы8.0583Древний/историческийГл 11.6
Хмнг450Пахау Хмонгслева направо Пахау Хмонг7.0127Гл 16.11
Хмнп451Ньякенг Пуачуэ Хмонгслева направо Ньякенг Пуачуэ Хмонг12.071Гл 16.12
Хркт412Японская слоговая азбука (альтернатива хирагане + катакане)вертикально справа налево, слева направо Катакана или ХираганаСм. § Хира, § КанаГл 18.4
Повешенный176Древневенгерский (венгерский рунический)письмо справа налево старовенгерский8.0108Древний/историческийГл 8.8
Инды610Инд (Хараппский)смешанныйZZ — Не в Unicode, предложение изучается [i]
Итальянский210Древнеиталийские (этрусские, оскские и т. д.)письмо справа налево , письмо слева направо Старый курсив3.139Древний/историческийГл 8.6
Джамо284Джамо (псевдоним подмножества Джамо хангыля)варьируетсяZZ — Подмножество § Hang
Ява361яванскийслева направо яванский5.290Гл 17.4
Япония413Японский (псевдоним Хан + Хирагана + Катакана)варьируетсяZZ — См. § Хани, § Хира и § Кана
Юрц510чжурчжэньслева направоZZ — Не в Unicode
Кали357Кая Лислева направо Кая Ли5.147Гл 16.9
кана411Катаканавертикально справа налево, слева направо Катакана1.0321Гл 18.4
Кави368Кавислева направо Кави15.087Древний/историческийГл 17.9
Хар305Кхароштхиписьмо справа налево Кхароштхи4.168Древний/историческийГл 14.2
Кхмр355кхмерскийслева направо кхмерский3.0146Гл 16.4
Ходж322Ходжкислева направо Ходжки7.065Древний/историческийГл 15.7
Китл505Крупное киданьское письмослева направоZZ — Не в Unicode
Комплекты288Киданьская мелкая письменностьвертикально справа налево Киданьское мелкое письмо13.0472Древний/историческийГл 18.12
Кнда345каннадаслева направо каннада1.091Гл 12.8
Коре287Корейский (псевдоним хангыль + хань)слева направоZZ — см. § Хани, § Ханг
Кпель436Кпеллеслева направоZZ — Не в Unicode, предложение изучается [i]
Край396Кират Райслева направоКират Рай16.058
Кти317Кайтислева направо Кайти5.268Древний/историческийГл 15.2
Лана351Тай Тхам (Ланна)слева направо Тай Тхам5.2127Гл 16.7
Лаоо356Лаосскийслева направо Лаосский1.083Гл 16.2
Латф217Латынь (вариант Fraktur)варьируетсяZZ — Типографский вариант латиницы (см. § Latn)
Латг.216Латынь (гаэльский вариант)слева направоZZ — Типографский вариант латиницы (см. § Latn)
лат.215латинскийслева направо латинский1.01,487См. также: Латинский алфавит в UnicodeГл 7.1
Леке364Лекеслева направоZZ — Не в Unicode
Лепц335Лепча (Ронг)слева направо Лепча5.174Гл 13.12
Конечность336Лимбуслева направо Лимбу4.068Гл 13.6
Лина400Линейное письмо Аслева направо Линейное письмо А7.0341Древний/историческийГл. 8.1
Линб401Линейное письмо Бслева направо Линейное письмо Б4.0211Древний/историческийГл 8.2
Лису399Лису (Фрейзер)слева направо Лису5.249Гл 18.9
Лома437Ломаслева направоZZ — Не в Unicode, предложение изучается [i]
Лики202Ликийскийслева направо Ликийский5.129Древний/историческийГл 8.5
Лиди116Лидийскийписьмо справа налево Лидийский5.127Древний/историческийГл 8.5
Мадж314Махаджанислева направо Махаджани7.039Древний/историческийГл 15.6
Мака366Макасарслева направо Макасар11.025Древний/историческийГл 17.8
Манд140Мандейский, мандейскийписьмо справа налево мандейский6.029Гл 9.5
Мани139Манихейскийписьмо справа налево Манихейский7.051Древний/историческийГл 10.5
Марк332Мархенслева направо Мархен9.068Древний/историческийГл 14.5
Майя090Иероглифы майясмешанныйZZ — Не в Unicode
Медф265Медефаидрин (Обери Окайме, Обери Ɔkaimɛ)слева направо Медефаидрин11.091Гл 19.10
Починить438Менде Кикакуиписьмо справа налево Менде Кикакуи7.0213Гл 19.8
Мерк101Мероитский курсивписьмо справа налево Мероитский курсив6.190Древний/историческийГл 11.5
Меро100Мероитские иероглифыписьмо справа налево Мероитские иероглифы6.132Древний/историческийГл 11.5
Млим347малаяламслева направо малаялам1.0118Гл 12.9
Моди324Моди, Модислева направо Моди7.079Древний/историческийГл 15.12
Монг145монгольскийвертикально слева направо, слева направо монгольский3.0168Монг включает в себя клир и маньчжурскую письменностьГл 13.5
Луна218Луна (код Луны, сценарий Луны, тип Луны)смешанныйZZ — Не в Unicode, предложение изучается [i]
Мру264Мро, Мруслева направо Мро7.043Гл 13.8
Мтей337Мейтей Мейек (Мейтей, Мейтей)слева направо Митэй Майек5.279Гл 13.7
Мульт323Мултанислева направо Мултани8.038Древний/историческийГл 15.10
Мымр350Мьянма (бирманский)слева направо Мьянма3.0243Гл 16.3
Нагм295Наг Мундарислева направо Наг Мундари15.042
Нанд311Нандинагарислева направо Нандинагари12.065Древний/историческийГл 15.13
Нарб106Древний североаравийский (Древний североаравийский)письмо справа налево Древний североаравийский7.032Древний/историческийГл 10.1
Нбат159набатейскийписьмо справа налево набатейский7.040Древний/историческийГл 10.10
Ньюа333Ньюа, Невар, Невари, Непальские липислева направо Ньюа9.097Гл 13.3
Нкдб085Наси Донгба (na²¹ɕi³³ to³³ba²¹, Нахи Томба)слева направоZZ — Не в Unicode
Нкгб420Наси Геба (na²¹ɕi³³ gʌ²¹ba²¹, 'На-'Хи ²Ggŏ-¹baw, Нахи Геба)слева направоZZ — Не в Unicode, предложение изучается [i]
Нкоо165Н'Кописьмо справа налево НКо5.062Гл 19.4
Ншу499Нюшувертикально справа налево Нушу10.0397Гл 18.8
Огам212Огамснизу вверх, слева направо Огам3.029Древний/историческийГл 8.14
Ольк261Ол Чики (Ол Цеметь, Ол, Сантали)слева направо Ол Чики5.148Гл 13.10
Онао296Ол Оналслева направоОл Онал16.044
Оркх175Древнетюркский, орхонский руническийписьмо справа налево Древнетюркский5.273Древний/историческийГл 14.8
Орья327Ория (Одиа)слева направо Ория1.091Гл 12.5
Осге219Осейджслева направо Осейдж9.072Гл 20.3
Осма260Османияслева направо Османия4.040Гл 19.2
Оугр143Старый уйгурскийсмешанныйСтарый уйгурский14.026Древний/историческийГл 14.11
Ладонь126Пальмиренаписьмо справа налево Пальмирена7.032Древний/историческийГл 10.11
Паук263Пау Син Хауслева направо Пау Син Хау7.057Гл 16.13
Пцун015Протоклинографияслева направоZZ — Не в Unicode
Пелм016Протоэламитскийслева направоZZ — Не в Unicode
Пермь227Старый Пермскийслева направо Старый Пермский7.043Древний/историческийГл 8.13
Фаг331Пхагс-павертикально слева направо Пхагс-па5.056Древний/историческийГл 14.4
Фли131Надписи на пехлевиписьмо справа налево Надписи на пехлеви5.227Древний/историческийГл 10.6
ФЛП132Псалтырь пехлевийскийписьмо справа налево Псалтырь пехлевийский7.029Древний/историческийГл 10.6
Флв133Книга ПехлевисмешанныйZZ — Не в Unicode
Фнкс115финикийскийписьмо справа налево финикийский5.029Древний/исторический [г]Гл 10.3
Пикд293Клингонский (KLI pIqaD)слева направо ZZ — Отклонено для включения в Unicode [iii] [iv]
Плрд282Мяо (Поллард)слева направо Мяо6.1149Гл 18.10
Прти130Парфянские надписиписьмо справа налево Парфянские надписи5.230Древний/историческийГл 10.6
Псин103ПротосинайскийсмешанныйZZ — Не в Unicode
Qaaa-Qabx900-949Зарезервировано для личного пользования (диапазон)ZZ — Не в Unicode
Рандж303Ранджанаслева направоZZ — Не в Unicode
Ржнг363Реджанг (Реджанг, Каганга)слева направо Реджанг5.137Гл 17.5
Рохг167Ханифи Рохинджаписьмо справа налево Ханифи Рохинджа11.050Гл 16.14
Роро620РонгоронгосмешанныйZZ — Не в Unicode, предложение изучается [i]
Бегун211Руническийслева направо, бустрофедон Рунический3.086Древний/историческийГл 8.7
Самр123самаритянинписьмо справа налево , сверху вниз самаритянин5.261Гл. 9.4
Сара292СаратисмешанныйZZ — Не в Unicode
Сарб105Древний южноаравийскийписьмо справа налево Древний южноаравийский5.232Древний/историческийГл 10.2
Саур344Саураштраслева направо Саураштра5.182Гл 13.13
Sgnw095Написание жестоввертикально слева направо Написание жестов8.0672Гл 21.7
Шоу281Шэвиан (Шоу)слева направо Шэвиан4.048Гл 8.15
Клочок319Шарада, Шарадаслева направо Шарада6.196Гл 15.3
Шуй530Шуйшуслева направоZZ — Не в Unicode
Сидд302Сиддхам, Сиддхам, Сиддхаматрикаслева направо Сиддхам7.092Древний/историческийГл 15.5
Сидт180Сидетиксправа налевоZZ — Не в Unicode, предложение зрелое [ii]
Синд318Худавади, Синдхислева направо Худавади7.069Гл 15.9
Синх348сингальскийслева направо сингальский3.0111Гл 13.2
Согд141согдийскийгоризонтальное и вертикальное письмо в восточноазиатских письменностях , сверху вниз согдийский11.042Древний/историческийГл 14.10
Сого142Древний согдийскийписьмо справа налево Древний согдийский11.040Древний/историческийГл 14.9
Сора398Сора Сомпенгслева направо Сора Сомпенг6.135Гл 15.17
Сойо329Соёмбослева направо Соёмбо10.083Древний/историческийГл 14.7
Сунд362Суданскийслева направо Суданский5.172Гл 17.7
Суну274Сунуварслева направоСунувар16.044
Силос316Силоти Нагрислева направо Силоти Нагри4.145Древний/историческийГл 15.1
Syrc135сирийскийписьмо справа налево сирийский3.088Включает типографские варианты Estrangelo (см. § Syre), Western (§ Syrj) и Eastern (§ Syrn)Гл. 9.3
Сире138Сирийский (вариант Эстранджело)смешанныйZZ — Типографский вариант сирийского языка (см. § Syrc)
Сырдж137Сирийский (западный вариант)смешанныйZZ — Типографский вариант сирийского языка (см. § Syrc)
Сирн136Сирийский (восточный вариант)смешанныйZZ — Типографский вариант сирийского языка (см. § Syrc)
Тегб373Тагбанваслева направо Тагбанва3.218Гл 17.1
Такр321Такри, Такри, Танкрислева направо Такри6.168Гл 15.4
Сказка353Тай Леслева направо Тай Ле4.035Гл 16.5
Талу354Новый Тай Люслева направо Новый Тай Лю4.183Гл 16.6
Тамл346тамильскийслева направо тамильский1.0123Гл 12.6
Тан520тангутскийвертикально справа налево, слева направо тангутский9.06,914Древний/историческийГл 18.11
Тавт359Тай Вьетслева направо Тай Вьет5.272Гл 16.8
Тайо380Тай Йосверху вниз, столбцы справа налевоZZ — Не в Unicode, предложение зрелое [ii]
Телу340телугуслева направо телугу1.0100Гл 12.7
Тэн290Тенгварслева направоZZ — Не в Unicode
Тфнг120Тифинаг (берберский)письмо слева направо, справа налево , сверху вниз, снизу вверх Тифинаг4.159Гл 19.3
Тглг370Тагальский (Байбаин, Алибата)слева направо тагальский3.223Гл 17.1
Таа170Танаписьмо справа налево Тана3.050Гл 13.1
тайский352тайскийслева направо тайский1.086Гл 16.1
Тибт330тибетскийслева направо тибетский2.0207Добавлено в версии 1.0, удалено в версии 1.1 и вновь введено в версии 2.0Гл 13.4
Тирх326Тирутаслева направо Тирута7.082Гл 15.11
Тнса275Тангсаслева направоТангса14.089Гл 13.18
Тодр229Тодрисправа налевоТодри16.052Древний/исторический
Толс299Толонг Сикислева направоZZ — Не в Unicode, предложение зрелое [ii]
Тото294Тотослева направоТото14.031Гл 13.17
Тутг341Тулу-Тигаларислева направоТулу Тигалари16.080
Угар040Угаритскийслева направо Угаритский4.031Древний/историческийГл 11.2
Вайи470Вайслева направо Вай5.1300Гл 19.5
Висп280Видимая речьслева направоZZ — Не в Unicode
Вит228Виткукислева направоВиткуки14.070Древний/историческийГл 8.12
Вара262Варанг Сити (Варанг Кшити)слева направо Варанг Сити7.084Гл 13.9
Чтчо283Ванчослева направо Ванчо12.059Гл 13.16
Воле480ВолеаисмешанныйZZ — Не в Unicode, предложение изучается [i]
Xpeo030Древнеперсидскийслева направо Древнеперсидский4.150Древний/историческийГл 11.3
Xsux020Клинопись, шумеро-аккадскаяслева направо Клинопись5.01,234Древний/историческийГл 11.1
Йези192езидскийписьмо справа налево езидский13.047Древний/историческийГл 9.6
Ииии460Йислева направо Йи3.01,220Гл 18.7
Занб339Площадь Занабазар (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, шрифт Horizontal Square)слева направо Площадь Занабазара10.072Древний/историческийГл 14.6
Зинь994Код для унаследованного скриптаУнаследованный657
Змтх995Математическая нотацияZZ — Не является «скриптом» в Unicode
Зсим996СимволыZZ — Не является «скриптом» в Unicode
Зсье993Символы (вариант эмодзи)ZZ — Не является «скриптом» в Unicode
Zxxx997Код для неписаных документовZZ — Не является «скриптом» в Unicode
Зыыы998Код для неопределенного скриптаОбщий9,053
Зззз999Код для незакодированного скриптаНеизвестный959,049В Unicode: все остальные кодовые точки
Примечания
  1. ^
    Публикации ISO 15924 по состоянию на 12 сентября 2023 г.[обновлять]
  2. ^
    Нормативный текстовый файл ISO 15924 По состоянию на 12 сентября 2023 г.[обновлять]
  3. ^
    Изменения ISO 15924 (включая псевдонимы для Unicode; по состоянию на 12 сентября 2023 г. [обновлять])
  4. ^
    Юникод версии 16.0
  5. ^
    Диаграммы Unicode
  6. ^
    Unicode использует "Property Value Alias" (Псевдоним) в качестве имени сценария. Эти имена псевдонимов являются частью Unicode и публикуются в информационных целях рядом с ISO 15924. Имя псевдонима сценария может использоваться в имени символа: Palm, Palmyrene → U+10860 𐡠 PALMYRENE LETTER ALEPH .
  7. ^
    В Unicode финикийский шрифт предназначен для представления текста на палеоиврите , архаическом финикийском, финикийском , раннем арамейском , позднем финикийском курсиве, финикийских папирусах, силоамском иврите , еврейских печатях , аммонитском , моавитском и пуническом языках . [v]
Ссылки
  1. ^ abcdefghi "Список SEI для еще не закодированных скриптов". Консорциум Unicode . Март 2023 г. Получено 25 сентября 2023 г.
  2. ^ abcd "Unicode Pipeline § Кодовые точки, временно назначенные для зрелых предложений". Консорциум Unicode. 2023-09-12 . Получено 2023-09-25 .
  3. Майкл Эверсон (18 сентября 1997 г.). «Предложение о кодировании клингонского языка в плоскости 1 стандарта ISO/IEC 10646-2».
  4. ^ Консорциум Unicode (14 августа 2001 г.). «Утвержденный протокол совместного заседания UTC 87/L2 184».
  5. ^ "Ближний Восток-II, Древние письмена" (PDF) . 15.0.0. Консорциум Unicode . Получено 25.09.2023 .

Свойства нормализации

Разложения, тип разложения, канонический объединяющий класс, исключения композиции и многое другое.

Возраст

Age — это версия Стандарта, в которой впервые была обозначена кодовая точка. Номер версии сокращается до нумерации major.minor, хотя используются более подробные номера версий: версии 4.0.0 и 4.0.1 обе называются 4.0 как Age. Учитывая выпуски, Age может быть из диапазона: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0, 12.0, 12.1, 13.0, 14.0, 15.0, 15.1 и 16.0. [21] Длинные значения для Age начинаются с буквы V и используют подчеркивание вместо точки: например, V1_1. [2] Кодовые точки без специально назначенного значения возраста имеют значение «NA» с длинной формой «Unassigned».

Устаревший

После определения символа он не будет удален или переназначен. [22] Однако символ может быть объявлен устаревшим , что означает, что его «использование настоятельно не рекомендуется». [23] Начиная с версии Unicode 15.1, следующие пятнадцать символов являются устаревшими: [24]

Устаревшие символы в Unicode
Кодовая точкаИмя персонажаРекомендуемая альтернативаЗамечания
U+0149ЛАТИНСКАЯ СТРОЧНАЯ БУКВА N С ПРЕДШЕСТВУЮЩИМ АПОСТРОФОМU+02BC U+006Eʼн
U+0673АРАБСКАЯ БУКВА АЛЕФ С ВОЛНИСТОЙ ХАМЗОЙ НИЖЕУ+0627 У+065Фда
У+0Ф77ТИБЕТСКИЙ ЗНАК ГЛАСНОГО ВОКАЛЬНЫЙ RRU+0FB2 U+0F81 [а]ྲཱྀ
У+0Ф79ТИБЕТСКИЙ ЗНАК ГЛАСНОГО ВОКАЛЬНЫЙ LLU+0FB3 U+0F81 [а]ླཱྀ
У+17А3КХМЕРСКИЙ НЕЗАВИСИМЫЙ ГЛАСНОЙ QAQУ+17А2
У+17А4КХМЕРСКИЙ НЕЗАВИСИМЫЙ ГЛАСНОЙ QAAУ+17А2 У+17Б6អា
У+206АЗАПРЕТИТЬ СИММЕТРИЧНУЮ ОБМЕНКУНет [б]
У+206БАКТИВИРОВАТЬ СИММЕТРИЧНЫЙ ОБМЕННет [б]
У+206СПРЕПЯТСТВУЕТ ФОРМИРОВАНИЮ АРАБСКИХ ФОРМНет [б]
У+206ДАКТИВИРУЙТЕ ФОРМИРОВАНИЕ АРАБСКОЙ ФОРМЫНет [б]
У+206ЕНАЦИОНАЛЬНЫЕ ЦИФРОВЫЕ ФОРМЫНет [б]
У+206ФНОМИНАЛЬНЫЕ ФОРМЫ ЦИФРНет [б]
U+2329УГЛОВАЯ СКОБКА, НАПРАВЛЕННАЯ ВЛЕВОU+3008 [с]U+27E8 МАТЕМАТИЧЕСКАЯ ЛЕВАЯ УГЛОВАЯ СКОБКА рекомендуется для математических и других технических целей.
У+232АПРАВОУГОЛЬНАЯ СКОБКАU+3009 [с]U+27E9 МАТЕМАТИЧЕСКАЯ ПРЯМАЯ УГЛОВАЯ СКОБКА рекомендуется для математических и других технических целей.
У+Е0001ЯЗЫКОВОЙ ТЕГНет [д]
  1. ^ ab U+0F81 ཱ ྀ ТИБЕТСКИЙ ЗНАК ГЛАСНОЙ ПЕРЕВЕРНУТЫЙ II не рекомендуется (но не осуждается) и канонически эквивалентен последовательности U+0F71 U+0F80.
  2. ^ abcdef Вместо использования этого управляющего символа для указания соответствующего внешнего вида текста следует использовать соответствующие коды символов с правильным состоянием. [25]
  3. ^ ab Этот альтернативный символ находится в блоке символов и знаков препинания CJK и не подходит для математического или технического использования.
  4. ^ Вместо этого следует использовать альтернативные средства языковой маркировки. [26]

Границы

Стандарт Unicode определяет следующие свойства, связанные с границами:

  • Графемный кластер
  • Слово
  • Линия
  • Предложение

Псевдоним

Unicode может назначать псевдонимы кодовым точкам. Эти имена уникальны среди всех имен (включая обычные), поэтому их можно использовать в качестве идентификатора. Существует пять возможных причин для добавления псевдонима:

1. Аббревиатура
Часто встречающиеся сокращения или аббревиатуры для управляющих кодов, символов форматирования, пробелов и селекторов вариантов.
Например, U+00A0 NO-BREAK SPACE имеет псевдоним NBSP . Иногда представлен в рамке:  
НБСП
.
2. Контроль
Имена ISO 6429 для функций управления C0 и C1, а также аналогичные часто встречающиеся имена добавляются в качестве псевдонима к символу.
Например, U+0008 <control-0008> имеет псевдоним BACKSPACE .
3. Исправление
Это исправление «серьёзной проблемы» в имени основного персонажа, обычно ошибки.
Например, U+2118SCRIPT CAPITAL P на самом деле является строчной буквой p, поэтому ей присвоен псевдоним WEIERSTRASS ELLIPTIC FUNCTION : «на самом деле это имеет форму строчной каллиграфической буквы p, несмотря на ее название, и благодаря псевдониму добавляется правильное написание». В описаниях с предшествующим символом .
4. Альтернативный
Широко используемое альтернативное имя персонажа.
Пример: U+FEFF ZERO WIDTH NO-BREAK SPACE имеет альтернативный BYTE ORDER MARK .
5. Вымысел
Несколько задокументированных меток для контрольных кодовых точек C1, которые на самом деле никогда не были одобрены ни в одном стандарте ( фикция = притворство, вымысел).
Например, U+0099 <control-0099> имеет псевдоним figment SINGLE GRAPHIC CHARACTER INTRODUCER . Это название является архитектурной концепцией из ранних проектов ISO/IEC 10646-1, но оно никогда не было одобрено и стандартизировано.
  • База данных символов Unicode, приложение № 44, поясняющее различные свойства
  • UnicodeData.txt – список всех символов Unicode с их свойствами

Ссылки

  1. ^ abcde "Стандарт Unicode версии 16". Консорциум Unicode. Сентябрь 2024 г. Получено 13 сентября 2024 г.
  2. ^ abc "Приложение к стандарту Unicode № 44: База данных символов Unicode". Unicode . 2024-08-27.
  3. ^ "Приложение к стандарту Unicode № 44: База данных символов Unicode, 4.2.3 Диапазоны кодовых точек". Unicode . 2024-08-27.
  4. ^ UnicodeData.txt
  5. ^ "UCD: Псевдонимы имен". База данных символов Unicode . Консорциум Unicode. 2024-04-24.
  6. ^ "Стандарты дизайна персонажей – космические персонажи". Стандарты дизайна персонажей . Microsoft . 1998–1999. Архивировано из оригинала 14 марта 2010 г. Получено 2009-05-18 .
  7. ^ The Unicode Standard 5.0, печатное издание, стр. 205; также доступно в "Глава 6 — Системы письма и пунктуация" (PDF) . The Unicode Standard 5.0, электронное издание. Unicode Consortium . 2006-07-14. стр. 11 (205) . Получено 2022-12-22 .
  8. ^ "Общая пунктуация" (PDF) . Стандарт Unicode 5.1 . Unicode Inc . 1991–2008 . Получено 2009-05-13 .
  9. ^ Сарджент, Мюррей III (2006-08-29). «Unicode Almostly Plain Text Encoding of Mathematics (Version 2)». Unicode Technical Note #28 . Unicode Inc . стр. 19–20 . Получено 2009-05-19 .
  10. ^ Гиллам, Ричард (2002). Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard . Addison-Wesley. ISBN 0-201-70052-2.
  11. ^ ab Hickson, Ian . "12.5 Ссылки на именованные символы". Стандарт HTML . WHATWG .
  12. ^ Wolfram . "\[NegativeThickSpace]". Документация по языку Wolfram .
  13. ^ Вольфрам . "\[NegativeMediumSpace]". Документация по языку Wolfram .
  14. ^ Вольфрам . "\[NegativeThinSpace]". Документация по языку Wolfram .
  15. ^ Вольфрам . "\[NegativeVeryThinSpace]". Документация по языку Wolfram .
  16. ^ Faltstrom, P., ред. (август 2010 г.). "Zero Width Non-Joiner". Кодовые точки Unicode и интернационализированные доменные имена для приложений (IDNA). IETF . раздел A.1. doi : 10.17487/RFC5892 . RFC 5892. Получено 4 сентября 2019 г.
  17. ^ Фальтстром, П., ред. (август 2010 г.). "Zero Width Joiner". Кодовые точки Unicode и интернационализированные доменные имена для приложений (IDNA). IETF . раздел A.2. doi : 10.17487/RFC5892 . RFC 5892. Получено 4 сентября 2019 г.
  18. ^ «Приложение № 44 к стандарту Unicode, База данных символов Unicode».
  19. ^ ab "Приложение № 9 к стандарту Unicode: Двунаправленный алгоритм Unicode". Стандарт Unicode . 2024-09-02.
  20. ^ "Приложение № 24 к стандарту Unicode: свойство шрифта Unicode". Стандарт Unicode . 2024-07-31.
  21. ^ "UCD: Derived Age". База данных символов Unicode . Консорциум Unicode. 2024-04-30.
  22. ^ "Политики стабильности кодировки символов Unicode". Unicode . Консорциум Unicode . 2024-01-09 . Получено 2024-01-13 . После кодирования символа он не будет перемещен или удален.
  23. ^ "Стандарт Unicode, D13 Устаревший символ". 2024 . Получено 2024-09-13 .
  24. ^ "PropList-16.0.0.txt". Unicode . Unicode Consortium . 2024-05-31 . Получено 2024-09-13 .
  25. ^ "Глава 23.3: Устаревшие символы формата". 2024 . Получено 13 сентября 2024 г.
  26. ^ "23.9: Символы тегов, устаревшее использование для языковых тегов". 2024 . Получено 2024-09-13 .
Взято с "https://en.wikipedia.org/w/index.php?title=Unicode_character_property&oldid=1247233202#General_Category"