Общая пунктуация

Блок символов Unicode
Общая пунктуация
ДиапазонU+2000..U+206F
(112 кодовых точек)
СамолетБМП
СкриптыОбычный (109 симв.)
Наследственный (2 симв.)
Наборы символовПунктуация Пробелы
Форматирование
элементов управления
Назначенный111 кодовых точек
Неиспользованный1 зарезервировано кодовых точек
6 устарело
История версий Unicode
1.0.0 (1991)67 (+67)
1.1 (1993)76 (+9)
3.0 (1999)83 (+7)
3.2 (2002)95 (+12)
4.0 (2003)97 (+2)
4.1 (2005)106 (+9)
5.1 (2008)107 (+1)
6.3 (2013)111 (+4)
Документация по Юникоду
Кодовая таблица ∣ Веб-страница
Примечание : [1] [2]

Общая пунктуация — это блок Unicode , содержащий знаки препинания , пробелы и символы форматирования для использования со всеми скриптами и системами письма. Включены пробелы определенной ширины , форматы соединения, направленные форматы, умные кавычки , архаичные и новые знаки препинания, такие как интерробанг , и невидимые математические операторы.

Дополнительные знаки пунктуации находятся в блоке дополнительных знаков пунктуации и разбросаны по десяткам других блоков Unicode.

Блокировать

Общая пунктуация [1] [2] [3] Официальная таблица кодов консорциума Unicode (PDF)
 0123456789АБСДЭФ
У+200xNQ
 СП 
MQ
 СП 
АН
 ИСП 
ЭМ
 СП 
 3/М 
СП
 4/М 
СП
 6/М 
СП
Ф
 СП 
П
 СП 
ТД
 СП 
H
 СП 
ZW
 СП 
ZW
 Нью  -Джерси
 ZWJ 
 ЛРМ  РЛМ 
U+201x Примечание 
''«
У+202xЛ
 СЕНТЯБРЬ 
П
 СЕН 
 ЖРД  РЛЭ  PDF  МРО  РЛО  ННБ 
СП
У+203x
У+204x
У+205xММ
  СП  
У+206x ВЖ  ƒ ()   ×    ,    +   ЛРИ  РЛИ  ФСИ  ПДИ Я СС СС Я АФС АФС NA DS НЕТ ДС 
Примечания
1. ^ Начиная с версии Unicode 16.0
2. ^ Серая область указывает на неназначенную кодовую точку.
3. ^ Кодовые точки Unicode U+206A - U+206F устарели, начиная с версии Unicode 3.0.

Несколько символов в этом блоке обычно не отображаются с помощью непосредственно видимого глифа. Десять пробельных символов U+2002 по U+200B (фиксированный en или 1⁄2 em , em , 1⁄3 em , 1⁄4 em , 1⁄6 em , пробел между цифрами и знаками препинания , переменный тонкий или 1⁄5 em и пробел для волос , фиксированный пробел нулевой ширины ) и U+205F ( математический средний или пробел 2⁄9 em ) отличаются горизонтальной шириной, в то время как U+2000 и U+2001 ( en и em quad ) фактически являются псевдонимами U+2002 и U+2003 соответственно; еще два, U+202F и U+2060 (неправильно названный word joiner ) являются вариантами U+2009 или U+2004 и U+200B, которые запрещают переносы строк. Три символа нулевой ширины U+200B — U+200D ( пробел, несоединитель и соединитель ) различаются тем, как они влияют на лигирование и формирование смежных букв, таких как контекстные формы в арабском языке. Одиннадцать невидимых символов U+200E, U+200F ( знак слева направо и справа налево ), U+202A — U+202E ( встраивает, выталкивает и переопределяет ) и U+2066 — U+2069 ( изолирует ) управляют направлением текста, если только разметка более высокого уровня не переопределяет их. Существуют явные разделители строк и абзацев в U+2028 и U+2029.

Селекторы вариаций

Начиная с Unicode 16 (2024), блок имеет последовательности вариаций , определенные для восточноазиатских позиционных вариантов пунктуации фигурных кавычек '...' и "...". Они используют U+FE00 VARIATION SELECTOR-1 (VS01) и U+FE01 VARIATION SELECTOR-2 (VS02): [3]

Последовательности вариаций для полноширинных кавычек
У+20182019201С201DОписание
базовая кодовая точка''«
база + VS01'︀'︀«︀”︀неполноширинная форма
база + VS02'︁'︁«︁”︁выровненная полноширинная форма

Ожидается, что неполноширинные формы будут разделены пробелом с одной стороны, полноширинные формы — нет:

Красные углы регистрации отмечают метрики глифа и показывают, как глиф выравнивается в пространстве, отведенном для символа. Для отображения переменной ширины (слева) ожидается смежный пробел; для отображения CJK полной ширины (справа) пробел не нужен.

В вертикальном тексте полноширинные формы должны отображаться несколько иначе и даже как обычные кавычки CJK「...」 и 『...』, если свойство вертикальной ориентации установлено на «Hans»:

Поведение CJK общих кавычек в горизонтальном и вертикальном тексте при добавлении селектора вариантов VS02. Горизонтальный столбец слева — это столбец VS2 предыдущей таблицы.

Эмодзи

Блок общей пунктуации содержит два эмодзи : U+203C и U+2049. [4] [5]

Блок имеет четыре стандартизированных варианта, определенных для указания стиля эмодзи (U+FE0F VS16) или текстового представления (U+FE0E VS15) для двух эмодзи, оба из которых по умолчанию имеют текстовое представление. [6]

Последовательности вариаций эмодзи
У+203С2049
базовая кодовая точка
база+VS15 (текст)‼︎⁉︎
база+VS16 (эмодзи)‼️⁉️

История

В следующих документах, связанных с Unicode, описаны цель и процесс определения конкретных символов в блоке общей пунктуации:

Ссылки

  1. ^ "База данных символов Unicode". Стандарт Unicode . Получено 2023-07-26 .
  2. ^ "Перечисленные версии стандарта Unicode". Стандарт Unicode . Получено 2023-07-26 .
  3. ^ Лунде, Кен (14.10.2023). «L2/23-212R: Предложение добавить стандартизированные последовательности вариаций для четырех кавычек» (PDF) .
  4. ^ "UTR #51: Unicode Emoji". Консорциум Unicode. 2023-09-05.
  5. ^ "UCD: Данные эмодзи для UTR #51". Консорциум Unicode. 2023-02-01.
  6. ^ "UTS #51 Последовательности вариаций эмодзи". Консорциум Unicode.
Взято с "https://en.wikipedia.org/w/index.php?title=Общая_пунктуация&oldid=1267772847"