Сочетание характера

Непробельный символ, который изменяет другой символ
Кириллическая буква «У» в сочетании с бреве дает «ў» .

В цифровой типографии объединяющие символы — это символы , которые предназначены для изменения других символов. Наиболее распространенными объединяющими символами в латинском алфавите являются объединяющие диакритические знаки (включая объединяющие ударения ).

Unicode также содержит много предсоставленных символов , так что во многих случаях можно использовать как комбинированные диакритические знаки, так и предсоставленные символы по выбору пользователя или приложения. Это приводит к необходимости выполнять нормализацию Unicode перед сравнением двух строк Unicode и тщательно проектировать преобразователи кодировок для правильного сопоставления всех допустимых способов представления символа в Unicode с устаревшей кодировкой, чтобы избежать потери данных. [1]

В Unicode основным блоком комбинирования диакритических знаков для европейских языков и Международного фонетического алфавита является U+0300–U+036F. Комбинированные диакритические знаки также присутствуют во многих других блоках символов Unicode. В Unicode диакритические знаки всегда добавляются после основного символа (в отличие от некоторых старых наборов комбинированных символов, таких как ANSEL ), и возможно добавлять несколько диакритических знаков к одному и тому же символу, включая сложенные диакритические знаки сверху и снизу, хотя некоторые системы могут не отображать их должным образом.

Диапазоны Unicode

Следующие блоки предназначены специально для комбинирования персонажей:

  • Объединение диакритических знаков (0300–036F), начиная с версии 1.0, с изменениями в последующих версиях вплоть до 4.1
  • Расширенное объединение диакритических знаков (1AB0–1AFF), версия 7.0
  • Дополнение к комбинированным диакритическим знакам (1DC0–1DFF), версии 4.1–5.2
  • Объединение диакритических знаков для символов (20D0–20FF), начиная с версии 1.0, с изменениями в последующих версиях вплоть до 5.1
  • Расширенная кириллица-А (2DE0–2DFF), версия 5.1
  • Объединение Half Marks (FE20–FE2F), версии 1.0, с изменениями в последующих версиях вплоть до 8.0

Комбинированные символы не ограничиваются этими блоками; например, комбинационный дакутэн (U+3099) и комбинационный хандакутэн (U+309A) находятся в блоке хираганы , блок деванагари содержит комбинационные знаки гласных и другие знаки для использования с этим письмом и т. д. Комбинированным символам присваивается основная категория Unicode «M» («Знак»).

Объединение диакритических знаков [1]
Официальная таблица кодов Консорциума Unicode (PDF)
 0123456789АБСДЭФ
У+030x◌̀◌́◌̂◌̃◌̄◌̅◌̆◌̇◌̈◌̉◌̊◌̋◌̌◌̍◌̎◌̏
U+031x◌̐◌̑◌̒◌̓◌̔◌̕◌̖◌̗◌̘◌̙◌̚◌̛◌̜◌̝◌̞◌̟
U+032x◌̠◌̡◌̢◌̣◌̤◌̥◌̦◌̧◌̨◌̩◌̪◌̫◌̬◌̭◌̮◌̯
U+033x◌̰◌̱◌̲◌̳◌̴◌̵◌̶◌̷◌̸◌̹◌̺◌̻◌̼◌̽◌̾◌̿
U+034x◌̀◌́◌͂◌̓◌̈́◌ͅ◌͆◌͇◌͈◌͉◌͊◌͋◌͌◌͍◌͎ CGJ 
U+035x◌͐◌͑◌͒◌͓◌͔◌͕◌͖◌͗◌͘◌͙◌͚◌͛◌͜◌◌͝◌◌͞◌◌͟◌
U+036x◌͠◌◌͡◌◌͢◌◌ͣ◌ͤ◌ͥ◌ͦ◌ͧ◌ͨ◌ͩ◌ͪ◌ͫ◌ͬ◌ͭ◌ͮ◌ͯ
Примечания
1. ^ Начиная с версии Unicode 16.0

Кодовые точки U+032A и U+0346–034A являются символами IPA :

Кодовые знаки U+034B–034E являются диакритическими знаками МФА для обозначения нарушений речи :

  • U+034B  ◌͋ : носовой выброс
  • U+034C  ◌͌ : небно-глоточное трение
  • U+034D  ◌͍ : губное распространение
  • U+034E  ◌͎ : свистящая артикуляция

U+034F — это « соединитель графем » (CGJ), не имеющий видимого глифа.

Кодовые точки U+035C–0362 представляют собой двойные диакритические знаки, расположенные между двумя буквами.

Кодовые точки U+0363–036F — это средневековые надстрочные диакритические буквы, буквы, написанные непосредственно над другими буквами, которые встречаются в средневековых германских рукописях, но в некоторых случаях использовались вплоть до конца 19 века. Например, U+0364 — это e , написанная над предыдущей буквой, которая использовалась для ( ранней ) нововерхненемецкой умлаутной нотации, например, для современной немецкой ü .

Расширенное объединение диакритических знаков [1] [2] Официальная таблица кодов Консорциума Unicode (PDF)
 0123456789АБСДЭФ
U+1ABx◌᪰◌᪱◌᪲◌᪳◌᪴◌᪵◌᪶◌᪷◌᪸◌᪹◌᪺◌᪻◌᪼◌᪽◌᪾◌ᪿ
U+1ACx◌ᫀ◌᫁◌᫂◌᫃◌᫄◌᫅◌᫆◌᫇◌᫈◌᫉◌᫊◌᫋◌ᫌ◌ᫍ◌ᫎ
U+1ADx
U+1AEx
U+1AFx
Примечания
1. ^ Начиная с версии Unicode 16.0
2. ^ Серые области обозначают неназначенные кодовые точки.
Дополнение к комбинированным диакритическим знакам [1] Официальная таблица кодов Консорциума Unicode (PDF)
 0123456789АБСДЭФ
U+1DCx◌᷀◌᷁◌᷂◌᷃◌᷄◌᷅◌᷆◌᷇◌᷈◌᷉◌᷊◌᷋◌᷌◌᷍◌᷎◌᷏
U+1DDx◌᷐◌᷑◌᷒◌ᷓ◌ᷔ◌ᷕ◌ᷖ◌ᷗ◌ᷘ◌ᷙ◌ᷚ◌ᷛ◌ᷜ◌ᷝ◌ᷞ◌ᷟ
U+1DEx◌ᷠ◌ᷡ◌ᷢ◌ᷣ◌ᷤ◌ᷥ◌ᷦ◌ᷧ◌ᷨ◌ᷩ◌ᷪ◌ᷫ◌ᷬ◌ᷭ◌ᷮ◌ᷯ
U+1DFx◌ᷰ◌ᷱ◌ᷲ◌ᷳ◌ᷴ◌᷵◌᷶◌᷷◌᷸◌᷹◌᷺◌᷻◌᷼◌᷽◌᷾◌᷿
Примечания
1. ^ Начиная с версии Unicode 16.0
Объединение диакритических знаков для символов [1] [2] Официальная таблица кодов Консорциума Unicode (PDF)
 0123456789АБСДЭФ
У+20Дх◌⃐◌⃑◌⃒◌⃓◌⃔◌⃕◌⃖◌⃗◌⃘◌⃙◌⃚◌⃛◌⃜◌⃝◌⃞◌⃟
U+20Ex◌⃠◌⃡◌⃢◌⃣◌⃤◌⃥◌⃦◌⃧◌⃨◌⃩◌⃪◌⃫◌⃬◌⃭◌⃮◌⃯
U+20Fx◌⃰
Примечания
1. ^ Начиная с версии Unicode 16.0
2. ^ Серые области обозначают неназначенные кодовые точки.
Объединение половинных знаков [1] Официальная таблица кодов Консорциума Unicode (PDF)
 0123456789АБСДЭФ
У+ФЕ2х◌︠◌︡◌︢◌︣◌︤◌︥◌︦◌︧◌︨◌︩◌︪◌︫◌︬◌︭◌︮◌︯
Примечания
1. ^ Начиная с версии Unicode 16.0

OpenType

В OpenType имеется «тег feature» ccmp для определения глифов, которые являются композициями или разложениями, включающими комбинирование символов, тег mark для определения расположения комбинированных символов на базовом глифе и mkmk для расположения комбинированных символов друг на друге.

Текст Залго

Предложение из текста Залго

Объединение символов использовалось для создания текста Zalgo , который выглядит «испорченным» или «жутким» из-за чрезмерного использования объединенных символов. Это приводит к тому, что текст расширяется по вертикали, перекрывая другой текст. [2] Это в основном используется в контексте ужасов в Интернете . Обычно для большинства программ его рендеринг очень сложен, поэтому объединенные знаки часто уменьшаются или полностью удаляются.

Смотрите также

Примечания

  1. ^ Например, при преобразовании между Windows-1258 и VISCII первый использует объединение диакритических знаков, тогда как последний имеет большой выбор предварительно составленных символов, поэтому конвертер, использующий простое сопоставление между кодовыми значениями и кодовыми точками Unicode, испортит текст при преобразовании между ними.
  2. ^ Корпела, Юкка К. «Как работает текст Zalgo?». Stack Overflow . Получено 11 апреля 2019 г.
  • Таблица комбинированных диакритических знаков (в формате Adobe PDF )
  • Таблица дополнительных диакритических знаков (в формате Adobe PDF )
  • Комбинирование знаков тестовой страницы, обращенной к комбинированным и предварительно составленным буквам
  • Ресурсы Unicode Алана Вуда
  • DecodeUnicode.org справочник по комбинированию диакритических знаков
Взято с "https://en.wikipedia.org/w/index.php?title=Комбинирующий_символ&oldid=1274255286"