В цифровой типографии объединяющие символы — это символы , которые предназначены для изменения других символов. Наиболее распространенными объединяющими символами в латинском алфавите являются объединяющие диакритические знаки (включая объединяющие ударения ).
Unicode также содержит много предсоставленных символов , так что во многих случаях можно использовать как комбинированные диакритические знаки, так и предсоставленные символы по выбору пользователя или приложения. Это приводит к необходимости выполнять нормализацию Unicode перед сравнением двух строк Unicode и тщательно проектировать преобразователи кодировок для правильного сопоставления всех допустимых способов представления символа в Unicode с устаревшей кодировкой, чтобы избежать потери данных. [1]
В Unicode основным блоком комбинирования диакритических знаков для европейских языков и Международного фонетического алфавита является U+0300–U+036F. Комбинированные диакритические знаки также присутствуют во многих других блоках символов Unicode. В Unicode диакритические знаки всегда добавляются после основного символа (в отличие от некоторых старых наборов комбинированных символов, таких как ANSEL ), и возможно добавлять несколько диакритических знаков к одному и тому же символу, включая сложенные диакритические знаки сверху и снизу, хотя некоторые системы могут не отображать их должным образом.
Следующие блоки предназначены специально для комбинирования персонажей:
Комбинированные символы не ограничиваются этими блоками; например, комбинационный дакутэн (U+3099) и комбинационный хандакутэн (U+309A) находятся в блоке хираганы , блок деванагари содержит комбинационные знаки гласных и другие знаки для использования с этим письмом и т. д. Комбинированным символам присваивается основная категория Unicode «M» («Знак»).
Объединение диакритических знаков [1] Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | Э | Ф | |
У+030x | ◌̀ | ◌́ | ◌̂ | ◌̃ | ◌̄ | ◌̅ | ◌̆ | ◌̇ | ◌̈ | ◌̉ | ◌̊ | ◌̋ | ◌̌ | ◌̍ | ◌̎ | ◌̏ |
U+031x | ◌̐ | ◌̑ | ◌̒ | ◌̓ | ◌̔ | ◌̕ | ◌̖ | ◌̗ | ◌̘ | ◌̙ | ◌̚ | ◌̛ | ◌̜ | ◌̝ | ◌̞ | ◌̟ |
U+032x | ◌̠ | ◌̡ | ◌̢ | ◌̣ | ◌̤ | ◌̥ | ◌̦ | ◌̧ | ◌̨ | ◌̩ | ◌̪ | ◌̫ | ◌̬ | ◌̭ | ◌̮ | ◌̯ |
U+033x | ◌̰ | ◌̱ | ◌̲ | ◌̳ | ◌̴ | ◌̵ | ◌̶ | ◌̷ | ◌̸ | ◌̹ | ◌̺ | ◌̻ | ◌̼ | ◌̽ | ◌̾ | ◌̿ |
U+034x | ◌̀ | ◌́ | ◌͂ | ◌̓ | ◌̈́ | ◌ͅ | ◌͆ | ◌͇ | ◌͈ | ◌͉ | ◌͊ | ◌͋ | ◌͌ | ◌͍ | ◌͎ | CGJ |
U+035x | ◌͐ | ◌͑ | ◌͒ | ◌͓ | ◌͔ | ◌͕ | ◌͖ | ◌͗ | ◌͘ | ◌͙ | ◌͚ | ◌͛ | ◌͜◌ | ◌͝◌ | ◌͞◌ | ◌͟◌ |
U+036x | ◌͠◌ | ◌͡◌ | ◌͢◌ | ◌ͣ | ◌ͤ | ◌ͥ | ◌ͦ | ◌ͧ | ◌ͨ | ◌ͩ | ◌ͪ | ◌ͫ | ◌ͬ | ◌ͭ | ◌ͮ | ◌ͯ |
Примечания
|
Кодовые точки U+032A и U+0346–034A являются символами IPA :
Кодовые знаки U+034B–034E являются диакритическими знаками МФА для обозначения нарушений речи :
U+034F — это « соединитель графем » (CGJ), не имеющий видимого глифа.
Кодовые точки U+035C–0362 представляют собой двойные диакритические знаки, расположенные между двумя буквами.
Кодовые точки U+0363–036F — это средневековые надстрочные диакритические буквы, буквы, написанные непосредственно над другими буквами, которые встречаются в средневековых германских рукописях, но в некоторых случаях использовались вплоть до конца 19 века. Например, U+0364 — это e , написанная над предыдущей буквой, которая использовалась для ( ранней ) нововерхненемецкой умлаутной нотации, например, uͤ для современной немецкой ü .
Расширенное объединение диакритических знаков [1] [2] Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | Э | Ф | |
U+1ABx | ◌᪰ | ◌᪱ | ◌᪲ | ◌᪳ | ◌᪴ | ◌᪵ | ◌᪶ | ◌᪷ | ◌᪸ | ◌᪹ | ◌᪺ | ◌᪻ | ◌᪼ | ◌᪽ | ◌᪾ | ◌ᪿ |
U+1ACx | ◌ᫀ | ◌᫁ | ◌᫂ | ◌᫃ | ◌᫄ | ◌᫅ | ◌᫆ | ◌᫇ | ◌᫈ | ◌᫉ | ◌᫊ | ◌᫋ | ◌ᫌ | ◌ᫍ | ◌ᫎ | |
U+1ADx | ||||||||||||||||
U+1AEx | ||||||||||||||||
U+1AFx | ||||||||||||||||
Примечания
|
Дополнение к комбинированным диакритическим знакам [1] Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | Э | Ф | |
U+1DCx | ◌᷀ | ◌᷁ | ◌᷂ | ◌᷃ | ◌᷄ | ◌᷅ | ◌᷆ | ◌᷇ | ◌᷈ | ◌᷉ | ◌᷊ | ◌᷋ | ◌᷌ | ◌᷍ | ◌᷎ | ◌᷏ |
U+1DDx | ◌᷐ | ◌᷑ | ◌᷒ | ◌ᷓ | ◌ᷔ | ◌ᷕ | ◌ᷖ | ◌ᷗ | ◌ᷘ | ◌ᷙ | ◌ᷚ | ◌ᷛ | ◌ᷜ | ◌ᷝ | ◌ᷞ | ◌ᷟ |
U+1DEx | ◌ᷠ | ◌ᷡ | ◌ᷢ | ◌ᷣ | ◌ᷤ | ◌ᷥ | ◌ᷦ | ◌ᷧ | ◌ᷨ | ◌ᷩ | ◌ᷪ | ◌ᷫ | ◌ᷬ | ◌ᷭ | ◌ᷮ | ◌ᷯ |
U+1DFx | ◌ᷰ | ◌ᷱ | ◌ᷲ | ◌ᷳ | ◌ᷴ | ◌᷵ | ◌᷶ | ◌᷷ | ◌᷸ | ◌᷹ | ◌᷺ | ◌᷻ | ◌᷼ | ◌᷽ | ◌᷾ | ◌᷿ |
Примечания
|
Объединение диакритических знаков для символов [1] [2] Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | Э | Ф | |
У+20Дх | ◌⃐ | ◌⃑ | ◌⃒ | ◌⃓ | ◌⃔ | ◌⃕ | ◌⃖ | ◌⃗ | ◌⃘ | ◌⃙ | ◌⃚ | ◌⃛ | ◌⃜ | ◌⃝ | ◌⃞ | ◌⃟ |
U+20Ex | ◌⃠ | ◌⃡ | ◌⃢ | ◌⃣ | ◌⃤ | ◌⃥ | ◌⃦ | ◌⃧ | ◌⃨ | ◌⃩ | ◌⃪ | ◌⃫ | ◌⃬ | ◌⃭ | ◌⃮ | ◌⃯ |
U+20Fx | ◌⃰ | |||||||||||||||
Примечания
|
Объединение половинных знаков [1] Официальная таблица кодов Консорциума Unicode (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | А | Б | С | Д | Э | Ф | |
У+ФЕ2х | ◌︠ | ◌︡ | ◌︢ | ◌︣ | ◌︤ | ◌︥ | ◌︦ | ◌︧ | ◌︨ | ◌︩ | ◌︪ | ◌︫ | ◌︬ | ◌︭ | ◌︮ | ◌︯ |
Примечания
|
В OpenType имеется «тег feature» ccmp для определения глифов, которые являются композициями или разложениями, включающими комбинирование символов, тег mark для определения расположения комбинированных символов на базовом глифе и mkmk для расположения комбинированных символов друг на друге.
Объединение символов использовалось для создания текста Zalgo , который выглядит «испорченным» или «жутким» из-за чрезмерного использования объединенных символов. Это приводит к тому, что текст расширяется по вертикали, перекрывая другой текст. [2] Это в основном используется в контексте ужасов в Интернете . Обычно для большинства программ его рендеринг очень сложен, поэтому объединенные знаки часто уменьшаются или полностью удаляются.