Пользователь:RichardW57

У этого пользователя есть альтернативная учетная запись с именем RichardW57m .

Специальный:Prefixindex/Пользователь:RichardW57

Кодировка подстрочных согласных

Базовые и подстрочные согласные имеют разные кодировки, поскольку такие слова, как ᨲᩥ᩠ᨠ и ᨲᩥᨠ, отличаются как по внешнему виду, так и по звучанию. Подстрочные согласные кодируются как последовательность из 2 символов. Второй — базовый символ, а первый — специальный символ U+1A60 TAI THAM SIGN SAKOT. ^[1]^{: Раздел 2}

Если у согласного есть две формы индекса и выбор влияет на значение, то форма, обычно используемая для согласных в конце слога, будет кодироваться с помощью SAKOT, а другая форма будет иметь свою собственную кодовую точку. Существует 7 согласных, которые имеют различные формы индекса таким образом, а именно ᩁ RA, ᩃ LA, ᨷ BA, ᩈ HIGH SA, ᨾ MA, ᨳ HIGH RATA и ᨻ LOW PA.

ᨣᩕᩪ ( северно-тайское произношение: [k ʰ uː] ) кодируется как <U+1A23 LOW KA, U+1A55 MEDIAL RA , U+1A6A SIGN UU>, но ᨠᩣ᩠ᩁ ( IPA: [kaː n ] ) кодируется как <U+ 1А20 ВЫСОКАЯ КА, U+1A63 ЗНАК AA, U+1A60 SAKOT, U+1A41 RA >^[1]^{: Раздел 4}

ᩆᩦ᩠ᩃ ( IPA: [siː n ] ) кодируется как <U+1A46 HIGH SHA, U+1A66 SIGN II, U+1A60 SAKOT, U+1A43 LA > но ᨸᩖᩦ ( IPA: [piː] ) кодируется как <U+ 1А38 ᨸ , U+1A56 МЕДИАЛЬНЫЙ LA , U+1A66 ЗНАК II>.^[1]^{: Раздел 4}

U+1A57 SIGN LA TANG LAI выглядит как <U+1A60 SAKOT, U+1A43 LA>, но по своей сути является его лигатурой с <U+1A60 SAKOT, U+1A36 NA>. Тай Лю использует его, чтобы написать слово ᨴᩢ᩵ᩗᩣ ( IPA: [taŋ laːi] ). ^[2]

ᨣᩝᩴ ( IPA: [kɔː b ɔː] ) кодируется как <U+1A23 LOW KA, U+1A5D SIGN BA , U+1A74 MAI KANG>, а ᨠᩢ᩠ᨷ ( IPA: [ka p ] ) кодируется как <U+1A20 ВЫСОКОЕ КА, U+1A62 MAI SAT, U+1A60 SAKOT, U+1A37 BA > и ᨠᩢᨷ᩠ᨷ᩺ ( IPA: [kap] ) кодируется как <U+1A20 HIGH KA, U+1A62 MAI SAT, U+1A37 BA, U+1A60 SAKOT , U+1A37 БА , U + 1A7A РА ХААМ>

В окончательном предложении ^[1]^{: 1} , в котором Консорциум Unicode принял, что то, что сейчас называется SIGN BA (как в ᨣᩝᩴ ), будет кодироваться как <SAKOT, BA>, а то, что сейчас называется <SAKOT, BA> (как в ᨠᩢ᩠ᨷ ), должно кодироваться как <SAKOT, HIGH PA>, но в процессе ISO значение <SAKOT, BA> изменилось ^[3] и был добавлен SIGN BA. Однако первоначальное значение <SAKOT, HIGH PA> сохраняется для слов из тайского языка, имеющих ป в качестве конечной согласной слога. (Это предложение ошибочно называет <SAKOT, HIGH PA> <SAKOT, HIGH PHA>.)

В пали используется HIGH PA вместо BA в Лаосе и северо-восточном Таиланде. Поэтому следует быть готовым обнаружить <SAKOT, BA>, закодированный как <U+1A60 SAKOT, U+1A38 HIGH PA> в пали.

В Tai Khuen есть два способа написания нижнего индекса HIGH SA. Они не взаимозаменяемы. В Tai Khuen писать ᩃᩮᩞ правильно, а писать ᩃᩮ᩠ᩈ неправильно, ^[3] но писать ᩈᨶ᩠ᨶᩥᩅᩤ᩠ᩈ правильно, а писать ᩈᨶ᩠ᨶᩥᩅᩤᩞ неправильно! ᩃᩮᩞ кодируется как <U+1A43 LA, U+1A6E SIGN E, U+1A5E SIGN SA >, в то время как неправильно ᩃᩮ᩠ᩈ кодируется как <U+1A43 LA, U+1A6E SIGN E, U+1A60 SAKOT, U+1A48 HIGH SA >.

Tai Khuen имеет дополнительный способ записи нижнего индекса MA. Для этого дополнительного метода существует специальная кодовая точка ^[4]^{: Элемент 9} Слово, которое в северном тайском языке пишется как ᨵᨾ᩠ᨾ᩺ , в Tai Khuen пишется как ᨵᨾ᩠ᨾ᩼, закодированное как <U+1A35 LOW THA, U+1A3E MA, U+1A60 SAKOT, U+1A3E MA , U+1A7C KARAN>, так и как ᨵᨾᩜ᩼ , закодированное как <U+1A35 LOW THA, U+1A3E MA, U+1A5C SIGN MA , U+1A7C KARAN>.

Существует два способа записи нижнего индекса для HIGH RATHA и LOW PA. ᨶᩥᨣᨱᩛ^[5]^{: 368} кодируется как <U+1A36 NA, U+1A65 ЗНАК I, U+1A23 LOW KA, U+1A31 RANA, U+1A5B ЗНАК HIGH RATHA ИЛИ LOW PA >: ᩁᩣᨩᨽᩢ᩠ᨮ^[1]^{: 3} кодируется как <U+1A41 RA, U+1A63 ЗНАК AA, U+1A29 LOW CA, U+1A3D LOW PHA, U+1A62 MAI SAT, U+1A60 SAKOT, U+1A2E HIGH RATHA >. ᨶᩥᨻᩛᩣᨶ кодируется как <U+1A36 NA, U+1A65 ЗНАК I, U+1A3B НИЗКИЙ PA, U+1A5B ЗНАК ВЫСОКИЙ RATHA ИЛИ НИЗКИЙ PA , U+1A63 ЗНАК AA, U+1A36 NA>: ᨴᩮ᩠ᨻ кодируется как <U+1A34 НИЗКИЙ TA, U+1A6E ЗНАК E, U+1A60 SAKOT, U+1A3B НИЗКИЙ PA >. Последнее слово также пишется как ᨴᩮ᩠ᨷ . Согласный конъюнкт в лаосском стиле ᨲ᩠ᨳ (кодируется как <U+1A32 HIGH TA, U+1A60 SAKOT, U+1A33 HIGH THA>) выглядит так, как будто это ᨲᩛ, кодируется как <U+1A32 HIGH TA, U+1A5B SIGN HIGH RATHA OR LOW PA>. Форма U+1A5B зависит от согласного, к которому он прикреплен.

Зависимая гласная таких слов, как ᨯᩬᨠ 'цветок', кодируется специальной гласной <U+1A6C ЗНАК OA НИЖЕ>; не следует использовать последовательность <U+1A60 SAKOT, U+1A4B БУКВА A>. Также есть закодированная зависимая гласная для таких слов, как Tai Khuen, Tai Lue и лаосских слов, таких как ᨶ᩶ᩭ , а именно U+1A6D ЗНАК OY. Эта гласная не кодируется как <U+1A60 SAKOT, U+1A3F LOW YA> (что используется в северном тайском языке для соответствующих слов; и это не последовательность <U+1A60 SAKOT, U+1A40 HIGH YA> ^[1]^{: Раздел 5}

Другие согласные

Ниггахита и надстрочный индекс nga в начале кластера кодируются как U+1A74 MAI KANG и U+1A58 MAI KANG LAI. Надстрочный индекс WA отдельно не кодируется. Он закодирован как MAI KANG. Например, Тай Хуэн ᨯ᩠ᨿᩴ ( IPA: [deu] ) кодируется как <U+1A2, DA, U+1A60 SAKOT, U+1A3F LOW YA, U+1A74 MAI KANG>.

Выбор кодировки надстрочной формы RA и гасителей гласных был сложным. В 1940-х годах Tai Khuen писали согласный и гаситель гласных одинаково. Предложители кодировки навели справки и получили ответ, что глифы остались прежними, и поэтому закодировали их как U+1A7A RA HAAM. Затем стало известно, что Tai Khuen изменили глифы гасителя гласных, и для стиля Tai Khuen гасителя гласных был добавлен новый символ U+1A7C KARAN. Некоторые северотайские писатели предпочитают использовать U+1A7C в качестве гасителя гласных, и действительно, использование этого глифа не является чем-то неизвестным в северотайском рукописном письме.

Специальные согласные

Специальные формы ᩓ и ᩕ кодируются кодовыми точками U+1A53 и U+1A55 соответственно.

Если бы глифы U+1A36 NA и U+1A63 SIGN AA стояли рядом, они бы записывались как лигатура ᨶᩣ, а не как два отдельных глифа ᨶ‌ᩣ . Они бы писались как лигатура, даже если бы к NA была прикреплена подстрочная согласная или неследующий знак. Примеры: ᨾᨶ᩠ᨲᩣ ( IPA: [man taː] , кодировка <U+1A3E MA, U+1A36 NA, U+1A60 SAKOT, U+1A32 HIGH TA, U+1A63 SIGN AA>) и ᨶᩮᩢᩣ ( IPA: [nau] , кодировка <U+1A36 NA, 1A6E ЗНАК E, U+1A62 MAI SAT, U+1A63 ЗНАК AA>). Индекс NA и SIGN AA не лигируют одинаково, например ᩉ᩠ᨶᩣ (( IPA: [naː] ), закодированный <U+1A49 HIGH HA, U+1A60 SAKOT, 1A36 NA, U+1A63 SIGN AA>)

Согласная близнеца ᩔ кодируется отдельно, потому что слово ᩅᩥᩈᩮ᩠ᩈ ( северотайское произношение: [wiseːt] , кодирующее <U+1A45 WA, U+1A65 SIGN I, U+1A48 HIGH SA, U+1A6E SIGN E, U+1A60 SAKOT, U+1A48 HIGH SA>) имеет внешний вид, сильно отличающийся от ᩅᩥᩔᩮ , но можно иметь случай сложить последний слог в <HIGH SA, SAKOT, HIGH SA, SIGN E>. Действительно, в 2019–2020 годах проводилась кампания по установлению последнего в качестве стандартного написания.

Напротив, близнецовый согласный ᨬ᩠ᨬ кодируется как конъюнкт <U+1A2C NYA, U+1A60 SAKOT, U+1A2C NYA>, хотя некоторые из его глифов могут напоминать гипотетический конъюнкт ᨱ᩠ᨬ <U+1A31 RANA, U+1A60 SAKOT, U+1A2C NYA>.

Независимые гласные

Независимая гласная ᩋ и согласная ᩋ — это один и тот же символ, U+1A4B.

Независимая гласная ᩋᩣ и последовательность согласной ᩋ и зависимой гласной ᩣ имеют одинаковый вид ᩋᩣ и поэтому обе кодируются <U+1A20 БУКВА A, U+1A63 ЗНАК AA>.

В северном тайском языке используется 5 независимых гласных со своими собственными кодовыми точками, а именно ᩍ , ᩎ , ᩏ , ᩐ и ᩑ . ^[1]^{: Раздел 3}

В северном тайском языке 8-й независимый гласный ничем не отличается от последовательности согласного ᩋ и зависимого гласного ᩰ , т.е. ᩋᩰ , и поэтому они оба кодируются <U+1A4B БУКВА A, U+1A70 ЗНАК OO>. В других языках для независимого гласного используется отдельный символ ᩒ U+1A52 БУКВА OO.

Порядок символов в тексте

Предложение по кодированию ^[1] определило порядок символов Unicode.

Подобно способу письма в бирманском, кхмерском и индийском языках, символы Unicode упорядочены в соответствии с порядком звуков, за исключением особых случаев ^[7] или если 2 звука объединяются в один звук, и тогда используется старый порядок. Этот порядок обычно такой же, как в сиамском языке. Если звук не имеет порядка, то используется визуальный порядок или специальный альтернативный порядок.

Существуют особые правила для:

(а) Порядок гласных

(б) Написание май киа во всех его вариантах

(c) Написание май куа во всех его вариантах

(d) Написание май кам

(e) Написание тоновых знаков

Порядок символов Unicode для согласных и гласных следующий: начальные буквы, истинные знаки гласных, кодовые согласные, начальные буквы, истинные знаки гласных, кодовые согласные. ^[1]^{: Раздел 14} Для удобства считается, что символы, уничтожающие гласные, являются гласными.

«Буквы начала» — это согласные, независимые гласные или специальные символы. Согласные в группе располагаются в соответствии с порядком, в котором они звучат или использовались для звучания.

Пример: ᨻᩩᨴ᩠ᨵ ( Северотайское произношение: [put thaʔ] )

начальная буква: ᨻ

чистая гласная: ᩩ

конечный «согласный»: ᨴ

начальная буква: ᨵ

чистая гласная: без символа

конечный согласный: нет

Кодировка: <U+1A3B LOW PA, U+1A69 SIGN U, U+1A34 LOW TA, U+1A60 SAKOT, U+1A35 LOW THA>

Пример: ᨻᩕ имеет один согласный звук Северное тайское произношение: [pʰ] , но раньше имело 2 звука, а именно ᨻ и затем ᩁ, как в центральном тайском. Это слово кодируется как <LOW PA, MEDIAL RA>.

За исключением MEDIAL RA, порядок согласных знаков такой же, как и порядок звуков. В большинстве случаев MEDIAL RA является последним согласным, но WA из /ua/ и LOW YA из /ia/ следуют за MEDIAL RA.

Примеры:

ᩆᩣᩈ᩠ᨲᩕ᩺ кодируется <U+1A46 HIGH SHA, U+1A63 SIGN AA, U+1A48 HIGH SA, U+1A60 SAKOT, U+1A32 HIGH TA, U+1A55 MEDIAL RA, U+1A7A RA HAAM>.

ᨠᩕᩈᩢ᩠ᨲ кодируется <U+1A20 HIGH KA, U+1A55 MEDIAL RA, U+1A48 HIGH SA, U+1A62 MAI SAT, U+1A60 SAKOT, U+1A32 HIGH TA>.

ᩈᩕ᩠ᩅᨾ кодируется <U+1A48 HIGH SA, U+1A55 MEDIAL RA, U+1A60 SAKOT, U+1A45 WA, U+1A3E MA>.

Но ᨲᩕ᩠ᨶᩬᨾ ( северно-тайское произношение: [tʰa nɔːm] ) ^[5]^{: 269} закодировано <U+1A32 HIGH TA, U+1A55 MEDIAL RA, U+1A60 SAKOT, U+1A36 NA, U+1A6C SIGN OA НИЖЕ, U+1A3E МА>

Для таких слов, как ᨧᩮᩢ᩶ᩣ, существует правило, согласно которому символы для гласных и тонов имеют следующий порядок: ^[1]^{: Раздел 5, первая часть, 5.3 и 13}

(1) ведущие гласные

(2) гласные внизу (сверху вниз)

(3) гласные сверху (снизу вверх)

(4) тоновые знаки (слева направо)

(5) конечные гласные (слева направо)

При применении этих правил MAI KANG считается гласной, даже если она функционирует как ниггахита или как согласная. Символ Unicode MAI SAT считается гласной, даже если она функционирует как согласная, т. е. как mai kak, т. е. как конечная согласная или функционирует как укорачиватель гласных, как в ᨸᩮᩢ᩠ᨯ .

Относительный порядок знаков сверху и снизу должен соответствовать тайскому и лаосскому языкам, как в เจ้า เกี่ว ชุํ и ບິ່ .

Примеры:

ᨧᩮᩢ᩶ᩣ кодируется как <U+1A27 HIGH CA, U+1A6E SIGN E, U+1A62 MAI SAT, U+1A76 TONE-2, U+1A63 SIGN AA>^[1]^{: Раздел 5 № 29}

ᨾᩢᩣ ( IPA: [maːk] ) кодируется как <U+1A3E MA, U+1A62 MAI SAT, U+1A63 SIGN AA>

ᩃᩪᩢ ( IPA: [luːk] ) кодируется как <U+1A43 LA, U+1A6A SIGN UU, U+1A62 MAI SAT>

ᨶᩮᩢᩣ кодируется как <U+1A36 NA, U+1A6E ЗНАК E, U+1A62 MAI SAT, U+1A63 ЗНАК AA>

ᩋᩫᨶ᩠ᨲᩕᩣ᩠ᨿ ( северно-тайское произношение: [on thaʔ laːi] ) кодируется как <U+1A4B БУКВА A, U+1A6B ЗНАК O, U+1A36 NA, U+1A60 SAKOT, U+1A32 HIGH TA, U+1A55 МЕДИАЛЬНАЯ РА, U+1A63 ЗНАК АА, U+1A60 САКОТ, U+1A3F НИЗКИЙ Я>

Для /ia/ и /ua/ во всех их формах нижние индексы YA и WA считаются согласными начала. ^[1]^{: Раздел 14.3} .

Примеры:

ᩈ᩠ᨿᩮ на самом деле кодируется <U+1A48 HIGH SA, U+1A60 SAKOT, U+1A3F LOW YA, U+1A6E SIGN E>^[1]^{: Раздел 5 № 33}

ᨸᩖ᩠ᨿ᩵ᩁ на самом деле кодируется <U+1A38 HIGH PA, U+1A56 MEDIAL LA, U+1A60 SAKOT, U+1A3F LOW YA, U+1A75 TONE-1, U+1A41 RA>^[1]^{: Раздел 14.9}

ᨲ᩠ᩅᩫ на самом деле кодируется <U+1A32 HIGH TA, U+1A60 SAKOT, U+1A45 WA, U+1A6B SIGN O>^[1]^{: Раздел 14.3}

ᩈ᩠ᩅ᩵ᩁ на самом деле кодируется <U+1A48 HIGH SA, U+1A60 SAKOT, U+1A45 WA, U+1A75 TONE-1, U+1A41 RA>

ᨠᩖ᩠ᩅ᩠᩶ᨿ на самом деле кодируется как <U+1A20 KA, U+1A56 MEDIAL LA, U+1A60 SAKOT, U+1A45 WA, U+1A60 SAKOT, U+1A76 TONE-2, U+1A3F LOW YA>

(<U+1A60, U+1A76> канонически эквивалентно <U+1A76, U+1A60>)

За пределами Северного Таиланда MAI KANG в символе для /am/ пишется на компоненте SIGN AA. В Северном Таиланде он располагается по-разному — на согласной, на SIGN AA и между ними. Консорциум Unicode отказался от специального символа для этой комбинации. Слово ᨷᩴ᩠᩵ᨾᩣ ({{IPA|nod|bɔːmaː|IPA) не должно иметь ту же гласную, что и ᨲ᩵ᩣᩴ ( IPA: [tam] ). Поэтому комбинация для /am/ кодируется как <U+1A63 SIGN AA, U+1A74 MAI KANG>. Слово ᨷᩴ᩠᩵ᨾᩣ кодируется как <U+1A37 BA, U+1A74 MAI KANG, U+1A75 TONE-1, U+1A60 SAKOT, U+1A3E MA, U+1A63 SIGN AA>. Слово ᨲ᩵ᩣᩴ кодируется как <U+1A32 HIGH TA, U+1A75 TONE-1, U+1A63 SIGN AA, U+1A74 MAI KANG>. Сочетание для /am/ с SIGN TALL AA кодируется как <U+1A64 SIGN TALL AA, U+1A74 MAI KANG>.

U+1A5A SIGN LOW PA — особый случай; тайкуэнское слово ᨣᨽᩚ ( IPA: [kap phaʔ] ) кодируется как <U+1A23 LOW KA, U+1A3D LOW PHA, U+1A5A SIGN LOW PA>. ^[1]^{: Раздел 4}

Примеры, показывающие май кан лай и ла тан лай:

Палийское слово ᩈᩘᨥᩮᩣ (сангхо) кодируется <U+1A48 SA, U+1A58 MAI KANG LAI, U+1A25 LOW KHA, U+1A6E SIGN E, U+1A63 SIGN AA>.

«ᨴᩘ᩠ᩃᩣ᩠ᨿ» ( северно-тайское произношение: [taŋ laːi] ) кодируется <U+1A34 LOW TA, U+1A58 MAI KANG LAI, U+1A60 SAKOT, U+1A43 LA, U+1A63 SIGN AA, U+1A60 SAKOT, U+1A3F НИЗКИЙ YA>.

Слово Тай Лю ᨴᩢᩗᩣ ( произношение Тай Лю: [taŋ laːi] ) кодируется <U+1A34 LOW TA, U+1A62 MAI SAT, U+1A57 LA TANG LAI, U+1A63 SIGN AA>.

Ссылки

^ abcdefghijklmnopq Эверсон, Майкл ; Хоскен, Мартин; Констебль, Питер (21 марта 2007 г.). «Пересмотренное предложение по кодированию письма Ланна в BMP UCS» (PDF) . Unicode .
^ Khotsimeuang, Veomany. "Tai Lue: Complex Orthographic Rules: Graphic Blends(I)". SEAsite . Получено 10 июня 2018 г.
^ ab Hosken, Martin (28 января 2008 г.). "Tai Tham Subjoined Variants" (PDF) . Unicode .
^ "Отчет о специальном совещании Tai Tham (WG2 N3379)" (PDF) . Unicode . 22 января 2008 г.
^ ab Rungruengsi, Удом (январь 2004 г.). Ланна-тайский словарь: Maefahluang Edition Источник: ฉบับแม่ฟ้าหลวง(на тайском языке). Чиангмай: Университет Чиангмая. ISBN 974-685-175-6.
^ Читается как COENG, т.е. U+17D2 КХМЕРСКИЙ ЗНАК COENG
^ "Модель кодирования для ланна похожа на модель для мьянманского и кхмерского языков, используя символ типа CEONG ^[6] и некоторые сочетания медиальных согласных символов." ^[1]^{: Раздел 14}

[N3207R-1] q Эверсон, Майкл ; Хоскен, Мартин; Констебль, Питер (21 марта 2007 г.). «Пересмотренное предложение по кодированию письма Ланна в BMP UCS» (PDF) . Unicode .

[blends-2] Khotsimeuang, Veomany. "Tai Lue: Complex Orthographic Rules: Graphic Blends(I)". SEAsite . Получено 10 июня 2018 г.

[N3384-3] Hosken, Martin (28 января 2008 г.). "Tai Tham Subjoined Variants" (PDF) . Unicode .

[N3379-4] "Отчет о специальном совещании Tai Tham (WG2 N3379)" (PDF) . Unicode . 22 января 2008 г.

[MFL-5] Rungruengsi, Удом (январь 2004 г.). Ланна-тайский словарь: Maefahluang Edition Источник: ฉบับแม่ฟ้าหลวง(на тайском языке). Чиангмай: Университет Чиангмая. ISBN 974-685-175-6.

[6] Читается как COENG, т.е. U+17D2 КХМЕРСКИЙ ЗНАК COENG

[aside-7] "Модель кодирования для ланна похожа на модель для мьянманского и кхмерского языков, используя символ типа CEONG ^[6] и некоторые сочетания медиальных согласных символов." ^[1]^{: Раздел 14}