В лингвистике и педагогике подстрочный перевод — это подстрочный перевод (серия кратких пояснений, таких как определения или произношения), помещаемый между строками, например, между строкой исходного текста и его переводом на другой язык . При подстрочном переводе каждая строка исходного текста приобретает одну или несколько соответствующих строк транскрипции, известных как подстрочный текст или подстрочный текст с подстрочной глоссой ( IGT ) — сокращенно подстрочный перевод. Такие подстрочные переводы помогают читателю проследить связь между исходным текстом и его переводом, а также структуру исходного языка. В своей простейшей форме подстрочный перевод — это буквальный, слово в слово перевод исходного текста .
Межстрочные глоссы использовались для различных целей в течение длительного периода времени. Одним из распространенных применений было аннотирование двуязычных учебников для языкового образования. Этот вид межстрочной интерпретации помогает сделать значение исходного текста явным, не пытаясь формально моделировать структурные характеристики исходного языка.
Такие аннотации иногда выражались не через межстрочную компоновку, а скорее через перечисление слов в объектном и метаязыке. Одним из таких примеров является аннотация Вильгельма фон Гумбольдта к классическому науатлю : [1]
1
ни-
1
ich
2
с-
3
маше
3
чихуэй
2
эс
4
-лия
4
шерсть
5
в
5
дер
6
нет-
6
мой
7
пилтзин
7
Сон
8
се
8
эйн
9
калли
9
Хаус
1 2 3 4 5 6 7 8 9
ni- c- chihui -lia in no- piltzin ce calli
1 3 2 4 5 6 7 8 9
Ich mache es für der mein Sohn ein Haus
Этот «встроенный» стиль позволяет включать примеры в поток текста, а также записывать порядок слов целевого языка в порядке, который приближается к синтаксису целевого языка. (В данном толковании mache es переупорядочен из соответствующего исходного порядка, чтобы более естественно приблизиться к немецкому синтаксису.) Тем не менее, этот подход требует от читателей «переупорядочить» соответствия между исходными и целевыми формами.
Более современные подходы 19-го и 20-го веков взяли за основу вертикальную глоссацию, выравнивая тот же самый вид пословного содержания таким образом, что термины метаязыка располагались вертикально под терминами исходного языка. В этом стиле данный пример можно было бы передать так (здесь английская глоссация):
ни-
я
с-
это
чихуэй
делать
-лия
для
в
к-к
нет-
мой
пилтзин
сын
се
а
калли
дом
ni- c- chihui -lia in no- piltzin ce calli
Я сделаю для своего сына дом.
«Я построил своему сыну дом».
Здесь порядок слов определяется синтаксисом объектного языка.
Наконец, современные лингвисты переняли практику использования сокращенных грамматических категорийных меток. Публикация 2008 года, которая повторяет этот пример, маркирует его следующим образом: [2]
ни-к-чихуэй-ля
1SG . SUBJ - 3SG . OBJ -mach- APPL
в
ДЭТ
нет-пилтзин
1SG . POSS -Sohn
се
эйн
калли
Хаус
ni-c-chihui-lia в no-piltzin ce calli
1SG.SUBJ-3SG.OBJ-mach-APPL DET 1SG.POSS-Sohn ein Haus
Этот подход более плотный и также требует усилий для чтения, но он в меньшей степени зависит от грамматической структуры метаязыка для выражения семантики целевых форм.
В вычислительной технике в блоке Specials Unicode предусмотрены специальные текстовые маркеры для обозначения начала и конца подстрочных толкований.
Хотя формальной спецификации формата IGT не существует, Лейпцигские правила глоссирования [3] представляют собой набор рекомендаций, направленных на максимальную стандартизацию формата.
Подстрочный текст по лингвистике обычно состоит из некоторых или всех из следующих элементов, обычно в следующем порядке сверху вниз:
и наконец
В качестве примера приведем следующее предложение на тайваньском языке Миньнань , транскрибированное пятью строками текста:
(1.)
(2.)
(3.)
(4.)
гоа
гоа 1
гоа 2
я
iáu-boē
иау 1 -боэ 3
иау 2 -боэ 7
еще нет
коат-тенг
коат 2 -тенг 3
коат 4 -тенг 7
решать
тан-си
тан 7 -си 5
тан 1 -си 5
когда
боэх
боэ 2
боэ 4
хотеть
тнг-кхи
тнг 1 -хи 3 .
тнг 2 -хи 3 .
возвращаться.
(1.) goá iáu-boē koat-tēng tang-sî boeh tńg-khì
(2.) гоа1 иау1-боэ3 коат2-тенг3 тан7-си5 боэ2 тнг1-хи3.
(3.) гоа2 иау2-боэ7 коат4-тенг7 тан1-си5 боэх4 тнг2-хи3.
(4.) Я еще не решил, когда хочу вернуться.
(5.) «Я еще не решил, когда вернусь».
Пословное выравнивание . Согласно правилам Лейпцигского глоссирования, принято выравнивать по левому краю слова в объектном языке с соответствующими словами в метаязыке; это выравнивание можно увидеть между строками (1-3) и строкой (4).
Соответствие морфема-за-морфемой . На уровне подслов сегментируемые морфемы разделяются дефисами, как в примере, так и в глоссе. В примере и в глоссе должно быть одинаковое количество дефисов, как показано в следующем примере:
Гила
сейчас
ферма
ферма
хамишалууг
навсегда
güǧüna
позади
Гила абур-ун ферма хамишалу гуджюна амук-да-ч
теперь они-OBL-GEN фарм навсегда позади оставайтесь-FUT-NEG
«Теперь их ферма не останется навсегда».
Метки грамматических категорий . В amuqʼ-da-č основа ( amuq ) переводится в соответствующую английскую лексему ( stay ), а флективные аффиксы ( da ) и ( č ) являются флективными аффиксами, представляющими будущее время и отрицание. Эти флективные аффиксы записываются как FUT и NEG ; список стандартных сокращений для грамматических категорий, которые широко используются в лингвистике, можно найти в Правилах глоссирования Лейпцига.
Соответствия один-ко-многим . Когда один элемент объектного языка соответствует нескольким элементам метаязыка, они разделяются точками. [3] Например,
Неявные элементы . Если морфемно-морфемный глосс (средняя строка) содержит элемент, который не соответствует явному элементу в примере, стандартная стратегия заключается в том, чтобы включить явный «ø» в текст на объектном языке [3] , который отделяется дефисом, как если бы явный элемент был:
Редупликация обрабатывается аналогично аффиксации, но с тильдой (вместо стандартного дефиса), которая соединяет копируемый элемент с основой: [3]
В межстрочных морфологических глоссах различные формы пунктуации разделяют глоссарии. Обычно слова выравниваются по своим глоссариям; внутри слов дефис используется, когда граница обозначена как в тексте, так и в его глоссарии, точка, когда граница появляется только в одном. То есть должно быть одинаковое количество слов, разделенных пробелами в тексте и его глоссарии, а также одинаковое количество дефисных морфем в слове и его глоссарии. Это базовая система, и ее можно применять универсально. Например:
турецкий
ода-дан хыз-ли чык-ты-м
комната-ABL скорость-COM go.out-PFV-1sg
комната-из-скорость-с go_out-совершенный-I
«Я быстро вышел из комнаты».
Подчеркивание может использоваться вместо точки, как в go_out- PFV , когда одно слово в исходном языке соответствует фразе в языке глоссирования, хотя точка все равно будет использоваться в других ситуациях, например, в греческом oikíais house. FEM.PL.DAT 'в дома'.
Однако иногда могут быть сделаны более тонкие различия. Например, клитики могут быть разделены двойным дефисом (или, для удобства набора, знаком равенства) вместо дефиса. Французский пример:
je⹀te⹀aime
Я⹀тебя⹀люблю
(Французский)
je⹀te⹀aime
Я⹀тебя⹀люблю
'Я тебя люблю.'
Аффиксы, нарушающие непрерывность ( инфиксы , циркумфиксы , трансфиксы и т. д.), можно выделять угловыми скобками, а дублирование — тильдами, а не дефисами:
сулат
писать
су~сулат
созерцательное настроение~написать
s ⟨um⟩ улат
⟨ триггер агента .прошлое⟩ запись
s ⟨um⟩ у~сулат
⟨триггер агента⟩ созерцательный~писать
сулат су~сулат s ⟨um⟩ улат s ⟨um⟩ u~сулат
написать созерцательное настроение~написать ⟨триггер агента .прошлое⟩ написать ⟨триггер агента⟩ созерцательное~написать
( Другие примеры см. в разделе «Аффикс ».)
Морфемы, которые нелегко разделить, например, умляут , можно обозначить обратной косой чертой вместо точки:
unser-n
наш- DAT . PL
Вэтер-н
отец\ PL - DAT . PL
(Немецкий)
unser-n Väter-n
наш-DAT.PL отец\PL-DAT.PL
«нашим отцам» (единственное число от Väter «отцы» — Vater )
Несколько других условностей, которые иногда встречаются, проиллюстрированы в Лейпцигских правилах глоссирования. [3]
Были предприняты усилия по оцифровке IGT для сотен языков мира. [5]
Онлайновая база данных подстрочных текстов (ODIN) — это база данных, содержащая более 200 000 примеров подстрочных толкований для более чем 1500 языков, извлеченных из научных лингвистических исследований. [6] База данных была создана в два этапа: автоматическое создание с последующей ручной коррекцией. Сам этап автоматического создания был завершен в три этапа:
На этапе ручной коррекции создатели базы данных вручную исправили границы межстрочных глосс, обнаруженных методом маркировки последовательностей на этапе 2 этапа автоматического построения. Затем создатели проверили названия языков и коды языков во втором и третьем проходе по данным соответственно.
Диапазон межлинейного блеска случаи | Количество языки | Количество примеры межстрочного глоссария | Процент от примеры межстрочного глоссария |
---|---|---|---|
>10,000 | 3 (1) | 36,691 (10,814) | 19.39 (6.88) |
1000-9999 | 37 (31) | 97,158 (81,218) | 51,34 (51,69) |
100-999 | 122 (139) | 40,260 (46,420) | 21.27 (29.55) |
10-99 | 326 (460) | 12,822 (15,560) | 6,78 (9,96) |
1-9 | 838 (862) | 2,313 (3,012) | 1,22 (1,92) |
Общий | 1326 (1493) | 189,244 (157,114) | 100 (100) |
Разработаны модели обработки естественного языка, использующие ресурсы межстрочного глоссария, такие как Онлайновая база данных межстрочного текста. [7] [8]
Например, были разработаны системы обработки естественного языка для автоматического создания межстрочных толкований.: [7]
ми-с
вы- GEN
хумукули
верблюд
элю-аб-ок'ек'-аси
мы. OBL - ERG . 1 . PL -steal- PRT
ану
быть. ОТРИЦАТЕЛЬНЫЙ
ми-с Чумукули элу-аб-ок'ек'-аси ану
вы-GEN верблюд мы.OBL-ERG.1.PL-украсть-PRT быть.NEG
«Мы не крали твоего верблюда».
Учитывая сегментированную морфемную строку (первая строка выше) и строку свободного перевода (третья строка выше), задача состоит в том, чтобы создать среднюю глоссированную строку, содержащую переводы основ (например, mi : you ) и метки грамматических категорий, соответствующие аффиксам (например, a : ERG.1.PL ). Для выполнения этой задачи использовались модели прогнозирования последовательности из Natural Language Processing. [7] Два фактора способствуют сложности этой задачи:
Некоторые искусственные языки, такие как Ифкуиль и Ложбан, имеют автоматизированные инструменты, которые (теоретически) всегда будут приводить к точному глоссингу из-за регуляризованной и логической природы этих языков. Вот примеры глоссингов Ифкуиля и Ложбана соответственно:
A'zvaţcaxüẓpöňḑeššaščëirktöňçogjahnói
S1 - «собака» - «то, что предположительно является X» - «огромный» - «как запланированный результат человеческих действий» - «какой-то или другой» - DDF - «как порошок или пыль» - «съеденный в качестве полдника» - «надежность источника неизвестна, а информация не поддается проверке» - «предположение/теория/гипотеза, которая может быть проверена/поддается проверке» - COU - POT
nnt
«Это может означать только одно...»
A'zvaţcaxüẓpöňḑeššaščëirktöňçogjahnói nnţ
S1-“dog”-‘what is inferred to be X’₁-‘huge’₁-‘as a planned result of human action’₁-‘some or other’₁-DDF-'as powder or dust’₁-‘eaten as afternoon snack’₁-‘trustworthiness of source unknown, and info not verifiable’₁-‘conjecture/theory/hypothesis that is testable/verifiable’₁-COU-POT "It can only mean one thing..."
Есть только одно объяснение; доказать это невозможно, и мое психическое состояние несколько затуманено, но это определенно было бы плохо сформированным слиянием той пары разных рукотворных огромных существ, которые кажутся собаками в виде пыли, поданной в качестве дневного перекуса где-то там у вас. О, и не цитируйте меня в этом.
ми
Я=х 1
люмчи
стирать
ле
ДЭТ
крека
рубашка=x 2
ле
ДЭТ
грасу
смазка=x 3
ле
ДЭТ
рирксе
река=x 4
mi lumci le creka le grasu le rirxe
I=x1 wash DET shirt=x2 DET grease=x3 DET river=x4
Я смываю жир с рубашки в реке.
Исследователи использовали межстрочные глоссы для получения морфологических парадигм объектного языка (т. е. языка, который глоссуется). Для автоматического создания морфологических парадигм из межстрочных глоссов исследователи создали таблицы для каждой основы в глоссе и (возможно, пустую) ячейку для каждой грамматической категории (например, ERG) в глоссе. Например, учитывая предложение с глоссом ниже: [7]
Вечер-ом
вечер- INS
в
в
журнал
магазин. АСС
Vecher-om ya pobeja-la v magazin
evening-INS 1.SG.NOM run-PFV.PST.SG.FEM in store.ACC
«Вечером я побежала в магазин».
Будет парадигма для ствола pobeja со слотами для PFV.PST.SG.FEM и PFV.PST.SG.MASC :
Слот | перегибание |
---|---|
ПФВ.ПСТ.СГ.ФЕМ | побежа-ла |
PFV.PST.SG.MASC | ? |
Слот для PFV.PST.SG.FEM будет заполнен (так как он наблюдался в данных межстрочного глосса), но слот для PFV.PST.SG.MASC будет пустым (предполагая, что никакой другой экземпляр межстрочного глосса не содержит pobeja, склоняемого для грамматической категории PFV.PST.SG.MASC ). Статистическая модель машинного обучения для морфологического склонения может быть использована для заполнения отсутствующих записей. [8] [9] [10] [11] [12]