Ссылка грамматики

Теория синтаксиса

Грамматика связей (LG) — это теория синтаксиса Дэви Темперли и Дэниела Слейтора , которая строит отношения между парами слов, а не конструирует составляющие в иерархии фразовой структуры . Грамматика связей похожа на грамматику зависимостей , но грамматика зависимостей включает отношение зависимости от головы, тогда как грамматика связей делает отношение зависимости от головы необязательным (связи не обязательно указывают направление). [1] Цветная многоплоскостная грамматика связей (CMLG) — это расширение LG, позволяющее устанавливать перекрестные отношения между парами слов. [2] Отношения между словами обозначаются типами связей , что делает грамматику связей тесно связанной с определенными категориальными грамматиками .

Например, в языке с субъектом-глаголом-объектом, таком как английский, глагол будет смотреть влево, чтобы сформировать связь субъекта, и вправо, чтобы сформировать связь объекта. Существительные будут смотреть вправо, чтобы завершить связь субъекта, или влево, чтобы завершить связь объекта.

В языке с субъектом-объектом-глаголом, таком как персидский , глагол будет смотреть влево, чтобы сформировать связь объекта, и более далеко влево, чтобы сформировать связь субъекта. Существительные будут смотреть вправо, чтобы сформировать связь субъекта и объекта.

Обзор

Грамматика связей соединяет слова в предложении связями, похожими по форме на катену . В отличие от катены или традиционной грамматики зависимостей , маркировка отношения «голова-зависимость» является необязательной для большинства языков, становясь обязательной только в языках со свободным порядком слов (таких как турецкий , [3] [ нужен лучший источник ] финский , венгерский ). То есть в английском языке отношение «подлежащее-глагол» «очевидно», в том смысле, что подлежащее почти всегда находится слева от глагола, и, таким образом, не требуется делать никаких конкретных указаний на зависимость. В случае инверсии «подлежащее-глагол» используется отдельный тип связи. Для языков со свободным порядком слов это больше не может иметь места, и связь между подлежащим и глаголом должна содержать явную направленную стрелку, чтобы указать, какое из двух слов является каким.

Грамматика связей также отличается от традиционных грамматик зависимостей тем, что допускает циклические отношения между словами. Так, например, могут быть связи, указывающие как на главный глагол предложения, так и на главный субъект предложения, а также на связь между субъектом и глаголом. Эти три связи, таким образом, образуют цикл (в данном случае треугольник). Циклы полезны для ограничения того, что в противном случае могло бы быть неоднозначными разборами; циклы помогают «сузить» набор допустимых разборов предложения.

Например, в синтаксическом анализе

 +---->Западная Вирджиния--->+  +--Wd--+-Ss-+--Pa--+ | | | |ЛЕВАЯ СТЕНА он быстро бегает

LEFT-WALL указывает на начало предложения или корневой узел. Направляющая связь WV (со стрелками) указывает на главный глагол предложения; это связь Wall-Verb. [4] Связь Wd (нарисованная здесь без стрелок) указывает на главное существительное (субъект) предложения. Тип связи Wd указывает и на то, что он соединяется со стеной (W), и на то, что предложение является повествовательным предложением (подтип со строчной буквой "d"). [5] Связь Ss указывает на связь субъекта и глагола; строчная буква "s" указывает на то, что субъект находится в единственном числе. [6] Обратите внимание, что связи WV, Wd и Ss образуют цикл. Связь Pa соединяет глагол с дополнением; строчная буква "a" указывает на то, что в данном случае это предикативное прилагательное . [7]

Алгоритм анализа

Синтаксический анализ выполняется по аналогии со сборкой пазла (представляющего разобранное предложение) из частей пазла (представляющих отдельные слова). [8] [9] Язык представлен посредством словаря или лексики , который состоит из слов и набора разрешенных «форм пазла», которые может иметь каждое слово. Форма обозначается «соединителем», который является связующим типом, и указателем направления + или -, указывающим вправо или влево. Так, например, переходный глагол может иметь соединители S- и O+, указывающие на то, что глагол может образовывать связь с субъектом (« S ») слева (« - ») и связь с объектом (« O ») справа (« + »). Аналогично, нарицательное существительное может иметь соединители D- и S+, указывающие на то, что оно может соединяться с детерминатором слева (« D- ») и выступать в качестве субъекта при соединении с глаголом справа (« S+ »). Затем процесс разбора заключается в определении того, что соединитель S+ может быть присоединен к соединителю S- , образуя связь " S " между двумя словами. Разбор завершается, когда все соединители будут подключены.

У данного слова могут быть десятки или даже сотни допустимых форм головоломок (называемых «дизъюнктами»): например, многие глаголы могут быть необязательно транзитивными, что делает соединитель O+ необязательным; такие глаголы могут также принимать адвербиальные модификаторы ( соединители E ), которые по своей сути являются необязательными. Более сложные глаголы могут иметь дополнительные соединители для косвенных объектов или для частиц или предлогов . Таким образом, часть синтаксического анализа также включает выбор одного единственного уникального дизъюнкта для слова; окончательный синтаксический анализ должен удовлетворять (соединять) все соединители для этого дизъюнкта. [10]

Зависимость

Соединители также могут включать индикаторы, зависящие от головки h и d . В этом случае, соединитель, содержащий индикатор головки, может подключаться только к соединителю, содержащему зависимый индикатор (или к соединителю без каких-либо индикаторов hd на нем). Когда используются эти индикаторы, ссылка украшается стрелками, указывающими направление ссылки. [9]

Недавнее расширение упрощает спецификацию соединителей для языков, которые имеют небольшие или не имеют ограничений на порядок слов, таких как литовский . Существуют также расширения, упрощающие поддержку языков с конкатенативной морфологией .

Плоскостность

Алгоритм анализа также требует, чтобы конечный граф был планарным , т. е. чтобы никакие связи не пересекались. [9] Это ограничение основано на эмпирических психолингвистических данных, что, действительно, для большинства языков, почти во всех ситуациях, связи зависимости действительно не пересекаются. [11] [12] Существуют редкие исключения, например, в финском языке и даже в английском; их можно проанализировать с помощью грамматики связей, только введя более сложные и избирательные типы соединителей для охвата этих ситуаций.

Стоимость и выбор

Коннекторы могут иметь необязательную плавающую разметку стоимости, так что некоторые из них «дешевле» в использовании, чем другие, таким образом отдавая предпочтение определенным разборам перед другими. [9] То есть, общая стоимость разбора представляет собой сумму индивидуальных затрат используемых соединителей; самый дешевый разбор указывает на наиболее вероятный разбор. Это используется для ранжирования разбора нескольких неоднозначных разборов. Тот факт, что затраты являются локальными для соединителей и не являются глобальным свойством алгоритма, делает их по сути марковскими по своей природе. [13] [14] [15] [16] [17] [18]

Назначение логарифмического правдоподобия связям позволяет грамматике связей реализовать семантический выбор отношений предикат-аргумент. То есть, некоторые конструкции, хотя и синтаксически допустимы, крайне маловероятны. Таким образом, грамматика связей воплощает некоторые идеи, представленные в грамматике операторов .

Поскольку затраты являются аддитивными, они ведут себя как логарифм вероятности (поскольку логарифмические правдоподобия аддитивны), или, что эквивалентно, как энтропия ( поскольку энтропии аддитивны). Это делает грамматику связей совместимой с методами машинного обучения, такими как скрытые марковские модели и алгоритм Витерби , поскольку затраты связей соответствуют весам связей в марковских сетях или байесовских сетях .

Теория типов

Типы связей грамматики связей можно понимать как типы в смысле теории типов . [9] [19] По сути, грамматика связей может использоваться для моделирования внутреннего языка некоторых (несимметричных) компактных замкнутых категорий , таких как предгрупповые грамматики . В этом смысле грамматика связей представляется изоморфной или гомоморфной некоторым категориальным грамматикам . Так, например, в категориальной грамматике существительное « плохой мальчик » может быть записано как

the НП/Н, плохой Н/Н, мальчик Н {\displaystyle {{\text{the}} \atop {\text{NP/N,}}}{{\text{bad}} \atop {\text{N/N,}}}{{\text{boy}} \atop {\text{N}}}}

тогда как соответствующие дизъюнкты в связной грамматике будут

: D+;плохо: A+;мальчик: D- и A-;

Правила сокращения (правила вывода) исчисления Ламбека можно сопоставить с соединением коннекторов в грамматике связей. Индикаторы направления + и - соответствуют прямым и обратным косым чертам категориальной грамматики. Наконец, однобуквенные имена A и D можно понимать как метки или "легко читаемые" мнемонические имена для довольно многословных типов NP/N и т. д.

Основное отличие здесь заключается в том, что категориальные грамматики имеют два конструктора типов , прямой и обратный слеш, которые могут использоваться для создания новых типов (таких как NP/N ) из базовых типов (таких как NP и N ). Связная грамматика не использует конструкторы типов, предпочитая вместо этого определять гораздо больший набор базовых типов, имеющих компактную, легко запоминающуюся мнемонику.

Примеры

Пример 1

Базовый файл правил для языка SVO может выглядеть так:

<определитель> D+;<существительное-субъект> {D−} & S+;<существительное-объект> {D−} & O−;<глагол> S− & {O+};

Таким образом, английское предложение «Мальчик нарисовал картину» будет выглядеть так:

 +-----О-----+ +-Д-+--С--+ +--Д--+ | | | | |Мальчик нарисовал картину

Аналогичные разборы применимы и к китайскому языку. [20]

Пример 2

И наоборот, файл правил для языка SOV с нулевым субъектом может состоять из следующих ссылок:

<существительное-субъект> S+;<существительное-объект> O+;<глагол> {O−} & {S−};

А простое персидское предложение man nAn xordam (من نان خوردم) «Я ел хлеб» будет выглядеть так: [21] [22] [23]

+-----С-----+ | +--О--+ | | |человек nAn xordam

Аналогичным образом можно использовать порядок VSO, например, для арабского языка. [24]

Пример 3 (морфология)

Во многих языках с конкатенативной морфологией основа не играет грамматической роли; грамматика определяется суффиксами. Так, в русском языке предложение 'вверху плыли редкие облачка' может иметь следующий разбор: [25] [26]

 +------------Wd-----------+---------------SIp----------------+ | +-------EI------+ +--------Api-------+ | | +--LLCZD-+ +-LLAQZ+ +--LLCAO-+ | | | | | | | |ЛЕВАЯ СТЕНА вверху.е плы.= =ли.vnndpp ре.= =дкие.api облачк.= =а.ndnpi

Подстрочные индексы, такие как '.vnndpp', используются для указания грамматической категории. Первичные связи: Wd, EI, SIp и Api соединяют вместе суффиксы, поскольку, в принципе, здесь могут появляться и другие основы, не изменяя структуру предложения. Связь Api указывает на прилагательное; SIp обозначает инверсию подлежащего и глагола; EI является модификатором. Связь Wd используется для указания главного существительного; главный глагол в этом предложении не указан. Связи LLXXX служат только для присоединения основ к суффиксам.

Пример 4 (фонология)

Связующая грамматика может также указывать на фонологическое согласование между соседними словами. Например:

 +---------Ост--------+ +------>ЗВ------>+ +------Дс**х-----+ +----Wd---+-Ss*b-+ +--PHv-+----A----+ | | | | | |ЛЕВАЯ СТЕНА, которая.jp.является.абстрактной.концепцией.n

Здесь соединитель «PH» используется для ограничения определителей, которые могут появляться перед словом «abstract». Он эффективно блокирует (делает затратным) использование определителя «a» в этом предложении, в то время как ссылка на «an» становится дешевой. Другие ссылки примерно такие же, как в предыдущих примерах: S обозначает подлежащее, O обозначает объект, D обозначает определитель. Ссылка «WV» указывает на главный глагол, а ссылка «W» указывает на главное существительное. Строчные буквы, следующие за типами ссылок с заглавными буквами, служат для уточнения типа; так, например, Ds может соединяться только с существительным в единственном числе; Ss только с подлежащим в единственном числе, Os с объектом в единственном числе. Строчная v в PHv обозначает «гласный»; строчная d в Wd обозначает повествовательное предложение.

Пример 5 (вьетнамский)

Предложение на вьетнамском языке «Bữa tiệc hôm qua là một thành công lớn» — «Вчерашняя вечеринка имела большой успех» можно разобрать следующим образом: [27]

Реализации

Ссылка Анализатор грамматики
Разработчик(и)OpenCog
Первоначальный выпускОктябрь 1991 г .; 33 года назад [1] ( 1991-10 )
Стабильный релиз
5.8.1 / 8 января 2021 г. ; 3 года назад [28] ( 2021-01-08 )
Репозиторий
  • github.com/opencog/link-grammar
Написано вC++ ; изначально C
Операционная системаКроссплатформенный
ПлатформаГНУ
ТипНЛП
ЛицензияLGPLv2
Веб-сайтwww.abisource.com/projects/link-grammar/

Синтаксический анализатор грамматики ссылок — это библиотека для обработки естественного языка , написанная на языке C. Она доступна по лицензии LGPL . Анализатор [29] — это текущий проект. Последние версии включают улучшенное покрытие предложений, поддержку русского, персидского и арабского языков, прототипы для немецкого, иврита, литовского, вьетнамского и турецкого языков, а также программные API для Python , Java , Common LISP , AutoIt и OCaml , со сторонними привязками для Perl , [30] Ruby [31] и JavaScript node.js. [32 ]

Текущим крупным начинанием является проект по изучению грамматики и морфологии новых языков с использованием алгоритмов неконтролируемого обучения. [33] [34]

Программа -анализатор ссылок вместе с правилами и списками слов для английского языка может быть найдена в стандартных дистрибутивах Linux , например, в пакете Debian , хотя многие из них устарели на несколько лет. [35]

Приложения

AbiWord проверяет грамматику, используя грамматику ссылок

AbiWord , [29] бесплатный текстовый процессор , использует грамматику ссылок для проверки грамматики на лету. Слова, которые не могут быть связаны нигде, подчеркнуты зеленым .

Семантический экстрактор отношений RelEx [36] , наложенный поверх библиотеки грамматики связей, генерирует вывод грамматики зависимости , делая явными семантические отношения между словами в предложении. Его вывод можно классифицировать как находящийся на уровне между SSyntR и DSyntR теории смысла-текста . Он также обеспечивает кадрирование/обоснование, разрешение анафоры , идентификацию заглавных слов, лексическую фрагментацию , идентификацию частей речи и тегирование, включая теги сущности, даты, денег, пола и т. д. Он включает режим совместимости для генерации вывода зависимости, совместимого с парсером Стэнфорда [37] и совместимым с Penn Treebank [38] тегированием POS .

Грамматика связей также использовалась для извлечения информации из биомедицинских текстов [39] [40] и событий, описанных в новостных статьях, [41] а также в экспериментальных системах машинного перевода с английского на немецкий, турецкий, индонезийский [42] и персидский языки . [43] [44]

Словарь ссылок грамматики используется для генерации и проверки синтаксической правильности трех различных систем генерации естественного языка : NLGen, [45] NLGen2 [46] и microplanner/surreal. [47] Он также используется как часть конвейера обработки естественного языка в проекте OpenCog AI.

Примечания

  1. ^ ab Daniel Sleator (8 сентября 2004 г.). "Link Grammar Bibliography". cmu.edu . Получено 28.08.2023 .
  2. ^ Ансси Юли-Юря и Матти Нюкянен (2004). "Иерархия грамматик зависимостей с умеренной степенью контекстной чувствительности" (PDF) . В GP Герхард Йегер, Паола Монакези и С. Винтнер (ред.). Труды 9-й конференции по формальной грамматике 2004 "FGNancy". Предварительные труды . стр. 151–165.
  3. ^ Özlem İstek (2006). A Link Grammar for Turkish (PDF) (магистерская диссертация). Анкара, Турция: Университет Билькент . Получено 23.08.2023 .
  4. ^ Тип ссылки WV
  5. ^ Тип связи W
  6. ^ Тип связи S
  7. ^ Тип связи P
  8. ^ Дэниел Д.К. Слейтор; Дэви Темперли (1991). «Анализ английского языка с помощью грамматики связей». arXiv : cmp-lg/9508004 .
  9. ^ abcde Введение в анализатор грамматики ссылок
  10. ^ Деннис Гринберг; Джон Лафферти; Дэниел Слейтор (1995). Надежный алгоритм синтаксического анализа для грамматики связей (PDF) . Труды Четвертого международного семинара по технологиям синтаксического анализа, Прага . Получено 28.08.2023 .
  11. ^ J. Havelka (2007). Beyond projectivity: multilingual evaluation of constraints and measures on non-projective structures . Труды 45-го ежегодного собрания Ассоциации компьютерной лингвистики. Прага, Чешская Республика: Ассоциация компьютерной лингвистики. С. 608–615.
  12. ^ Р. Феррер и Канчо (2006). «Почему синтаксические связи не пересекаются?». EPL . 76 (6): 1228–1234. Bibcode : 2006EL.....76.1228C. doi : 10.1209/epl/i2006-10406-0. hdl : 2117/180367 .
  13. ^ Джон Лафферти; Дэниел Слейтор; Дэйви Темперли (1992). Грамматические триграммы: вероятностная модель грамматики связей (PDF) . Труды конференции AAAI по вероятностным подходам к естественному языку.
  14. ^ _ Рамон Феррер-и-Канчо (2013). «Хьюбинность, длина, пересечения и их отношения в деревьях зависимостей». arXiv : 1304.4086 [cs.CL].
  15. ^ D. Temperley (2008). «Минимизация длины зависимости в естественных и искусственных языках». Журнал количественной лингвистики . 15 (3): 256–282. doi :10.1080/09296170802159512.
  16. ^ E. Gibson (2000). «Теория локальности зависимости: теория лингвистической сложности, основанная на расстоянии». В Marantz, A.; Miyashita, Y.; O'Neil, W. (ред.). Image, Language, Brain: Papers from the first Mind Articulation Project Symposium . Cambridge, MA: MIT Press.
  17. ^ Хайтао Лю (2008). «Расстояние зависимости как показатель трудности понимания языка» (PDF) . Журнал когнитивной науки . 9 (2): 159–191. doi :10.17791/jcs.2008.9.2.159.
  18. ^ Ричард Футрелл; Кайл Маховальд; Эдвард Гибсон (2015). «Масштабное доказательство минимизации длины зависимости в 37 языках». PNAS . 112 (33): 10336–10341. Bibcode :2015PNAS..11210336F. doi : 10.1073/pnas.1502134112 . PMC 4547262 . PMID  26240370. 
  19. ^ Дэниел Слейтор; Дэйви Темперли (1993). Анализ английского языка с помощью грамматики связей (PDF) . Третий международный семинар по технологиям анализа.(См. раздел 6 о категориальной грамматике).
  20. ^ Кэрол Лю (2001). «На пути к связной грамматике китайского языка». Компьютерная обработка китайских и восточных языков . Китайское языковое компьютерное общество.
  21. ^ Джон Дехдари; Дерайл Лонсдейл (2005). "A Link Grammar for Persian" (PDF) . Ohio-state.edu . Архивировано из оригинала (PDF) 2008-12-03.
  22. ^ Армин Саджади; А. Абдоллазаде (2006). «Синтаксический анализ фарси с использованием связной грамматики» (PDF) . Письмо Исследовательского центра интеллектуальной обработки сигналов (на персидском языке). 1 (9): 25–37. Архивировано из оригинала (PDF) 2014-04-01.
  23. ^ A. Sajadi; M. Homayounpour (2006). «Представление фарси морфологических знаний с использованием грамматики связей». Письмо Исследовательского центра интеллектуальной обработки сигналов (на персидском языке). 1 (9): 41–55.
  24. ^ Уоррен Касбир; Джон Дехдари; Дерайл Лонсдейл (март 2006 г.). Анализатор грамматики ссылок для арабского языка (PDF) . Перспективы арабской лингвистики: доклады ежегодного симпозиума по арабской лингвистике. Том XX. Каламазу, Мичиган. Архивировано из оригинала (PDF) 2014-05-12.
  25. ^ Доступна документация по связям и классам слов.
  26. ^ Грамматика связей (Грамматика ссылок)
  27. ^ Нгуен Тху Тху Хонг, Нгуен Тхук Хои, Нгуен Тхань Тхи «Сложный анализ - сложные предложения с расширением вьетнамского анализатора ссылок в сочетании с сегментатором дискурса» Журнал компьютерных наук и кибернетики , Том 28 , № 4 (2012)
  28. ^ www.abisource.com/downloads/link-grammar/
  29. ^ Lingua-LinkParser (интерфейсы Perl)
  30. ^ "Интерфейсы Ruby Link Parser". Архивировано из оригинала 2016-03-04 . Получено 2019-02-01 .
  31. ^ Библиотека javaScript node.js
  32. ^ Изучение языка OpenCog
  33. ^ Изучение языка по большому (неаннотированному) корпусу
  34. ^ Debian - Результаты поиска пакетов - link-grammar
  35. ^ "RelEx Dependency Relationship Extractor". Архивировано из оригинала 2009-07-28 . Получено 2013-11-21 .
  36. ^ Стэнфордский парсер: статистический парсер
  37. ^ Проект Penn Treebank. Архивировано 09.11.2013 на Wayback Machine.
  38. ^ Jing Ding; Daniel Berleant; Jun Xu; Andy W. Fulmer (ноябрь 2003 г.). «Извлечение биохимических взаимодействий из MEDLINE с использованием анализатора грамматики ссылок» (PDF) . Труды пятнадцатой конференции IEEE по инструментам с искусственным интеллектом (ICTAI), 2003 г. стр. 467–471. ISBN 0-7695-2038-3. Архивировано из оригинала (PDF) 2011-03-31 . Получено 2023-08-27 .
  39. ^ Сампо Пьюсало, Тапио Салакоски, Софи Обин и Аделина Назаренко, «Лексическая адаптация грамматики связей к биомедицинскому подъязыку: сравнительная оценка трех подходов», BMC Bioinformatics 7 (Suppl 3):S2 (2006).
  40. ^ Харша В. Мадхьястха; Н. Балакришнан; К. Р. Рамакришнан (2003). «Извлечение информации о событиях с использованием грамматики связей». 13-й Международный семинар по вопросам исследований в области инженерии данных: многоязычное управление информацией (RIDE'03) . стр. 16. doi :10.1109/RIDE.2003.1249841.
  41. ^ Тегух Бхарата Аджи; Бахарум Бахарудин; Норшухани Замин (2008). «Применение формализма грамматики связей при разработке системы машинного перевода с английского на индонезийский». Интеллектуальная компьютерная математика, 9-я международная конференция, AISC 2008, 15-й симпозиум, Calculemus 2008, 7-я международная конференция, Бирмингем, Великобритания, Труды . стр. 17–23. doi :10.1007/978-3-540-85110-3_3.
  42. ^ A.Sajadi и MR Borujerdi, «Машинный перевод с использованием грамматики связей», представлено в журнале «Computational Linguistics» , MIT Press (февраль 2009 г.)
  43. ^ Саджади, А., Боруджерди, М. «Машинный перевод на основе унифицированной грамматики связей» Журнал обзора искусственного интеллекта . DOI=10.1007/s10462-011-9261-7, страницы 109–132, 2013.
  44. ^ Руитинг Лиан и др ., «Генерация предложений для искусственного мозга: подход на основе сопоставления глокальных сходств», Neurocomputing (Elsevier) (2009, подано для публикации).
  45. ^ Блейк Лемуан, NLGen2: Лингвистически правдоподобная, универсальная система генерации естественного языка (2009)
  46. ^ Микропланировщик и реализация поверхности (SuReal)
  • Первоначальная домашняя страница Link Grammar (которая была заменена текущим проектом).
    • Онлайн-демонстрация на английском языке (для старой, устаревшей версии; с момента появления этой версии было исправлено множество ошибок).
  • BioLG — модификация анализатора грамматики ссылок, адаптированная для биомедицинской области (многие, но не все, усовершенствования BioLG были возвращены в основной дистрибутив грамматики ссылок).
  • Разбор предложений с помощью Link Grammar и Python Джеффа Элмора на PyCon 2012

Расширения языка

  • Расширение арабской грамматики Link (исходный пакет)
  • Расширение грамматики персидского языка
  • Онлайн-демонстрация персидского языка
  • Демонстрация грамматики Russian Link
Взято с "https://en.wikipedia.org/w/index.php?title=Link_grammar&oldid=1231259300"