В компьютерной лингвистике термин « формализмы грамматики, в некоторой степени зависящие от контекста» относится к нескольким формализмам грамматики , которые были разработаны с целью обеспечить адекватное описание синтаксической структуры естественного языка .
Каждый умеренно контекстно-зависимый грамматический формализм определяет класс умеренно контекстно-зависимых грамматик (грамматик, которые могут быть определены в формализме), а следовательно, и класс умеренно контекстно-зависимых языков ( формальных языков, генерируемых грамматиками).
К 1985 году несколько исследователей в области описательной и математической лингвистики представили доказательства против гипотезы о том, что синтаксическая структура естественного языка может быть адекватно описана контекстно-свободными грамматиками . [1] [2] В то же время, шаг на следующий уровень иерархии Хомского , к контекстно-зависимым грамматикам , казался как ненужным, так и нежелательным. В попытке точно определить формальную мощность, необходимую для адекватного описания синтаксиса естественного языка, Аравинд Джоши охарактеризовал «грамматики (и связанные с ними языки ), которые лишь немного мощнее контекстно-свободных грамматик (контекстно-свободных языков)». [3] Он назвал эти грамматики умеренно контекстно-зависимыми грамматиками , а связанные с ними языки умеренно контекстно-зависимыми языками .
Характеристика Джоши умеренно контекстно-зависимых грамматик была смещена в сторону его работы над древовидной грамматикой (TAG). Однако вместе со своими учениками Виджаем Шанкером и Дэвидом Вейром Джоши вскоре обнаружил, что TAG эквивалентны, с точки зрения сгенерированных строковых языков, независимо введенной головной грамматике (HG). [4] За этим последовали два похожих результата эквивалентности для линейной индексированной грамматики (LIG) [5] и комбинаторной категориальной грамматики (CCG) [6] , которые показали, что понятие умеренной контекстно-зависимости является очень общим и не привязано к конкретному формализму.
TAG-эквивалентные формализмы были обобщены путем введения линейных контекстно-свободных систем переписывания (LCFRS). [7] [8] Эти грамматики определяют бесконечную иерархию строковых языков между контекстно-свободными и контекстно-зависимыми языками, с языками, генерируемыми TAG-эквивалентными формализмами в нижнем конце [ требуется разъяснение ] иерархии. Независимо от LCFRS и почти одновременно с ним Хироюки Секи и др. предложили по сути идентичный формализм множественной контекстно-свободной грамматики (MCFG). [9] LCFRS/MCFG иногда рассматривается как наиболее общий формализм для спецификации умеренно контекстно-зависимых грамматик. Однако несколько авторов отметили, что некоторые характерные свойства TAG-эквивалентных формализмов не сохраняются LCFRS/MCFG, [10] и что существуют языки, которые имеют характерные свойства умеренной контекстно-зависимости, но не генерируются LCFRS/MCFG. [11]
В последние годы возрос интерес к ограниченному классу хорошо вложенных линейных контекстно-свободных систем переписывания/множественных контекстно-свободных грамматик [10] [12] , которые определяют класс грамматик, который должным образом включает в себя эквивалентные TAG формализмы, но должным образом включен в неограниченную иерархию LCFRS/MCFG.
Несмотря на значительный объем работ по этой теме, общепринятого формального определения легкой чувствительности к контексту не существует.
Согласно первоначальной характеристике Джоши [3] , класс умеренно контекстно-зависимых грамматик должен обладать следующими свойствами:
В дополнение к этому, подразумевается, что каждый класс умеренно контекстно-зависимых грамматик должен быть способен генерировать все контекстно-свободные языки.
Характеристика Джоши не является формальным определением. Он отмечает: [3]
Это лишь грубая характеристика, поскольку условия 1 и 3 зависят от грамматик, а условие 2 — от языков; кроме того, условие 1 необходимо сформулировать гораздо точнее, чем я это делал до сих пор.
Другие авторы предложили альтернативные характеристики умеренной чувствительности к контексту, некоторые из которых принимают форму формальных определений. Например, Лора Каллмейер [13] придерживается точки зрения, что умеренность чувствительности к контексту следует определять как свойство классов языков, а не, как в характеристике Джоши, классов грамматик. Такое определение, основанное на языке, приводит к иному представлению о концепции, чем у Джоши.
Термин «кросс-сериальные зависимости» относится к определенным характерным моделям порядка слов, в частности к моделям глагол-аргумент, наблюдаемым в придаточных предложениях в голландском [1] и швейцарском немецком [2] . Это те самые модели, которые можно использовать для аргументации против контекстно-свободного характера естественного языка; таким образом, требование умеренно контекстно-зависимых грамматик для моделирования кросс-сериальных зависимостей означает, что эти грамматики должны быть более мощными, чем контекстно-свободные грамматики.
Каллмейер [13] отождествляет способность моделировать кросс-серийные зависимости с возможностью генерировать язык копирования
и его обобщения на две или более копий w , до некоторой границы. Эти языки не являются контекстно-свободными, что можно показать с помощью леммы о накачке .
Формальный язык имеет постоянный рост , если каждая строка в языке длиннее, чем следующие более короткие строки не более чем на константу (специфическую для языка). Языки, которые нарушают это свойство, часто считаются выходящими за рамки человеческих возможностей, хотя некоторые авторы утверждают, что определенные явления в естественном языке действительно показывают рост, который не может быть ограничен константой. [14]
Большинство умеренно контекстно-зависимых грамматических формализмов (в частности, LCFRS/MCFG) на самом деле удовлетворяют более сильному свойству, чем постоянный рост, называемому полулинейностью . [7] Язык является полулинейным, если его изображение при отображении Париха (отображении, которое «забывает» относительное положение символов в строке, фактически рассматривая ее как мешок слов) является регулярным языком . Все полулинейные языки имеют постоянный рост, но не каждый язык с постоянным ростом является полулинейным. [11]
Говорят, что грамматический формализм имеет полиномиальный синтаксический анализ , если его проблема членства может быть решена за детерминированное полиномиальное время . Это проблема, в которой нужно решить, имея грамматику G, записанную в формализме, и строку w , порождается ли w G – то есть является ли w «грамматическим» согласно G. Временная сложность этой проблемы измеряется в терминах объединенного размера G и w .
Согласно взгляду на умеренную чувствительность к контексту как свойство классов языков, полиномиальный синтаксический анализ относится к проблеме принадлежности языка. Это проблема определения для фиксированного языка L , принадлежит ли заданная строка w языку L. Временная сложность этой проблемы измеряется в терминах длины w ; она игнорирует вопрос о том, как задан L.
Обратите внимание, что оба понимания полиномиального синтаксического анализа являются идеализациями в том смысле, что для практических приложений интересен не только вопрос «да/нет» о том, является ли предложение грамматически правильным, но и синтаксическая структура, которую грамматика приписывает предложению.
За эти годы было введено большое количество грамматических формализмов, которые удовлетворяют некоторым или всем характерным свойствам, выдвинутым Джоши. Некоторые из них имеют альтернативные, основанные на автоматах характеристики, которые не обсуждаются в этой статье; например, языки, генерируемые древовидной грамматикой, могут быть охарактеризованы встроенными pushdown-автоматами .
Линейные контекстно-свободные системы переписывания/множественные контекстно-свободные грамматики образуют двумерную иерархию генеративной мощности относительно двух специфичных для грамматики параметров, называемых разветвлением и рангом . [22] Точнее, языки, генерируемые LCFRS/MCFG с разветвлением f ≥ 1 и рангом r ≥ 3, надлежащим образом включены в класс языков, генерируемых LCFRS/MCFG с рангом r + 1 и разветвлением f , а также в класс языков, генерируемых LCFRS/MCFG с рангом r и разветвлением f + 1. При наличии хорошей вложенности эта иерархия сворачивается до одномерной иерархии относительно разветвления; это потому, что каждый хорошо вложенный LCFRS/MCFG может быть преобразован в эквивалентный хорошо вложенный LCFRS/MCFG с тем же разветвлением и рангом 2. [10] [12] В иерархии LCFRS/MCFG контекстно-свободные языки могут быть охарактеризованы грамматиками с разветвлением 1; для этого разветвления нет разницы между общими и хорошо вложенными грамматиками. TAG-эквивалентные формализмы могут быть охарактеризованы как хорошо вложенные LCFRS/MCFG разветвления 2.