язык Дик

Язык, состоящий из сбалансированных строк скобок

В теории формальных языков информатики , математики и лингвистики слово Дика — это сбалансированная строка скобок. Набор слов Дика образует язык Дика . Самый простой, Дика-1, использует всего две парные скобки, например ( и ) .

Слова и язык Дайка названы в честь математика Вальтера фон Дайка . Они применяются в синтаксическом анализе выражений, которые должны иметь правильно вложенную последовательность скобок, таких как арифметические или алгебраические выражения.

Формальное определение

Пусть будет алфавитом, состоящим из символов [ и ]. Пусть обозначает его замыкание Клини . Язык Дика определяется как: $\Sigma =\{[,]\}$ $\Сигма ^{*}$

\{u\in \Sigma ^{*}\vert {\text{ все префиксы }}u{\text{ содержат не больше ]-х символов, чем ['s}}{\text{ и количество ['s в }}u{\text{ равно количеству ]-х символов}}\}.

Контекстно-свободная грамматика

В некоторых ситуациях может быть полезно определить язык Dyck через контекстно-свободную грамматику . Язык Dyck генерируется контекстно-свободной грамматикой с одним нетерминалом $S$ и продукцией:

С \to ε | "[" С "]" С

То есть S — это либо пустая строка ( $ε$ ), либо «[», элемент языка Dyck, соответствующий «]», и элемент языка Dyck.

Альтернативная контекстно-свободная грамматика для языка Дика задается следующей продукцией:

С \to ("[" С "]") *

То есть S представляет собой ноль или более вхождений комбинации «[», элемента языка Дика, и соответствующего «]», где несколько элементов языка Дика в правой части последовательности могут свободно отличаться друг от друга.

Альтернативное определение

В других контекстах может быть полезно определить язык Дика, разбив его на классы эквивалентности следующим образом. Для любого элемента длины мы определяем частичные функции и с помощью $\Сигма ^{*}$ $u\in \Сигма ^{*}$ $|u|$ $\operatorname {insert} :\Sigma ^{*}\times \mathbb {N} \rightarrow \Sigma ^{*}$ $\operatorname {delete} :\Sigma ^{*}\times \mathbb {N} \rightarrow \Sigma ^{*}$

\operatorname {вставить} (u,j)

с " " вставленным в th позицию

u

[]

j

\operatorname {удалить} (u,j)

с удаленным " " из th позиции

u

[]

j

с пониманием того, что не определено для и не определено, если . Мы определяем отношение эквивалентности на следующим образом: для элементов мы имеем тогда и только тогда, когда существует последовательность из нуля или более применений функций и , начинающаяся с и заканчивающаяся . То , что последовательность из нуля операций допустима, объясняет рефлексивность . Симметрия следует из наблюдения, что любая конечная последовательность применений к строке может быть отменена с помощью конечной последовательности применений . Транзитивность очевидна из определения. $\operatorname {вставить} (u,j)$ $j>|u|$ $\operatorname {удалить} (u,j)$ $j>|u|-2$ $R$ $\Сигма ^{*}$ $a,b\in \Сигма ^{*}$ $(a,b)\in R$ $\operatorname {вставить}$ $\operatorname {удалить}$ $а$ $б$ $R$ $\operatorname {вставить}$ $\operatorname {удалить}$

Отношение эквивалентности разбивает язык на классы эквивалентности. Если взять для обозначения пустой строки, то язык, соответствующий классу эквивалентности, называется языком Дика . $\Сигма ^{*}$ $\epsilon$ $\operatorname {Cl} (\epsilon )$

Обобщения

Типизированный язык Дайка

Существуют варианты языка Dyck с несколькими разделителями, например, Dyck-2 на алфавите "(", ")", "[" и "]". Слова такого языка - это те, которые хорошо заключены в скобки для всех разделителей, т. е. можно прочитать слово слева направо, вставить каждый открывающий разделитель в стек, и всякий раз, когда мы достигаем закрывающего разделителя, мы должны иметь возможность вытолкнуть соответствующий открывающий разделитель с вершины стека. (Приведенный выше алгоритм подсчета не обобщается).

Например, следующее предложение является допустимым в Dyck-3:

( [ [ ] { } ] ( ) { ( ) } ) [ ]

Конечная глубина

Предложение языка Dyck можно представить как спуск и подъем по уровням вложенных скобок. При чтении предложения Dyck каждая открывающаяся скобка увеличивает глубину вложенности на 1, а каждая закрывающаяся скобка уменьшает на 1. Глубина предложения — это максимальная глубина, достигнутая в пределах предложения.

Например, мы можем аннотировать следующее предложение, указывая глубину на каждом шаге:

0 ( 1 [ 2 [ 3 ] 2 { 3 } 2 ] 1 ( 2 ) 1 { 2 ( 3 ) 2 } 1 ) 0 [ 1 ] 0

и все предложение имеет глубину 3.

Мы определяем Dyck-(k, m) как язык с k типами скобок и максимальной глубиной m. Это имеет приложения в формальной теории рекуррентных нейронных сетей . ^[1]

Характеристики

Язык Dyck закрыт относительно операции конкатенации .
Рассматривая как алгебраический моноид при конкатенации, мы видим, что структура моноида переносится на фактор , в результате чего получается синтаксический моноид языка Дика . Класс будет обозначаться . $\Сигма ^{*}$ $\Сигма ^{*}/R$ $\operatorname {Cl} (\epsilon )$ $1$
Синтаксический моноид языка Дика не является коммутативным : если и то . $u=\operatorname {Cl} ([)$ $v=\operatorname {Cl} (])$ $uv=\operatorname {Cl} ([])=1\neq \operatorname {Cl} (][)=vu$
С обозначениями выше, но ни один из них не обратим в . $uv=1$ $u$ $v$ $\Сигма ^{*}/R$
Синтаксический моноид языка Дика изоморфен бициклической полугруппе в силу свойств и описанных выше. $\operatorname {Cl} ([)$ $\operatorname {Cl} (])$
По теореме Хомского–Шютценбергера о представлении любой контекстно-свободный язык является гомоморфным образом пересечения некоторого регулярного языка с языком Дика по одному или нескольким видам пар скобок. ^[2]
Язык Дика с двумя различными типами скобок можно распознать в классе сложности . ^[3] $TC^{0}$
Число различных слов Дика с ровно $n$ парами скобок и $k$ самыми внутренними парами (т.е. подстрокой ) называется числом Нараяны . $[\ ]$ $\operatorname {N} (n,k)$
Число различных слов Дика с ровно $n$ парами скобок является $n$ -м каталонским числом . Обратите внимание, что язык Дика слов с $n$ парами скобок равен объединению по всем возможным $k$ языков Дика слов из $n$ пар скобок с $k$ самыми внутренними парами , как определено в предыдущем пункте. Поскольку $k$ может принимать значения от 0 до $n$ , мы получаем следующее равенство, которое действительно выполняется: $C_{n}$

C_{n}=\sum _{k=1}^{n}\operatorname {N} (n,k)

Примеры

Мы можем определить отношение эквивалентности на языке Дика . Для нас имеет место тогда и только тогда, когда , т.е. и имеют одинаковую длину. Это отношение разбивает язык Дика: . Мы имеем , где . Обратите внимание, что пусто для нечетного . $L$ ${\mathcal {D}}$ $u,v\in {\mathcal {D}}$ $(u,v)\in L$ $|u|=|v|$ $u$ $v$ ${\mathcal {D}}/L=\{{\mathcal {D}}_{0},{\mathcal {D}}_{1},\ldots \}$ ${\mathcal {D}}={\mathcal {D}}_{0}\cup {\mathcal {D}}_{2}\cup {\mathcal {D}}_{4}\cup \ldots =\bigcup _{n=0}^{\infty }{\mathcal {D}}_{n}$ ${\mathcal {D}}_{n}=\{u\in {\mathcal {D}}\mid |u|=n\}$ ${\mathcal {D}}_{n}$ $n$

Введя слова Дика длины , мы можем ввести отношение на них. Для каждого мы определяем отношение на ; для нас есть тогда и только тогда, когда можно достичь из с помощью серии правильных замен . Правильная замена в слове меняет вхождение '][' на '[]'. Для каждого отношение превращается в частично упорядоченный набор . Отношение рефлексивно , потому что пустая последовательность правильных замен занимает до . Транзитивность следует, потому что мы можем расширить последовательность правильных замен, которая занимает до , объединив ее с последовательностью правильных замен, которая занимает до , образовав последовательность, которая занимает до . Чтобы увидеть, что это также антисимметрично , мы вводим вспомогательную функцию, определенную как сумма по всем префиксам : $n$ $n\in \mathbb {N}$ $S_{n}$ ${\mathcal {D}}_{n}$ $u,v\in {\mathcal {D}}_{n}$ $(u,v)\in S_{n}$ $v$ $u$ $u\in {\mathcal {D}}_{n}$ $n\in \mathbb {N}$ $S_{n}$ ${\mathcal {D}}_{n}$ $S_{n}$ $u$ $u$ $u$ $v$ $v$ $w$ $u$ $w$ $S_{n}$ $\sigma _{n}:{\mathcal {D}}_{n}\rightarrow \mathbb {N}$ $v$ $u$

\sigma _{n}(u)=\sum _{vw=u}{\Big (}({\text{count of ['s in }}v)-({\text{count of ]'s in }}v){\Big )}

Следующая таблица иллюстрирует, что она строго монотонна относительно правильных обменов. $\sigma _{n}$

Строгая монотонность $\sigma _{n}$
частичные суммы $\sigma _{n}(u)$	$P$	$P-1$	$P$	$Q$
$u$	$\ldots$	]	[	$\ldots$
$u'$	$\ldots$	[	]	$\ldots$
частичные суммы $\sigma _{n}(u')$	$P$	$P+1$	$P$	$Q$
Разность частичных сумм	0	2	0	0

Следовательно , когда есть правильный обмен, который принимает в . Теперь, если мы предположим, что и и , то есть непустые последовательности правильных обменов, такие принимаются в и наоборот. Но тогда , что бессмысленно. Поэтому, когда оба и находятся в , мы имеем , следовательно, является антисимметричным. $\sigma _{n}(u')-\sigma _{n}(u)=2>0$ $\sigma _{n}(u)<\sigma _{n}(u')$ $u$ $u'$ $(u,v),(v,u)\in S_{n}$ $u\neq v$ $u$ $v$ $\sigma _{n}(u)<\sigma _{n}(v)<\sigma _{n}(u)$ $(u,v)$ $(v,u)$ $S_{n}$ $u=v$ $S_{n}$

Частично упорядоченный набор показан на иллюстрации, сопровождающей введение, если мы интерпретируем [ как движение вверх, а ] как движение вниз. $D_{8}$

Смотрите также

Примечания

^ Хьюитт, Джон; Хан, Майкл; Гангули, Сурья; Лян, Перси; Мэннинг, Кристофер Д. (15.10.2020). «RNN могут генерировать ограниченные иерархические языки с оптимальной памятью». arXiv : 2010.07515 [cs.CL].
^ Камбитс, Сообщения в алгебре Том 37 Выпуск 1 (2009) 193-208
^ Баррингтон и Корбетт, Information Processing Letters 32 (1989) 251-256

Ссылки

Язык Дика на PlanetMath .
Доказательство теоремы Хомского-Шютценбергера
Запись в блоге AMS о словах Дика

[1] Хьюитт, Джон; Хан, Майкл; Гангули, Сурья; Лян, Перси; Мэннинг, Кристофер Д. (15.10.2020). «RNN могут генерировать ограниченные иерархические языки с оптимальной памятью». arXiv : 2010.07515 [cs.CL].

[2] Камбитс, Сообщения в алгебре Том 37 Выпуск 1 (2009) 193-208

[3] Баррингтон и Корбетт, Information Processing Letters 32 (1989) 251-256