Сегментация речи

Сегментация речи — это процесс определения границ между словами , слогами или фонемами в устной речи на естественных языках . Этот термин применяется как к мыслительным процессам, используемым людьми, так и к искусственным процессам обработки естественного языка .

Сегментация речи является подобластью общего восприятия речи и важной подпроблемой технологически сфокусированной области распознавания речи и не может быть адекватно решена изолированно. Как и в большинстве проблем обработки естественного языка , необходимо учитывать контекст , грамматику и семантику , и даже в этом случае результатом часто является вероятностное разделение (статистически основанное на правдоподобии), а не категориальное. Хотя кажется, что коартикуляция — явление, которое может происходить между соседними словами так же легко, как и внутри одного слова — представляет собой основную проблему в сегментации речи на разных языках, некоторые другие проблемы и стратегии, используемые для решения этих проблем, можно увидеть в следующих разделах.

Эта проблема в некоторой степени совпадает с проблемой сегментации текста , которая возникает в некоторых языках, которые традиционно пишутся без межсловных пробелов, таких как китайский и японский , по сравнению с системами письма , которые указывают сегментацию речи между словами с помощью разделителя слов , такого как пробел . Однако даже для этих языков сегментация текста часто намного проще, чем сегментация речи, потому что письменный язык обычно имеет мало помех между соседними словами и часто содержит дополнительные подсказки, отсутствующие в речи (например, использование китайских иероглифов для основ слов в японском языке).

Лексическое распознавание

В естественных языках значение сложного устного предложения можно понять, разложив его на более мелкие лексические сегменты (грубо говоря, слова языка), связав значение с каждым сегментом и объединив эти значения в соответствии с грамматическими правилами языка.

Хотя считается, что лексическое распознавание не используется младенцами в первый год жизни из-за их крайне ограниченного словарного запаса, это один из основных процессов, участвующих в сегментации речи у взрослых. В современных исследованиях существуют три основные модели лексического распознавания: во-первых, доступ к целому слову, который утверждает, что слова имеют представление целого слова в лексиконе; во-вторых, декомпозиция, которая утверждает, что морфологически сложные слова разбиваются на свои морфемы ( корни , основы , флексии и т. д.), а затем интерпретируются; и; в-третьих, точка зрения, что используются обе модели: и модель целого слова, и модель декомпозиции, но модель целого слова обеспечивает некоторые вычислительные преимущества и, следовательно, доминирует в лексическом распознавании. ^[1]

Например, в модели целого слова слово «cats» может храниться и искаться по буквам, сначала «c», затем «ca», «cat» и, наконец, «cats». То же самое слово в декомпозиционной модели, скорее всего, будет храниться под корнем слова «cat» и может искаться после удаления суффикса «s». «Falling» аналогичным образом будет храниться как «fall» и суффиксироваться с окончанием «ing». ^[2]

Хотя сторонники декомпозиционной модели признают, что поморфемный анализ может потребовать значительно больше вычислений, они утверждают, что распаковка морфологической информации необходима для других процессов (таких как синтаксическая структура ), которые могут происходить параллельно с лексическим поиском.

В целом исследования систем человеческого лексического распознавания ограничены из-за отсутствия экспериментальных данных, которые бы полностью различали три основные модели. ^[1]

В любом случае, лексическое распознавание, вероятно, вносит значительный вклад в сегментацию речи через контекстные подсказки, которые оно предоставляет, учитывая, что это в значительной степени вероятностная система — основанная на статистической вероятности того, что определенные слова или составляющие встречаются вместе. Например, можно представить себе ситуацию, когда человек может сказать: «Я купил свою собаку в магазине ____», а гласная отсутствующего слова произносится как «net», «sweat» или «pet». Хотя вероятность «netshop» крайне мала, поскольку «netshop» в настоящее время не является соединением или фразой в английском языке, а «sweatshop» также кажется контекстуально маловероятным, «pet shop» подходит хорошо, поскольку это распространенная фраза, а также связана со словом «dog». ^[3]

Более того, высказывание может иметь разные значения в зависимости от того, как оно разделено на слова. Популярным примером, часто цитируемым в этой области, является фраза «Как разрушить хороший пляж», которая звучит очень похоже на «Как распознать речь». ^[4] Как показывает этот пример, правильная лексическая сегментация зависит от контекста и семантики , которые опираются на все человеческие знания и опыт, и, таким образом, требуют внедрения на компьютере передовых технологий распознавания образов и искусственного интеллекта .

Лексическое распознавание имеет особую ценность в области компьютерного распознавания речи , поскольку способность строить и искать сеть семантически связанных идей значительно увеличит эффективность программного обеспечения для распознавания речи. Статистические модели могут использоваться для сегментации и выравнивания записанной речи по словам или телефонам. Приложения включают автоматическую синхронизацию губ для анимации мультфильмов, субтитры для видео «следуй за прыгающим мячом» и лингвистические исследования. Программное обеспечение для автоматической сегментации и выравнивания доступно в продаже.

Фонотаксические сигналы

Для большинства разговорных языков границы между лексическими единицами трудно определить; фонотактика является одним из ответов на этот вопрос. Можно было бы ожидать, что межсловные пробелы, используемые многими письменными языками, такими как английский или испанский, будут соответствовать паузам в их разговорной версии, но это верно только для очень медленной речи, когда говорящий намеренно вставляет эти паузы. В обычной речи обычно можно обнаружить много последовательных слов, произносимых без пауз между ними, и часто конечные звуки одного слова плавно смешиваются или сливаются с начальными звуками следующего слова.

Представление о том, что речь производится подобно письму, как последовательность отдельных гласных и согласных, может быть пережитком алфавитного наследия некоторых языковых сообществ. Фактически, способ производства гласных зависит от окружающих согласных, так же как на согласные влияют окружающие гласные; это называется коартикуляцией . Например, в слове «kit» [k] находится дальше вперед, чем когда мы говорим «caught». Но также гласная в «kick» фонетически отличается от гласной в «kit», хотя мы обычно этого не слышим. Кроме того, существуют специфические для языка изменения, которые происходят в повседневной речи, что делает ее совершенно отличной от правописания. Например, в английском языке фразу «hit you» часто правильнее было бы написать как «hitcha».

С точки зрения декомпозиции, во многих случаях фонотактика играет роль, давая говорящим знать, где проводить границы слов. В английском языке слово "strawberry" воспринимается говорящими как состоящее (фонетически) из двух частей: "straw" и "berry". Другие интерпретации, такие как "stra" и "wberry", подавляются английской фонотактикой, которая не допускает кластера "wb" в начале слова. Другими такими примерами являются "day/dream" и "mile/stone", которые вряд ли будут интерпретированы как "da/ydream" или "mil/estone" из-за фонотаксической вероятности или невероятности определенных кластеров. Предложение "Five women left", которое фонетически можно было бы транскрибировать как [faɪvwɪmɘnlɛft], отмечено, поскольку ни /vw/ в /faɪvwɪmɘn/, ни /nl/ в /wɪmɘnlɛft/ не допускаются в качестве слоговых начал или кодов в английской фонотактике. Эти фонотаксические сигналы часто позволяют говорящим легко различать границы в словах.

Гармония гласных в таких языках, как финский, также может служить фонотаксическими подсказками. Хотя система не позволяет гласным переднего ряда и гласным заднего ряда существовать вместе в одной морфеме, составные слова позволяют двум морфемам сохранять свою собственную гармонию гласных, сосуществуя в слове. Поэтому в составных словах, таких как «selkä/ongelma» («проблема спины»), где гармония гласных различна между двумя составляющими в составе, граница будет там, где происходит переключение в гармонии — между «ä» и «ö» в данном случае. ^[5] Тем не менее, есть случаи, когда фонотактика может не помочь в сегментации. Слова с неясными кластерами или неконтрастной гармонией гласных, как в «opinto/uudistus» («студенческая реформа»), не дают фонотаксических подсказок относительно того, как они сегментируются. ^[6]

Однако с точки зрения модели целого слова предполагается, что эти слова хранятся как полные слова, поэтому составные части не обязательно будут иметь отношение к лексическому распознаванию.

У младенцев и неместных жителей

Младенцы являются одним из основных направлений исследований в области сегментации речи. Поскольку младенцы еще не приобрели лексикон, способный предоставить обширные контекстные подсказки или вероятностный поиск слов в течение первого года жизни, как упоминалось выше, им часто приходится полагаться в первую очередь на фонотаксические и ритмические сигналы (при этом просодия является доминирующим сигналом), все из которых являются языково-специфичными. В возрасте от 6 до 9 месяцев младенцы начинают терять способность различать звуки, отсутствующие в их родном языке, и становятся чувствительными к звуковой структуре своего родного языка, при этом способности к сегментации слов появляются около 7,5 месяцев.

Хотя необходимо провести гораздо больше исследований точных процессов, которые младенцы используют для начала сегментации речи, текущие и прошлые исследования показывают, что младенцы, для которых английский язык является родным, подходят к ударным слогам как к началу слов. В возрасте 7,5 месяцев младенцы, по-видимому, способны сегментировать двусложные слова с сильными-слабыми ударными моделями, хотя слабые-сильные ударные модели часто интерпретируются неправильно, например, интерпретируя "guiTAR is" как "GUI TARis". Кажется, что младенцы также демонстрируют некоторую сложность в отслеживании частоты и вероятности слов, например, распознавая, что хотя слоги "the" и "dog" часто встречаются вместе, "the" также часто встречается с другими слогами, что может привести к анализу того, что "dog" является отдельным словом или понятием вместо интерпретации "thedog". ^[7]^[8]

Изучающие язык — еще одна группа людей, исследуемых в рамках сегментации речи. В некотором смысле, обучение сегментации речи может быть более сложным для изучающего второй язык, чем для младенца, не только из-за отсутствия знакомства с вероятностями и ограничениями звуков, но особенно из-за чрезмерного применения шаблонов родного языка. Хотя некоторые шаблоны могут встречаться между языками, как в слоговой сегментации французского и английского, они могут не работать хорошо с такими языками, как японский, который имеет систему сегментации на основе моры . Кроме того, фонотаксические ограничения, такие как кластер маркировки границ /ld/ в немецком или голландском языках, разрешены (без обязательного маркировки границ) в английском языке. Даже связь между ударением и длиной гласного , которая может показаться интуитивно понятной носителям английского языка, может не существовать в других языках, поэтому изучающие второй язык сталкиваются с особенно большой проблемой при изучении языка и его сигналов сегментации. ^[9]

Смотрите также

Ссылки

^ ab Badecker, William и Mark Allen. «Морфологический анализ и восприятие лексической идентичности: исследование омографов основ методом замаскированного прайминга». Journal of Memory and Language 47.1 (2002): 125–144. Получено 27 апреля 2014 г.
^ Тафт, Маркус и Кеннет И. Форстер. «Лексическое хранение и извлечение полиморфных и многосложных слов». Журнал вербального обучения и вербального поведения 15.6 (1976): 607–620. Получено 27 апреля 2014 г.
^ Либерман, Генри; Александр Фаборг; Васим Дахер; Хосе Эспиноса (9–12 января 2005 г.). Как испортить хороший пляж? Вы поете спокойный миндаль (PDF) . IUI '05: Труды 10-й международной конференции по интеллектуальным пользовательским интерфейсам. Медиабиблиотека MIT. С. 278–280 . doi :10.1145/1040830.1040898.
^ Часто используемый пример в литературе по распознаванию речи . Ранний пример — N. Rex Dixon, «Some Problems in Automatic Recognition of Continuous Speech and Their Implications for Pattern Recognition» Труды Первой международной совместной конференции по распознаванию образов , IEEE, 1973, цитируется в Mark Liberman, «Wrecking a nice beach», Language Log , 5 августа 2014 г.
^ Бертрам, Рэймонд; Александр Поллацек; и Юкка Хёня. «Морфологический анализ и использование сигналов сегментации при чтении финских составных слов». Журнал памяти и языка 51.3 (2004): 325–345. Получено 27 апреля 2014 г.
^ Болл-Аветисян, Натали (2012). "Общее введение" (PDF) . Фонотактика и ее приобретение, представление и использование: экспериментально-фонологическое исследование (PDF) (диссертация). Международная серия LOT. Т. 298. Утрехтский университет. С. 1– 13. ISBN 978-94-6093-080-5. Архивировано из оригинала (PDF) 2014-04-27.
^ Jusczyk, Peter W. и Derek M. Houston. «Начало сегментации слов у младенцев, изучающих английский язык». Cognitive Psychology 39 (1999): 159–207. Получено 27 апреля 2014 г.
^ Джонсон, Элизабет К. и Питер В. Юсчик. «Сегментация слов 8-месячными детьми: когда речевые сигналы значат больше, чем статистика». Журнал памяти и языка 44 (2001): 548–567. Получено 27 апреля 2014 г.
^ Тайлер, Майкл Д. и Энн Катлер. «Различия в использовании сигналов для сегментации речи на разных языках». Журнал акустического общества Америки 126 (2009): 367–376. Получено 27 апреля 2014 г.

Внешние ссылки

Программное обеспечение для сегментации речи "Phonolyze"
SPPAS – автоматическое аннотирование и анализ речи

[Badecker_&_Allen-1] Badecker, William и Mark Allen. «Морфологический анализ и восприятие лексической идентичности: исследование омографов основ методом замаскированного прайминга». Journal of Memory and Language 47.1 (2002): 125–144. Получено 27 апреля 2014 г.

[2] Тафт, Маркус и Кеннет И. Форстер. «Лексическое хранение и извлечение полиморфных и многосложных слов». Журнал вербального обучения и вербального поведения 15.6 (1976): 607–620. Получено 27 апреля 2014 г.

[3] Либерман, Генри; Александр Фаборг; Васим Дахер; Хосе Эспиноса (9–12 января 2005 г.). Как испортить хороший пляж? Вы поете спокойный миндаль (PDF) . IUI '05: Труды 10-й международной конференции по интеллектуальным пользовательским интерфейсам. Медиабиблиотека MIT. С. 278–280 . doi :10.1145/1040830.1040898.

[4] Часто используемый пример в литературе по распознаванию речи . Ранний пример — N. Rex Dixon, «Some Problems in Automatic Recognition of Continuous Speech and Their Implications for Pattern Recognition» Труды Первой международной совместной конференции по распознаванию образов , IEEE, 1973, цитируется в Mark Liberman, «Wrecking a nice beach», Language Log , 5 августа 2014 г.

[5] Бертрам, Рэймонд; Александр Поллацек; и Юкка Хёня. «Морфологический анализ и использование сигналов сегментации при чтении финских составных слов». Журнал памяти и языка 51.3 (2004): 325–345. Получено 27 апреля 2014 г.

[6] Болл-Аветисян, Натали (2012). "Общее введение" (PDF) . Фонотактика и ее приобретение, представление и использование: экспериментально-фонологическое исследование (PDF) (диссертация). Международная серия LOT. Т. 298. Утрехтский университет. С. 1– 13. ISBN 978-94-6093-080-5. Архивировано из оригинала (PDF) 2014-04-27.

[7] Jusczyk, Peter W. и Derek M. Houston. «Начало сегментации слов у младенцев, изучающих английский язык». Cognitive Psychology 39 (1999): 159–207. Получено 27 апреля 2014 г.

[8] Джонсон, Элизабет К. и Питер В. Юсчик. «Сегментация слов 8-месячными детьми: когда речевые сигналы значат больше, чем статистика». Журнал памяти и языка 44 (2001): 548–567. Получено 27 апреля 2014 г.

[9] Тайлер, Майкл Д. и Энн Катлер. «Различия в использовании сигналов для сегментации речи на разных языках». Журнал акустического общества Америки 126 (2009): 367–376. Получено 27 апреля 2014 г.