Акустическая модель

Акустическая модель используется в автоматическом распознавании речи для представления связи между аудиосигналом и фонемами или другими языковыми единицами, составляющими речь. Модель изучается на основе набора аудиозаписей и соответствующих им транскрипций. Она создается путем взятия аудиозаписей речи и их текстовых транскрипций и использования программного обеспечения для создания статистических представлений звуков, составляющих каждое слово.

Фон

Современные системы распознавания речи используют как акустическую модель, так и языковую модель для представления статистических свойств речи. Акустическая модель моделирует связь между аудиосигналом и фонетическими единицами языка. Языковая модель отвечает за моделирование последовательностей слов в языке. Эти две модели объединяются для получения последовательностей слов с наивысшим рейтингом, соответствующих данному аудиосегменту.

Большинство современных систем распознавания речи работают с аудио небольшими фрагментами, известными как кадры, с приблизительной длительностью 10 мс на кадр. Необработанный аудиосигнал из каждого кадра может быть преобразован путем применения кепстра мел-частоты . Коэффициенты этого преобразования обычно известны как кепстральные коэффициенты мел-частоты (MFCC) и используются в качестве входных данных для акустической модели вместе с другими функциями.

В последнее время использование сверточных нейронных сетей привело к значительным улучшениям в акустическом моделировании. [1]

Характеристики речевого звука

Аудио может быть закодировано с разной частотой дискретизации (т. е. выборок в секунду — наиболее распространенные: 8, 16, 32, 44,1, 48 и 96 кГц) и разным количеством бит на выборку (наиболее распространенные: 8 бит, 16 бит, 24 бита или 32 бита). Механизмы распознавания речи работают лучше всего, если акустическая модель, которую они используют, была обучена с использованием речевого аудио, записанного с той же частотой дискретизации/бит на выборку, что и распознаваемая речь.

Распознавание речи на основе телефонии

Ограничивающим фактором для распознавания речи на основе телефонии является полоса пропускания, на которой может передаваться речь. Например, стандартный стационарный телефон имеет полосу пропускания только 64 кбит/с при частоте дискретизации 8 кГц и 8 бит на выборку (8000 выборок в секунду * 8 бит на выборку = 64000 бит/с). Поэтому для распознавания речи на основе телефонии акустические модели должны обучаться с помощью речевых аудиофайлов 8 кГц/8 бит.

В случае Voice over IP кодек определяет частоту дискретизации/бит на сэмпл передачи речи. Кодеки с более высокой частотой дискретизации/бит на сэмпл для передачи речи (которые улучшают качество звука) требуют акустических моделей, обученных с аудиоданными, которые соответствуют этой частоте дискретизации/бит на сэмпл.

Распознавание речи на настольном компьютере

Для распознавания речи на стандартном настольном ПК ограничивающим фактором является звуковая карта . Большинство современных звуковых карт могут записывать звук с частотой дискретизации от 16 кГц до 48 кГц, с битрейтом от 8 до 16 бит на сэмпл и воспроизводить с частотой до 96 кГц.

Как правило, механизм распознавания речи лучше работает с акустическими моделями, обученными с использованием аудиоданных речи, записанных с более высокой частотой дискретизации/бит на образец. Однако использование аудиоданных со слишком высокой частотой дискретизации/бит на образец может замедлить работу механизма распознавания. Необходим компромисс. Таким образом, для распознавания речи на настольных компьютерах текущий стандарт — это акустические модели, обученные с использованием аудиоданных речи, записанных с частотой дискретизации 16 кГц/16 бит на образец.

Ссылки

  1. ^ Т. Саинат и др ., «Сверточные нейронные сети для LVCSR», ICASSP , 2013.
  • Японские акустические модели для использования с Julius
  • акустические модели с открытым исходным кодом на VoxForge
  • Акустические модели HTK WSJ для HTK
Взято с "https://en.wikipedia.org/w/index.php?title=Акустическая_модель&oldid=1223156581"