Акустическая модель используется в автоматическом распознавании речи для представления связи между аудиосигналом и фонемами или другими языковыми единицами, составляющими речь. Модель изучается на основе набора аудиозаписей и соответствующих им транскрипций. Она создается путем взятия аудиозаписей речи и их текстовых транскрипций и использования программного обеспечения для создания статистических представлений звуков, составляющих каждое слово.
Современные системы распознавания речи используют как акустическую модель, так и языковую модель для представления статистических свойств речи. Акустическая модель моделирует связь между аудиосигналом и фонетическими единицами языка. Языковая модель отвечает за моделирование последовательностей слов в языке. Эти две модели объединяются для получения последовательностей слов с наивысшим рейтингом, соответствующих данному аудиосегменту.
Большинство современных систем распознавания речи работают с аудио небольшими фрагментами, известными как кадры, с приблизительной длительностью 10 мс на кадр. Необработанный аудиосигнал из каждого кадра может быть преобразован путем применения кепстра мел-частоты . Коэффициенты этого преобразования обычно известны как кепстральные коэффициенты мел-частоты (MFCC) и используются в качестве входных данных для акустической модели вместе с другими функциями.
В последнее время использование сверточных нейронных сетей привело к значительным улучшениям в акустическом моделировании. [1]
Аудио может быть закодировано с разной частотой дискретизации (т. е. выборок в секунду — наиболее распространенные: 8, 16, 32, 44,1, 48 и 96 кГц) и разным количеством бит на выборку (наиболее распространенные: 8 бит, 16 бит, 24 бита или 32 бита). Механизмы распознавания речи работают лучше всего, если акустическая модель, которую они используют, была обучена с использованием речевого аудио, записанного с той же частотой дискретизации/бит на выборку, что и распознаваемая речь.
Ограничивающим фактором для распознавания речи на основе телефонии является полоса пропускания, на которой может передаваться речь. Например, стандартный стационарный телефон имеет полосу пропускания только 64 кбит/с при частоте дискретизации 8 кГц и 8 бит на выборку (8000 выборок в секунду * 8 бит на выборку = 64000 бит/с). Поэтому для распознавания речи на основе телефонии акустические модели должны обучаться с помощью речевых аудиофайлов 8 кГц/8 бит.
В случае Voice over IP кодек определяет частоту дискретизации/бит на сэмпл передачи речи. Кодеки с более высокой частотой дискретизации/бит на сэмпл для передачи речи (которые улучшают качество звука) требуют акустических моделей, обученных с аудиоданными, которые соответствуют этой частоте дискретизации/бит на сэмпл.
Для распознавания речи на стандартном настольном ПК ограничивающим фактором является звуковая карта . Большинство современных звуковых карт могут записывать звук с частотой дискретизации от 16 кГц до 48 кГц, с битрейтом от 8 до 16 бит на сэмпл и воспроизводить с частотой до 96 кГц.
Как правило, механизм распознавания речи лучше работает с акустическими моделями, обученными с использованием аудиоданных речи, записанных с более высокой частотой дискретизации/бит на образец. Однако использование аудиоданных со слишком высокой частотой дискретизации/бит на образец может замедлить работу механизма распознавания. Необходим компромисс. Таким образом, для распознавания речи на настольных компьютерах текущий стандарт — это акустические модели, обученные с использованием аудиоданных речи, записанных с частотой дискретизации 16 кГц/16 бит на образец.