Мел-частотный кепстр

Представление сигнала, используемое при автоматическом распознавании речи

В обработке звука мел -частотный кепстр ( МЧК ) представляет собой представление кратковременного спектра мощности звука, основанное на линейном косинусном преобразовании логарифмического спектра мощности на нелинейной мел-шкале частот.

Mel-частотные кепстральные коэффициенты ( MFCC ) — это коэффициенты, которые в совокупности составляют MFC. [1] Они выводятся из типа кепстрального представления аудиоклипа (нелинейного «спектра-спектра»). Разница между кепстром и мел-частотным кепстром заключается в том, что в MFC частотные полосы равномерно распределены по шкале мел, что более точно соответствует реакции слуховой системы человека, чем линейно распределенные частотные полосы, используемые в нормальном спектре. Такая деформация частоты может обеспечить лучшее представление звука, например, при аудиосжатии , что может потенциально снизить пропускную способность передачи и требования к хранению аудиосигналов.

MFCC обычно выводятся следующим образом: [2] [3]

  1. Возьмем преобразование Фурье (вырезанного из окна фрагмента) сигнала.
  2. Отобразите мощности спектра, полученные выше, на шкале мелов , используя треугольные перекрывающиеся окна или, в качестве альтернативы, косинусные перекрывающиеся окна .
  3. Возьмите логарифмы мощностей на каждой из мел-частот.
  4. Возьмем дискретное косинусное преобразование списка степеней логарифма мела, как если бы это был сигнал.
  5. MFCC представляют собой амплитуды результирующего спектра.

В этом процессе могут быть вариации, например: различия в форме или расстоянии между окнами, используемыми для отображения масштаба, [4] или добавление динамических характеристик, таких как коэффициенты «дельта» и «дельта-дельта» (разница между кадрами первого и второго порядка). [5]

Европейский институт стандартов в области телекоммуникаций в начале 2000-х годов определил стандартизированный алгоритм MFCC для использования в мобильных телефонах . [6]

Приложения

MFCC обычно используются в качестве функций в системах распознавания речи [7] , например, в системах, которые могут автоматически распознавать цифры, произнесенные в телефон.

MFCC также все чаще находят применение в приложениях по поиску музыкальной информации , таких как классификация жанров , измерение сходства аудио и т. д. [8]

MFCC для распознавания говорящего

Поскольку полосы частот Mel распределены равномерно в MFCC и очень похожи на голосовую систему человека, MFCC может эффективно использоваться для характеристики говорящих. Например, его можно использовать для распознавания характеристик модели мобильного телефона говорящего и для получения дополнительных деталей голоса говорящего. [4]

Этот тип распознавания мобильных устройств возможен, поскольку производство электронных компонентов в телефоне имеет допуски, поскольку различные реализации электронных схем не имеют точно таких же передаточных функций . Различия в передаточной функции от одной реализации к другой становятся более заметными, если схемы, выполняющие задачу, принадлежат разным производителям. Следовательно, каждый сотовый телефон вносит сверточные искажения во входную речь, которые оставляют свое уникальное влияние на записи с сотового телефона. Таким образом, конкретный телефон может быть идентифицирован из записанной речи путем умножения исходного частотного спектра с дальнейшими умножениями передаточных функций, специфичных для каждого телефона, с последующими методами обработки сигнала. Таким образом, используя MFCC, можно характеризовать записи сотового телефона, чтобы идентифицировать марку и модель телефона. [5]

Рассмотрим секцию записи мобильного телефона как линейный не зависящий от времени ( LTI ) фильтр:

Импульсная характеристика - h(n) , записанный речевой сигнал y(n) как выходной сигнал фильтра в ответ на входной сигнал x(n).

Следовательно, (свертка) y ( n ) = x ( n ) h ( n ) {\displaystyle y(n)=x(n)*h(n)}

Поскольку речь не является стационарным сигналом, она делится на перекрывающиеся кадры, в пределах которых сигнал предполагается стационарным. Таким образом, кратковременный сегмент (кадр) записанной входной речи: p t h {\displaystyle p^{th}}

y p w ( n ) = [ x ( n ) w ( p W n ) ] h ( n ) {\displaystyle y_{p}w(n)=[x(n)w(pW-n)]*h(n)} ,

где w(n) : оконная функция длины W.

Следовательно, как указано, след мобильного телефона записанной речи представляет собой искажение свертки, которое помогает идентифицировать записывающий телефон.

Встроенная идентификация мобильного телефона требует преобразования в более идентифицируемую форму, следовательно, необходимо выполнить кратковременное преобразование Фурье:

Y p w ( f ) = X p w ( f ) H ( f ) {\displaystyle Y_{p}w(f)=X_{p}w(f)H(f)}

H ( f ) {\displaystyle H(f)} можно рассматривать как конкатенированную передаточную функцию, которая производит входную речь, а записанную речь можно воспринимать как исходную речь с мобильного телефона. Y p w ( f ) {\displaystyle Y_{p}w(f)}

Таким образом, эквивалентная передаточная функция речевого тракта и диктофона сотового телефона рассматривается как исходный источник записанной речи. Следовательно,

X p w ( f ) = X e p w ( f ) X v ( f ) , H ( f ) = H ( f ) X v ( f ) , {\displaystyle X_{p}w(f)=Xe_{p}w(f)X_{v}(f),H'(f)=H(f)X_{v}(f),}

где Xew(f) — функция возбуждения, — передаточная функция речевого тракта для речи в кадре, — эквивалентная передаточная функция, характеризующая мобильный телефон. X v ( f ) {\displaystyle X_{v}(f)} p t h {\displaystyle p^{th}} H ( f ) {\displaystyle H'(f)}

Y p w ( f ) = X e p w ( f ) H ( f ) {\displaystyle Y_{p}w(f)=Xe_{p}w(f)H'(f)}

Такой подход может быть полезен для распознавания говорящего, поскольку идентификация устройства и идентификация говорящего тесно связаны.

Учитывая важность огибающей спектра, умноженной на банк фильтров (подходящий кепстр с банком фильтров mel-scale), после сглаживания банка фильтров с помощью передаточной функции U(f), логарифмическая операция над выходными энергиями выглядит следующим образом:

log [ | Y p w ( f ) | ] = log [ | U ( f ) | | X e p w ( f ) | | H ( f ) | ] {\displaystyle \log[|Y_{p}w(f)|]=\log[|U(f)||Xe_{p}w(f)||H'(f)|]}

Представляя H w ( f ) = U ( f ) H ( f ) {\displaystyle H_{w}(f)=U(f)H'(f)}

log [ | Y p w ( f ) | ] = log [ | X e p w ( f ) | ] + log [ | H w ( f ) | ] {\displaystyle \log[|Y_{p}w(f)|]=\log[|Xe_{p}w(f)|]+\log[|H_{w}(f)|]}

MFCC успешен благодаря этому нелинейному преобразованию с аддитивным свойством.

Возвращаясь к временной области:

c y ( j ) = c e ( j ) + c w ( j ) {\displaystyle c_{y}(j)=c_{e}(j)+c_{w}(j)}

где cy(j), ce(j), cw(j) — записанный речевой кепстр и взвешенная эквивалентная импульсная характеристика диктофона сотового телефона, характеризующая сотовый телефон, соответственно, а j — количество фильтров в банке фильтров.

Точнее, специфическая для устройства информация содержится в записанной речи, которая преобразуется в аддитивную форму, пригодную для идентификации.

cy(j) может быть дополнительно обработан для идентификации записывающего телефона.

Часто используемые длины кадров — 20 или 20 мс.

Часто используемые оконные функции — окна Хэмминга и Ханнинга.

Таким образом, шкала Mel представляет собой широко используемую шкалу частот, которая является линейной до 1000 Гц и логарифмической выше.

Расчет центральных частот фильтров в шкале Mel:

f m e l = 1000 log ( 1 + f / 1000 ) / log 2 {\displaystyle f_{mel}=1000\log(1+f/1000)/\log 2} , основание 10.

Основная процедура расчета MFCC:

  1. Выходные данные банка логарифмических фильтров генерируются и умножаются на 20 для получения спектральных огибающих в децибелах.
  2. MFCC получаются путем применения дискретного косинусного преобразования (DCT) спектральной огибающей.
  3. Коэффициенты кепстра получаются как:

c i = n = 1 N f S n cos ( i ( n 0.5 ) ( π N f ) ) {\displaystyle c_{i}=\sum _{n=1}^{N_{f}}S_{n}\cos \left(i(n-0.5)\left({\frac {\pi }{N_{f}}}\right)\right)} , , i = 1 , , L {\displaystyle i=1,\dots ,L}

где соответствует -му коэффициенту MFCC, — число треугольных фильтров в банке фильтров, — логарифм выходной энергии -го коэффициента фильтра, а — число коэффициентов MFCC, которые мы хотим вычислить. c i = c y ( i ) {\displaystyle c_{i}=c_{y}(i)} i {\displaystyle i} N f {\displaystyle N_{f}} S n {\displaystyle S_{n}} n {\displaystyle n} L {\displaystyle L}

Инверсия

MFCC можно приблизительно инвертировать в аудио за четыре шага: (a1) обратное DCT для получения спектрограммы mel log-power [dB], (a2) отображение в мощность для получения спектрограммы mel power, (b1) изменение масштаба для получения кратковременных величин преобразования Фурье и, наконец, (b2) фазовая реконструкция и аудиосинтез с использованием Гриффина-Лима. Каждый шаг соответствует одному шагу в расчете MFCC. [9]

Чувствительность к шуму

Значения MFCC не очень надежны в присутствии аддитивного шума, поэтому их значения обычно нормализуют в системах распознавания речи, чтобы уменьшить влияние шума. Некоторые исследователи предлагают модификации базового алгоритма MFCC для повышения надежности, например, путем повышения амплитуд логарифмов мелов до подходящей степени (около 2 или 3) перед выполнением дискретного косинусного преобразования (DCT), что снижает влияние низкоэнергетических компонентов. [10]

История

Обычно разработку MFC приписывают Полу Мермельштейну [11] [12] . Мермельштейн приписывает идею Бридлу и Брауну [13] :

Bridle и Brown использовали набор из 19 взвешенных коэффициентов формы спектра, полученных косинусным преобразованием выходов набора неравномерно разнесенных полосовых фильтров. Интервал между фильтрами выбирается логарифмическим выше 1 кГц, а полосы пропускания фильтров также увеличиваются там. Поэтому мы будем называть их кепстральными параметрами на основе мела. [11]

Иногда цитируются оба ранних автора. [14]

Многие авторы, включая Дэвиса и Мермельштейна, [12] отметили, что спектральные базисные функции косинусного преобразования в MFC очень похожи на главные компоненты логарифмических спектров, которые были применены к представлению и распознаванию речи гораздо раньше Полсом и его коллегами. [15] [16]

Смотрите также

Ссылки

  1. ^ Мин Сюй и др. (2004). "Генерация ключевых слов аудио на основе HMM" (PDF) . В Kiyoharu Aizawa; Yuichi Nakamura; Shin'ichi Satoh (ред.). Достижения в обработке мультимедийной информации – PCM 2004: 5-я конференция стран Тихоокеанского региона по мультимедиа . Springer. ISBN 978-3-540-23985-7. Архивировано из оригинала (PDF) 2007-05-10.
  2. ^ Сахидулла, Мэриленд; Саха, Гаутам (май 2012 г.). «Разработка, анализ и экспериментальная оценка блочного преобразования в вычислении MFCC для распознавания говорящего». Speech Communication . 54 (4): 543– 565. doi :10.1016/j.specom.2011.11.004. S2CID  14985832.
  3. ^ Абдулсатар, Ассим Ара; Давыдов, В.В.; Юшкова, В.В.; Глинушкин, АП; Руд, В.Ю. (2019-12-01). "Распознавание возраста и пола по речевым сигналам". Journal of Physics: Conference Series . 1410 (1): 012073. Bibcode : 2019JPhCS1410a2073A. doi : 10.1088/1742-6596/1410/1/012073 . ISSN  1742-6588. S2CID  213065622.
  4. ^ ab Фан Чжэн, Гуолян Чжан и Чжаньцзян Сун (2001), «Сравнение различных реализаций MFCC», J. Computer Science & Technology, 16(6): 582–589.
  5. ^ ab S. Furui (1986), «Независимое от говорящего распознавание изолированных слов на основе подчеркнутой спектральной динамики»
  6. ^ Европейский институт стандартов в области телекоммуникаций (2003), Обработка речи, передача и аспекты качества (STQ); Распределенное распознавание речи; Алгоритм извлечения признаков на входе; Алгоритмы сжатия. Технический стандарт ES 201 108, v1.1.3.
  7. ^ Т. Ганчев, Н. Факотакис и Г. Коккинакис (2005), «Сравнительная оценка различных реализаций MFCC в задаче проверки говорящего. Архивировано 17 июля 2011 г. в Wayback Machine », в 10-й Международной конференции по речи и компьютерам (SPECOM 2005), том 1, стр. 191–194.
  8. ^ Мейнард Мюллер (2007). Информационный поиск для музыки и движения. Springer. стр. 65. ISBN 978-3-540-74047-6.
  9. ^ "librosa.feature.inverse.mfcc_to_audio — документация по librosa 0.10.0" . librosa.org .
  10. ^ V. Tyagi и C. Wellekens (2005), О десенсибилизации Mel-Cepstrum к ложным спектральным компонентам для надежного распознавания речи, в Акустика, речь и обработка сигналов, 2005. Труды. (ICASSP '05). Международная конференция IEEE, т. 1, стр. 529–532.
  11. ^ ab P. Mermelstein (1976), «Меры расстояния для распознавания речи, психологические и инструментальные», в книге «Распознавание образов и искусственный интеллект», редактор CH Chen, стр. 374–388. Academic, Нью-Йорк.
  12. ^ ab SB Davis и P. Mermelstein (1980), «Сравнение параметрических представлений для распознавания односложных слов в непрерывно произносимых предложениях», в IEEE Transactions on Acoustics, Speech, and Signal Processing , 28(4), стр. 357–366.
  13. ^ Дж. С. Бридл и М. Д. Браун (1974), «Экспериментальная автоматическая система распознавания слов», отчет JSRU № 1003, Объединенное исследовательское подразделение речи, Руислип, Англия.
  14. ^ Нельсон Морган ; Эрве Бурлар и Хайнек Германски (2004). «Автоматическое распознавание речи: слуховая перспектива». В Стивен Гринберг и Уильям А. Эйнсворт (ред.). Обработка речи в слуховой системе . Springer. стр. 315. ISBN 978-0-387-00590-4.
  15. ^ LCW Pols (1966), «Спектральный анализ и идентификация голландских гласных в односложных словах», докторская диссертация, Свободный университет, Амстердам, Нидерланды
  16. ^ Р. Пломп, LCW Полс и Дж. П. ван де Гир (1967). «Размерный анализ спектров гласных». Дж. Акустическое общество Америки, 41(3):707–712.
  • Коды MATLAB для MFCC и других речевых функций
  • Учебное пособие по MFCC для автоматического распознавания речи
Retrieved from "https://en.wikipedia.org/w/index.php?title=Mel-frequency_cepstrum&oldid=1256608489"