В обработке звука мел -частотный кепстр ( МЧК ) представляет собой представление кратковременного спектра мощности звука, основанное на линейном косинусном преобразовании логарифмического спектра мощности на нелинейной мел-шкале частот.
Mel-частотные кепстральные коэффициенты ( MFCC ) — это коэффициенты, которые в совокупности составляют MFC. [1] Они выводятся из типа кепстрального представления аудиоклипа (нелинейного «спектра-спектра»). Разница между кепстром и мел-частотным кепстром заключается в том, что в MFC частотные полосы равномерно распределены по шкале мел, что более точно соответствует реакции слуховой системы человека, чем линейно распределенные частотные полосы, используемые в нормальном спектре. Такая деформация частоты может обеспечить лучшее представление звука, например, при аудиосжатии , что может потенциально снизить пропускную способность передачи и требования к хранению аудиосигналов.
MFCC обычно выводятся следующим образом: [2] [3]
В этом процессе могут быть вариации, например: различия в форме или расстоянии между окнами, используемыми для отображения масштаба, [4] или добавление динамических характеристик, таких как коэффициенты «дельта» и «дельта-дельта» (разница между кадрами первого и второго порядка). [5]
Европейский институт стандартов в области телекоммуникаций в начале 2000-х годов определил стандартизированный алгоритм MFCC для использования в мобильных телефонах . [6]
MFCC обычно используются в качестве функций в системах распознавания речи [7] , например, в системах, которые могут автоматически распознавать цифры, произнесенные в телефон.
MFCC также все чаще находят применение в приложениях по поиску музыкальной информации , таких как классификация жанров , измерение сходства аудио и т. д. [8]
Этот раздел может быть запутанным или неясным для читателей . ( Август 2022 г. ) |
This article is written like a personal reflection, personal essay, or argumentative essay that states a Wikipedia editor's personal feelings or presents an original argument about a topic. (March 2023) |
Поскольку полосы частот Mel распределены равномерно в MFCC и очень похожи на голосовую систему человека, MFCC может эффективно использоваться для характеристики говорящих. Например, его можно использовать для распознавания характеристик модели мобильного телефона говорящего и для получения дополнительных деталей голоса говорящего. [4]
Этот тип распознавания мобильных устройств возможен, поскольку производство электронных компонентов в телефоне имеет допуски, поскольку различные реализации электронных схем не имеют точно таких же передаточных функций . Различия в передаточной функции от одной реализации к другой становятся более заметными, если схемы, выполняющие задачу, принадлежат разным производителям. Следовательно, каждый сотовый телефон вносит сверточные искажения во входную речь, которые оставляют свое уникальное влияние на записи с сотового телефона. Таким образом, конкретный телефон может быть идентифицирован из записанной речи путем умножения исходного частотного спектра с дальнейшими умножениями передаточных функций, специфичных для каждого телефона, с последующими методами обработки сигнала. Таким образом, используя MFCC, можно характеризовать записи сотового телефона, чтобы идентифицировать марку и модель телефона. [5]
Рассмотрим секцию записи мобильного телефона как линейный не зависящий от времени ( LTI ) фильтр:
Импульсная характеристика - h(n) , записанный речевой сигнал y(n) как выходной сигнал фильтра в ответ на входной сигнал x(n).
Следовательно, (свертка)
Поскольку речь не является стационарным сигналом, она делится на перекрывающиеся кадры, в пределах которых сигнал предполагается стационарным. Таким образом, кратковременный сегмент (кадр) записанной входной речи:
где w(n) : оконная функция длины W.
Следовательно, как указано, след мобильного телефона записанной речи представляет собой искажение свертки, которое помогает идентифицировать записывающий телефон.
Встроенная идентификация мобильного телефона требует преобразования в более идентифицируемую форму, следовательно, необходимо выполнить кратковременное преобразование Фурье:
можно рассматривать как конкатенированную передаточную функцию, которая производит входную речь, а записанную речь можно воспринимать как исходную речь с мобильного телефона.
Таким образом, эквивалентная передаточная функция речевого тракта и диктофона сотового телефона рассматривается как исходный источник записанной речи. Следовательно,
где Xew(f) — функция возбуждения, — передаточная функция речевого тракта для речи в кадре, — эквивалентная передаточная функция, характеризующая мобильный телефон.
Такой подход может быть полезен для распознавания говорящего, поскольку идентификация устройства и идентификация говорящего тесно связаны.
Учитывая важность огибающей спектра, умноженной на банк фильтров (подходящий кепстр с банком фильтров mel-scale), после сглаживания банка фильтров с помощью передаточной функции U(f), логарифмическая операция над выходными энергиями выглядит следующим образом:
Представляя
MFCC успешен благодаря этому нелинейному преобразованию с аддитивным свойством.
Возвращаясь к временной области:
где cy(j), ce(j), cw(j) — записанный речевой кепстр и взвешенная эквивалентная импульсная характеристика диктофона сотового телефона, характеризующая сотовый телефон, соответственно, а j — количество фильтров в банке фильтров.
Точнее, специфическая для устройства информация содержится в записанной речи, которая преобразуется в аддитивную форму, пригодную для идентификации.
cy(j) может быть дополнительно обработан для идентификации записывающего телефона.
Часто используемые длины кадров — 20 или 20 мс.
Часто используемые оконные функции — окна Хэмминга и Ханнинга.
Таким образом, шкала Mel представляет собой широко используемую шкалу частот, которая является линейной до 1000 Гц и логарифмической выше.
Расчет центральных частот фильтров в шкале Mel:
Основная процедура расчета MFCC:
, ,
где соответствует -му коэффициенту MFCC, — число треугольных фильтров в банке фильтров, — логарифм выходной энергии -го коэффициента фильтра, а — число коэффициентов MFCC, которые мы хотим вычислить.
MFCC можно приблизительно инвертировать в аудио за четыре шага: (a1) обратное DCT для получения спектрограммы mel log-power [dB], (a2) отображение в мощность для получения спектрограммы mel power, (b1) изменение масштаба для получения кратковременных величин преобразования Фурье и, наконец, (b2) фазовая реконструкция и аудиосинтез с использованием Гриффина-Лима. Каждый шаг соответствует одному шагу в расчете MFCC. [9]
Значения MFCC не очень надежны в присутствии аддитивного шума, поэтому их значения обычно нормализуют в системах распознавания речи, чтобы уменьшить влияние шума. Некоторые исследователи предлагают модификации базового алгоритма MFCC для повышения надежности, например, путем повышения амплитуд логарифмов мелов до подходящей степени (около 2 или 3) перед выполнением дискретного косинусного преобразования (DCT), что снижает влияние низкоэнергетических компонентов. [10]
Обычно разработку MFC приписывают Полу Мермельштейну [11] [12] . Мермельштейн приписывает идею Бридлу и Брауну [13] :
Bridle и Brown использовали набор из 19 взвешенных коэффициентов формы спектра, полученных косинусным преобразованием выходов набора неравномерно разнесенных полосовых фильтров. Интервал между фильтрами выбирается логарифмическим выше 1 кГц, а полосы пропускания фильтров также увеличиваются там. Поэтому мы будем называть их кепстральными параметрами на основе мела. [11]
Иногда цитируются оба ранних автора. [14]
Многие авторы, включая Дэвиса и Мермельштейна, [12] отметили, что спектральные базисные функции косинусного преобразования в MFC очень похожи на главные компоненты логарифмических спектров, которые были применены к представлению и распознаванию речи гораздо раньше Полсом и его коллегами. [15] [16]