Дневник спикера

Разделение потока человеческой речи по личности говорящего

Диаризация говорящих ( или диаризация ) — это процесс разбиения аудиопотока, содержащего человеческую речь, на однородные сегменты в соответствии с личностью каждого говорящего. [1] Она может улучшить читаемость автоматической транскрипции речи , структурируя аудиопоток в реплики говорящих и, при использовании вместе с системами распознавания говорящих , предоставляя истинную личность говорящего. [2] Она используется для ответа на вопрос «кто и когда говорил?» [3] Диаризация говорящих — это комбинация сегментации говорящих и кластеризации говорящих. Первая направлена ​​на поиск точек смены говорящих в аудиопотоке. Вторая направлена ​​на группировку речевых сегментов на основе характеристик говорящего.

С ростом числа трансляций, записей собраний и голосовой почты, собираемых каждый год, диаризация говорящего привлекла большое внимание речевого сообщества, о чем свидетельствуют специальные оценки, посвященные ей под эгидой Национального института стандартов и технологий для телефонной речи, вещательных новостей и собраний. [4] Ведущий список трекеров исследований диаризации говорящего можно найти в репозитории github Куана Вана. [5]

Основные типы систем дневников

В диаризации говорящих одним из самых популярных методов является использование модели смеси Гаусса для моделирования каждого из говорящих и назначение соответствующих кадров для каждого говорящего с помощью скрытой марковской модели . Существует два основных вида стратегий кластеризации. Первая из них является самой популярной и называется «снизу вверх». Алгоритм начинается с разделения всего аудиоконтента на последовательность кластеров и постепенно пытается объединить избыточные кластеры, чтобы достичь ситуации, когда каждый кластер соответствует реальному говорящему. Вторая стратегия кластеризации называется «сверху вниз» и начинается с одного кластера для всех аудиоданных и пытается разделить его итеративно, пока не достигнет количества кластеров, равного количеству говорящих. Обзор 2010 года можно найти по адресу [1].

В последнее время диаризация говорящих осуществляется с помощью нейронных сетей, использующих крупномасштабные вычисления на графических процессорах и методологические разработки в области глубокого обучения . [6]

Программное обеспечение с открытым исходным кодом для диаризации дикторов

Существует несколько инициатив с открытым исходным кодом для ведения дневников спикеров (в алфавитном порядке):

  • Система диаризации спикеров ALIZE (последнее обновление репозитория: июль 2016 г.; последний выпуск: февраль 2013 г., версия: 3.0): Система диаризации ALIZE, разработанная в Авиньонском университете, доступна версия 2.0 [2].
  • Audioseg (последнее обновление репозитория: май 2014 г.; последний выпуск: январь 2010 г., версия: 1.2): AudioSeg — это набор инструментов, предназначенный для сегментации аудио и классификации аудиопотоков. [3].
  • pyannote.audio (последнее обновление репозитория: август 2022 г., последний выпуск: июль 2022 г., версия: 2.0): pyannote.audio — это набор инструментов с открытым исходным кодом, написанный на Python для диаризации говорящих. [4].
  • pyAudioAnalysis (последнее обновление репозитория: сентябрь 2022 г.): библиотека анализа звука Python: извлечение признаков, классификация, сегментация и приложения [5]
  • SHoUT (последнее обновление: декабрь 2010 г.; версия: 0.3): SHoUT — это программный пакет, разработанный в Университете Твенте для помощи в исследовании распознавания речи. SHoUT — это голландская аббревиатура для Speech Recognition Research at the University of Twente . [6]
  • LIUM SpkDiarization (последний выпуск: сентябрь 2013 г., версия: 8.4.1): инструмент LIUM_SpkDiarization [7].

Ссылки

  1. ^ Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкин; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стефано; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [eess.AS].
  2. ^ Чжу, Сюань; Баррас, Клод; Менье, Сильвен; Говен, Жан-Люк. «Улучшенная диаризация говорящих с использованием идентификации говорящих» . Проверено 25 января 2012 г.
  3. ^ Котти, Маргарита; Мосхоу, Василики; Котропулос, Константин. «Сегментация и кластеризация говорящих» (PDF) . Получено 25.01.2012 .
  4. ^ "Rich Transcription Evaluation Project". NIST . Получено 25.01.2012 .
  5. ^ "Awesome Speaker Diarization". awesome-diarization . Получено 2024-09-17 .
  6. ^ Пак, Тэ Джин; Канда, Наоюки; Димитриадис, Димитриос; Хан, Кю Дж.; Ватанабэ, Синдзи; Нараянан, Шрикант (2021-11-26). «Обзор диаризации говорящих: последние достижения в области глубокого обучения». arXiv : 2101.09624 [eess.AS].

Библиография

  • Anguera, Xavier (2012). «Диаризация говорящего: обзор последних исследований». IEEE Transactions on Audio, Speech, and Language Processing . 20 (2). IEEE/ACM Transactions on Audio, Speech, and Language Processing: 356–370. CiteSeerX  10.1.1.470.6149 . doi :10.1109/TASL.2011.2125954. ISSN  1558-7916. S2CID  206602044.
  • Бейджи, Хомаюн (2011). Основы распознавания говорящего. Нью-Йорк: Springer. ISBN 978-0-387-77591-3.
Взято с "https://en.wikipedia.org/w/index.php?title=Speaker_diarisation&oldid=1250329692"