Диаризация говорящих ( или диаризация ) — это процесс разбиения аудиопотока, содержащего человеческую речь, на однородные сегменты в соответствии с личностью каждого говорящего. [1] Она может улучшить читаемость автоматической транскрипции речи , структурируя аудиопоток в реплики говорящих и, при использовании вместе с системами распознавания говорящих , предоставляя истинную личность говорящего. [2] Она используется для ответа на вопрос «кто и когда говорил?» [3]
Диаризация говорящих — это комбинация сегментации говорящих и кластеризации говорящих. Первая направлена на поиск точек смены говорящих в аудиопотоке. Вторая направлена на группировку речевых сегментов на основе характеристик говорящего.
С ростом числа трансляций, записей собраний и голосовой почты, собираемых каждый год, диаризация говорящего привлекла большое внимание речевого сообщества, о чем свидетельствуют специальные оценки, посвященные ей под эгидой Национального института стандартов и технологий для телефонной речи, вещательных новостей и собраний. [4] Ведущий список трекеров исследований диаризации говорящего можно найти в репозитории github Куана Вана. [5]
Основные типы систем дневников
В диаризации говорящих одним из самых популярных методов является использование модели смеси Гаусса для моделирования каждого из говорящих и назначение соответствующих кадров для каждого говорящего с помощью скрытой марковской модели . Существует два основных вида стратегий кластеризации. Первая из них является самой популярной и называется «снизу вверх». Алгоритм начинается с разделения всего аудиоконтента на последовательность кластеров и постепенно пытается объединить избыточные кластеры, чтобы достичь ситуации, когда каждый кластер соответствует реальному говорящему. Вторая стратегия кластеризации называется «сверху вниз» и начинается с одного кластера для всех аудиоданных и пытается разделить его итеративно, пока не достигнет количества кластеров, равного количеству говорящих. Обзор 2010 года можно найти по адресу [1].
Программное обеспечение с открытым исходным кодом для диаризации дикторов
Существует несколько инициатив с открытым исходным кодом для ведения дневников спикеров (в алфавитном порядке):
Система диаризации спикеров ALIZE (последнее обновление репозитория: июль 2016 г.; последний выпуск: февраль 2013 г., версия: 3.0): Система диаризации ALIZE, разработанная в Авиньонском университете, доступна версия 2.0 [2].
Audioseg (последнее обновление репозитория: май 2014 г.; последний выпуск: январь 2010 г., версия: 1.2): AudioSeg — это набор инструментов, предназначенный для сегментации аудио и классификации аудиопотоков. [3].
pyannote.audio (последнее обновление репозитория: август 2022 г., последний выпуск: июль 2022 г., версия: 2.0): pyannote.audio — это набор инструментов с открытым исходным кодом, написанный на Python для диаризации говорящих. [4].
pyAudioAnalysis (последнее обновление репозитория: сентябрь 2022 г.): библиотека анализа звука Python: извлечение признаков, классификация, сегментация и приложения [5]
SHoUT (последнее обновление: декабрь 2010 г.; версия: 0.3): SHoUT — это программный пакет, разработанный в Университете Твенте для помощи в исследовании распознавания речи. SHoUT — это голландская аббревиатура для Speech Recognition Research at the University of Twente . [6]
^ Пак, Тэ Джин; Канда, Наоюки; Димитриадис, Димитриос; Хан, Кю Дж.; Ватанабэ, Синдзи; Нараянан, Шрикант (2021-11-26). «Обзор диаризации говорящих: последние достижения в области глубокого обучения». arXiv : 2101.09624 [eess.AS].
Библиография
Anguera, Xavier (2012). «Диаризация говорящего: обзор последних исследований». IEEE Transactions on Audio, Speech, and Language Processing . 20 (2). IEEE/ACM Transactions on Audio, Speech, and Language Processing: 356–370. CiteSeerX 10.1.1.470.6149 . doi :10.1109/TASL.2011.2125954. ISSN 1558-7916. S2CID 206602044.
Бейджи, Хомаюн (2011). Основы распознавания говорящего. Нью-Йорк: Springer. ISBN978-0-387-77591-3.