Анализ голоса

Компонент распознавания речи

Анализ голоса — это изучение звуков речи для целей, отличных от лингвистического содержания, например, для распознавания речи . Такие исследования включают в себя в основном медицинский анализ голоса ( фониатрию ) , но также идентификацию говорящего . ^[1] Более спорно, что некоторые полагают, что правдивость или эмоциональное состояние говорящих можно определить с помощью анализа голосового стресса или многоуровневого анализа голоса.

Методы анализа

Проблемы с голосом, требующие анализа голоса, чаще всего возникают из-за голосовых связок или мускулатуры гортани, которая ими управляет, поскольку складки подвергаются столкновительным силам при каждом цикле вибрации и высыханию от воздуха, проталкиваемого через небольшой зазор между ними, а мускулатура гортани интенсивно активна во время речи или пения и подвержена утомлению. Однако динамический анализ голосовых складок и их движения физически сложен. Расположение голосовых складок фактически запрещает прямое инвазивное измерение движения. Менее инвазивные методы визуализации, такие как рентген или ультразвук, не работают, поскольку голосовые связки окружены хрящом, который искажает качество изображения. Движения голосовых связок быстрые, основные частоты обычно находятся в диапазоне от 80 до 300 Гц , что не позволяет использовать обычное видео. Стробоскопические и высокоскоростные видео предоставляют возможность, но для того, чтобы увидеть голосовые связки, оптоволоконный зонд, ведущий к камере, должен быть расположен в горле, что затрудняет речь. Кроме того, помещение предметов в глотку обычно вызывает рвотный рефлекс, который останавливает голосообразование и закрывает гортань. Кроме того, стробоскопическая визуализация полезна только тогда, когда вибрационный рисунок голосовых складок близок к периодическому.

Наиболее важными ^{[ по мнению кого? ]} косвенными методами в настоящее время являются обратная фильтрация записей микрофона или орального воздушного потока и электроглоттография (EGG). ^{[ необходима цитата ]} При обратной фильтрации звук речи (излучаемая акустическая форма волны давления, полученная от микрофона) или форма волны орального воздушного потока из маски с круговым отверстием (CV) записывается снаружи рта, а затем фильтруется математическим методом для устранения эффектов голосового тракта. Этот метод оценивает голосовой вход производства голоса путем записи выходного сигнала и использования вычислительной модели для инвертирования эффектов голосового тракта. Другим видом неинвазивной косвенной индикации движения голосовых складок является электроглоттография, в которой электроды, размещенные по обе стороны горла субъекта на уровне голосовых складок, регистрируют изменения проводимости горла в зависимости от того, насколько большая часть голосовых складок касается друг друга. Таким образом, это дает одномерную информацию о контактной области. Ни обратная фильтрация, ни EGG недостаточны для полного описания сложной трехмерной картины движения голосовых связок, но могут предоставить полезные косвенные доказательства этого движения.

Другой способ провести анализ голоса — посмотреть на характеристики голоса. Некоторые характеристики голоса — фонация , высота тона , громкость и скорость. Эти характеристики можно использовать для оценки голоса человека и они могут помочь в процессе анализа голоса. Фонация обычно проверяется путем просмотра различных типов данных, полученных от человека, таких как слова с длинными гласными, слова со многими фонемами или просто типичная речь. Высота тона человека может быть оценена, если заставить человека произнести самые высокие и самые низкие звуки, которые он может, а также звуки между ними. Для помощи в этом процессе можно использовать клавиатуру. Громкость важна для изучения, поскольку для некоторых людей громкость влияет на то, как они произносят определенные звуки. Некоторым людям нужно говорить громче для определенных фонем по сравнению с другими, чтобы они могли их произнести. ^{[ необходима цитата ]} Это можно проверить, попросив человека использовать ту же громкость при пении гаммы. Скорость также важна, поскольку она показывает, насколько быстро или медленно говорит человек.

^[2]

Использование в медицине

Медицинское исследование голоса может быть, например, анализом голоса пациентов, у которых полипы были удалены из голосовых связок с помощью операции. Компьютерные методы могут быть использованы для объективной оценки таких проблем. ^[3] Опытный голосовой терапевт может достаточно надежно оценить голос, но это требует обширной подготовки и все еще субъективно.

Еще одной активной темой исследований в области медицинского анализа голоса является оценка голосовой нагрузки . Голосовые связки человека, который говорит в течение длительного времени, страдают от утомления, то есть процесс говорения оказывает нагрузку на голосовые связки и утомляет ткани. Среди профессиональных пользователей голоса (например, учителей, продавцов) это утомление может привести к сбоям в работе голоса и больничным. Анализ голоса изучался как объективное средство оценки таких проблем. ^[4]

Анализ голоса был важным фактором в изучении паралича голосовых связок. Он влияет на различные функции голосовых связок, от речи до дыхания, и анализ голоса используется для изучения эффективности тиропластики (медиализующей тиропластики) улучшений голосовых связок после операции. Традиционная запись голоса используется в предоперационном периоде для записи голосов выбранных пациентов для сравнения с использованием после операции, наряду с более сложными записями с использованием электроглоттографии, фотоглоттографии [ ^5] и видеокимографии . Медицинские специалисты имеют возможность читать и понимать результаты сложных записей, но для получения точных результатов в этих экспериментах необходимы знания специалиста по голосу. Эксперты по голосу сыграли важную роль в связывании физического обследования голосовых связок с неврологическим обследованием, чтобы гарантировать успех операции из-за их тренированного слуха. Перцептивная оценка голоса в значительной степени зависит от качества голоса , фактора, который предпочтительно оценивают специалисты по голосу ( логопеды ). Профессиональный анализатор голоса имеет тренированный слух и может исключить из результатов лишние варианты, которые могут быть обманчивыми. ^[6]

Использование в криминалистике

Анализ голоса используется в отрасли судебной экспертизы, называемой аудиокриминалистикой . Эти анализы обычно проводятся на основе доказательств с целью оценки подлинности рассматриваемого аудио, подчеркивания особенностей аудио, которые могут быть скрыты за отвлекающим фоновым шумом, интерпретации аудио с точки зрения судебного эксперта ^[7] или, в некоторых случаях, с целью идентификации говорящего ^[8] .

Эксперт будет использовать различные методы в своем анализе. Минимальный набор процедур — «критическое прослушивание, анализ формы волны и спектральный анализ ». ^[9] Критическое прослушивание включает в себя тщательный анализ как фоновых, так и фоновых звуков посредством повторного прослушивания. ^[9] Анализ формы волны визуализирует аудио для эксперта, чтобы увидеть любые нарушения, которые могут возникнуть. Спектральный анализ визуализирует частоту аудио для эксперта, чтобы выделить интересующие его особенности. ^[9]

Одним из дел, в котором аудиозапись сыграла более важную роль, является дело Трейвона Мартина , где была проанализирована запись звонка в полицию, чтобы определить, исходили ли крики на заднем плане от Джорджа Циммермана или от Мартина .

Судебная экспертиза голоса

Эксперты в области судебной экспертизы голоса анализируют записи, изучая переданную и сохраненную речь, улучшая ее и расшифровывая для уголовных расследований, судебных процессов и федеральных агентств.

Чтобы использовать аудиозаписи в суде, судебный фонетик должен подтвердить подлинность записи, чтобы обнаружить фальсификацию, улучшить звук и интерпретировать речь. Их первая задача — убедиться, что речь в используемой записи понятна. Часто образцы имеют плохое качество звука из-за факторов окружающей среды, таких как ветер или движение. В других случаях ухудшение звука происходит из-за технологических проблем в записывающем устройстве. Любая следственная работа по идентификации говорящего не может быть выполнена, пока запись не будет надлежащего качества. Различные решения для плохой понятности выполняются с помощью компьютерных программ, которые позволяют пользователю фильтровать и устранять шум. Компьютерное программное обеспечение также может преобразовывать речь в спектры и формы волн, что полезно для судебного фонетика. Однако любая работа, выполняемая с записью, должна выполняться после того, как будет сделана копия оригинальной записи.

Основная часть работы судебного фонетика — идентификация говорящего. Процесс интерпретации может включать в себя составление временной шкалы, расшифровку диалога и идентификацию неизвестных или неразборчивых звуков в аудиозаписи. В суде эксперт в конечном итоге служит для объяснения фактов, окружающих аудиодоказательства, предоставляя объяснение соответствующих акустических и физических принципов для объяснения того, что подтверждается записью. Отчеты составляются с целью включения подробной информации, если есть раздел записи, который непонятен или неслышен, объяснение того, что происходило (в записи), и описание того, чего не хватает в записи.

Идентификация говорящего

Анализ голоса играет роль в идентификации говорящего . Это происходит, когда личность говорящего неизвестна и должна быть идентифицирована из множества других голосов или подозреваемых при расследовании преступления или судебном разбирательстве. Правильная идентификация говорящего и голосов, особенно в уголовных делах, зависит от ряда факторов, таких как знакомство, воздействие, задержка, тон голоса, маскировка голоса и акценты. Знакомство с говорящим увеличивает шансы правильно идентифицировать голос и различать его. Количество воздействия голоса также помогает правильно идентифицировать голос, даже если он незнакомый. Слушатель, который слушал более длинное высказывание или подвергался воздействию голоса чаще, лучше узнает голос, чем тот, кто, возможно, мог слышать только одно слово. Задержка между временем, когда он услышал голос, и временем, когда он идентифицировал говорящего, также снижает вероятность идентификации правильного говорящего. Тон голоса влияет на способность идентифицировать правильного говорящего. Если тон не совпадает с тоном говорящего на момент сравнения, его будет сложнее анализировать. Маскировка голоса, например, когда говорящий шепчет, также будет препятствовать возможности точного сопоставления и идентификации говорящего. В некоторых случаях лицам, говорящим на том же языке, что и говорящий, чей голос анализируется, будет легче идентифицировать их из-за акцента и ударения в голосе. Идентификация говорящего дополнительно осложняется искажениями от технического метода записи и проблемами, связанными с говорящим, такими как эмоциональные состояния или альтернативные мотивы, вызывающие несоответствие между его голосом и голосом записи. Методы идентификации говорящего в судебной экспертизе включают использование свидетелей, которые используются для идентификации голосов, которые они слышали, аудиально-перцептивный подход, проводимый специалистом в отношении супрасегментарных частей речи человека, и компьютерные подходы.

Смотрите также

Ссылки

^ Саранги, Сусанта; Сахидулла, Мэриленд; Саха, Гаутам (сентябрь 2020 г.). «Оптимизация банка фильтров на основе данных для автоматической проверки говорящего». Цифровая обработка сигналов . 104 : 102795. arXiv : 2007.10729 . doi : 10.1016/j.dsp.2020.102795. S2CID 220665533.
^ Хапнер, Эди; Стемпл, Джозеф (2014). Голосовая терапия: клинические исследования случаев . Plural Publishing.
^ Toran, SiKC; Lal, BK (2010). «Объективный анализ голоса при голосовых полипах после микроларингеальной фонохирургии». Медицинский журнал Университета Катманду . 8 (2): 185–189. doi : 10.3126/kumj.v8i2.3555 . ISSN 1812-2078. PMID 21209532.
^ Стэмпл, Джозеф К.; Стэнли, Дженнифер; Ли, Линда (1995). «Объективные измерения голосовой продукции у нормальных субъектов после длительного использования голоса». Journal of Voice . 9 (2): 127–133. doi :10.1016/s0892-1997(05)80245-0. ISSN 0892-1997. PMID 7620534.
^ Gerratt, Bruce R.; Hanson, David G.; Berke, Gerald S.; Precoda, Kristin (1991-01-01). «Фотоглоттография: клинический синопсис». Journal of Voice . 5 (2): 98–105. doi :10.1016/S0892-1997(05)80173-0 . Получено 16.12.2020 .
^ Chowdhury, Kanishka; Saha, Somnath; Saha, Vedula Padmini; Pal, Sudipta; Chatterjee, Indranil (2013-03-23). «Пред- и постоперационный анализ голоса после медиальной тиропластики в случаях одностороннего паралича голосовых складок». Indian Journal of Otolaryngology and Head & Neck Surgery . 65 (4): 354–357. doi :10.1007/s12070-013-0649-3. ISSN 2231-3796. PMC 3851511. PMID 24427598 .
^ Махер, Роберт С. (2018). Принципы судебного аудиоанализа . Современная акустика и обработка сигналов. Cham: Springer International Publishing. стр. 1–2. doi :10.1007/978-3-319-99453-6. ISBN 978-3-319-99452-9 .
^ Солан, Лоуренс М.; Тирсма, Питер М. (2004). Говоря о преступности . Издательство Чикагского университета. doi : 10.7208/chicago/9780226767871.001.0001. ISBN 978-0-226-76793-2.
^ abc Maher, Robert C. (2018). Принципы судебного аудиоанализа . Современная акустика и обработка сигналов. Cham: Springer International Publishing. стр. 48–49. doi :10.1007/978-3-319-99453-6. ISBN 978-3-319-99452-9 .

Внешние ссылки

Интернет-сообщество по проблемам с голосом и вокальным расстройствам (VoiceMatters.net)

[1] Саранги, Сусанта; Сахидулла, Мэриленд; Саха, Гаутам (сентябрь 2020 г.). «Оптимизация банка фильтров на основе данных для автоматической проверки говорящего». Цифровая обработка сигналов . 104 : 102795. arXiv : 2007.10729 . doi : 10.1016/j.dsp.2020.102795. S2CID 220665533.

[2] Хапнер, Эди; Стемпл, Джозеф (2014). Голосовая терапия: клинические исследования случаев . Plural Publishing.

[3] Toran, SiKC; Lal, BK (2010). «Объективный анализ голоса при голосовых полипах после микроларингеальной фонохирургии». Медицинский журнал Университета Катманду . 8 (2): 185–189. doi : 10.3126/kumj.v8i2.3555 . ISSN 1812-2078. PMID 21209532.

[4] Стэмпл, Джозеф К.; Стэнли, Дженнифер; Ли, Линда (1995). «Объективные измерения голосовой продукции у нормальных субъектов после длительного использования голоса». Journal of Voice . 9 (2): 127–133. doi :10.1016/s0892-1997(05)80245-0. ISSN 0892-1997. PMID 7620534.

[5] Gerratt, Bruce R.; Hanson, David G.; Berke, Gerald S.; Precoda, Kristin (1991-01-01). «Фотоглоттография: клинический синопсис». Journal of Voice . 5 (2): 98–105. doi :10.1016/S0892-1997(05)80173-0 . Получено 16.12.2020 .

[6] Chowdhury, Kanishka; Saha, Somnath; Saha, Vedula Padmini; Pal, Sudipta; Chatterjee, Indranil (2013-03-23). «Пред- и постоперационный анализ голоса после медиальной тиропластики в случаях одностороннего паралича голосовых складок». Indian Journal of Otolaryngology and Head & Neck Surgery . 65 (4): 354–357. doi :10.1007/s12070-013-0649-3. ISSN 2231-3796. PMC 3851511. PMID 24427598 .

[7] Махер, Роберт С. (2018). Принципы судебного аудиоанализа . Современная акустика и обработка сигналов. Cham: Springer International Publishing. стр. 1–2. doi :10.1007/978-3-319-99453-6. ISBN 978-3-319-99452-9 .

[8] Солан, Лоуренс М.; Тирсма, Питер М. (2004). Говоря о преступности . Издательство Чикагского университета. doi : 10.7208/chicago/9780226767871.001.0001. ISBN 978-0-226-76793-2.

[:0-9] Maher, Robert C. (2018). Принципы судебного аудиоанализа . Современная акустика и обработка сигналов. Cham: Springer International Publishing. стр. 48–49. doi :10.1007/978-3-319-99453-6. ISBN 978-3-319-99452-9 .