Измерение качества восприятия речи

Алгоритм ITU-T, объективно измеряющий качество голоса

Perceptual Speech Quality Measure ( PSQM ) — это вычислительный и моделирующий алгоритм, определенный в Рекомендации ITU-T P.861, который объективно оценивает и количественно определяет качество голоса речевых кодеков голосового диапазона (300–3400 Гц) . Его можно использовать для ранжирования производительности этих речевых кодеков с различными уровнями входной речи, говорящими, скоростями передачи данных и транскодированиями. Рекомендация P.861 была отозвана и заменена Рекомендацией ITU-T P.862 ( PESQ ), которая содержит улучшенный алгоритм оценки речи.

Почему это используется

Использование стандарта PSQM позволяет использовать автоматизированные, основанные на моделировании методы тестирования для объективной оценки как четкости речи, так и качества передаваемого голоса. Для облегчения этого тестирования были разработаны различные программные и/или аппаратные продукты. Это приводит к значительной экономии средств и времени по сравнению с традиционной практикой использования больших групп людей для субъективной оценки голосовых сигналов и оценки качества голоса. Более того, это дает объективные результаты, которые являются надежными и воспроизводимыми. Это очень важно для поставщиков телефонии, которые обязаны поддерживать высокие стандарты качества обслуживания .

Алгоритм

PSQM использует алгоритм психоакустического математического моделирования (как перцептивного, так и когнитивного) для анализа пред- и пост-переданных голосовых сигналов, что дает значение PSQM, которое является мерой ухудшения качества сигнала и варьируется от 0 (без ухудшения) до 6,5 (максимальное ухудшение). В свою очередь, этот результат может быть переведен в средний балл мнения (MOS), который является принятой мерой воспринимаемого качества принимаемых медиаданных по числовой шкале от 1 до 5. Значение 1 указывает на неприемлемое, плохое качество голоса, тогда как значение 5 указывает на высокое качество голоса без заметных проблем.

Алгоритм PSQM преобразует сигналы физической области в воспринимаемую психоакустическую область посредством ряда нелинейных процессов, таких как частотно-временное отображение, искажение частоты и искажение интенсивности.

Качество кодированной речи оценивается по различиям во внутреннем представлении. Разница используется для расчета шумового возмущения как функции времени и частоты. Помимо перцептивного моделирования, алгоритм PSQM использует когнитивное моделирование, такое как масштабирование громкости и асимметричное маскирование, чтобы получить высокую корреляцию между субъективными и объективными измерениями.

Ограничения

PSQM в первоначальном виде не был разработан для учета сетевых нарушений качества обслуживания, распространенных в приложениях Voice over IP , таких как потеря пакетов, дисперсия задержки (джиттер) или непоследовательные пакеты. Эти условия обычно дают неподходящие результаты при моделировании большой сетевой нагрузки, не учитывая вполне реальную воспринимаемую потерю качества голоса. Попытки дублировать условия отказа сети путем введения значительной потери пакетов приводят к значениям PSQM, которые соответствуют ложно завышенным значениям MOS .

Чтобы преодолеть это ограничение, был разработан PSQM+ путем модификации исходного алгоритма. PSQM+ генерирует результаты, которые, по-видимому, более точно отражают неблагоприятную производительность речевых кодеков в условиях реалистичной сетевой нагрузки.

Другие соображения

Другие проблемы связаны с отсутствием стандартизации тестовых сигналов, используемых для оценки различных речевых кодеков. PSQM обеспечивает более надежные и последовательные значения MOS, если используется в соответствии с рекомендованными МСЭ методами объективной и субъективной оценки качества (ITU-T P.800/P.830/P.861). Эти Рекомендации МСЭ-Т включают использование опорных сигналов голоса как мужского, так и женского пола на среднем уровне −20 дБ [ необходимо разъяснение ] . Тип, пол, продолжительность, усиление голоса или сигнала могут иметь незначительное влияние на значение PSQM или оценку MOS, как и пороговые уровни, количество выполненных вызовов и другие параметры конфигурации среды. При сравнении измерений качества голоса следует учитывать сигнал, среду и конфигурации.

Существует множество речевых кодеков, которые используются в самых разных приложениях. Тщательный выбор подходящего речевого кодека(ов) необходим для соответствия системным требованиям. Доступен список распространенных речевых кодеков и связанных с ними значений MOS, полученных с помощью PSQM/PSQM+, полученных при различных условиях сетевой нагрузки.

Ссылки

  • Рекомендация МСЭ-Т P.861 (отозвана): Объективное измерение качества речевых кодеков телефонного диапазона (300–3400 Гц). P.861 была признана имеющей определенные ограничения в определенных областях применения. Она была заменена на P.862, которая содержит улучшенный алгоритм объективной оценки качества речи.
  • Рекомендация МСЭ-Т P.862 (2001-02): Перцептивная оценка качества речи (PESQ): Объективный метод сквозной оценки качества речи узкополосных телефонных сетей и речевых кодеков
  • «Форум журнала AES» Перцептивная мера качества речи на основе психоакустического звукового представления». secure.aes.org . Получено 18.04.2024.

Смотрите также

Взято с "https://en.wikipedia.org/w/index.php?title=Мера_качества_восприятия_речи&oldid=1241315377"