MUSHRA означает Multiple Stimuli with Hidden Reference and Anchor и представляет собой методологию проведения теста прослушивания кодека для оценки воспринимаемого качества выходных данных алгоритмов сжатия звука с потерями . Он определен рекомендацией ITU-R BS.1534-3. [1] Методология MUSHRA рекомендуется для оценки «промежуточного качества звука». Для очень небольших или чувствительных ухудшений звука вместо этого рекомендуется Рекомендация ITU-R BS.1116-3 (ABC/HR).
MUSHRA можно использовать для тестирования аудиокодеков в широком спектре вариантов использования: потребление музыки и фильмов, речь, например, для подкастов и радио , онлайн-трансляция (где компромиссы между качеством и эффективностью размера и вычислений имеют первостепенное значение), современная цифровая телефония и приложения VOIP (которые требуют квазиреального времени, кодирования с низким битрейтом, которое остается разборчивым). Профессиональное, « аудиофильское » и « просьюмерское » использование обычно лучше подходит для альтернативных тестов, таких как вышеупомянутый ABC/HR, с базовым предположением о высококачественном звуке с высоким разрешением , при котором будут минимальные обнаруживаемые различия между эталонным материалом и выходом кодека.
Главное преимущество перед методологией среднего мнения (MOS) (которая служит схожей цели) заключается в том, что MUSHRA требует меньшего количества участников для получения статистически значимых результатов. [ необходима цитата ] Это связано с тем, что все кодеки представляются в одно и то же время одним и тем же участникам, так что для статистического анализа можно использовать парный t-тест или дисперсионный анализ повторных измерений . Кроме того, шкала 0–100, используемая MUSHRA, позволяет выражать ощутимые различия с высокой степенью детализации, особенно по сравнению с модифицированной шкалой Лайкерта 0–5 , часто используемой в экспериментах MOS.
В MUSHRA слушателю предоставляется эталон (помеченный как таковой), определенное количество тестовых образцов, скрытая версия эталона и один или несколько якорей (т. е. сильно нарушенные кодировки, которые как экспериментаторы, так и участники должны немедленно распознавать как таковые; используемые аналогично эталону для предоставления базовой линии, демонстрирующей - «якорение» - для участников реальность нижнего предела шкалы качества). Рекомендация указывает, что в тестовые сигналы должны быть включены якорь низкого и среднего диапазона. Обычно это низкочастотная версия эталона 7 кГц и 3,5 кГц. Цель якорей - калибровать шкалу, чтобы незначительные артефакты не были неоправданно наказаны. Это особенно важно при сравнении или объединении результатов из разных лабораторий.
Оба теста MUSHRA и ITU BS.1116 [2] требуют обученных экспертов-слушателей , которые знают, как звучат типичные артефакты и где они, скорее всего, могут возникнуть. Эксперты-слушатели также лучше усваивают шкалу оценок, что приводит к более повторяемым результатам , чем у необученных слушателей. Таким образом, с обученными слушателями требуется меньше слушателей для достижения статистически значимых результатов .
Предполагается, что предпочтения у опытных слушателей и наивных слушателей схожи, и, таким образом, результаты опытных слушателей также являются прогнозируемыми для потребителей. В соответствии с этим предположением Шинкель-Билефельд и др. [3] не обнаружили различий в ранжировании между опытными слушателями и неподготовленными слушателями при использовании тестовых сигналов, содержащих только тембр и не содержащих пространственных артефактов. Однако Рамси и др. [4] показали, что для сигналов, содержащих пространственные артефакты, опытные слушатели взвешивают пространственные артефакты немного сильнее, чем неподготовленные слушатели, которые в первую очередь фокусируются на тембровых артефактах.
В дополнение к этому, было показано, что опытные слушатели чаще используют возможность прослушивания меньших фрагментов тестируемых сигналов повторно и выполняют больше сравнений между тестируемыми сигналами и эталоном. [3] В отличие от наивного слушателя, который выставляет рейтинг предпочтений, опытные слушатели выставляют рейтинг качества звука, оценивая различия между тестируемым сигналом и несжатым оригиналом, что и является фактической целью MUSHRA-теста.
В рекомендациях MUSHRA описаны две основные возможности оценки надежности слушателя (описаны ниже).
Самый простой и распространенный способ — дисквалифицировать, постфактум , всех слушателей, которые оценивают скрытый референсный повтор ниже 90 баллов MUSHRA для более чем 15% всех тестовых элементов. Скрытый референс должен , в идеальном случае, оцениваться в 100 баллов, чтобы указать на перцептивную эквивалентность с исходным референсным аудио. Хотя может случиться, что скрытый референс и высококачественный сигнал будут перепутаны, спецификация предусматривает, что оценка ниже 90 должна даваться только в том случае, если слушатель уверен, что оцененный сигнал отличается от исходного референса, поэтому оценка ниже 90 для скрытого референса считается явной и очевидной ошибкой слушателя.
Другой возможностью оценить работу слушателя является eGauge [5], фреймворк, основанный на дисперсионном анализе (ANOVA). Он вычисляет согласие , повторяемость и дискриминабельность , хотя только последние два рекомендуются для предварительного или последующего скрининга. Согласие — это ANOVA согласия слушателя с остальными слушателями. Повторяемость проверяет внутреннюю надежность человека при повторной оценке того же тестового сигнала по сравнению с дисперсией других тестовых сигналов. Дискриминабельность анализирует своего рода межтестовую надежность, проверяя, могут ли слушатели различать тестовые сигналы разных условий. Поскольку eGauge требует прослушивания каждого тестового сигнала дважды, его использование временно неэффективно в краткосрочной перспективе по сравнению с предыдущим методом пост-скрининга слушателей на основе скрытого референта. eGauge имеет преимущества при использовании с более долгосрочным представлением. Это сводит на нет небольшой шанс полного повторения в редких случаях, когда результаты выборки не обладают достаточной статистической мощностью из-за чрезмерного количества отказов, обнаруженных постфактум. Кроме того, первоначальная неэффективность может быть амортизирована в ходе серии экспериментов за счет устранения необходимости в фазах набора: если слушатель показал себя надежным слушателем с помощью eGauge, он или она также может считаться надежным слушателем для будущих тестов прослушивания, при условии, что характер теста существенно не изменится (например, надежный слушатель для стереотестов не обязательно одинаково хорошо воспринимает артефакты в конфигурациях 5.1 или 22.2 или потенциально даже в моноформатах ).
Важно выбрать критические тестовые элементы. В частности, элементы, которые трудно кодировать и которые, вероятно, будут создавать артефакты. В то же время тестовые элементы должны быть экологически обоснованными : они должны представлять собой вещательный материал, а не просто синтетические сигналы, разработанные так, чтобы их было трудно кодировать за счет реализма. Метод выбора критических материалов представлен Экероотом и др., которые предлагают процедуру ранжирования путем исключения. [6] [ необходимо дополнительное объяснение ] Хотя это эффективно для выбора наиболее критических тестовых элементов, оно не гарантирует включение различных тестовых элементов, подверженных различным артефактам.
В идеале элемент теста MUSHRA должен сохранять схожие характеристики на протяжении всей своей продолжительности (например, использование последовательной инструментовки в музыке или голос одного и того же человека с похожей модуляцией и тоном в устной речи). Слушателю может быть сложно принять решение об одномерной оценке MUSHRA, если некоторые части элементов демонстрируют разные артефакты или более сильные артефакты по сравнению с другими частями, что становится более вероятным из-за больших вариаций в характеристиках звука. [7] Часто более короткие элементы приводят к меньшей изменчивости, поскольку они демонстрируют большую стационарность (перцептивную последовательность и постоянство). [8] Однако даже при попытке выбрать стационарные элементы экологически обоснованные стимулы (т. е. звук, который, вероятно, появится или похож на тот, который, вероятно, появится в реальных ситуациях, таких как по радио) очень часто будут иметь разделы, которые немного более критичны, чем остальная часть сигнала (примеры включают ключевые слова в речи или основные фразы музыки и зависят от типа стимула). Стационарность важна, поскольку слушатели, которые фокусируются на разных частях сигнала, склонны оценивать его по-разному. Слушатели, которые более аналитичны, по-видимому, лучше определяют наиболее важные области стимула, чем те, кто менее аналитичен. [9]
Тесты ITU-T P.800 [10] , основанные на методологии среднего мнения, обычно используются для оценки телефонных кодеков для использования, например, в VOIP . Этот стандарт определяет, что тестируемые речевые элементы всегда должны быть на родном языке слушателей. Когда вместо этого для этих целей используется MUSHRA, сопоставление языка становится ненужным. Эксперименты MUSHRA направлены не на проверку разборчивости произнесенных слов, а исключительно на проверку качества звука, содержащего эти слова, и наличия или отсутствия слышимых артефактов (например, искажений). Исследование MUSHRA с участием слушателей на китайском и немецком языках не обнаружило существенной разницы между оценкой тестовых элементов на иностранном и родном языке. Несмотря на отсутствие различий в конечных результатах, слушателям требовалось больше времени и возможностей для сравнения (повторений) для точной оценки элементов на иностранном языке. [11] Такая компенсация невозможна в тестах ITU-T P.800 ACR, в которых элементы слышны только один раз, и сравнение с эталонным звуком невозможно. В таких тестах, в отличие от тестов MUSHRA, элементы иностранного языка воспринимаются и затем оцениваются как имеющие более низкое качество, независимо от фактического качества кодека, когда уровень владения слушателями целевым языком низок. [12]
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь )CS1 maint: числовые имена: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь )CS1 maint: числовые имена: список авторов ( ссылка ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь )CS1 maint: несколько имен: список авторов ( ссылка )