МУШРА

Методология теста на аудирование

MUSHRA означает Multiple Stimuli with Hidden Reference and Anchor и представляет собой методологию проведения теста прослушивания кодека для оценки воспринимаемого качества выходных данных алгоритмов сжатия звука с потерями . Он определен рекомендацией ITU-R BS.1534-3. ^[1] Методология MUSHRA рекомендуется для оценки «промежуточного качества звука». Для очень небольших или чувствительных ухудшений звука вместо этого рекомендуется Рекомендация ITU-R BS.1116-3 (ABC/HR).

MUSHRA можно использовать для тестирования аудиокодеков в широком спектре вариантов использования: потребление музыки и фильмов, речь, например, для подкастов и радио , онлайн-трансляция (где компромиссы между качеством и эффективностью размера и вычислений имеют первостепенное значение), современная цифровая телефония и приложения VOIP (которые требуют квазиреального времени, кодирования с низким битрейтом, которое остается разборчивым). Профессиональное, « аудиофильское » и « просьюмерское » использование обычно лучше подходит для альтернативных тестов, таких как вышеупомянутый ABC/HR, с базовым предположением о высококачественном звуке с высоким разрешением , при котором будут минимальные обнаруживаемые различия между эталонным материалом и выходом кодека.

Главное преимущество перед методологией среднего мнения (MOS) (которая служит схожей цели) заключается в том, что MUSHRA требует меньшего количества участников для получения статистически значимых результатов. ^{[ необходима цитата ]} Это связано с тем, что все кодеки представляются в одно и то же время одним и тем же участникам, так что для статистического анализа можно использовать парный t-тест или дисперсионный анализ повторных измерений . Кроме того, шкала 0–100, используемая MUSHRA, позволяет выражать ощутимые различия с высокой степенью детализации, особенно по сравнению с модифицированной шкалой Лайкерта 0–5 , часто используемой в экспериментах MOS.

В MUSHRA слушателю предоставляется эталон (помеченный как таковой), определенное количество тестовых образцов, скрытая версия эталона и один или несколько якорей (т. е. сильно нарушенные кодировки, которые как экспериментаторы, так и участники должны немедленно распознавать как таковые; используемые аналогично эталону для предоставления базовой линии, демонстрирующей - «якорение» - для участников реальность нижнего предела шкалы качества). Рекомендация указывает, что в тестовые сигналы должны быть включены якорь низкого и среднего диапазона. Обычно это низкочастотная версия эталона 7 кГц и 3,5 кГц. Цель якорей - калибровать шкалу, чтобы незначительные артефакты не были неоправданно наказаны. Это особенно важно при сравнении или объединении результатов из разных лабораторий.

Поведение слушателя

Оба теста MUSHRA и ITU BS.1116 ^[2] требуют обученных экспертов-слушателей , которые знают, как звучат типичные артефакты и где они, скорее всего, могут возникнуть. Эксперты-слушатели также лучше усваивают шкалу оценок, что приводит к более повторяемым результатам , чем у необученных слушателей. Таким образом, с обученными слушателями требуется меньше слушателей для достижения статистически значимых результатов .

Предполагается, что предпочтения у опытных слушателей и наивных слушателей схожи, и, таким образом, результаты опытных слушателей также являются прогнозируемыми для потребителей. В соответствии с этим предположением Шинкель-Билефельд и др. ^[3] не обнаружили различий в ранжировании между опытными слушателями и неподготовленными слушателями при использовании тестовых сигналов, содержащих только тембр и не содержащих пространственных артефактов. Однако Рамси и др. ^[4] показали, что для сигналов, содержащих пространственные артефакты, опытные слушатели взвешивают пространственные артефакты немного сильнее, чем неподготовленные слушатели, которые в первую очередь фокусируются на тембровых артефактах.

В дополнение к этому, было показано, что опытные слушатели чаще используют возможность прослушивания меньших фрагментов тестируемых сигналов повторно и выполняют больше сравнений между тестируемыми сигналами и эталоном. ^[3] В отличие от наивного слушателя, который выставляет рейтинг предпочтений, опытные слушатели выставляют рейтинг качества звука, оценивая различия между тестируемым сигналом и несжатым оригиналом, что и является фактической целью MUSHRA-теста.

Предварительный или последующий скрининг

В рекомендациях MUSHRA описаны две основные возможности оценки надежности слушателя (описаны ниже).

Самый простой и распространенный способ — дисквалифицировать, постфактум , всех слушателей, которые оценивают скрытый референсный повтор ниже 90 баллов MUSHRA для более чем 15% всех тестовых элементов. Скрытый референс должен , в идеальном случае, оцениваться в 100 баллов, чтобы указать на перцептивную эквивалентность с исходным референсным аудио. Хотя может случиться, что скрытый референс и высококачественный сигнал будут перепутаны, спецификация предусматривает, что оценка ниже 90 должна даваться только в том случае, если слушатель уверен, что оцененный сигнал отличается от исходного референса, поэтому оценка ниже 90 для скрытого референса считается явной и очевидной ошибкой слушателя.

Другой возможностью оценить работу слушателя является eGauge ^[5], фреймворк, основанный на дисперсионном анализе (ANOVA). Он вычисляет согласие , повторяемость и дискриминабельность , хотя только последние два рекомендуются для предварительного или последующего скрининга. Согласие — это ANOVA согласия слушателя с остальными слушателями. Повторяемость проверяет внутреннюю надежность человека при повторной оценке того же тестового сигнала по сравнению с дисперсией других тестовых сигналов. Дискриминабельность анализирует своего рода межтестовую надежность, проверяя, могут ли слушатели различать тестовые сигналы разных условий. Поскольку eGauge требует прослушивания каждого тестового сигнала дважды, его использование временно неэффективно в краткосрочной перспективе по сравнению с предыдущим методом пост-скрининга слушателей на основе скрытого референта. eGauge имеет преимущества при использовании с более долгосрочным представлением. Это сводит на нет небольшой шанс полного повторения в редких случаях, когда результаты выборки не обладают достаточной статистической мощностью из-за чрезмерного количества отказов, обнаруженных постфактум. Кроме того, первоначальная неэффективность может быть амортизирована в ходе серии экспериментов за счет устранения необходимости в фазах набора: если слушатель показал себя надежным слушателем с помощью eGauge, он или она также может считаться надежным слушателем для будущих тестов прослушивания, при условии, что характер теста существенно не изменится (например, надежный слушатель для стереотестов не обязательно одинаково хорошо воспринимает артефакты в конфигурациях 5.1 или 22.2 или потенциально даже в моноформатах ).

Тестовые задания

Важно выбрать критические тестовые элементы. В частности, элементы, которые трудно кодировать и которые, вероятно, будут создавать артефакты. В то же время тестовые элементы должны быть экологически обоснованными : они должны представлять собой вещательный материал, а не просто синтетические сигналы, разработанные так, чтобы их было трудно кодировать за счет реализма. Метод выбора критических материалов представлен Экероотом и др., которые предлагают процедуру ранжирования путем исключения. ^[6]^{[ необходимо дополнительное объяснение ]} Хотя это эффективно для выбора наиболее критических тестовых элементов, оно не гарантирует включение различных тестовых элементов, подверженных различным артефактам.

В идеале элемент теста MUSHRA должен сохранять схожие характеристики на протяжении всей своей продолжительности (например, использование последовательной инструментовки в музыке или голос одного и того же человека с похожей модуляцией и тоном в устной речи). Слушателю может быть сложно принять решение об одномерной оценке MUSHRA, если некоторые части элементов демонстрируют разные артефакты или более сильные артефакты по сравнению с другими частями, что становится более вероятным из-за больших вариаций в характеристиках звука. ^[7] Часто более короткие элементы приводят к меньшей изменчивости, поскольку они демонстрируют большую стационарность (перцептивную последовательность и постоянство). ^[8] Однако даже при попытке выбрать стационарные элементы экологически обоснованные стимулы (т. е. звук, который, вероятно, появится или похож на тот, который, вероятно, появится в реальных ситуациях, таких как по радио) очень часто будут иметь разделы, которые немного более критичны, чем остальная часть сигнала (примеры включают ключевые слова в речи или основные фразы музыки и зависят от типа стимула). Стационарность важна, поскольку слушатели, которые фокусируются на разных частях сигнала, склонны оценивать его по-разному. Слушатели, которые более аналитичны, по-видимому, лучше определяют наиболее важные области стимула, чем те, кто менее аналитичен. ^[9]

Язык тестовых заданий

Тесты ITU-T P.800 ^[10] , основанные на методологии среднего мнения, обычно используются для оценки телефонных кодеков для использования, например, в VOIP . Этот стандарт определяет, что тестируемые речевые элементы всегда должны быть на родном языке слушателей. Когда вместо этого для этих целей используется MUSHRA, сопоставление языка становится ненужным. Эксперименты MUSHRA направлены не на проверку разборчивости произнесенных слов, а исключительно на проверку качества звука, содержащего эти слова, и наличия или отсутствия слышимых артефактов (например, искажений). Исследование MUSHRA с участием слушателей на китайском и немецком языках не обнаружило существенной разницы между оценкой тестовых элементов на иностранном и родном языке. Несмотря на отсутствие различий в конечных результатах, слушателям требовалось больше времени и возможностей для сравнения (повторений) для точной оценки элементов на иностранном языке. ^[11] Такая компенсация невозможна в тестах ITU-T P.800 ACR, в которых элементы слышны только один раз, и сравнение с эталонным звуком невозможно. В таких тестах, в отличие от тестов MUSHRA, элементы иностранного языка воспринимаются и затем оцениваются как имеющие более низкое качество, независимо от фактического качества кодека, когда уровень владения слушателями целевым языком низок. ^[12]

Ссылки

^ Рекомендация МСЭ-Р BS.1534
^ ITU-R BS.1116 (февраль 2015 г.). «Методы субъективной оценки небольших ухудшений в аудиосистемах». {{cite journal}}: Цитировать журнал требует |journal=( помощь )CS1 maint: числовые имена: список авторов ( ссылка )
^ ab Шинкель-Билефельд, Н., Лотце, Н. и Нагель, Ф. (май 2013 г.). «Оценка качества звука опытными и неопытными слушателями». Журнал Акустического общества Америки . 133 (5): 3246. Bibcode : 2013ASAJ..133.3246S. doi : 10.1121/1.4805210.{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Рамси, Фрэнсис; Зелински, Славомир; Кассиер, Рафаэль; Бек, Сёрен (31.05.2005). «Связь между оценками качества многоканального звука опытными слушателями и предпочтениями наивных слушателей». Журнал Акустического общества Америки . 117 (6): 3832–3840. Bibcode : 2005ASAJ..117.3832R. doi : 10.1121/1.1904305. ISSN 0001-4966. PMID 16018485.
^ Гаэтан, Лоро; Гийом, Ле Рэй; Ник, Захаров (2010-06-13). "eGauge — мера компетентности оценщика в оценке качества звука". Труды Общества инженеров-аудиотехников. 38-я Международная конференция по оценке качества звука .
^ Экерут, Йонас; Берг, Ян; Нюкянен, Арне (2014-04-25). «Критичность звуковых стимулов для тестов на прослушивание – Длительность прослушивания во время ранжирования». 136-й съезд Общества звукорежиссеров .
^ Макс, Нойендорф; Фредерик, Нагель (19 октября 2011 г.). «Исследовательские исследования перцептивной стационарности в тесте на прослушивание — Часть I: Реальные сигналы из пользовательских тестов на прослушивание». {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Фредерик, Нагель; Макс, Нойендорф (19 октября 2011 г.). «Исследовательские исследования перцептивной стационарности в тесте на прослушивание — Часть II: Синтетические сигналы с изменяющимися во времени артефактами». {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Надя, Шинкель-Билефельд (2017-05-11). «Оценка качества звука в тестах MUSHRA — влияние настройки петли на оценки слушателей». 142-й съезд Общества звукорежиссеров .
^ ITU-T P.800 (август 1996 г.). "P.800: Методы субъективного определения качества передачи". {{cite journal}}: Цитировать журнал требует |journal=( помощь )CS1 maint: числовые имена: список авторов ( ссылка )
^ Надя, Шинкель-Билефельд; Чжан, Цзяньдун; Цинь, Или; Катарина, Лешановски, Анна; Фу, Шаньшань (2017-05-11). «Сложнее ли воспринимать артефакты кодирования в иноязычных текстах? – Исследование с участием слушателей, говорящих на мандаринском диалекте китайского и немецкого языков». {{cite journal}}: Цитировать журнал требует |journal=( помощь )CS1 maint: несколько имен: список авторов ( ссылка )
^ Блашкова, Любица; Голуб, Ян (2008). «Как слушатели-неносители языка воспринимают качество передаваемого голоса?» (PDF) . Communications . 10 (4): 11–15. doi :10.26552/com.C.2008.4.11-14. S2CID 196699038.

Внешние ссылки

webMUSHRA: совместимое с MUSHRA программное обеспечение для экспериментов на основе веб-аудио API, настраиваемое с помощью YAML
RateIt: графический интерфейс для проведения экспериментов MUSHRA
MUSHRAM — интерфейс Matlab для тестов прослушивания MUSHRA на Wayback Machine (архив 2008-10-19)
Интерфейс Max/MSP для тестов прослушивания MUSHRA
Инструмент оценки аудио на основе браузера для запуска множества различных тестов, включая MUSHRA — не требует кодирования
BeaqleJS: фреймворк на основе HTML5 и JavaScript для тестов на прослушивание
mushraJS+Server: основан на mushraJS с сервером mochiweb, который является веб-сервером Erlang

[BS1534-2-1] Рекомендация МСЭ-Р BS.1534

[2] ITU-R BS.1116 (февраль 2015 г.). «Методы субъективной оценки небольших ухудшений в аудиосистемах». {{cite journal}}: Цитировать журнал требует |journal=( помощь )CS1 maint: числовые имена: список авторов ( ссылка )

[:0-3] Шинкель-Билефельд, Н., Лотце, Н. и Нагель, Ф. (май 2013 г.). «Оценка качества звука опытными и неопытными слушателями». Журнал Акустического общества Америки . 133 (5): 3246. Bibcode : 2013ASAJ..133.3246S. doi : 10.1121/1.4805210.{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[4] Рамси, Фрэнсис; Зелински, Славомир; Кассиер, Рафаэль; Бек, Сёрен (31.05.2005). «Связь между оценками качества многоканального звука опытными слушателями и предпочтениями наивных слушателей». Журнал Акустического общества Америки . 117 (6): 3832–3840. Bibcode : 2005ASAJ..117.3832R. doi : 10.1121/1.1904305. ISSN 0001-4966. PMID 16018485.

[5] Гаэтан, Лоро; Гийом, Ле Рэй; Ник, Захаров (2010-06-13). "eGauge — мера компетентности оценщика в оценке качества звука". Труды Общества инженеров-аудиотехников. 38-я Международная конференция по оценке качества звука .

[6] Экерут, Йонас; Берг, Ян; Нюкянен, Арне (2014-04-25). «Критичность звуковых стимулов для тестов на прослушивание – Длительность прослушивания во время ранжирования». 136-й съезд Общества звукорежиссеров .

[7] Макс, Нойендорф; Фредерик, Нагель (19 октября 2011 г.). «Исследовательские исследования перцептивной стационарности в тесте на прослушивание — Часть I: Реальные сигналы из пользовательских тестов на прослушивание». {{cite journal}}: Цитировать журнал требует |journal=( помощь )

[8] Фредерик, Нагель; Макс, Нойендорф (19 октября 2011 г.). «Исследовательские исследования перцептивной стационарности в тесте на прослушивание — Часть II: Синтетические сигналы с изменяющимися во времени артефактами». {{cite journal}}: Цитировать журнал требует |journal=( помощь )

[9] Надя, Шинкель-Билефельд (2017-05-11). «Оценка качества звука в тестах MUSHRA — влияние настройки петли на оценки слушателей». 142-й съезд Общества звукорежиссеров .

[10] ITU-T P.800 (август 1996 г.). "P.800: Методы субъективного определения качества передачи". {{cite journal}}: Цитировать журнал требует |journal=( помощь )CS1 maint: числовые имена: список авторов ( ссылка )

[11] Надя, Шинкель-Билефельд; Чжан, Цзяньдун; Цинь, Или; Катарина, Лешановски, Анна; Фу, Шаньшань (2017-05-11). «Сложнее ли воспринимать артефакты кодирования в иноязычных текстах? – Исследование с участием слушателей, говорящих на мандаринском диалекте китайского и немецкого языков». {{cite journal}}: Цитировать журнал требует |journal=( помощь )CS1 maint: несколько имен: список авторов ( ссылка )

[12] Блашкова, Любица; Голуб, Ян (2008). «Как слушатели-неносители языка воспринимают качество передаваемого голоса?» (PDF) . Communications . 10 (4): 11–15. doi :10.26552/com.C.2008.4.11-14. S2CID 196699038.