В статистике одной из целей дисперсионного анализа (ANOVA) является анализ различий в средних значениях между группами. Тестовая статистика F предполагает независимость наблюдений, однородные дисперсии и нормальность популяции . ANOVA на рангах — это статистика, разработанная для ситуаций, когда предположение о нормальности нарушено.
Статистика F — это отношение числителя к знаменателю. Рассмотрим случайно выбранных субъектов, которые впоследствии случайным образом распределяются по группам A, B и C. При истинности нулевой гипотезы изменчивость (или сумма квадратов) оценок по некоторой зависимой переменной будет одинаковой в каждой группе. При делении на степени свободы (т. е. на основе количества субъектов в группе) получается знаменатель отношения F.
Обработайте среднее значение для каждой группы как оценку и вычислите изменчивость (опять же, сумму квадратов) этих трех оценок. При делении на степени свободы (т. е. на основе числа групп) получается числитель коэффициента F.
При истинности нулевой гипотезы выборочное распределение F-коэффициента зависит от степеней свободы числителя и знаменателя.
Смоделируйте лечение, применяемое к группе A путем увеличения каждого балла на X. (Эта модель поддерживает базовое предположение об однородных дисперсиях. На практике редко — если не невозможно — происходит увеличение X в среднем значении группы за счет увеличения балла каждого члена на X.) Это сместит распределение X единиц в положительном направлении, но не окажет никакого влияния на изменчивость внутри группы. Однако изменчивость между средними баллами трех групп теперь увеличится. Если полученное отношение F повышает значение до такой степени, что оно превышает порог того, что составляет редкое событие (называемое уровнем альфа), говорят, что тест Anova F отвергает нулевую гипотезу о равных средних значениях между тремя группами в пользу альтернативной гипотезы о том, что по крайней мере одна из групп имеет большее среднее значение (которое в этом примере является группой A).
Ранжирование — одна из многих процедур, используемых для преобразования данных, которые не соответствуют предположениям о нормальности . Коновер и Иман представили обзор четырех основных типов ранговых преобразований (RT). [1] Один метод заменяет каждое исходное значение данных его рангом (от 1 для наименьшего до N для наибольшего). Эта основанная на ранге процедура была рекомендована как устойчивая к ненормальным ошибкам, устойчивая к выбросам и высокоэффективная для многих распределений. Она может привести к известной статистике (например, в двух независимых результатах ранжирования макета выборки в сумме рангов Вилкоксона / U-критерии Манна–Уитни ) и обеспечивает желаемую надежность и повышенную статистическую мощность , которые искомые. Например, исследования Монте-Карло показали, что ранговое преобразование в схеме t-теста для двух независимых выборок может быть успешно распространено на однофакторный независимый дисперсионный анализ (ANOVA) и многомерные схемы Хотеллинга T 2 для двух независимых выборок [2]. Коммерческие статистические программные пакеты (например, SAS) сопровождались рекомендациями аналитикам данных о необходимости пропускать свои наборы данных через процедуру ранжирования (например, PROC RANK) перед проведением стандартных анализов с использованием параметрических процедур. [3] [4] [5]
ANOVA на рангах означает, что стандартный дисперсионный анализ рассчитывается на основе преобразованных по рангу данных. Было также предложено проведение факторного ANOVA на рангах исходных оценок. [6] [7] [8] Однако исследования Монте-Карло, [9] [ 10] [11] [12] и последующие асимптотические исследования [13] [14] обнаружили, что преобразование рангов не подходит для тестирования эффектов взаимодействия в факторном дизайне 4x3 и 2x2x2. По мере того, как количество эффектов (т. е. основных, взаимодействия) становится ненулевым, и по мере увеличения величины ненулевых эффектов увеличивается ошибка первого рода , что приводит к полному отказу статистики с вероятностью принятия ложноположительного решения вплоть до 100%. Аналогичным образом было обнаружено, что преобразование рангов все чаще терпит неудачу в двух зависимых выборках по мере увеличения корреляции между предтестовыми и посттестовыми оценками. [15] Также было обнаружено, что проблема частоты ошибок типа I обострилась в контексте анализа ковариации, особенно по мере увеличения корреляции между ковариатом и зависимой переменной. [16]
Вариантом преобразования рангов является «нормализация квантилей», при которой к рангам применяется дальнейшее преобразование, так что результирующие значения имеют определенное распределение (часто нормальное распределение с заданным средним значением и дисперсией). Дальнейший анализ данных, нормализованных квантилями, может затем предполагать это распределение для вычисления значений значимости. Однако было показано, что два конкретных типа вторичных преобразований, преобразование случайных нормальных оценок и ожидаемых нормальных оценок, значительно увеличивают ошибки типа I и существенно снижают статистическую мощность. [17]
ANOVA для рангов никогда не рекомендовался, когда базовое предположение об однородности дисперсий было нарушено, либо само по себе, либо в сочетании с нарушением предположения о нормальности популяции. [ необходима ссылка ] В целом, статистики на основе рангов становятся неустойчивыми в отношении ошибок типа I для отклонений от гомоскедастичности даже быстрее, чем параметрические аналоги, которые разделяют то же предположение. [ необходима ссылка ]
Кепнер и Вакерли подвели итоги литературы, отметив, что «к концу 1980-х годов объем литературы по методам ОТ быстро расширялся, поскольку были получены новые знания, как положительные, так и отрицательные, относительно полезности метода. Обеспокоенные тем, что методы ОТ могут быть использованы не по назначению, Савиловски и др. (1989, стр. 255) предостерегали практиков от использования этих тестов «за исключением тех конкретных ситуаций, когда характеристики тестов хорошо понятны». [18] По словам Хеттманспергера и Маккина, [19] «Савиловски (1990) [20] дает превосходный обзор непараметрических подходов к тестированию на взаимодействие» в ANOVA.