Метод Ньюмена–Кейлса или Стьюдента–Ньюмена–Кейлса (SNK) представляет собой пошаговую процедуру множественных сравнений , используемую для выявления выборочных средних значений , которые существенно отличаются друг от друга. [1] Он был назван в честь Стьюдента (1927), [2] Д. Ньюмена, [3] и М. Кейлса. [4] Эта процедура часто используется в качестве апостериорного теста всякий раз, когда с помощью дисперсионного анализа (ANOVA) выявляется значительная разница между тремя или более выборочными средними значениями . [1] Метод Ньюмена–Кейлса похож на тест размаха Тьюки , поскольку обе процедуры используют стьюдентизированную статистику размаха . [5] [6] В отличие от теста размаха Тьюки, метод Ньюмена–Кейлса использует различные критические значения для различных пар сравнений средних значений. Таким образом, процедура с большей вероятностью выявит значимые различия между групповыми средними значениями и совершит ошибки типа I , ошибочно отвергнув нулевую гипотезу, когда она верна. Другими словами, процедура Неймана-Кейлса более мощная , но менее консервативная, чем тест диапазона Тьюки. [6] [7]
Метод Ньюмена–Кейлса был введен Ньюменом в 1939 году и развит Кейлсом в 1952 году. Это было до того, как Тьюки представил различные определения коэффициентов ошибок (1952a, [8] 1952b, [9] 1953 [10] ). Метод Ньюмена–Кейлса контролирует коэффициент ошибок по семействам (FWER) в слабом смысле, но не в сильном смысле: [11] [12] процедура Ньюмена–Кейлса контролирует риск отклонения нулевой гипотезы, если все средние равны (глобальная нулевая гипотеза), но не контролирует риск отклонения частичных нулевых гипотез. Например, когда сравниваются четыре средних значения при частичной нулевой гипотезе, что μ1=μ2 и μ3=μ4=μ+delta с ненулевой delta, процедура Ньюмена–Кейлса имеет вероятность, большую, чем альфа, отклонить μ1=μ2 или μ3=μ4 или оба. В этом примере, если delta очень велика, процедура Ньюмена–Кейлса почти эквивалентна двум тестам Стьюдента t, проверяющим μ1=μ2 и μ3=μ4 при номинальной частоте ошибок типа I alpha, без процедуры множественного тестирования; поэтому FWER почти удваивается. [11] В худшем случае FWER процедуры Ньюмена–Кейлса равен 1-(1-альфа)^int(J/2), где int(J/2) представляет собой целую часть общего числа групп, деленную на 2. [12] Таким образом, при наличии двух или трех групп процедура Ньюмена–Кейлса имеет сильный контроль над FWER, но не для четырех или более групп. В 1995 году Бенджамини и Хохберг представили новый, более либеральный и более мощный критерий для этих типов проблем: контроль частоты ложных открытий (FDR). [13] В 2006 году Шаффер показал (путем обширного моделирования), что метод Ньюмена–Кейлса контролирует FDR с некоторыми ограничениями. [14]
Предположения теста Ньюмена–Кейлса по сути те же, что и для независимого группового t-теста : нормальность , однородность дисперсии и независимые наблюдения . Тест довольно устойчив к нарушениям нормальности. Нарушение однородности дисперсии может быть более проблематичным, чем в случае с двумя выборками, поскольку MSE основан на данных из всех групп. Предположение о независимости наблюдений важно и не должно нарушаться.
Метод Ньюмена–Кейлса использует пошаговый подход при сравнении выборочных средних значений. [15] Перед любым сравнением средних значений все выборочные средние значения ранжируются в порядке возрастания или убывания, тем самым создавая упорядоченный диапазон ( p ) выборочных средних значений. [1] [15] Затем проводится сравнение между наибольшим и наименьшим выборочными средними значениями в пределах наибольшего диапазона. [15] Если предположить, что наибольший диапазон составляет четыре средних значения (или p = 4), то значительная разница между наибольшим и наименьшим средними значениями, выявленная методом Ньюмена–Кейлса, приведет к отклонению нулевой гипотезы для этого конкретного диапазона средних значений. Затем следующее по величине сравнение двух выборочных средних значений будет проводиться в пределах меньшего диапазона из трех средних значений (или p = 3). Если между двумя выборочными средними значениями в пределах любого заданного диапазона нет значительных различий, это пошаговое сравнение выборочных средних значений будет продолжаться до тех пор, пока не будет проведено окончательное сравнение с наименьшим диапазоном из двух средних значений. Если между двумя выборочными средними значениями нет существенной разницы, то все нулевые гипотезы в этом диапазоне будут сохранены, и дальнейшие сравнения в меньших диапазонах не потребуются.
Средние значения | 2 | 4 | 6 | 8 |
---|---|---|---|---|
2 | 2 | 4 | 6 | |
4 | 2 | 4 | ||
6 | 2 |
Чтобы определить, существует ли значимая разница между двумя средними значениями при одинаковых размерах выборки, метод Ньюмена–Кейлса использует формулу, идентичную той, которая используется в тесте размаха Тьюки , который вычисляет значение q путем деления разницы между двумя средними значениями выборки на стандартную ошибку:
где представляет собой стьюдентизированное значение диапазона, и являются наибольшим и наименьшим средними выборки в пределах диапазона, является дисперсией ошибки, взятой из таблицы ANOVA, и является размером выборки (количеством наблюдений в пределах выборки). Если сравнения проводятся со средними неравных размеров выборки ( ), то формула Ньюмена-Кейлса будет скорректирована следующим образом:
где и представляют собой размеры выборки двух выборочных средних. В обоих случаях MSE (средняя квадратичная ошибка) берется из ANOVA, проведенного на первом этапе анализа.
После вычисления вычисленное значение q можно сравнить с критическим значением q (или ), которое можно найти в таблице распределения q на основе уровня значимости ( ), степеней свободы ошибки ( ) из таблицы ANOVA и диапазона ( ) средних значений выборки, которые необходимо проверить. [16] Если вычисленное значение q равно или больше критического значения q , то нулевая гипотеза ( H 0 : μ A = μ B ) для этого конкретного диапазона средних значений может быть отклонена. [16] Поскольку количество средних значений в диапазоне изменяется с каждым последующим парным сравнением, критическое значение статистики q также изменяется с каждым сравнением, что делает метод Неймана-Кейлса более мягким и, следовательно, более мощным, чем тест размаха Тьюки. Таким образом, если было обнаружено, что парное сравнение значительно отличается с использованием метода Ньюмана-Кейлса, оно не обязательно будет значительно отличаться при анализе с помощью теста размаха Тьюки. [7] [16] И наоборот, если при использовании метода Ньюмена–Кейлса не было обнаружено существенной разницы в парном сравнении, то оно не может быть существенной разницы и при использовании теста размаха Тьюки. [7]
Процедура Ньюмена-Кейлса не может создать доверительный интервал для каждой средней разности или для точных p-значений с поправкой на множественность из-за ее последовательной природы. [ необходима ссылка ] Результаты довольно сложно интерпретировать, поскольку сложно сформулировать, какие нулевые гипотезы были проверены. [ необходима ссылка ]
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )