В статистической теории критерий Шовена (названный в честь Уильяма Шовена [1] ) является средством оценки того, является ли один фрагмент экспериментальных данных из набора наблюдений ложным – выбросом . [ 2]
Идея критерия Шовена заключается в том, чтобы найти полосу вероятности, которая разумно содержит все n образцов набора данных, центрированную на среднем значении нормального распределения . При этом любая точка данных из n образцов, которая лежит за пределами этой полосы вероятности, может считаться выбросом , удаляться из набора данных, и можно вычислить новое среднее значение и стандартное отклонение на основе оставшихся значений и нового размера выборки. Эта идентификация выбросов будет достигнута путем нахождения количества стандартных отклонений, которые соответствуют границам полосы вероятности вокруг среднего значения ( ), и сравнения этого значения с абсолютным значением разницы между предполагаемыми выбросами и средним значением, деленным на стандартное отклонение выборки (Уравнение 1).
1 |
где
Чтобы считаться включающей все наблюдения в выборке, полоса вероятности (центрированная на среднем) должна учитывать только выборки (если тогда только 2,5 выборок должны учитываться в полосе вероятности). В действительности у нас не может быть частичных выборок, поэтому (2,5 для ) приблизительно равно . Все, что меньше, приблизительно равно (2, если ) и недействительно, поскольку мы хотим найти полосу вероятности, содержащую наблюдения, а не выборки. Короче говоря, мы ищем вероятность, , которая равна вне выборок (Уравнение 2).
2 |
где
Величина соответствует объединенной вероятности, представленной двумя хвостами нормального распределения, которые выходят за пределы полосы вероятности . Чтобы найти уровень стандартного отклонения, связанный с , необходимо проанализировать только вероятность одного из хвостов нормального распределения из-за его симметрии (Уравнение 3).
3 |
где
Уравнение 1 аналогично уравнению -счета (Уравнение 4).
4 |
где
На основе ур.4, чтобы найти (ур.1), найдите z-оценку, соответствующую в таблице -оценок. равна оценке для . Используя этот метод, можно определить для любого размера выборки. В Excel можно найти с помощью следующей формулы: =ABS(NORM.S.INV(1/(4 n ))).
Чтобы применить критерий Шовена, сначала вычислите среднее значение и стандартное отклонение наблюдаемых данных. Основываясь на том, насколько подозрительные данные отличаются от среднего значения, используйте функцию нормального распределения (или ее таблицу), чтобы определить вероятность того, что заданная точка данных будет иметь значение подозрительной точки данных. Умножьте эту вероятность на количество взятых точек данных. Если результат меньше 0,5, подозрительная точка данных может быть отброшена, т. е. показание может быть отклонено, если вероятность получения определенного отклонения от среднего меньше . [ необходима цитата ]
Например, предположим, что экспериментально в нескольких испытаниях получено значение 9, 10, 10, 10, 11 и 50, и мы хотим выяснить, является ли значение 50 выбросом.
Сначала находим .
Затем мы находим, подставляя в функцию квантиля .
Затем мы находим z-оценку, равную 50.
Отсюда мы видим и можем сделать вывод, что 50 является выбросом согласно критерию Шовена.
Другой метод устранения ложных данных называется критерием Пирса . Он был разработан за несколько лет до публикации критерия Шовена и представляет собой более строгий подход к рациональному удалению данных-выбросов. [3] Другие методы, такие как тест Граббса на выбросы, упоминаются в списке для Outlier . [ требуется ссылка ]
Удаление данных-выбросов является спорной практикой, не одобряемой многими учеными и преподавателями естественных наук; хотя критерий Шовена обеспечивает объективный и количественный метод отклонения данных, он не делает практику более научно или методологически обоснованной, особенно в небольших наборах или там, где нельзя предположить нормальное распределение . Отклонение выбросов более приемлемо в областях практики, где базовая модель измеряемого процесса и обычное распределение погрешности измерения достоверно известны.