Критерий Шовена

В статистической теории критерий Шовена (названный в честь Уильяма Шовена [1] ) является средством оценки того, является ли один фрагмент экспериментальных данных из набора наблюдений ложным – выбросом . [ 2]

Вывод

Идея критерия Шовена заключается в том, чтобы найти полосу вероятности, которая разумно содержит все n образцов набора данных, центрированную на среднем значении нормального распределения . При этом любая точка данных из n образцов, которая лежит за пределами этой полосы вероятности, может считаться выбросом , удаляться из набора данных, и можно вычислить новое среднее значение и стандартное отклонение на основе оставшихся значений и нового размера выборки. Эта идентификация выбросов будет достигнута путем нахождения количества стандартных отклонений, которые соответствуют границам полосы вероятности вокруг среднего значения ( ), и сравнения этого значения с абсолютным значением разницы между предполагаемыми выбросами и средним значением, деленным на стандартное отклонение выборки (Уравнение 1). Д м а х {\displaystyle D_{\mathrm {макс} }}

где

  • Д м а х {\displaystyle D_{\mathrm {макс} }} максимально допустимое отклонение,
  • | | {\displaystyle |\cdot |} это абсолютное значение,
  • х {\displaystyle x} это значение предполагаемого выброса,
  • х ¯ {\displaystyle {\bar {x}}} является выборочным средним, и
  • с х {\displaystyle s_{x}} — это стандартное отклонение выборки.

Чтобы считаться включающей все наблюдения в выборке, полоса вероятности (центрированная на среднем) должна учитывать только выборки (если тогда только 2,5 выборок должны учитываться в полосе вероятности). В действительности у нас не может быть частичных выборок, поэтому (2,5 для ) приблизительно равно . Все, что меньше, приблизительно равно (2, если ) и недействительно, поскольку мы хотим найти полосу вероятности, содержащую наблюдения, а не выборки. Короче говоря, мы ищем вероятность, , которая равна вне выборок (Уравнение 2). н {\displaystyle n} н 1 2 {\displaystyle n-{\tfrac {1}{2}}} н = 3 {\displaystyle n=3} н 1 2 {\displaystyle n-{\tfrac {1}{2}}} н = 3 {\displaystyle n=3} н {\displaystyle n} н 1 2 {\displaystyle n-{\tfrac {1}{2}}} н 1 {\displaystyle n-1} н = 3 {\displaystyle n=3} н {\displaystyle n} н 1 {\displaystyle n-1} П {\displaystyle P} н 1 2 {\displaystyle n-{\tfrac {1}{2}}} н {\displaystyle n}

где

  • П {\displaystyle P} это полоса вероятности, центрированная на выборочном среднем значении и
  • н {\displaystyle n} размер выборки.

Величина соответствует объединенной вероятности, представленной двумя хвостами нормального распределения, которые выходят за пределы полосы вероятности . Чтобы найти уровень стандартного отклонения, связанный с , необходимо проанализировать только вероятность одного из хвостов нормального распределения из-за его симметрии (Уравнение 3). 1 2 н {\displaystyle {\tfrac {1}{2n}}} П {\displaystyle P} П {\displaystyle P}

где

  • П з {\displaystyle P_{z}} вероятность, представленная одним хвостом нормального распределения и
  • н {\displaystyle n} = размер выборки.

Уравнение 1 аналогично уравнению -счета (Уравнение 4). З {\displaystyle Z}

где

  • З {\displaystyle Z} это -оценка, З {\displaystyle Z}
  • х {\displaystyle x} это выборочное значение,
  • μ = 0 {\displaystyle \мю =0} является средним значением стандартного нормального распределения, и
  • σ = 1 {\displaystyle \сигма =1} — стандартное отклонение стандартного нормального распределения.

На основе ур.4, чтобы найти (ур.1), найдите z-оценку, соответствующую в таблице -оценок. равна оценке для . Используя этот метод, можно определить для любого размера выборки. В Excel можно найти с помощью следующей формулы: =ABS(NORM.S.INV(1/(4 n ))). Д м а х {\displaystyle D_{\mathrm {макс} }} П з {\displaystyle P_{z}} З {\displaystyle Z} Д м а х {\displaystyle D_{\mathrm {макс} }} П з {\displaystyle P_{z}} Д м а х {\displaystyle D_{\mathrm {макс} }} Д м а х {\displaystyle D_{\mathrm {макс} }}

Расчет

Чтобы применить критерий Шовена, сначала вычислите среднее значение и стандартное отклонение наблюдаемых данных. Основываясь на том, насколько подозрительные данные отличаются от среднего значения, используйте функцию нормального распределения (или ее таблицу), чтобы определить вероятность того, что заданная точка данных будет иметь значение подозрительной точки данных. Умножьте эту вероятность на количество взятых точек данных. Если результат меньше 0,5, подозрительная точка данных может быть отброшена, т. е. показание может быть отклонено, если вероятность получения определенного отклонения от среднего меньше . [ необходима цитата ] 1 2 н {\displaystyle {\tfrac {1}{2n}}}

Пример

Например, предположим, что экспериментально в нескольких испытаниях получено значение 9, 10, 10, 10, 11 и 50, и мы хотим выяснить, является ли значение 50 выбросом.

Сначала находим . П з {\displaystyle P_{z}}

П з = 1 1 4 н = 1 1 4 × 6 = 1 1 24 .9583 {\displaystyle P_{z}=1-{\frac {1}{4n}}=1-{\frac {1}{4\times 6}}=1-{\frac {1}{24}}\approx .9583}


Затем мы находим, подставляя в функцию квантиля . Д м а х {\displaystyle D_{макс}} П з {\displaystyle P_{z}}

Д м а х = В ( П з ) 1.7317 {\displaystyle D_{max}=Q(P_{z})\approx 1.7317}


Затем мы находим z-оценку, равную 50.

з = 50 х ¯ с х = 50 16.67 16.34 2.04 {\displaystyle z={\frac {50-{\bar {x}}}{s_{x}}}={\frac {50-16,67}{16,34}}\approx 2,04}


Отсюда мы видим и можем сделать вывод, что 50 является выбросом согласно критерию Шовена. з > Д м а х {\displaystyle z>D_{макс}}

Критерий Пирса

Другой метод устранения ложных данных называется критерием Пирса . Он был разработан за несколько лет до публикации критерия Шовена и представляет собой более строгий подход к рациональному удалению данных-выбросов. [3] Другие методы, такие как тест Граббса на выбросы, упоминаются в списке для Outlier . [ требуется ссылка ]

Критика

Удаление данных-выбросов является спорной практикой, не одобряемой многими учеными и преподавателями естественных наук; хотя критерий Шовена обеспечивает объективный и количественный метод отклонения данных, он не делает практику более научно или методологически обоснованной, особенно в небольших наборах или там, где нельзя предположить нормальное распределение . Отклонение выбросов более приемлемо в областях практики, где базовая модель измеряемого процесса и обычное распределение погрешности измерения достоверно известны.

Ссылки

  1. Шовене, Уильям. Руководство по сферической и практической астрономии, т. II. 1863. Переиздание 1891 г., 5-е изд. Довер, Нью-Йорк: 1960. С. 474–566.
  2. ^ Fratta, M; Scaringi, S; Drew, JE; Monguió, M; Knigge, C; Maccarone, TJ; Court, JMC; Iłkiewicz, KA; Pala, AF; Gandhi, P; Gänsicke, B (21 июля 2021 г.). «Идентификация источников избытка H α на основе населения в каталогах Gaia DR2 и IPHAS». Monthly Notices of the Royal Astronomical Society . 505 (1): 1135–1152 . doi : 10.1093/mnras/stab1258 . hdl : 2117/366137 . ISSN  0035-8711.
  3. ^ Росс, доктор философии, Стивен (2003). Статья в Университете Нью-Хейвена. J. Engr. Technology, осень 2003. Получено с https://www.researchgate.net/profile/Stephen-Ross-9.

Библиография

  • Тейлор, Джон Р. Введение в анализ ошибок . 2-е издание. Саусалито, Калифорния: University Science Books, 1997. С. 166–8.
  • Барнетт, Вик и Льюис, Тоби. «Выбросы в статистических данных». 3-е издание. Чичестер: J.Wiley and Sons, 1994. ISBN 0-471-93094-6 . 
  • Айша Зербет, Михаил Никулин. Новая статистика для обнаружения выбросов в экспоненциальном случае, Communications in Statistics: Theory and Methods, 2003, т. 32, стр. 573–584.
Взято с "https://en.wikipedia.org/w/index.php?title=Chauvenet%27s_criterion&oldid=1243725923"