Наблюдение, удаление которого приведет к большим изменениям
В статистике влиятельное наблюдение — это наблюдение для статистического расчета , удаление которого из набора данных заметно изменило бы результат расчета. [1] В частности, в регрессионном анализе влиятельное наблюдение — это такое наблюдение, удаление которого оказывает большое влияние на оценки параметров. [2]
Оценка
Для измерения влияния были предложены различные методы. [3] [4] Предположим, что имеется оцененная регрессия , где — вектор-столбец размером n × 1 для переменной отклика, — матрица плана n × k объясняющих переменных (включая константу), — вектор остатков размером n × 1, а — вектор оценок некоторого параметра популяции размером k × 1 . Также определим , проекционную матрицу . Тогда у нас есть следующие меры влияния:
, где обозначает коэффициенты, оцененные с удаленной i -й строкой , обозначает i -е значение главной диагонали матрицы . Таким образом, DFBETA измеряет разницу в каждой оценке параметра с и без влиятельной точки. Существует DFBETA для каждой переменной и каждого наблюдения (если есть N наблюдений и k переменных, то есть N·k DFBETA). [5] Таблица показывает DFBETA для третьего набора данных из квартета Энскомба (нижняя левая диаграмма на рисунке):
D Кука измеряет эффект удаления точки данных на все параметры в совокупности. [2]
Выбросы, рычаги и влияние
Выброс можно определить как точку данных , которая заметно отличается от других наблюдений. [6] [7]
Точка с высоким плечом — это наблюдения, сделанные при экстремальных значениях независимых переменных. [8]
Оба типа нетипичных наблюдений заставят линию регрессии оказаться близко к точке. [2]
В квартете Энскомба нижнее правое изображение имеет точку с высоким плечом, а нижнее левое изображение имеет точку с выбросом.
↑ Виннер, Ларри (25 марта 2002 г.). «Статистика влияния, выбросы и диагностика коллинеарности».
^ Белсли, Дэвид А.; Кух, Эдвин; Уэлш, Рой Э. (1980). Регрессионная диагностика: выявление влиятельных данных и источников коллинеарности. Wiley Series in Probability and Mathematical Statistics. Нью-Йорк: John Wiley & Sons . С. 11–16 . ISBN0-471-05856-4.
^ "Выбросы и DFBETA" (PDF) . Архивировано (PDF) из оригинала 11 мая 2013 г.
^ Grubbs, FE (февраль 1969). «Процедуры обнаружения выпадающих наблюдений в выборках». Technometrics . 11 (1): 1– 21. doi :10.1080/00401706.1969.10490657. Выпадающее наблюдение, или «выброс», — это наблюдение, которое, по-видимому, заметно отклоняется от других членов выборки, в которой оно встречается.
^ Маддала, GS (1992). «Выбросы». Введение в эконометрику (2-е изд.). Нью-Йорк: MacMillan. С. 89. ISBN978-0-02-374545-4Выброс — это наблюдение, которое сильно отличается от остальных наблюдений.
^ Эверитт, Б.С. (2002). Кембриджский словарь статистики . Издательство Кембриджского университета. ISBN0-521-81099-X.
Дальнейшее чтение
Дехон, Кэтрин; Гасснер, Марджори; Верарди, Винченцо (2009). «Остерегайтесь «хороших» выбросов и чрезмерно оптимистичных заключений». Оксфордский вестник экономики и статистики . 71 (3): 437– 452. doi :10.1111/j.1468-0084.2009.00543.x. S2CID 154376487.
Кеннеди, Питер (2003). «Надежная оценка». Руководство по эконометрике (пятое изд.). Кембридж: The MIT Press. стр. 372–388 . ISBN0-262-61183-X.