Влиятельное наблюдение

Наблюдение, удаление которого приведет к большим изменениям
В квартете Энскомба оба набора данных снизу содержат влиятельные точки. Все четыре набора идентичны при исследовании с использованием простой сводной статистики, но значительно различаются при графическом отображении. Если убрать одну точку, линия будет выглядеть совсем иначе.

В статистике влиятельное наблюдение — это наблюдение для статистического расчета , удаление которого из набора данных заметно изменило бы результат расчета. [1] В частности, в регрессионном анализе влиятельное наблюдение — это такое наблюдение, удаление которого оказывает большое влияние на оценки параметров. [2]

Оценка

Для измерения влияния были предложены различные методы. [3] [4] Предположим, что имеется оцененная регрессия , где — вектор-столбец размером n × 1 для переменной отклика, — матрица плана n × k объясняющих переменных (включая константу), — вектор остатков размером n × 1, а — вектор оценок некоторого параметра популяции размером k × 1 . Также определим , проекционную матрицу . Тогда у нас есть следующие меры влияния: у = Х б + е {\displaystyle \mathbf {y} =\mathbf {X} \mathbf {b} +\mathbf {e} } у {\displaystyle \mathbf {y} } Х {\displaystyle \mathbf {X} } е {\displaystyle \mathbf {e} } б {\displaystyle \mathbf {б} } β Р к {\displaystyle \mathbf {\beta } \in \mathbb {R} ^{k}} ЧАС Х ( Х Т Х ) 1 Х Т {\displaystyle \mathbf {H} \equiv \mathbf {X} \left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\mathsf {T}}} Х {\displaystyle \mathbf {X} }

  1. ДФБЕТА я б б ( я ) = ( Х Т Х ) 1 х я Т е я 1 час я я {\displaystyle {\text{DFBETA}}_{i}\equiv \mathbf {b} -\mathbf {b} _{(-i)}={\frac {\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} \right)^{-1}\mathbf {x} _{i}^{\mathsf {T}}e_{i}}{1-h_{ii}}}} , где обозначает коэффициенты, оцененные с удаленной i -й строкой , обозначает i -е значение главной диагонали матрицы . Таким образом, DFBETA измеряет разницу в каждой оценке параметра с и без влиятельной точки. Существует DFBETA для каждой переменной и каждого наблюдения (если есть N наблюдений и k переменных, то есть N·k DFBETA). [5] Таблица показывает DFBETA для третьего набора данных из квартета Энскомба (нижняя левая диаграмма на рисунке): б ( я ) {\displaystyle \mathbf {b} _{(-i)}} х я {\displaystyle \mathbf {x} _{i}} Х {\displaystyle \mathbf {X} } час я я = х я ( Х Т Х ) 1 х я Т {\ displaystyle h_ {ii} = \ mathbf {x} _ {i} \ left (\ mathbf {X} ^ {\ mathsf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf {x} _ {i} ^ {\ mathsf {T}}} ЧАС {\displaystyle \mathbf {H} }
хуперехватсклон
10.07.46-0,005-0,044
8.06.77-0,0370,019
13.012.74-357.910525.268
9.07.11-0,0330
11.07.810,049-0,117
14.08.840,490-0,667
6.06.080,027-0,021
4.05.390,241-0,209
12.08.150,137-0,231
7.06.42-0,0200,013
5.05.730,105-0,087
  1. DFFITS - разница в посадках
  2. D Кука измеряет эффект удаления точки данных на все параметры в совокупности. [2]

Выбросы, рычаги и влияние

Выброс можно определить как точку данных , которая заметно отличается от других наблюдений. [6] [7] Точка с высоким плечом — это наблюдения, сделанные при экстремальных значениях независимых переменных. [8] Оба типа нетипичных наблюдений заставят линию регрессии оказаться близко к точке. [2] В квартете Энскомба нижнее правое изображение имеет точку с высоким плечом, а нижнее левое изображение имеет точку с выбросом.

Смотрите также

Ссылки

  1. ^ Берт, Джеймс Э.; Барбер, Джеральд М.; Ригби, Дэвид Л. (2009), Элементарная статистика для географов, Guilford Press, стр. 513, ISBN 9781572304840.
  2. ^ abc Эверитт, Брайан (1998). Кембриджский словарь статистики. Кембридж, Великобритания, Нью-Йорк: Cambridge University Press. ISBN 0-521-59346-8.
  3. Виннер, Ларри (25 марта 2002 г.). «Статистика влияния, выбросы и диагностика коллинеарности».
  4. ^ Белсли, Дэвид А.; Кух, Эдвин; Уэлш, Рой Э. (1980). Регрессионная диагностика: выявление влиятельных данных и источников коллинеарности. Wiley Series in Probability and Mathematical Statistics. Нью-Йорк: John Wiley & Sons . С.  11–16 . ISBN 0-471-05856-4.
  5. ^ "Выбросы и DFBETA" (PDF) . Архивировано (PDF) из оригинала 11 мая 2013 г.
  6. ^ Grubbs, FE (февраль 1969). «Процедуры обнаружения выпадающих наблюдений в выборках». Technometrics . 11 (1): 1– 21. doi :10.1080/00401706.1969.10490657. Выпадающее наблюдение, или «выброс», — это наблюдение, которое, по-видимому, заметно отклоняется от других членов выборки, в которой оно встречается.
  7. ^ Маддала, GS (1992). «Выбросы». Введение в эконометрику (2-е изд.). Нью-Йорк: MacMillan. С. 89. ISBN 978-0-02-374545-4Выброс — это наблюдение, которое сильно отличается от остальных наблюдений.
  8. ^ Эверитт, Б.С. (2002). Кембриджский словарь статистики . Издательство Кембриджского университета. ISBN 0-521-81099-X.

Дальнейшее чтение

  • Дехон, Кэтрин; Гасснер, Марджори; Верарди, Винченцо (2009). «Остерегайтесь «хороших» выбросов и чрезмерно оптимистичных заключений». Оксфордский вестник экономики и статистики . 71 (3): 437– 452. doi :10.1111/j.1468-0084.2009.00543.x. S2CID  154376487.
  • Кеннеди, Питер (2003). «Надежная оценка». Руководство по эконометрике (пятое изд.). Кембридж: The MIT Press. стр.  372–388 . ISBN 0-262-61183-X.
Взято с "https://en.wikipedia.org/w/index.php?title=Влиятельное_наблюдение&oldid=1226593486"