ДФФИТС

Diagnostics measure for statistical regression

В статистике DFFIT и DFFITS («разница в соответствии») — это диагностические методы, призванные показать, насколько влиятельна точка в линейной регрессии , впервые предложенные в 1980 году. [1]

DFFIT — это изменение прогнозируемого значения для точки, полученное, когда эта точка исключена из регрессии:

DFFIT = y ^ i y ^ i ( i ) {\displaystyle {\text{DFFIT}}={\widehat {y}}_{i}-{\widehat {y}}_{i(i)}}

где и — прогноз для точки i с учетом и без учета точки i, включенной в регрессию. y ^ i {\displaystyle {\widehat {y}}_{i}} y ^ i ( i ) {\displaystyle {\widehat {y}}_{i(i)}}

DFFITS — это стьюдентизированный DFFIT, где стьюдентизация достигается путем деления на предполагаемое стандартное отклонение подгонки в этой точке:

DFFITS = DFFIT s ( i ) h i i {\displaystyle {\text{DFFITS}}={\frac {\text{DFFIT}}{s_{(i)}{\sqrt {h_{ii}}}}}}

где — стандартная ошибка, оцененная без учета рассматриваемой точки, а — кредитное плечо для данной точки. s ( i ) {\displaystyle s_{(i)}} h i i {\displaystyle h_{ii}}

DFFITS также равен произведению внешне стьюдентизированного остатка ( ) и фактора левериджа ( ): [2] t i ( i ) {\displaystyle t_{i(i)}} h i i / ( 1 h i i ) {\displaystyle {\sqrt {h_{ii}/(1-h_{ii})}}}

DFFITS = t i ( i ) h i i 1 h i i {\displaystyle {\text{DFFITS}}=t_{i(i)}{\sqrt {\frac {h_{ii}}{1-h_{ii}}}}}

Таким образом, для точек с низким кредитным плечом ожидается, что DFFITS будет небольшим, тогда как по мере того, как кредитное плечо приближается к 1, распределение значения DFFITS расширяется бесконечно.

Для идеально сбалансированного экспериментального плана (такого как факторный план или сбалансированный частично факторный план) рычаг для каждой точки равен p/n, числу параметров, деленному на число точек. Это означает, что значения DFFITS будут распределены (в гауссовском случае) как времена при вариации. Поэтому авторы предлагают исследовать эти точки с DFFITS больше . p n p p n {\displaystyle {\sqrt {p \over n-p}}\approx {\sqrt {p \over n}}} 2 p n {\displaystyle 2{\sqrt {p \over n}}}

Хотя исходные значения, полученные из уравнений, различны, расстояние Кука и DFFITS концептуально идентичны, и существует замкнутая формула для преобразования одного значения в другое. [3]

Разработка

Ранее при оценке набора данных перед запуском линейной регрессии возможность выбросов оценивалась с помощью гистограмм и диаграмм рассеяния. Оба метода оценки точек данных были субъективными, и было мало способов узнать, какое влияние каждый потенциальный выброс имел на данные результатов. Это привело к появлению различных количественных мер, включая DFFIT, DFBETA .

Ссылки

  1. ^ Белсли, Дэвид А.; Кух, Эдвин; Уэлш, Рой Э. (1980). Регрессионная диагностика: выявление влиятельных данных и источников коллинеарности. Wiley Series in Probability and Mathematical Statistics. Нью-Йорк: John Wiley & Sons . С.  11–16 . ISBN 0-471-05856-4.
  2. ^ Монтгомери, Дуглас К.; Пек, Элизабет А.; Вининг, Г. Джеффри (2012). Введение в линейный регрессионный анализ (5-е изд.). Wiley. стр. 218. ISBN 978-0-470-54281-1. Получено 22 февраля 2013 г. Таким образом, DFFITS i — это значение R -student, умноженное на кредитное плечо i- го наблюдения [ h ii /(1 −  h ii )] 1/2 .
  3. ^ Коэн, Джейкоб; Коэн, Патрисия; Уэст, Стивен Г.; Эйкен, Леона С. (2003). Прикладной множественный регрессионный/корреляционный анализ для поведенческих наук . ISBN 0-8058-2223-2.
Retrieved from "https://en.wikipedia.org/w/index.php?title=DFFITS&oldid=1172542826"