В статистике DFFIT и DFFITS («разница в соответствии») — это диагностические методы, призванные показать, насколько влиятельна точка в линейной регрессии , впервые предложенные в 1980 году. [1]
DFFIT — это изменение прогнозируемого значения для точки, полученное, когда эта точка исключена из регрессии:
где и — прогноз для точки i с учетом и без учета точки i, включенной в регрессию.
DFFITS — это стьюдентизированный DFFIT, где стьюдентизация достигается путем деления на предполагаемое стандартное отклонение подгонки в этой точке:
где — стандартная ошибка, оцененная без учета рассматриваемой точки, а — кредитное плечо для данной точки.
DFFITS также равен произведению внешне стьюдентизированного остатка ( ) и фактора левериджа ( ): [2]
Таким образом, для точек с низким кредитным плечом ожидается, что DFFITS будет небольшим, тогда как по мере того, как кредитное плечо приближается к 1, распределение значения DFFITS расширяется бесконечно.
Для идеально сбалансированного экспериментального плана (такого как факторный план или сбалансированный частично факторный план) рычаг для каждой точки равен p/n, числу параметров, деленному на число точек. Это означает, что значения DFFITS будут распределены (в гауссовском случае) как времена при вариации. Поэтому авторы предлагают исследовать эти точки с DFFITS больше .
Хотя исходные значения, полученные из уравнений, различны, расстояние Кука и DFFITS концептуально идентичны, и существует замкнутая формула для преобразования одного значения в другое. [3]
Ранее при оценке набора данных перед запуском линейной регрессии возможность выбросов оценивалась с помощью гистограмм и диаграмм рассеяния. Оба метода оценки точек данных были субъективными, и было мало способов узнать, какое влияние каждый потенциальный выброс имел на данные результатов. Это привело к появлению различных количественных мер, включая DFFIT, DFBETA .
образом, DFFITS i — это значение R -student, умноженное на кредитное плечо i- го наблюдения [ h ii /(1 − h ii )] 1/2 .