Необъясненная доля дисперсии

Статистический шум

В статистике доля необъясненной дисперсии ( FVU ) в контексте задачи регрессии — это доля дисперсии регрессанта ( зависимой переменной) Y , которую невозможно объяснить, т. е . которая неправильно предсказана объясняющими переменными X.

Формальное определение

Предположим, что нам дана функция регрессии, дающая для каждого оценку , где — вектор i- х наблюдений по всем объясняющим переменным. [1] : 181  Мы определяем долю необъясненной дисперсии (FVU) как: f {\displaystyle f} y i {\displaystyle y_{i}} y ^ i = f ( x i ) {\displaystyle {\widehat {y}}_{i}=f(x_{i})} x i {\displaystyle x_{i}}

FVU = VAR err VAR tot = SS err / N SS tot / N = SS err SS tot ( = 1 SS reg SS tot ,  only true in some cases such as linear regression ) = 1 R 2 {\displaystyle {\begin{aligned}{\text{FVU}}&={{\text{VAR}}_{\text{err}} \over {\text{VAR}}_{\text{tot}}}={{\text{SS}}_{\text{err}}/N \over {\text{SS}}_{\text{tot}}/N}={{\text{SS}}_{\text{err}} \over {\text{SS}}_{\text{tot}}}\left(=1-{{\text{SS}}_{\text{reg}} \over {\text{SS}}_{\text{tot}}},{\text{ only true in some cases such as linear regression}}\right)\\[6pt]&=1-R^{2}\end{aligned}}}

где R 2коэффициент детерминации , а VAR err и VAR tot — дисперсия остатков и выборочная дисперсия зависимой переменной. SS err (сумма квадратов ошибок предсказаний, эквивалентно остаточной сумме квадратов ), SS tot ( общая сумма квадратов ) и SS reg (сумма квадратов регрессии, эквивалентно объясненной сумме квадратов ) определяются как

SS err = i = 1 N ( y i y ^ i ) 2 SS tot = i = 1 N ( y i y ¯ ) 2 SS reg = i = 1 N ( y ^ i y ¯ ) 2  and y ¯ = 1 N i = 1 N y i . {\displaystyle {\begin{aligned}{\text{SS}}_{\text{err}}&=\sum _{i=1}^{N}\;(y_{i}-{\widehat {y}}_{i})^{2}\\{\text{SS}}_{\text{tot}}&=\sum _{i=1}^{N}\;(y_{i}-{\bar {y}})^{2}\\{\text{SS}}_{\text{reg}}&=\sum _{i=1}^{N}\;({\widehat {y}}_{i}-{\bar {y}})^{2}{\text{ and}}\\{\bar {y}}&={\frac {1}{N}}\sum _{i=1}^{N}\;y_{i}.\end{aligned}}}

В качестве альтернативы долю необъясненной дисперсии можно определить следующим образом:

FVU = MSE ( f ) var [ Y ] {\displaystyle {\text{FVU}}={\frac {\operatorname {MSE} (f)}{\operatorname {var} [Y]}}}

где MSE( f ) — среднеквадратическая ошибка функции регрессии  ƒ .

Объяснение

Полезно рассмотреть второе определение, чтобы понять FVU. При попытке предсказать Y самая наивная функция регрессии, которую мы можем придумать, — это постоянная функция, предсказывающая среднее значение Y , т. е . . Из этого следует, что MSE этой функции равна дисперсии Y ; то есть SS err = SS tot , а SS reg = 0. В этом случае никакое изменение Y не может быть учтено, и FVU тогда имеет максимальное значение 1. f ( x i ) = y ¯ {\displaystyle f(x_{i})={\bar {y}}}

В более общем смысле, FVU будет равен 1, если объясняющие переменные X ничего не говорят нам о Y в том смысле, что предсказанные значения Y не ковариируют с Y. Но по мере того, как прогнозирование улучшается и MSE может быть уменьшено, FVU снижается. В случае идеального прогнозирования, когда для всех i , MSE равно 0, SS err = 0, SS reg = SS tot , а FVU равно 0. y ^ i = y i {\displaystyle {\hat {y}}_{i}=y_{i}}

Смотрите также

Ссылки

  1. ^ Эйчен, CH (1990).«Что объясняет «объясненная дисперсия»?: Ответ». Политический анализ . 2 (1): 173–184. doi :10.1093/pan/2.1.173.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Fraction_of_variance_unexplained&oldid=1221668440"