Разложение сумм квадратов

Концепция, которая пронизывает большую часть выводной и описательной статистики.

Разделение сумм квадратов — это концепция, которая пронизывает большую часть выводной статистики и описательной статистики . Более точно, это разделение сумм квадратов отклонений или ошибок . Математически сумма квадратов отклонений — это немасштабированная или нескорректированная мера дисперсии (также называемая изменчивостью ). При масштабировании по числу степеней свободы она оценивает дисперсию или разброс наблюдений относительно их среднего значения. Разделение суммы квадратов отклонений на различные компоненты позволяет приписывать общую изменчивость в наборе данных различным типам или источникам изменчивости, при этом относительная важность каждого из них количественно определяется размером каждого компонента общей суммы квадратов.

Фон

Расстояние от любой точки в наборе данных до среднего значения данных — это отклонение. Это можно записать как , где — i-я точка данных, а — оценка среднего значения. Если все такие отклонения возвести в квадрат, а затем суммировать, как в , это даст «сумму квадратов» для этих данных. у я у ¯ {\displaystyle y_{i}-{\overline {y}}} у я {\displaystyle y_{i}} у ¯ {\displaystyle {\overline {y}}} я = 1 н ( у я у ¯ ) 2 {\displaystyle \sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\,\right)^{2}}

При добавлении большего количества данных в коллекцию сумма квадратов будет увеличиваться, за исключением маловероятных случаев, таких как случай, когда новые данные равны среднему значению. Поэтому обычно сумма квадратов будет расти с размером коллекции данных. Это проявление того факта, что она не масштабируется.

Во многих случаях число степеней свободы — это просто число точек данных в коллекции, минус один. Мы записываем это как n  − 1, где n — число точек данных.

Масштабирование (также известное как нормализация) означает корректировку суммы квадратов таким образом, чтобы она не росла по мере увеличения размера набора данных. Это важно, когда мы хотим сравнить выборки разных размеров, например, выборку из 100 человек по сравнению с выборкой из 20 человек. Если бы сумма квадратов не была нормализована, ее значение всегда было бы больше для выборки из 100 человек, чем для выборки из 20 человек. Чтобы масштабировать сумму квадратов, мы делим ее на степени свободы, т. е. вычисляем сумму квадратов на степень свободы, или дисперсию. Стандартное отклонение , в свою очередь, является квадратным корнем дисперсии.

Выше описано, как сумма квадратов используется в описательной статистике; см. статью об общей сумме квадратов для получения информации о применении этого широкого принципа к инференциальной статистике .

Разбиение суммы квадратов в линейной регрессии

Теорема. При наличии линейной регрессионной модели , включающей константу , основанную на выборке, содержащей n наблюдений, общая сумма квадратов может быть разделена следующим образом на объясненную сумму квадратов (ESS) и остаточную сумму квадратов (RSS): у я = β 0 + β 1 х я 1 + + β п х я п + ε я {\displaystyle y_{i}=\beta _{0}+\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i}} β 0 {\displaystyle \бета _{0}} ( у я , х я 1 , , х я п ) , я = 1 , , н {\displaystyle (y_{i},x_{i1},\ldots ,x_{ip}),\,i=1,\ldots ,n} Т С С = я = 1 н ( у я у ¯ ) 2 {\displaystyle \mathrm {TSS} =\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}

Т С С = Э С С + Р С С , {\displaystyle \mathrm {TSS} =\mathrm {ESS} +\mathrm {RSS},}

где это уравнение эквивалентно каждой из следующих форм:

у у ¯ 1 2 = у ^ у ¯ 1 2 + ε ^ 2 , 1 = ( 1 , 1 , , 1 ) Т , я = 1 н ( у я у ¯ ) 2 = я = 1 н ( у ^ я у ¯ ) 2 + я = 1 н ( у я у ^ я ) 2 , я = 1 н ( у я у ¯ ) 2 = я = 1 н ( у ^ я у ¯ ) 2 + я = 1 н ε ^ я 2 , {\displaystyle {\begin{aligned}\left\|y-{\bar {y}}\mathbf {1} \right\|^{2}&=\left\|{\hat {y}}-{\bar {y}}\mathbf {1} \right\|^{2}+\left\|{\hat {\varepsilon}}\right\|^{2},\quad \mathbf {1} =(1,1,\ldots ,1)^{T},\\\сумма _{i=1}^{n}(y_{i}-{\bar {y}})^{2}&=\сумма _{i=1}^{n}({\hat {y}}_{i}-{\bar {y}})^{2}+\сумма _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2},\\\сумма _{i=1}^{n}(y_{i}-{\bar {y}})^{2}&=\сумма _{i=1}^{n}({\hat {y}}_{i}-{\bar {y}})^{2}+\сумма _{i=1}^{n}{\hat {\varepsilon}}_{i}^{2},\\\конец{выровнено}}}
где — значение, оцененное по линии регрессии, имеющей , , ..., в качестве оцененных коэффициентов . [1] у ^ я {\displaystyle {\hat {y}}_{i}} б ^ 0 {\displaystyle {\hat {b}}_{0}} б ^ 1 {\displaystyle {\hat {b}}_{1}} б ^ п {\displaystyle {\hat {b}}_{p}}

Доказательство

я = 1 н ( у я у ¯ ) 2 = я = 1 н ( у я у ¯ + у ^ я у ^ я ) 2 = я = 1 н ( ( у ^ я у ¯ ) + ( у я у ^ я ) ε ^ я ) 2 = я = 1 н ( ( у ^ я у ¯ ) 2 + 2 ε ^ я ( у ^ я у ¯ ) + ε ^ я 2 ) = я = 1 н ( у ^ я у ¯ ) 2 + я = 1 н ε ^ я 2 + 2 я = 1 н ε ^ я ( у ^ я у ¯ ) = я = 1 н ( у ^ я у ¯ ) 2 + я = 1 н ε ^ я 2 + 2 я = 1 н ε ^ я ( β ^ 0 + β ^ 1 х я 1 + + β ^ п х я п у ¯ ) = я = 1 н ( у ^ я у ¯ ) 2 + я = 1 н ε ^ я 2 + 2 ( β ^ 0 у ¯ ) я = 1 н ε ^ я 0 + 2 β ^ 1 я = 1 н ε ^ я х я 1 0 + + 2 β ^ п я = 1 н ε ^ я х я п 0 = я = 1 н ( у ^ я у ¯ ) 2 + я = 1 н ε ^ я 2 = Э С С + Р С С {\displaystyle {\begin{aligned}\sum _{i=1}^{n}(y_{i}-{\overline {y}})^{2}&=\sum _{i=1}^{n}(y_{i}-{\overline {y}}+{\hat {y}}_{i}-{\hat {y}}_{i})^{2}=\sum _{i=1}^{n}(({\hat {y}}_{i}-{\bar {y}})+\underbrace {(y_{i}-{\hat {y}}_{i})} _{{\hat {\varepsilon }}_{i}})^{2}\\&=\sum _{i=1}^{n}(({\hat {y}}_{i}-{\bar {y}})^{2}+2{\hat {\varepsilon }}_{i}({\hat {y}}_{i}-{\bar {y}})+{\hat {\varepsilon }}_{i}^{2})\\&=\sum _{i=1}^{n}({\hat {y}}_{i}-{\bar {y}})^{2}+\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}+2\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}({\hat {y}}_{i}-{\bar {y}})\\&=\sum _{i=1}^{n}({\hat {y}}_{i}-{\bar {y}})^{2}+\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}+2\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}({\hat {\beta }}_{0}+{\hat {\beta }}_{1}x_{i1}+\cdots +{\hat {\beta }}_{p}x_{ip}-{\overline {y}})\\&=\sum _{i=1}^{n}({\hat {y}}_{i}-{\bar {y}})^{2}+\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}+2({\hat {\beta }}_{0}-{\overline {y}})\underbrace {\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}} _{0}+2{\hat {\beta }}_{1}\underbrace {\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}x_{i1}} _{0}+\cdots +2{\hat {\beta }}_{p}\underbrace {\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}x_{ip}} _{0}\\&=\sum _{i=1}^{n}({\hat {y}}_{i}-{\bar {y}})^{2}+\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}=\mathrm {ESS} +\mathrm {RSS} \\\end{aligned}}}

Требование, чтобы модель включала константу или, что эквивалентно, чтобы матрица проекта содержала столбец единиц, гарантирует, что , т.е. . i = 1 n ε ^ i = 0 {\displaystyle \sum _{i=1}^{n}{\hat {\varepsilon }}_{i}=0} ε ^ T 1 = 0 {\displaystyle {\hat {\varepsilon }}^{T}\mathbf {1} =0}

Доказательство можно также выразить в векторной форме следующим образом:

S S total = y y ¯ 1 2 = y y ¯ 1 + y ^ y ^ 2 , = ( y ^ y ¯ 1 ) + ( y y ^ ) 2 , = y ^ y ¯ 1 2 + ε ^ 2 + 2 ε ^ T ( y ^ y ¯ 1 ) , = S S regression + S S error + 2 ε ^ T ( X β ^ y ¯ 1 ) , = S S regression + S S error + 2 ( ε ^ T X ) β ^ 2 y ¯ ε ^ T 1 0 , = S S regression + S S error . {\displaystyle {\begin{aligned}SS_{\text{total}}=\Vert \mathbf {y} -{\bar {y}}\mathbf {1} \Vert ^{2}&=\Vert \mathbf {y} -{\bar {y}}\mathbf {1} +\mathbf {\hat {y}} -\mathbf {\hat {y}} \Vert ^{2},\\&=\Vert \left(\mathbf {\hat {y}} -{\bar {y}}\mathbf {1} \right)+\left(\mathbf {y} -\mathbf {\hat {y}} \right)\Vert ^{2},\\&=\Vert {\mathbf {\hat {y}} -{\bar {y}}\mathbf {1} }\Vert ^{2}+\Vert {\hat {\varepsilon }}\Vert ^{2}+2{\hat {\varepsilon }}^{T}\left(\mathbf {\hat {y}} -{\bar {y}}\mathbf {1} \right),\\&=SS_{\text{regression}}+SS_{\text{error}}+2{\hat {\varepsilon }}^{T}\left(X{\hat {\beta }}-{\bar {y}}\mathbf {1} \right),\\&=SS_{\text{regression}}+SS_{\text{error}}+2\left({\hat {\varepsilon }}^{T}X\right){\hat {\beta }}-2{\bar {y}}\underbrace {{\hat {\varepsilon }}^{T}\mathbf {1} } _{0},\\&=SS_{\text{regression}}+SS_{\text{error}}.\end{aligned}}}

Исключение терминов в последней строке, использовало тот факт, что

ε ^ T X = ( y y ^ ) T X = y T ( I X ( X T X ) 1 X T ) T X = y T ( X T X T ) T = 0 . {\displaystyle {\hat {\varepsilon }}^{T}X=\left(\mathbf {y} -\mathbf {\hat {y}} \right)^{T}X=\mathbf {y} ^{T}(I-X(X^{T}X)^{-1}X^{T})^{T}X={\mathbf {y} }^{T}(X^{T}-X^{T})^{T}={\mathbf {0} }.}

Дальнейшее разбиение

Обратите внимание, что остаточную сумму квадратов можно дополнительно разбить на сумму квадратов несоответствия плюс сумму квадратов из-за чистой ошибки.

Смотрите также

Ссылки

  1. ^ "Сумма квадратов - Определение, Формулы, Регрессионный Анализ". Corporate Finance Institute . Получено 2020-10-16 .
  • Бейли, РА (2008). Разработка сравнительных экспериментов. Cambridge University Press. ISBN 978-0-521-68357-9.Предварительные главы доступны в Интернете.
  • Кристенсен, Рональд (2002). Плоские ответы на сложные вопросы: Теория линейных моделей (третье изд.). Нью-Йорк: Springer. ISBN 0-387-95361-2.
  • Уиттл, Питер (1963). Прогнозирование и регулирование . English Universities Press. ISBN 0-8166-1147-5.
    Переиздано как: Whittle, P. (1983). Прогнозирование и регулирование линейными методами наименьших квадратов . Издательство Миннесотского университета. ISBN 0-8166-1148-3.
  • Уиттл, П. (20 апреля 2000 г.). Вероятность через ожидание (4-е изд.). Springer. ISBN 0-387-98955-2.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Partition_of_sums_of_squares&oldid=1239479807"