Теорема Кохрана

Статистическая теорема в дисперсионном анализе

В статистике теорема Кохрана , разработанная Уильямом Г. Кохраном , [1] представляет собой теорему, используемую для обоснования результатов, относящихся к вероятностным распределениям статистик, которые используются в дисперсионном анализе . [2]

Примеры

Выборочное среднее и выборочная дисперсия

Если X 1 , ..., X n — независимые нормально распределенные случайные величины со средним значением μ и стандартным отклонением σ , то

У я = Х я μ σ {\displaystyle U_{i}={\frac {X_{i}-\mu }{\sigma }}}

является стандартным нормальным для каждого i . Обратите внимание, что общий Q равен сумме квадратов U s, как показано здесь:

я В я = дж я к У дж Б дж к ( я ) У к = дж к У дж У к я Б дж к ( я ) = дж к У дж У к δ дж к = дж У дж 2 {\displaystyle \sum _{i}Q_{i}=\sum _{jik}U_{j}B_{jk}^{(i)}U_{k}=\sum _{jk}U_{j}U_{k}\sum _{i}B_{jk}^{(i)}=\sum _{jk}U_{j}U_{k}\delta _{jk}=\sum _{j}U_{j}^{2}}

что вытекает из исходного предположения, что . Поэтому вместо этого мы вычислим эту величину и позже разделим ее на Q i 's. Можно записать Б 1 + Б 2 = я {\displaystyle B_{1}+B_{2}\ldots =I}

я = 1 н У я 2 = я = 1 н ( Х я Х ¯ σ ) 2 + н ( Х ¯ μ σ ) 2 {\displaystyle \sum _{i=1}^{n}U_{i}^{2}=\sum _{i=1}^{n}\left({\frac {X_{i}-{\overline {X}}}{\sigma }}\right)^{2}+n\left({\frac {{\overline {X}}-\mu }{\sigma }}\right)^{2}}

(вот выборочное среднее ). Чтобы увидеть эту идентичность, умножьте всюду на и обратите внимание, что Х ¯ {\displaystyle {\overline {X}}} σ 2 {\displaystyle \сигма ^{2}}

( Х я μ ) 2 = ( Х я Х ¯ + Х ¯ μ ) 2 {\displaystyle \sum (X_{i}-\mu )^{2}=\sum (X_{i}-{\overline {X}}+{\overline {X}}-\mu )^{2}}

и расширить, чтобы дать

( Х я μ ) 2 = ( Х я Х ¯ ) 2 + ( Х ¯ μ ) 2 + 2 ( Х я Х ¯ ) ( Х ¯ μ ) . {\displaystyle \sum (X_{i}-\mu )^{2}=\sum (X_{i}-{\overline {X}})^{2}+\sum ({\overline {X}}-\mu )^{2}+2\sum (X_{i}-{\overline {X}})({\overline {X}}-\mu ).}

Третий член равен нулю, поскольку он равен константе, умноженной на

( Х ¯ Х я ) = 0 , {\displaystyle \sum ({\overline {X}}-X_{i})=0,}

а второй член имеет только n одинаковых членов, сложенных вместе. Таким образом

( Х я μ ) 2 = ( Х я Х ¯ ) 2 + н ( Х ¯ μ ) 2 , {\displaystyle \sum (X_{i}-\mu )^{2}=\sum (X_{i}-{\overline {X}})^{2}+n({\overline {X}}-\mu )^{2},}

и, следовательно,

( Х я μ σ ) 2 = ( Х я Х ¯ σ ) 2 + н ( Х ¯ μ σ ) 2 = я ( У я 1 н дж У дж ) 2 В 1 + 1 н ( дж У дж ) 2 В 2 = В 1 + В 2 . {\displaystyle \sum \left({\tfrac {X_{i}-\mu }{\sigma }}\right)^{2}=\sum \left({\tfrac {X_{i}-{\overline {X}}}{\sigma }}\right)^{2}+n\left({\tfrac {{\overline {X}}-\mu }{\sigma }}\right)^{2}=\overbrace {\sum _{i}\left(U_{i}-{\tfrac {1}{n}}\sum _{j}{U_{j}}\right)^{2}} ^{Q_{1}}+\overbrace {{\tfrac {1}{n}}\left(\sum _{j}{U_{j}}\right)^{2}} ^{Q_{2}}=Q_{1}+Q_{2}.}

Теперь с матрицей единиц, которая имеет ранг 1. В свою очередь, учитывая, что . Это выражение можно получить также путем разложения в матричной записи. Можно показать, что ранг равен нулю при сложении всех ее строк. Таким образом, условия теоремы Кохрана выполнены. Б ( 2 ) = Дж. н н {\displaystyle B^{(2)}={\frac {J_{n}}{n}}} Дж. н {\displaystyle J_{n}} Б ( 1 ) = я н Дж. н н {\displaystyle B^{(1)}=I_{n}-{\frac {J_{n}}{n}}} я н = Б ( 1 ) + Б ( 2 ) {\displaystyle I_{n}=B^{(1)}+B^{(2)}} В 1 {\displaystyle Q_{1}} Б ( 1 ) {\displaystyle B^{(1)}} н 1 {\displaystyle n-1}

Теорема Кохрана утверждает, что Q 1 и Q 2 независимы, с хи-квадрат распределениями с n − 1 и 1 степенью свободы соответственно. Это показывает, что выборочное среднее и выборочная дисперсия независимы. Это также может быть показано теоремой Басу , и на самом деле это свойство характеризует нормальное распределение — ни для какого другого распределения выборочное среднее и выборочная дисперсия не являются независимыми. [3]

Распределения

Результат для распределений записывается символически как

( Х я Х ¯ ) 2 σ 2 χ н 1 2 . {\displaystyle \sum \left(X_{i}-{\overline {X}}\right)^{2}\sim \sigma ^{2}\chi _{n-1}^{2}.}
н ( Х ¯ μ ) 2 σ 2 χ 1 2 , {\displaystyle n({\overline {X}}-\mu )^{2}\sim \sigma ^{2}\chi _{1}^{2},}

Обе эти случайные величины пропорциональны истинной, но неизвестной дисперсии σ 2 . Таким образом, их отношение не зависит от σ 2 и, поскольку они статистически независимы. Распределение их отношения задается как

н ( Х ¯ μ ) 2 1 н 1 ( Х я Х ¯ ) 2 χ 1 2 1 н 1 χ н 1 2 Ф 1 , н 1 {\displaystyle {\frac {n\left({\overline {X}}-\mu \right)^{2}}{{\frac {1}{n-1}}\sum \left(X_{i}-{\overline {X}}\right)^{2}}}\sim {\frac {\chi _{1}^{2}}{{\frac {1}{n-1}}\chi _{n-1}^{2}}}\sim F_{1,n-1}}

где F 1, n  − 1 — это F-распределение с 1 и n  − 1 степенями свободы (см. также распределение Стьюдента ). Последним шагом здесь фактически является определение случайной величины, имеющей F-распределение.

Оценка дисперсии

Для оценки дисперсии σ 2 иногда используется оценка максимального правдоподобия дисперсии нормального распределения.

σ ^ 2 = 1 n ( X i X ¯ ) 2 . {\displaystyle {\widehat {\sigma }}^{2}={\frac {1}{n}}\sum \left(X_{i}-{\overline {X}}\right)^{2}.}

Теорема Кохрана показывает, что

n σ ^ 2 σ 2 χ n 1 2 {\displaystyle {\frac {n{\widehat {\sigma }}^{2}}{\sigma ^{2}}}\sim \chi _{n-1}^{2}}

и свойства распределения хи-квадрат показывают, что

E ( n σ ^ 2 σ 2 ) = E ( χ n 1 2 ) n σ 2 E ( σ ^ 2 ) = ( n 1 ) E ( σ ^ 2 ) = σ 2 ( n 1 ) n {\displaystyle {\begin{aligned}E\left({\frac {n{\widehat {\sigma }}^{2}}{\sigma ^{2}}}\right)&=E\left(\chi _{n-1}^{2}\right)\\{\frac {n}{\sigma ^{2}}}E\left({\widehat {\sigma }}^{2}\right)&=(n-1)\\E\left({\widehat {\sigma }}^{2}\right)&={\frac {\sigma ^{2}(n-1)}{n}}\end{aligned}}}

Альтернативная формулировка

Следующая версия часто встречается при рассмотрении линейной регрессии. [4] Предположим, что — стандартный многомерный нормальный случайный вектор (здесь обозначает единичную матрицу размером n на n ), и если — все симметричные матрицы размером n на n с . Тогда при определении любое из следующих условий влечет два других: Y N n ( 0 , σ 2 I n ) {\displaystyle Y\sim N_{n}(0,\sigma ^{2}I_{n})} I n {\displaystyle I_{n}} A 1 , , A k {\displaystyle A_{1},\ldots ,A_{k}} i = 1 k A i = I n {\displaystyle \sum _{i=1}^{k}A_{i}=I_{n}} r i = Rank ( A i ) {\displaystyle r_{i}=\operatorname {Rank} (A_{i})}

  • i = 1 k r i = n , {\displaystyle \sum _{i=1}^{k}r_{i}=n,}
  • Y T A i Y σ 2 χ r i 2 {\displaystyle Y^{T}A_{i}Y\sim \sigma ^{2}\chi _{r_{i}}^{2}} (таким образом, являются положительно полуопределенными ) A i {\displaystyle A_{i}}
  • Y T A i Y {\displaystyle Y^{T}A_{i}Y} не зависит от Y T A j Y {\displaystyle Y^{T}A_{j}Y} i j . {\displaystyle i\neq j.}


Заявление

Пусть U 1 , ..., U N — стандартные нормально распределенные случайные величины , и . Пусть — симметричные матрицы . Определим r i как ранг . Определим , так что Q iквадратичные формы . Далее предположим . U = [ U 1 , . . . , U N ] T {\displaystyle U=[U_{1},...,U_{N}]^{T}} B ( 1 ) , B ( 2 ) , , B ( k ) {\displaystyle B^{(1)},B^{(2)},\ldots ,B^{(k)}} B ( i ) {\displaystyle B^{(i)}} Q i = U T B ( i ) U {\displaystyle Q_{i}=U^{T}B^{(i)}U} i Q i = U T U {\displaystyle \sum _{i}Q_{i}=U^{T}U}

Теорема Кохрана утверждает, что следующие утверждения эквивалентны:

Часто это формулируется как , где является идемпотентом, и заменяется на . Но после ортогонального преобразования, , и таким образом мы сводимся к приведенной выше теореме. i A i = A {\displaystyle \sum _{i}A_{i}=A} A {\displaystyle A} i r i = N {\displaystyle \sum _{i}r_{i}=N} i r i = r a n k ( A ) {\displaystyle \sum _{i}r_{i}=rank(A)} A = d i a g ( I M , 0 ) {\displaystyle A=diag(I_{M},0)}

Доказательство

Утверждение : Пусть — стандартная гауссова матрица в , тогда для любых симметричных матриц , если и имеют одинаковое распределение, то имеют одинаковые собственные значения (с точностью до кратности). X {\displaystyle X} R n {\displaystyle \mathbb {R} ^{n}} Q , Q {\displaystyle Q,Q'} X T Q X {\displaystyle X^{T}QX} X T Q X {\displaystyle X^{T}Q'X} Q , Q {\displaystyle Q,Q'}

Доказательство

Пусть собственные значения будут , затем вычислим характеристическую функцию . Получается Q {\displaystyle Q} λ 1 , . . . , λ n {\displaystyle \lambda _{1},...,\lambda _{n}} X T Q X {\displaystyle X^{T}QX}

ϕ ( t ) = ( j ( 1 2 i λ j t ) ) 1 / 2 {\displaystyle \phi (t)=\left(\prod _{j}(1-2i\lambda _{j}t)\right)^{-1/2}}

(Чтобы вычислить его, сначала диагонализируйте , перейдите в эту систему координат, а затем используйте тот факт, что характеристическая функция суммы независимых переменных является произведением их характеристических функций.) Q {\displaystyle Q}

Для того чтобы и были равны, их характеристические функции должны быть равны, а значит, иметь одинаковые собственные значения (с точностью до кратности). X T Q X {\displaystyle X^{T}QX} X T Q X {\displaystyle X^{T}Q'X} Q , Q {\displaystyle Q,Q'}

Требовать : . I = i B i {\displaystyle I=\sum _{i}B_{i}}

Доказательство

U T ( I i B i ) U = 0 {\displaystyle U^{T}(I-\sum _{i}B_{i})U=0} , Так как симметричен, и , согласно предыдущему утверждению, имеет те же собственные значения, что и 0. ( I i B i ) {\displaystyle (I-\sum _{i}B_{i})} U T ( I i B i ) U = d U T 0 U {\displaystyle U^{T}(I-\sum _{i}B_{i})U=^{d}U^{T}0U} ( I i B i ) {\displaystyle (I-\sum _{i}B_{i})}

Лемма : Если все симметричны и имеют собственные значения 0, 1, то они одновременно диагонализируемы. i M i = I {\displaystyle \sum _{i}M_{i}=I} M i {\displaystyle M_{i}}

Доказательство

Зафиксируем i и рассмотрим собственные векторы v для , такие что . Тогда мы имеем , поэтому все . Таким образом, мы получаем разбиение на , такое, что V является 1-собственным пространством для , и в 0-собственных пространствах всех других . Теперь проведем индукцию, перейдя в . M i {\displaystyle M_{i}} M i v = v {\displaystyle M_{i}v=v} v T v = v T I v = v T v + j i v T M j v {\displaystyle v^{T}v=v^{T}Iv=v^{T}v+\sum _{j\neq i}v^{T}M_{j}v} v T M j v = 0 {\displaystyle v^{T}M_{j}v=0} R N {\displaystyle \mathbb {R} ^{N}} V V {\displaystyle V\oplus V^{\perp }} M i {\displaystyle M_{i}} M j {\displaystyle M_{j}} V {\displaystyle V^{\perp }}

Теперь мы докажем исходную теорему. Мы докажем, что три случая эквивалентны, доказав, что каждый случай подразумевает следующий в цикле ( ). 1 2 3 1 {\displaystyle 1\to 2\to 3\to 1}

Доказательство

Случай : Все независимы Q i {\displaystyle Q_{i}}

Зафиксируем некоторые , определим и диагонализируем ортогональным преобразованием . Затем рассмотрим . Он также диагонализируется. i {\displaystyle i} C i = I B i = j i B j {\displaystyle C_{i}=I-B_{i}=\sum _{j\neq i}B_{j}} B i {\displaystyle B_{i}} O {\displaystyle O} O C i O T = I O B i O T {\displaystyle OC_{i}O^{T}=I-OB_{i}O^{T}}

Пусть , тогда это также стандартный гауссов. Тогда имеем W = O U {\displaystyle W=OU}

Q i = W T ( O B i O T ) W ; j i Q j = W T ( I O B i O T ) W {\displaystyle Q_{i}=W^{T}(OB_{i}O^{T})W;\quad \sum _{j\neq i}Q_{j}=W^{T}(I-OB_{i}O^{T})W}

Проверьте их диагональные элементы и убедитесь, что их ненулевые диагональные элементы не пересекаются. Q i j i Q j {\displaystyle Q_{i}\perp \sum _{j\neq i}Q_{j}}

Таким образом, все собственные значения равны 0, 1, поэтому является распределением со степенями свободы. B i {\displaystyle B_{i}} Q i {\displaystyle Q_{i}} χ 2 {\displaystyle \chi ^{2}} r i {\displaystyle r_{i}}

Случай : Каждый из них является распределением. Q i {\displaystyle Q_{i}} χ 2 ( r i ) {\displaystyle \chi ^{2}(r_{i})}

Зафиксируем любой , диагонализируем его с помощью ортогонального преобразования и переиндексируем, так что . Тогда для некоторого сферического поворота . i {\displaystyle i} O {\displaystyle O} O B i O T = d i a g ( λ 1 , . . . , λ r i , 0 , . . . , 0 ) {\displaystyle OB_{i}O^{T}=diag(\lambda _{1},...,\lambda _{r_{i}},0,...,0)} Q i = j λ j U j 2 {\displaystyle Q_{i}=\sum _{j}\lambda _{j}{U'}_{j}^{2}} U j {\displaystyle U'_{j}} U i {\displaystyle U_{i}}

Так как , то получаем все . Так что все , и имеют собственные значения . Q i χ 2 ( r i ) {\displaystyle Q_{i}\sim \chi ^{2}(r_{i})} λ j = 1 {\displaystyle \lambda _{j}=1} B i 0 {\displaystyle B_{i}\succeq 0} 0 , 1 {\displaystyle 0,1}

Итак, диагонализируем их одновременно, складываем и находим . i r i = N {\displaystyle \sum _{i}r_{i}=N}

Случай : . r 1 + + r k = N {\displaystyle r_{1}+\cdots +r_{k}=N}

Сначала мы показываем, что матрицы B ( i ) могут быть одновременно диагонализированы ортогональной матрицей и что их ненулевые собственные значения все равны +1. Как только это будет показано, примем это ортогональное преобразование к этому одновременному собственному базису , в котором случайный вектор становится , но все они по-прежнему независимы и стандартны как гауссовы. Затем следует результат. [ U 1 , . . . , U N ] T {\displaystyle [U_{1},...,U_{N}]^{T}} [ U 1 , . . . , U N ] T {\displaystyle [U'_{1},...,U'_{N}]^{T}} U i {\displaystyle U_{i}'}

Каждая из матриц B ( i ) имеет ранг r i и, таким образом, r i ненулевых собственных значений . Для каждого i сумма имеет ранг не более . Поскольку , то C ( i ) имеет ранг ровно N  −  r i . C ( i ) j i B ( j ) {\displaystyle C^{(i)}\equiv \sum _{j\neq i}B^{(j)}} j i r j = N r i {\displaystyle \sum _{j\neq i}r_{j}=N-r_{i}} B ( i ) + C ( i ) = I N × N {\displaystyle B^{(i)}+C^{(i)}=I_{N\times N}}

Следовательно, B ( i ) и C ( i ) могут быть одновременно диагонализированы . Это можно показать, сначала диагонализировав B ( i ) с помощью спектральной теоремы . В этом базисе он имеет вид:

[ λ 1 0 0 0 0 λ 2 0 0 0 0 λ r i 0 0 0 0 0 ] . {\displaystyle {\begin{bmatrix}\lambda _{1}&0&0&\cdots &\cdots &&0\\0&\lambda _{2}&0&\cdots &\cdots &&0\\0&0&\ddots &&&&\vdots \\\vdots &\vdots &&\lambda _{r_{i}}&&\\\vdots &\vdots &&&0&\\0&\vdots &&&&\ddots \\0&0&\ldots &&&&0\end{bmatrix}}.}

Таким образом, нижние строки равны нулю. Поскольку , то эти строки в C ( i ) в этом базисе содержат правый блок, который является единичной матрицей, с нулями в остальных этих строках. Но поскольку C ( i ) имеет ранг N  −  r i , он должен быть равен нулю в других местах. Таким образом, он также является диагональным в этом базисе. Отсюда следует, что все ненулевые собственные значения как B ( i ), так и C ( i ) равны +1. Этот аргумент применим для всех i , поэтому все B ( i ) являются положительно полуопределенными. ( N r i ) {\displaystyle (N-r_{i})} C ( i ) = I B ( i ) {\displaystyle C^{(i)}=I-B^{(i)}} ( N r i ) × ( N r i ) {\displaystyle (N-r_{i})\times (N-r_{i})}

Более того, приведенный выше анализ можно повторить в диагональном базисе для . В этом базисе есть тождество векторного пространства, поэтому следует, что и B (2) , и одновременно диагонализируемы в этом векторном пространстве (и, следовательно, также вместе с B (1) ). Итерацией следует, что все B одновременно диагонализируемы. C ( 1 ) = B ( 2 ) + j > 2 B ( j ) {\displaystyle C^{(1)}=B^{(2)}+\sum _{j>2}B^{(j)}} C ( 1 ) {\displaystyle C^{(1)}} ( N r 1 ) × ( N r 1 ) {\displaystyle (N-r_{1})\times (N-r_{1})} j > 2 B ( j ) {\displaystyle \sum _{j>2}B^{(j)}}

Таким образом, существует ортогональная матрица такая, что для всех , является диагональной, где любой элемент с индексами , , равен 1, а любой элемент с другими индексами равен 0. S {\displaystyle S} i {\displaystyle i} S T B ( i ) S B ( i ) {\displaystyle S^{\mathrm {T} }B^{(i)}S\equiv B^{(i)\prime }} B x , y ( i ) {\displaystyle B_{x,y}^{(i)\prime }} x = y {\displaystyle x=y} j = 1 i 1 r j < x = y j = 1 i r j {\displaystyle \sum _{j=1}^{i-1}r_{j}<x=y\leq \sum _{j=1}^{i}r_{j}}


Смотрите также

Ссылки

  1. ^ ab Cochran, WG (апрель 1934 г.). «Распределение квадратичных форм в нормальной системе с приложениями к анализу ковариации». Математические труды Кембриджского философского общества . 30 (2): 178– 191. doi :10.1017/S0305004100016595.
  2. ^ Бапат, РБ (2000). Линейная алгебра и линейные модели (второе издание). Springer. ISBN 978-0-387-98871-9.
  3. ^ Geary, RC (1936). «Распределение отношения «Стьюдента» для ненормальных выборок». Приложение к журналу Королевского статистического общества . 3 (2): 178– 184. doi :10.2307/2983669. JFM  63.1090.03. JSTOR  2983669.
  4. ^ «Теорема Кохрана (Краткое руководство)» (PDF) .
  5. ^ "Теорема Кохрана", Словарь статистики , Oxford University Press, 2008-01-01, doi :10.1093/acref/9780199541454.001.0001/acref-9780199541454-e-294, ISBN 978-0-19-954145-4, получено 2022-05-18
Retrieved from "https://en.wikipedia.org/w/index.php?title=Cochran%27s_theorem&oldid=1260397392"