Распределение хи-квадрат

Probability distribution and special case of gamma distribution
Хи-квадрат
Функция плотности вероятности
Кумулятивная функция распределения
Обозначение χ 2 ( k ) {\displaystyle \chi ^{2}(k)\;} или χ k 2 {\displaystyle \chi _{k}^{2}\!}
Параметры k N     {\displaystyle k\in \mathbb {N} ^{*}~~} (известные как «степени свободы»)
Поддерживать x ( 0 , + ) {\displaystyle x\in (0,+\infty )\;}
PDF 1 2 k / 2 Γ ( k / 2 ) x k / 2 1 e x / 2 {\displaystyle {\frac {1}{2^{k/2}\Gamma (k/2)}}\;x^{k/2-1}e^{-x/2}\;}
СДФ 1 Γ ( k / 2 ) γ ( k 2 , x 2 ) {\displaystyle {\frac {1}{\Gamma (k/2)}}\;\gamma \left({\frac {k}{2}},\,{\frac {x}{2}}\right)\;}
Иметь в виду k {\displaystyle k}
Медиана k ( 1 2 9 k ) 3 {\displaystyle \approx k{\bigg (}1-{\frac {2}{9k}}{\bigg )}^{3}\;}
Режим max ( k 2 , 0 ) {\displaystyle \max(k-2,0)\;}
Дисперсия 2 k {\displaystyle 2k\;}
Асимметрия 8 / k {\displaystyle {\sqrt {8/k}}\,}
Избыточный эксцесс 12 k {\displaystyle {\frac {12}{k}}}
Энтропия k 2 + log ( 2 Γ ( k 2 ) ) + ( 1 k 2 ) ψ ( k 2 ) {\displaystyle {\begin{aligned}{\frac {k}{2}}&+\log \left(2\Gamma {\Bigl (}{\frac {k}{2}}{\Bigr )}\right)\\&\!+\left(1-{\frac {k}{2}}\right)\psi \left({\frac {k}{2}}\right)\end{aligned}}}
МГФ ( 1 2 t ) k / 2  for  t < 1 2 {\displaystyle (1-2t)^{-k/2}{\text{ for }}t<{\frac {1}{2}}\;}
CF ( 1 2 i t ) k / 2 {\displaystyle (1-2it)^{-k/2}} [1]
ПГФ ( 1 2 ln t ) k / 2  for  0 < t < e {\displaystyle (1-2\ln t)^{-k/2}{\text{ for }}0<t<{\sqrt {e}}\;}

В теории вероятностей и статистике распределение хи-квадрат (также хи-квадрат или -распределение ) со степенями свободы представляет собой распределение суммы квадратов независимых стандартных нормальных случайных величин. [2] χ 2 {\displaystyle \chi ^{2}} k {\displaystyle k} k {\displaystyle k}

Распределение хи-квадрат является частным случаем гамма-распределения и одномерного распределения Уишарта . В частности, если то (где — параметр формы и параметр масштаба гамма-распределения) и . χ k 2 {\displaystyle \chi _{k}^{2}} X χ k 2 {\displaystyle X\sim \chi _{k}^{2}} X Gamma ( α = k 2 , θ = 2 ) {\displaystyle X\sim {\text{Gamma}}(\alpha ={\frac {k}{2}},\theta =2)} α {\displaystyle \alpha } θ {\displaystyle \theta } X W 1 ( 1 , k ) {\displaystyle X\sim {\text{W}}_{1}(1,k)}

Масштабированное распределение хи-квадрат является репараметризацией гамма-распределения и одномерного распределения Уишарта . В частности, если то и . s 2 χ k 2 {\displaystyle s^{2}\chi _{k}^{2}} X s 2 χ k 2 {\displaystyle X\sim s^{2}\chi _{k}^{2}} X Gamma ( α = k 2 , θ = 2 s 2 ) {\displaystyle X\sim {\text{Gamma}}(\alpha ={\frac {k}{2}},\theta =2s^{2})} X W 1 ( s 2 , k ) {\displaystyle X\sim {\text{W}}_{1}(s^{2},k)}

Распределение хи-квадрат является одним из наиболее широко используемых распределений вероятностей в статистике вывода , особенно при проверке гипотез и построении доверительных интервалов . [3] [4] [5] [6] Это распределение иногда называют центральным распределением хи-квадрат , частным случаем более общего нецентрального распределения хи-квадрат . [7]

Распределение хи-квадрат используется в общих тестах хи-квадрат для проверки соответствия наблюдаемого распределения теоретическому, независимости двух критериев классификации качественных данных и при нахождении доверительного интервала для оценки среднеквадратического отклонения популяции нормального распределения от среднеквадратического отклонения выборки. Многие другие статистические тесты также используют это распределение, например, дисперсионный анализ Фридмана по рангам .

Определения

Если Z 1 , ..., Z kнезависимые стандартные нормальные случайные величины, то сумма их квадратов,

Q   = i = 1 k Z i 2 , {\displaystyle Q\ =\sum _{i=1}^{k}Z_{i}^{2},}

распределено по закону хи-квадрат с k степенями свободы. Обычно это обозначается как

Q     χ 2 ( k )     or     Q     χ k 2 . {\displaystyle Q\ \sim \ \chi ^{2}(k)\ \ {\text{or}}\ \ Q\ \sim \ \chi _{k}^{2}.}

Распределение хи-квадрат имеет один параметр: положительное целое число k , которое определяет число степеней свободы (число суммируемых случайных величин, Z i s).

Введение

Распределение хи-квадрат используется в основном при проверке гипотез и в меньшей степени для доверительных интервалов для дисперсии популяции, когда лежащее в основе распределение является нормальным. В отличие от более широко известных распределений, таких как нормальное распределение и экспоненциальное распределение , распределение хи-квадрат не так часто применяется при прямом моделировании природных явлений. Оно возникает при следующих проверках гипотез, среди прочих:

Он также является компонентом определения t -распределения и F -распределения , используемых в t -тестах, дисперсионном анализе и регрессионном анализе.

Основная причина, по которой распределение хи-квадрат широко используется при проверке гипотез, заключается в его связи с нормальным распределением. Многие проверки гипотез используют тестовую статистику, например, t -статистику в t -тесте. Для этих проверок гипотез по мере увеличения размера выборки n распределение выборки тестовой статистики приближается к нормальному распределению ( центральная предельная теорема ). Поскольку тестовая статистика (например, t ) распределена асимптотически нормально, при условии, что размер выборки достаточно велик, распределение, используемое для проверки гипотез, может быть аппроксимировано нормальным распределением. Проверка гипотез с использованием нормального распределения хорошо понятна и относительно проста. Простейшее распределение хи-квадрат является квадратом стандартного нормального распределения. Поэтому везде, где для проверки гипотез можно использовать нормальное распределение, можно использовать распределение хи-квадрат.

Предположим, что — случайная величина, выбранная из стандартного нормального распределения, где среднее значение равно , а дисперсия равна : . Теперь рассмотрим случайную величину . Распределение случайной величины является примером распределения хи-квадрат: . Нижний индекс 1 указывает на то, что это конкретное распределение хи-квадрат построено только из 1 стандартного нормального распределения. Говорят, что распределение хи-квадрат, построенное путем возведения в квадрат одного стандартного нормального распределения, имеет 1 степень свободы. Таким образом, по мере увеличения размера выборки для проверки гипотезы распределение тестовой статистики приближается к нормальному распределению. Так же, как экстремальные значения нормального распределения имеют низкую вероятность (и дают малые p-значения), экстремальные значения распределения хи-квадрат имеют низкую вероятность. Z {\displaystyle Z} 0 {\displaystyle 0} 1 {\displaystyle 1} Z N ( 0 , 1 ) {\displaystyle Z\sim N(0,1)} Q = Z 2 {\displaystyle Q=Z^{2}} Q {\displaystyle Q}   Q     χ 1 2 {\displaystyle \ Q\ \sim \ \chi _{1}^{2}}

Еще одной причиной того, что распределение хи-квадрат широко используется, является то, что оно оказывается распределением большой выборки обобщенных тестов отношения правдоподобия (LRT). [8] LRT обладают несколькими желательными свойствами; в частности, простые LRT обычно обеспечивают наивысшую мощность для отклонения нулевой гипотезы ( лемма Неймана–Пирсона ), и это также приводит к свойствам оптимальности обобщенных LRT. Однако нормальное и хи-квадрат приближения действительны только асимптотически. По этой причине предпочтительнее использовать t- распределение, а не нормальное приближение или хи-квадрат приближение для небольшого размера выборки. Аналогично, при анализе таблиц сопряженности приближение хи-квадрат будет плохим для небольшого размера выборки, и предпочтительнее использовать точный тест Фишера . Рэмси показывает, что точный биномиальный тест всегда более мощный, чем нормальное приближение. [9]

Ланкастер показывает связи между биномиальным, нормальным и хи-квадрат распределениями следующим образом. [10] Де Муавр и Лаплас установили, что биномиальное распределение может быть аппроксимировано нормальным распределением. В частности, они показали асимптотическую нормальность случайной величины

χ = m N p N p q {\displaystyle \chi ={m-Np \over {\sqrt {Npq}}}}

где — наблюдаемое число успехов в испытаниях, где вероятность успеха равна , и . m {\displaystyle m} N {\displaystyle N} p {\displaystyle p} q = 1 p {\displaystyle q=1-p}

Возведение обеих частей уравнения в квадрат дает

χ 2 = ( m N p ) 2 N p q {\displaystyle \chi ^{2}={(m-Np)^{2} \over Npq}}

Используя , , и , это уравнение можно переписать как N = N p + N ( 1 p ) {\displaystyle N=Np+N(1-p)} N = m + ( N m ) {\displaystyle N=m+(N-m)} q = 1 p {\displaystyle q=1-p}

χ 2 = ( m N p ) 2 N p + ( N m N q ) 2 N q {\displaystyle \chi ^{2}={(m-Np)^{2} \over Np}+{(N-m-Nq)^{2} \over Nq}}

Выражение справа имеет форму, которую Карл Пирсон обобщил бы до формы

χ 2 = i = 1 n ( O i E i ) 2 E i {\displaystyle \chi ^{2}=\sum _{i=1}^{n}{\frac {(O_{i}-E_{i})^{2}}{E_{i}}}}

где

χ 2 {\displaystyle \chi ^{2}} = Статистика кумулятивного теста Пирсона, которая асимптотически приближается к распределению; = число наблюдений типа ; = ожидаемая (теоретическая) частота типа , утверждаемая нулевой гипотезой о том, что доля типа в популяции равна ; и = число ячеек в таблице. [ необходима ссылка ] χ 2 {\displaystyle \chi ^{2}} O i {\displaystyle O_{i}} i {\displaystyle i} E i = N p i {\displaystyle E_{i}=Np_{i}} i {\displaystyle i} i {\displaystyle i} p i {\displaystyle p_{i}} n {\displaystyle n}

В случае биномиального результата (подбрасывание монеты) биномиальное распределение может быть аппроксимировано нормальным распределением (для достаточно большого ). Поскольку квадрат стандартного нормального распределения является распределением хи-квадрат с одной степенью свободы, вероятность результата, такого как 1 орёл в 10 испытаниях, может быть аппроксимирована либо с помощью прямого использования нормального распределения, либо распределения хи-квадрат для нормализованной квадратичной разницы между наблюдаемым и ожидаемым значением. Однако многие задачи включают в себя больше, чем два возможных результата биномиального распределения, и вместо этого требуют 3 или более категорий, что приводит к полиномиальному распределению. Так же, как де Муавр и Лаплас искали и нашли нормальное приближение к биномиальному, Пирсон искал и нашел вырожденное многомерное нормальное приближение к полиномиальному распределению (числа в каждой категории складываются в общий размер выборки, который считается фиксированным). Пирсон показал, что распределение хи-квадрат возникло из такого многомерного нормального приближения к полиномиальному распределению, тщательно учитывая статистическую зависимость (отрицательные корреляции) между числами наблюдений в различных категориях. [10] n {\displaystyle n}

Функция плотности вероятности

Функция плотности вероятности (pdf) распределения хи-квадрат равна

f ( x ; k ) = { x k / 2 1 e x / 2 2 k / 2 Γ ( k 2 ) , x > 0 ; 0 , otherwise . {\displaystyle f(x;\,k)={\begin{cases}{\dfrac {x^{k/2-1}e^{-x/2}}{2^{k/2}\Gamma \left({\frac {k}{2}}\right)}},&x>0;\\0,&{\text{otherwise}}.\end{cases}}}

где обозначает гамма-функцию , которая имеет замкнутые значения для целых чисел . Γ ( k / 2 ) {\textstyle \Gamma (k/2)} k {\displaystyle k}

Для вывода функции PDF в случаях одной, двух и более степеней свободы см. Доказательства, связанные с распределением хи-квадрат . k {\displaystyle k}

Кумулятивная функция распределения

Граница Чернова для CDF и хвоста (1-CDF) хи-квадрат случайной величины с десятью степенями свободы ( ) k = 10 {\displaystyle k=10}

Его кумулятивная функция распределения имеет вид:

F ( x ; k ) = γ ( k 2 , x 2 ) Γ ( k 2 ) = P ( k 2 , x 2 ) , {\displaystyle F(x;\,k)={\frac {\gamma ({\frac {k}{2}},\,{\frac {x}{2}})}{\Gamma ({\frac {k}{2}})}}=P\left({\frac {k}{2}},\,{\frac {x}{2}}\right),}

где — нижняя неполная гамма-функция , а — регуляризованная гамма-функция . γ ( s , t ) {\displaystyle \gamma (s,t)} P ( s , t ) {\textstyle P(s,t)}

В частном случае эта функция имеет простой вид: k = 2 {\displaystyle k=2}

F ( x ; 2 ) = 1 e x / 2 {\displaystyle F(x;\,2)=1-e^{-x/2}}

который можно легко получить путем прямого интегрирования. Целочисленная повторяемость гамма-функции позволяет легко вычислять для других малых, даже . f ( x ; 2 ) = 1 2 e x / 2 {\displaystyle f(x;\,2)={\frac {1}{2}}e^{-x/2}} F ( x ; k ) {\displaystyle F(x;\,k)} k {\displaystyle k}

Таблицы кумулятивной функции распределения хи-квадрат широко доступны, и эта функция включена во многие электронные таблицы и все статистические пакеты .

Полагая , можно получить границы Чернова на нижнем и верхнем хвостах функции распределения. [11] Для случаев, когда (включая все случаи, когда эта функция распределения меньше половины): z x / k {\displaystyle z\equiv x/k} 0 < z < 1 {\displaystyle 0<z<1} F ( z k ; k ) ( z e 1 z ) k / 2 . {\displaystyle F(zk;\,k)\leq (ze^{1-z})^{k/2}.}

Хвостовая граница для случаев, когда , аналогично, равна z > 1 {\displaystyle z>1}

1 F ( z k ; k ) ( z e 1 z ) k / 2 . {\displaystyle 1-F(zk;\,k)\leq (ze^{1-z})^{k/2}.}

Другую аппроксимацию для CDF, смоделированной на основе куба гауссовой функции, см. в разделе Нецентральное распределение хи-квадрат .

Характеристики

Теорема Кохрана

Ниже приведен частный случай теоремы Кохрана.

Теорема. Если — независимые одинаково распределенные (iid), стандартные нормальные случайные величины, то где Z 1 , . . . , Z n {\displaystyle Z_{1},...,Z_{n}} t = 1 n ( Z t Z ¯ ) 2 χ n 1 2 {\displaystyle \sum _{t=1}^{n}(Z_{t}-{\bar {Z}})^{2}\sim \chi _{n-1}^{2}} Z ¯ = 1 n t = 1 n Z t . {\displaystyle {\bar {Z}}={\frac {1}{n}}\sum _{t=1}^{n}Z_{t}.}

[Доказательство]

Доказательство. Пусть — вектор независимых нормально распределенных случайных величин, а их среднее значение. Тогда где — единичная матрица и вектор из всех единиц. имеет один собственный вектор с собственным значением и собственные векторы (все ортогональные к ) с собственным значением , которые можно выбрать так, чтобы — ортогональная матрица. Поскольку также , то имеем что доказывает утверждение. Z N ( 0 ¯ , 1 1 ) {\displaystyle Z\sim {\mathcal {N}}({\bar {0}},1\!\!1)} n {\displaystyle n} Z ¯ {\displaystyle {\bar {Z}}} t = 1 n ( Z t Z ¯ ) 2   =   t = 1 n Z t 2 n Z ¯ 2   =   Z [ 1 1 1 n 1 ¯ 1 ¯ ] Z   =:   Z M Z {\displaystyle \sum _{t=1}^{n}(Z_{t}-{\bar {Z}})^{2}~=~\sum _{t=1}^{n}Z_{t}^{2}-n{\bar {Z}}^{2}~=~Z^{\top }[1\!\!1-{\textstyle {\frac {1}{n}}}{\bar {1}}{\bar {1}}^{\top }]Z~=:~Z^{\top }\!MZ} 1 1 {\displaystyle 1\!\!1} 1 ¯ {\displaystyle {\bar {1}}} M {\displaystyle M} b 1 := 1 n 1 ¯ {\displaystyle b_{1}:={\textstyle {\frac {1}{\sqrt {n}}}}{\bar {1}}} 0 {\displaystyle 0} n 1 {\displaystyle n-1} b 2 , . . . , b n {\displaystyle b_{2},...,b_{n}} b 1 {\displaystyle b_{1}} 1 {\displaystyle 1} Q := ( b 1 , . . . , b n ) {\displaystyle Q:=(b_{1},...,b_{n})} X := Q Z N ( 0 ¯ , Q 1 1 Q ) = N ( 0 ¯ , 1 1 ) {\displaystyle X:=Q^{\top }\!Z\sim {\mathcal {N}}({\bar {0}},Q^{\top }\!1\!\!1Q)={\mathcal {N}}({\bar {0}},1\!\!1)} t = 1 n ( Z t Z ¯ ) 2   =   Z M Z   =   X Q M Q X   =   X 2 2 + . . . + X n 2     χ n 1 2 , {\displaystyle \sum _{t=1}^{n}(Z_{t}-{\bar {Z}})^{2}~=~Z^{\top }\!MZ~=~X^{\top }\!Q^{\top }\!MQX~=~X_{2}^{2}+...+X_{n}^{2}~\sim ~\chi _{n-1}^{2},}

Аддитивность

Из определения распределения хи-квадрат следует, что сумма независимых переменных хи-квадрат также распределена по закону хи-квадрат. В частности, если — независимые переменные хи-квадрат с , степенями свободы, соответственно, то — распределена по закону хи-квадрат со степенями свободы. X i , i = 1 , n ¯ {\displaystyle X_{i},i={\overline {1,n}}} k i {\displaystyle k_{i}} i = 1 , n ¯ {\displaystyle i={\overline {1,n}}} Y = X 1 + + X n {\displaystyle Y=X_{1}+\cdots +X_{n}} k 1 + + k n {\displaystyle k_{1}+\cdots +k_{n}}

Выборочное среднее

Выборочное среднее значение iid хи-квадрат переменных степени распределено в соответствии с гамма-распределением с параметрами формы и масштаба : n {\displaystyle n} k {\displaystyle k} α {\displaystyle \alpha } θ {\displaystyle \theta }

X ¯ = 1 n i = 1 n X i Gamma ( α = n k / 2 , θ = 2 / n ) where  X i χ 2 ( k ) {\displaystyle {\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}\sim \operatorname {Gamma} \left(\alpha =n\,k/2,\theta =2/n\right)\qquad {\text{where }}X_{i}\sim \chi ^{2}(k)}

Асимптотически, учитывая, что для параметра формы, стремящегося к бесконечности, гамма-распределение сходится к нормальному распределению с математическим ожиданием и дисперсией , выборочное среднее сходится к: α {\displaystyle \alpha } μ = α θ {\displaystyle \mu =\alpha \cdot \theta } σ 2 = α θ 2 {\displaystyle \sigma ^{2}=\alpha \,\theta ^{2}}

X ¯ n N ( μ = k , σ 2 = 2 k / n ) {\displaystyle {\overline {X}}\xrightarrow {n\to \infty } N(\mu =k,\sigma ^{2}=2\,k/n)}

Обратите внимание, что мы получили бы тот же результат, применив вместо этого центральную предельную теорему , отметив, что для каждой переменной хи-квадрат степени ожидание равно , а ее дисперсия (и, следовательно, дисперсия выборочного среднего равна ). k {\displaystyle k} k {\displaystyle k} 2 k {\displaystyle 2\,k} X ¯ {\displaystyle {\overline {X}}} σ 2 = 2 k n {\displaystyle \sigma ^{2}={\frac {2k}{n}}}

Энтропия

Дифференциальная энтропия определяется как

h = 0 f ( x ; k ) ln f ( x ; k ) d x = k 2 + ln [ 2 Γ ( k 2 ) ] + ( 1 k 2 ) ψ ( k 2 ) , {\displaystyle h=\int _{0}^{\infty }f(x;\,k)\ln f(x;\,k)\,dx={\frac {k}{2}}+\ln \left[2\,\Gamma \left({\frac {k}{2}}\right)\right]+\left(1-{\frac {k}{2}}\right)\,\psi \!\left({\frac {k}{2}}\right),}

где - дигамма-функция . ψ ( x ) {\displaystyle \psi (x)}

Распределение хи-квадрат — это распределение вероятности максимальной энтропии для случайной переменной , для которой и фиксированы. Поскольку хи-квадрат принадлежит к семейству гамма-распределений, его можно вывести, подставив соответствующие значения в Expectation of the log moment of gamma . Для вывода из более базовых принципов см. вывод в moment-generating function of the enough statistic . X {\displaystyle X} E ( X ) = k {\displaystyle \operatorname {E} (X)=k} E ( ln ( X ) ) = ψ ( k / 2 ) + ln ( 2 ) {\displaystyle \operatorname {E} (\ln(X))=\psi (k/2)+\ln(2)}

Нецентральные моменты

Нецентральные моменты (сырые моменты) распределения хи-квадрат со степенями свободы определяются как [12] [13] k {\displaystyle k}

E ( X m ) = k ( k + 2 ) ( k + 4 ) ( k + 2 m 2 ) = 2 m Γ ( m + k 2 ) Γ ( k 2 ) . {\displaystyle \operatorname {E} (X^{m})=k(k+2)(k+4)\cdots (k+2m-2)=2^{m}{\frac {\Gamma \left(m+{\frac {k}{2}}\right)}{\Gamma \left({\frac {k}{2}}\right)}}.}

Кумулянты

Кумулянты легко получаются путем разложения в степенной ряд логарифма характеристической функции:

κ n = 2 n 1 ( n 1 ) ! k {\displaystyle \kappa _{n}=2^{n-1}(n-1)!\,k}

Концентрация

Распределение хи-квадрат демонстрирует сильную концентрацию вокруг своего среднего значения. Стандартные границы Лорана-Массара [14] таковы:

P ( X k 2 k x + 2 x ) exp ( x ) {\displaystyle \operatorname {P} (X-k\geq 2{\sqrt {kx}}+2x)\leq \exp(-x)}
P ( k X 2 k x ) exp ( x ) {\displaystyle \operatorname {P} (k-X\geq 2{\sqrt {kx}})\leq \exp(-x)}

Одним из следствий этого является то, что если — гауссовский случайный вектор в , то по мере роста размерности квадрат длины вектора плотно концентрируется вокруг с шириной : где показатель степени может быть выбран равным любому значению в . v N ( 0 , 1 ) n {\displaystyle v\sim N(0,1)^{n}} R n {\displaystyle \mathbb {R} ^{n}} n {\displaystyle n} n {\displaystyle n} n 1 / 2 + α {\displaystyle n^{1/2+\alpha }} P r ( v 2 [ n 2 n 1 / 2 + α , n + 2 n 1 / 2 + α + 2 n α ] ) 1 e n α {\displaystyle Pr(\|v\|^{2}\in [n-2n^{1/2+\alpha },n+2n^{1/2+\alpha }+2n^{\alpha }])\geq 1-e^{-n^{\alpha }}} α {\displaystyle \alpha } ( 0 , 1 / 2 ) {\displaystyle (0,1/2)}

Асимптотические свойства

Приблизительная формула для медианы (из преобразования Уилсона–Хилферти) в сравнении с численным квантилем (вверху); и разность ( синий ) и относительная разность ( красный ) между численным квантилем и приближенной формулой (внизу). Для распределения хи-квадрат только положительные целые числа степеней свободы (круги) имеют смысл.

По центральной предельной теореме , поскольку распределение хи-квадрат является суммой независимых случайных величин с конечным средним значением и дисперсией, оно сходится к нормальному распределению при больших . Для многих практических целей, для распределение достаточно близко к нормальному распределению , поэтому разницей можно пренебречь. [15] В частности, если , то при стремлении к бесконечности распределение стремится к стандартному нормальному распределению. Однако сходимость медленная, поскольку асимметрия равна , а избыточный эксцесс равен . k {\displaystyle k} k {\displaystyle k} k > 50 {\displaystyle k>50} X χ 2 ( k ) {\displaystyle X\sim \chi ^{2}(k)} k {\displaystyle k} ( X k ) / 2 k {\displaystyle (X-k)/{\sqrt {2k}}} 8 / k {\displaystyle {\sqrt {8/k}}} 12 / k {\displaystyle 12/k}

Распределение выборки сходится к нормальному распределению гораздо быстрее, чем распределение выборки , [16], поскольку логарифмическое преобразование устраняет большую часть асимметрии. [17] ln ( χ 2 ) {\displaystyle \ln(\chi ^{2})} χ 2 {\displaystyle \chi ^{2}}

Другие функции распределения хи-квадрат сходятся к нормальному распределению быстрее. Вот некоторые примеры:

  • Если то распределено приблизительно нормально со средним значением и единичной дисперсией (1922, по RA Fisher , см. (18.23), стр. 426 Джонсона. [5] X χ 2 ( k ) {\displaystyle X\sim \chi ^{2}(k)} 2 X {\displaystyle {\sqrt {2X}}} 2 k 1 {\displaystyle {\sqrt {2k-1}}}
  • Если то приблизительно нормально распределено со средним значением и дисперсией [18] Это известно как преобразование Уилсона–Хилферти , см. (18.24), стр. 426 Джонсона. [5] X χ 2 ( k ) {\displaystyle X\sim \chi ^{2}(k)} X / k 3 {\displaystyle {\sqrt[{3}]{X/k}}} 1 2 9 k {\displaystyle 1-{\frac {2}{9k}}} 2 9 k . {\displaystyle {\frac {2}{9k}}.}
    • Это нормализующее преобразование приводит непосредственно к широко используемой медианной аппроксимации путем обратного преобразования из среднего значения, которое также является медианой нормального распределения. k ( 1 2 9 k ) 3 {\displaystyle k{\bigg (}1-{\frac {2}{9k}}{\bigg )}^{3}\;}
  • Как , ( нормальное распределение ) k {\displaystyle k\to \infty } ( χ k 2 k ) / 2 k   d   N ( 0 , 1 ) {\displaystyle (\chi _{k}^{2}-k)/{\sqrt {2k}}~{\xrightarrow {d}}\ N(0,1)\,}
  • χ k 2 χ k 2 ( 0 ) {\displaystyle \chi _{k}^{2}\sim {\chi '}_{k}^{2}(0)} ( нецентральное распределение хи-квадрат с параметром нецентральности ) λ = 0 {\displaystyle \lambda =0}
  • Если тогда имеет распределение хи-квадрат Y F ( ν 1 , ν 2 ) {\displaystyle Y\sim \mathrm {F} (\nu _{1},\nu _{2})} X = lim ν 2 ν 1 Y {\displaystyle X=\lim _{\nu _{2}\to \infty }\nu _{1}Y} χ ν 1 2 {\displaystyle \chi _{\nu _{1}}^{2}}
  • В частном случае, если тогда имеет распределение хи-квадрат Y F ( 1 , ν 2 ) {\displaystyle Y\sim \mathrm {F} (1,\nu _{2})\,} X = lim ν 2 Y {\displaystyle X=\lim _{\nu _{2}\to \infty }Y\,} χ 1 2 {\displaystyle \chi _{1}^{2}}

Переменная хи-квадрат со степенями свободы определяется как сумма квадратов независимых стандартных нормальных случайных величин. k {\displaystyle k} k {\displaystyle k}

Если — -мерный гауссовский случайный вектор со средним вектором и ранговой ковариационной матрицей , то — распределено по закону хи-квадрат со степенями свободы. Y {\displaystyle Y} k {\displaystyle k} μ {\displaystyle \mu } k {\displaystyle k} C {\displaystyle C} X = ( Y μ ) T C 1 ( Y μ ) {\displaystyle X=(Y-\mu )^{T}C^{-1}(Y-\mu )} k {\displaystyle k}

Сумма квадратов статистически независимых гауссовских переменных с единичной дисперсией, не имеющих нулевого среднего, дает обобщение распределения хи-квадрат, называемое нецентральным распределением хи-квадрат .

Если — вектор независимых стандартных нормальных случайных величин и — симметричная идемпотентная матрица с рангом , то квадратичная форма распределена по закону хи-квадрат со степенями свободы. Y {\displaystyle Y} k {\displaystyle k} A {\displaystyle A} k × k {\displaystyle k\times k} k n {\displaystyle k-n} Y T A Y {\displaystyle Y^{T}AY} k n {\displaystyle k-n}

Если — положительно-полуопределенная ковариационная матрица со строго положительными диагональными элементами, то для и случайного -вектора, независимого от , такого, что и тогда Σ {\displaystyle \Sigma } p × p {\displaystyle p\times p} X N ( 0 , Σ ) {\displaystyle X\sim N(0,\Sigma )} w {\displaystyle w} p {\displaystyle p} X {\displaystyle X} w 1 + + w p = 1 {\displaystyle w_{1}+\cdots +w_{p}=1} w i 0 , i = 1 , , p , {\displaystyle w_{i}\geq 0,i=1,\ldots ,p,}

1 ( w 1 X 1 , , w p X p ) Σ ( w 1 X 1 , , w p X p ) χ 1 2 . {\displaystyle {\frac {1}{\left({\frac {w_{1}}{X_{1}}},\ldots ,{\frac {w_{p}}{X_{p}}}\right)\Sigma \left({\frac {w_{1}}{X_{1}}},\ldots ,{\frac {w_{p}}{X_{p}}}\right)^{\top }}}\sim \chi _{1}^{2}.} [17]

Распределение хи-квадрат также естественным образом связано с другими распределениями, вытекающими из гауссовского. В частности,

  • Y {\displaystyle Y} распределено по закону F , если , где и статистически независимы. Y F ( k 1 , k 2 ) {\displaystyle Y\sim F(k_{1},k_{2})} Y = X 1 / k 1 X 2 / k 2 {\displaystyle Y={\frac {{X_{1}}/{k_{1}}}{{X_{2}}/{k_{2}}}}} X 1 χ k 1 2 {\displaystyle X_{1}\sim \chi _{k_{1}}^{2}} X 2 χ k 2 2 {\displaystyle X_{2}\sim \chi _{k_{2}}^{2}}
  • Если и статистически независимы, то . Если и не являются независимыми, то не распределено по закону хи-квадрат. X 1 χ k 1 2 {\displaystyle X_{1}\sim \chi _{k_{1}}^{2}} X 2 χ k 2 2 {\displaystyle X_{2}\sim \chi _{k_{2}}^{2}} X 1 + X 2 χ k 1 + k 2 2 {\displaystyle X_{1}+X_{2}\sim \chi _{k_{1}+k_{2}}^{2}} X 1 {\displaystyle X_{1}} X 2 {\displaystyle X_{2}} X 1 + X 2 {\displaystyle X_{1}+X_{2}}

Обобщения

Распределение хи-квадрат получается как сумма квадратов k независимых, с нулевым средним и единичной дисперсией гауссовских случайных величин. Обобщения этого распределения могут быть получены путем суммирования квадратов других типов гауссовских случайных величин. Несколько таких распределений описаны ниже.

Линейная комбинация

Если — случайные величины хи-квадрат и , то распределение является частным случаем обобщенного распределения хи-квадрат . Замкнутое выражение для этого распределения неизвестно. Однако его можно эффективно аппроксимировать, используя свойство характеристических функций случайных величин хи-квадрат. [20] X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} a 1 , , a n R > 0 {\displaystyle a_{1},\ldots ,a_{n}\in \mathbb {R} _{>0}} X = i = 1 n a i X i {\displaystyle X=\sum _{i=1}^{n}a_{i}X_{i}}

Распределение хи-квадрат

Нецентральное распределение хи-квадрат

Нецентральное распределение хи-квадрат получается из суммы квадратов независимых гауссовских случайных величин, имеющих единичную дисперсию и ненулевые средние значения.

Обобщенное распределение хи-квадрат

Обобщенное распределение хи-квадрат получается из квадратичной формы z'Az, где z — гауссовский вектор с нулевым средним, имеющий произвольную ковариационную матрицу, а A — произвольная матрица.

Распределение хи-квадрат является частным случаем гамма-распределения , поскольку использует параметризацию скорости гамма-распределения (или использует параметризацию масштаба гамма-распределения), где k — целое число. X χ k 2 {\displaystyle X\sim \chi _{k}^{2}} X Γ ( k 2 , 1 2 ) {\displaystyle X\sim \Gamma \left({\frac {k}{2}},{\frac {1}{2}}\right)} X Γ ( k 2 , 2 ) {\displaystyle X\sim \Gamma \left({\frac {k}{2}},2\right)}

Поскольку экспоненциальное распределение также является частным случаем гамма-распределения, мы также имеем, что если , то — экспоненциальное распределение . X χ 2 2 {\displaystyle X\sim \chi _{2}^{2}} X Exp ( 1 2 ) {\displaystyle X\sim \operatorname {Exp} \left({\frac {1}{2}}\right)}

Распределение Эрланга также является частным случаем гамма-распределения, и поэтому мы также имеем, что если при четном , то является распределением Эрланга с параметром формы и параметром масштаба . X χ k 2 {\displaystyle X\sim \chi _{k}^{2}} k {\displaystyle k} X {\displaystyle X} k / 2 {\displaystyle k/2} 1 / 2 {\displaystyle 1/2}

Возникновение и применение

Распределение хи-квадрат имеет многочисленные приложения в статистике вывода , например, в тестах хи-квадрат и в оценке дисперсий . Оно входит в проблему оценки среднего значения нормально распределенной совокупности и в проблему оценки наклона линии регрессии через свою роль в распределении Стьюдента . Оно входит во все проблемы дисперсионного анализа через свою роль в F-распределении , которое является распределением отношения двух независимых случайных величин хи-квадрат , каждая из которых делится на свои соответствующие степени свободы.

Ниже приведены некоторые наиболее распространенные ситуации, в которых распределение хи-квадрат возникает из выборки, распределенной по Гауссу.

  • если являются независимыми случайными величинами , то где . X 1 , . . . , X n {\displaystyle X_{1},...,X_{n}} N ( μ , σ 2 ) {\displaystyle N(\mu ,\sigma ^{2})} i = 1 n ( X i X i ¯ ) 2 σ 2 χ n 1 2 {\displaystyle \sum _{i=1}^{n}(X_{i}-{\overline {X_{i}}})^{2}\sim \sigma ^{2}\chi _{n-1}^{2}} X i ¯ = 1 n i = 1 n X i {\displaystyle {\overline {X_{i}}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}}
  • В таблице ниже показаны некоторые статистические данные, основанные на независимых случайных величинах, распределение вероятностей которых связано с распределением хи-квадрат: X i N ( μ i , σ i 2 ) , i = 1 , , k {\displaystyle X_{i}\sim N(\mu _{i},\sigma _{i}^{2}),i=1,\ldots ,k}
ИмяСтатистика
распределение хи-квадрат i = 1 k ( X i μ i σ i ) 2 {\displaystyle \sum _{i=1}^{k}\left({\frac {X_{i}-\mu _{i}}{\sigma _{i}}}\right)^{2}}
нецентральное распределение хи-квадрат i = 1 k ( X i σ i ) 2 {\displaystyle \sum _{i=1}^{k}\left({\frac {X_{i}}{\sigma _{i}}}\right)^{2}}
распределение хи i = 1 k ( X i μ i σ i ) 2 {\displaystyle {\sqrt {\sum _{i=1}^{k}\left({\frac {X_{i}-\mu _{i}}{\sigma _{i}}}\right)^{2}}}}
нецентральное распределение хи i = 1 k ( X i σ i ) 2 {\displaystyle {\sqrt {\sum _{i=1}^{k}\left({\frac {X_{i}}{\sigma _{i}}}\right)^{2}}}}

Распределение хи-квадрат также часто встречается в магнитно-резонансной томографии . [21]

Методы расчета

Таблицаχ2ценности противп-ценности

Значение - это вероятность наблюдения тестовой статистики по крайней мере как экстремальной в распределении хи-квадрат. Соответственно, поскольку кумулятивная функция распределения (CDF) для соответствующих степеней свободы (df) дает вероятность получения значения менее экстремального, чем эта точка, вычитание значения CDF из 1 дает p -значение. Низкое p -значение, ниже выбранного уровня значимости, указывает на статистическую значимость , т. е. достаточные доказательства для отклонения нулевой гипотезы. Уровень значимости 0,05 часто используется в качестве границы между значимыми и незначимыми результатами. p {\textstyle p}

В таблице ниже приведен ряд значений p , соответствующих первым 10 степеням свободы. χ 2 {\displaystyle \chi ^{2}}

Степени свободы (df) χ 2 {\displaystyle \chi ^{2}} значение [22]
10,0040,020,060,150,461.071.642.713.846.6310.83
20.100,210,450,711.392.413.224.615.999.2113.82
30,350,581.011.422.373.664.646.257.8111.3416.27
40,711.061.652.203.364.885.997.789.4913.2818.47
51.141.612.343.004.356.067.299.2411.0715.0920.52
61.632.203.073.835.357.238.5610.6412.5916.8122.46
72.172.833.824.676.358.389.8012.0214.0718.4824.32
82.733.494.595.537.349.5211.0313.3615.5120.0926.12
93.324.175.386.398.3410.6612.2414.6816.9221.6727.88
103.944.876.187.279.3411.7813.4415.9918.3123.2129.59
p -значение (вероятность)0,950,900,800,700,500.300.200.100,050.010,001

Эти значения можно рассчитать, оценивая квантильную функцию (также известную как «обратная CDF» или «ICDF») распределения хи-квадрат; [23] например, χ 2 ICDF для p = 0,05 и df = 7 дает 2,1673 ≈ 2,17, как в таблице выше, отметив, что 1 – p является p -значением из таблицы.

История

Это распределение было впервые описано немецким геодезистом и статистиком Фридрихом Робертом Гельмертом в работах 1875–6 гг. [24] [25] , где он вычислил выборочное распределение выборочной дисперсии нормальной совокупности. Таким образом, в немецком языке это традиционно известно как Helmert'sche («Helmertian») или «распределение Гельмерта».

Распределение было независимо переоткрыто английским математиком Карлом Пирсоном в контексте согласия , для чего он разработал свой критерий хи-квадрат Пирсона , опубликованный в 1900 году, с вычисленной таблицей значений, опубликованной в (Elderton 1902), собранной в (Pearson 1914, стр. xxxi–xxxiii, 26–28, таблица XII). Название «хи-квадрат» в конечном итоге происходит от сокращения Пирсона для показателя степени в многомерном нормальном распределении с греческой буквой Хи , записывая −½χ 2 для того, что в современной нотации будет выглядеть как −½ x T Σ −1 x (Σ является ковариационной матрицей ). [26] Однако идея семейства «хи-квадрат распределений» принадлежит не Пирсону, а возникла как дальнейшее развитие благодаря Фишеру в 1920-х годах. [24]

Смотрите также

Ссылки

  1. ^ MA Sanders. "Характерная функция центрального распределения хи-квадрат" (PDF) . Архивировано из оригинала (PDF) 2011-07-15 . Получено 2009-03-06 .
  2. ^ Weisstein, Eric W. "Распределение хи-квадрат". mathworld.wolfram.com . Получено 11 октября 2024 г.
  3. ^ Абрамовиц, Милтон ; Стиган, Ирен Энн , ред. (1983) [июнь 1964]. "Глава 26". Справочник по математическим функциям с формулами, графиками и математическими таблицами . Серия "Прикладная математика". Том 55 (Девятое переиздание с дополнительными исправлениями десятого оригинального издания с исправлениями (декабрь 1972 г.); первое изд.). Вашингтон, округ Колумбия; Нью-Йорк: Министерство торговли США, Национальное бюро стандартов; Dover Publications. стр. 940. ISBN 978-0-486-61272-0. LCCN  64-60036. MR  0167642. LCCN  65-12253.
  4. ^ NIST (2006). Справочник по инженерной статистике – Распределение хи-квадрат
  5. ^ abc Джонсон, Н. Л.; Коц, С.; Балакришнан, Н. (1994). «Распределения хи-квадрат, включая хи и Рэлея». Непрерывные одномерные распределения . Том 1 (Второе издание). John Wiley and Sons. С. 415–493. ISBN 978-0-471-58495-7.
  6. ^ Mood, Alexander; Graybill, Franklin A.; Boes, Duane C. (1974). Введение в теорию статистики (третье изд.). McGraw-Hill. стр. 241–246. ISBN 978-0-07-042864-5.
  7. ^ "Распределение хи-квадрат" (PDF) . Университет Реджайны .
  8. ^ Уэстфолл, Питер Х. (2013). Понимание передовых статистических методов . Бока-Ратон, Флорида: CRC Press. ISBN 978-1-4665-1210-8.
  9. ^ Рэмси, PH (1988). «Оценка нормального приближения к биномиальному тесту». Журнал образовательной статистики . 13 (2): 173–82. doi :10.2307/1164752. JSTOR  1164752.
  10. ^ ab Lancaster, HO (1969), Распределение хи-квадрат , Wiley
  11. ^ Дасгупта, Санджой ДА; Гупта, Анупам К. (январь 2003 г.). «Элементарное доказательство теоремы Джонсона и Линденштрауса» (PDF) . Случайные структуры и алгоритмы . 22 (1): 60–65. doi :10.1002/rsa.10073. S2CID  10327785 . Получено 01.05.2012 .
  12. ^ Распределение хи-квадрат, из MathWorld , получено 11 февраля 2009 г.
  13. ^ MK Simon, Распределения вероятностей, включающие гауссовские случайные величины , Нью-Йорк: Springer, 2002, ур. (2.35), ISBN 978-0-387-34657-1 
  14. ^ Лоран, Б.; Массарт, П. (2000-10-01). "Адаптивная оценка квадратичного функционала путем выбора модели". Анналы статистики . 28 (5). doi : 10.1214/aos/1015957395 . ISSN  0090-5364. S2CID  116945590.
  15. ^ Бокс, Хантер и Хантер (1978). Статистика для экспериментаторов . Wiley. стр. 118. ISBN 978-0-471-09315-2.
  16. ^ Бартлетт, М.С.; Кендалл, Д.Г. (1946). «Статистический анализ дисперсионной неоднородности и логарифмическое преобразование». Приложение к журналу Королевского статистического общества . 8 (1): 128–138. doi :10.2307/2983618. JSTOR  2983618.
  17. ^ ab Pillai, Natesh S. (2016). «Неожиданная встреча с Коши и Леви». Annals of Statistics . 44 (5): 2089–2097. arXiv : 1505.01957 . doi : 10.1214/15-aos1407. S2CID  31582370.
  18. ^ Уилсон, ЭБ; Хильферти, ММ (1931). «Распределение хи-квадрат». Proc. Natl. Acad. Sci. USA . 17 (12): 684–688. Bibcode : 1931PNAS...17..684W. doi : 10.1073/pnas.17.12.684 . PMC 1076144. PMID  16577411 . 
  19. ^ Бэкстрём, Т.; Фишер, Дж. (январь 2018 г.). «Быстрая рандомизация для распределенного кодирования речи и звука с низкой скоростью передачи данных» (PDF) . Труды IEEE/ACM по обработке звука, речи и языка . 26 (1): 19–30. doi :10.1109/TASLP.2017.2757601. S2CID  19777585.
  20. ^ Bausch, J. (2013). "Об эффективном вычислении линейной комбинации случайных величин хи-квадрат с применением в подсчете струнных вакуумов". J. Phys. A: Math. Theor . 46 (50): 505202. arXiv : 1208.2691 . Bibcode : 2013JPhA...46X5202B. doi : 10.1088/1751-8113/46/50/505202. S2CID  119721108.
  21. ^ den Dekker AJ, Sijbers J., (2014) «Распределение данных в магнитно-резонансных изображениях: обзор», Physica Medica , [1]
  22. ^ Тест хи-квадрат Архивировано 2013-11-18 в Wayback Machine Таблица B.2. Доктор Жаклин С. Маклафлин из Университета штата Пенсильвания. В свою очередь цитируется: RA Fisher и F. Yates, Статистические таблицы для биологических сельскохозяйственных и медицинских исследований, 6-е изд., Таблица IV. Два значения были исправлены, 7,82 на 7,81 и 4,60 на 4,61
  23. ^ "Распределение хи-квадрат | Учебник R". www.r-tutor.com .
  24. ^ ab Hald 1998, стр. 633–692, 27. Выборочные распределения при нормальном распределении.
  25. ^ Ф. Р. Гельмерт , «Ueber die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und über einige damit im Zusammenhange stehende Fragen», Zeitschrift für Mathematik und Physik 21, 1876, стр. 192–219
  26. ^ RL Plackett, Karl Pearson and the Chi-Squared Test , International Statistical Review, 1983, 61f. См. также Jeff Miller, Earlyest Known Uses of Some of the Words of Mathematics.
  27. ^ Сан, Цзинчао; Конг, Майин; Пал, Субхадип (22 июня 2021 г.). «Модифицированное полунормальное распределение: свойства и эффективная схема выборки» (PDF) . Communications in Statistics - Theory and Methods . 52 (5): 1591–1613. doi :10.1080/03610926.2021.1934700. ISSN  0361-0926. S2CID  237919587.

Дальнейшее чтение

  • Хальд, Андерс (1998). История математической статистики с 1750 по 1930 год . Нью-Йорк: Wiley. ISBN 978-0-471-17912-2.
  • Элдертон, Уильям Пэйлин (1902). «Таблицы для проверки соответствия теории наблюдениям». Biometrika . 1 (2): 155–163. doi :10.1093/biomet/1.2.155.
  • «Распределение хи-квадрат», Энциклопедия математики , EMS Press , 2001 [1994]
  • Пирсон, Карл (1914). «О вероятности того, что два независимых распределения частот на самом деле являются образцами одной и той же популяции, с особой ссылкой на недавнюю работу по идентичности штаммов трипаносом». Biometrika . 10 : 85–154. doi :10.1093/biomet/10.1.85.
  • Самые ранние примеры использования некоторых слов из математики: запись о хи-квадрате имеет краткую историю
  • Заметки по курсу «Проверка согласия по критерию хи-квадрат» из курса 101 «Статистика» Йельского университета.
  • Демонстрация Mathematica, демонстрирующая распределение выборки хи-квадрат различных статистик, например Σx², для нормальной совокупности
  • Простой алгоритм аппроксимации cdf и обратной cdf для распределения хи-квадрат с помощью карманного калькулятора
  • Значения распределения хи-квадрат
Retrieved from "https://en.wikipedia.org/w/index.php?title=Chi-squared_distribution&oldid=1253480006#Asymptotic_properties"