Многомерное нормальное распределение

Обобщение одномерного нормального распределения на более высокие размерности
Многомерный нормальный
Функция плотности вероятности
Множество точек выборки из многомерного нормального распределения с и , показанные вместе с эллипсом с 3 сигмами, двумя маргинальными распределениями и двумя гистограммами 1-d. μ = [ 0 0 ] {\displaystyle {\boldsymbol {\mu }}=\left[{\begin{smallmatrix}0\\0\end{smallmatrix}}\right]} Σ = [ 1 3 / 5 3 / 5 2 ] {\displaystyle {\boldsymbol {\Sigma }}=\left[{\begin{smallmatrix}1&3/5\\3/5&2\end{smallmatrix}}\right]}
Обозначение Н ( μ , Σ ) {\displaystyle {\mathcal {N}}({\boldsymbol {\mu }},\, {\boldsymbol {\Sigma }})}
Параметрыµ R k местоположение
Σ R k  ×  k ковариация ( положительная полуопределенная матрица )
Поддерживатьx μ + span( Σ ) ⊆ R k
PDF ( 2 π ) к / 2 дет ( Σ ) 1 / 2 опыт ( 1 2 ( х μ ) Т Σ 1 ( х μ ) ) , {\displaystyle (2\pi )^{-k/2}\det({\boldsymbol {\Sigma }})^{-1/2}\,\exp \left(-{\frac {1}{2}}(\mathbf {x} -{\boldsymbol {\mu }})^{\mathrm {T} }{\boldsymbol {\Sigma }}^{-1}(\mathbf {x} -{\boldsymbol {\mu }})\right),}
существует только тогда, когда Σ положительно определена
Иметь в видуμ
Режимμ
ДисперсияΣ
Энтропия к 2 бревно ( 2 π е ) + 1 2 бревно дет ( Σ ) {\displaystyle {\frac {k}{2}}\log {\mathord {\left(2\pi \mathrm {e} \right)}}+{\frac {1}{2}}\log \det {\mathord {\left({\boldsymbol {\Sigma }}\right)}}}
МГФ опыт ( μ Т т + 1 2 т Т Σ т ) {\displaystyle \exp \!{\Big (}{\boldsymbol {\mu }}^{\mathrm {T} }\mathbf {t} +{\tfrac {1}{2}}\mathbf {t} ^{\mathrm {T} }{\boldsymbol {\Sigma }}\mathbf {t} {\Big )}}
CF опыт ( я μ Т т 1 2 т Т Σ т ) {\displaystyle \exp \!{\Big (}i{\boldsymbol {\mu }}^{\mathrm {T} }\mathbf {t} -{\tfrac {1}{2}}\mathbf {t} ^{\mathrm {T} }{\boldsymbol {\Sigma }}\mathbf {t} {\Big )}}
Расхождение Кульбака–ЛейблераСм. § Расхождение Кульбака–Лейблера

В теории вероятностей и статистике многомерное нормальное распределение , многомерное гауссовское распределение или совместное нормальное распределение является обобщением одномерного ( одномерного ) нормального распределения на более высокие измерения . Одно из определений состоит в том, что случайный вектор называется k -мерным нормально распределенным, если каждая линейная комбинация его k компонентов имеет одномерное нормальное распределение. Его важность вытекает в основном из многомерной центральной предельной теоремы . Многомерное нормальное распределение часто используется для описания, по крайней мере приблизительно, любого набора (возможно) коррелированных действительных случайных величин , каждая из которых группируется вокруг среднего значения.

Определения

Обозначение и параметризация

Многомерное нормальное распределение k -мерного случайного вектора можно записать в следующей записи: Х = ( Х 1 , , Х к ) Т {\displaystyle \mathbf {X} =(X_{1},\ldots ,X_{k})^{\mathrm {T} }}

Х     Н ( μ , Σ ) , {\displaystyle \mathbf {X} \ \sim \ {\mathcal {N}}({\boldsymbol {\mu }},\,{\boldsymbol {\Sigma }}),}

или явно указать, что X является k -мерным,

Х     Н к ( μ , Σ ) , {\displaystyle \mathbf {X} \ \sim \ {\mathcal {N}}_ {k} ({\boldsymbol {\mu }},\, {\boldsymbol {\Sigma }}),}

с k -мерным средним вектором

μ = Э [ Х ] = ( Э [ Х 1 ] , Э [ Х 2 ] , , Э [ Х к ] ) Т , {\displaystyle {\boldsymbol {\mu }}=\operatorname {E} [\mathbf {X} ]=(\operatorname {E} [X_{1}],\operatorname {E} [X_{2}],\ldots ,\operatorname {E} [X_{k}])^{\mathrm {T} },}

и ковариационная матрица к × к {\displaystyle k\times k}

Σ я , дж = Э [ ( Х я μ я ) ( Х дж μ дж ) ] = Ков [ Х я , Х дж ] {\displaystyle \Sigma _{i,j}=\operatorname {E} [(X_{i}-\mu _{i})(X_{j}-\mu _{j})]=\operatorname {Cov } [X_{i},X_{j}]}

такая, что и . Обратная матрица ковариации называется матрицей точности и обозначается . 1 я к {\displaystyle 1\leq i\leq k} 1 дж к {\displaystyle 1\leq j\leq k} В = Σ 1 {\displaystyle {\boldsymbol {Q}}={\boldsymbol {\Sigma }}^{-1}}

Стандартный нормальный случайный вектор

Действительный случайный вектор называется стандартным нормальным случайным вектором, если все его компоненты независимы и каждый из них является нормально распределенной случайной величиной с нулевым средним и единичной дисперсией, т.е. если для всех . [1] : стр. 454  Х = ( Х 1 , , Х к ) Т {\displaystyle \mathbf {X} =(X_{1},\ldots ,X_{k})^{\mathrm {T} }} Х я {\displaystyle X_{i}} Х я   Н ( 0 , 1 ) {\displaystyle X_{i}\sim \ {\mathcal {N}}(0,1)} я = 1 к {\displaystyle i=1\ldots k}

Центрированный нормальный случайный вектор

Действительный случайный вектор называется центрированным нормальным случайным вектором, если существует матрица, имеющая такое же распределение, как и , где — стандартный нормальный случайный вектор с компонентами. [1] : стр. 454  Х = ( Х 1 , , Х к ) Т {\displaystyle \mathbf {X} =(X_{1},\ldots ,X_{k})^{\mathrm {T} }} к × {\displaystyle k\times \ell } А {\displaystyle {\boldsymbol {A}}} А З {\displaystyle {\boldsymbol {A}}\mathbf {Z} } Х {\displaystyle \mathbf {X} } З {\displaystyle \mathbf {Z} } {\displaystyle \ell }

Нормальный случайный вектор

Действительный случайный вектор называется нормальным случайным вектором , если существует случайный -вектор , который является стандартным нормальным случайным вектором, -вектор и матрица , такие, что . [2] : стр. 454  [1] : стр. 455  Х = ( Х 1 , , Х к ) Т {\displaystyle \mathbf {X} =(X_{1},\ldots ,X_{k})^{\mathrm {T} }} {\displaystyle \ell } З {\displaystyle \mathbf {Z} } к {\displaystyle к} μ {\displaystyle {\boldsymbol {\mu }}} к × {\displaystyle k\times \ell } А {\displaystyle {\boldsymbol {A}}} Х = А З + μ {\displaystyle \mathbf {X} = {\boldsymbol {A}} \mathbf {Z} + {\boldsymbol {\mu }}}

Формально:

Х     Н к ( μ , Σ ) существуют  μ Р к , А Р к ×  такой что  Х = А З + μ  и  н = 1 , , : З н   Н ( 0 , 1 ) , иид {\displaystyle \mathbf {X} \ \sim \ {\mathcal {N}}_{k}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})\iff {\text{there exist }}{\boldsymbol {\mu }}\in \mathbb {R} ^{k},{\boldsymbol {A}}\in \mathbb {R} ^{k\times \ell }{\text{ such that }}\mathbf {X} ={\boldsymbol {A}}\mathbf {Z} +{\boldsymbol {\mu }}{\text{ and }}\forall n=1,\ldots ,\ell :Z_{n}\sim \ {\mathcal {N}}(0,1),{\text{i.i.d.}}}

Здесь ковариационная матрица равна . Σ = A A T {\displaystyle {\boldsymbol {\Sigma }}={\boldsymbol {A}}{\boldsymbol {A}}^{\mathrm {T} }}

В вырожденном случае, когда ковариационная матрица является сингулярной , соответствующее распределение не имеет плотности; подробности см. в разделе ниже. Этот случай часто возникает в статистике ; например, в распределении вектора остатков в обычной регрессии наименьших квадратов . В общем случае они не являются независимыми; их можно рассматривать как результат применения матрицы к набору независимых гауссовских переменных . X i {\displaystyle X_{i}} A {\displaystyle {\boldsymbol {A}}} Z {\displaystyle \mathbf {Z} }

Эквивалентные определения

Следующие определения эквивалентны определению, данному выше. Случайный вектор имеет многомерное нормальное распределение, если он удовлетворяет одному из следующих эквивалентных условий. X = ( X 1 , , X k ) T {\displaystyle \mathbf {X} =(X_{1},\ldots ,X_{k})^{\mathrm {T} }}

  • Каждая линейная комбинация ее компонентов распределена нормально . То есть, для любого постоянного вектора случайная величина имеет одномерное нормальное распределение, где одномерное нормальное распределение с нулевой дисперсией представляет собой точечную массу на своем среднем значении. Y = a 1 X 1 + + a k X k {\displaystyle Y=a_{1}X_{1}+\cdots +a_{k}X_{k}} a R k {\displaystyle \mathbf {a} \in \mathbb {R} ^{k}} Y = a T X {\displaystyle Y=\mathbf {a} ^{\mathrm {T} }\mathbf {X} }
  • Существует k -вектор и симметричная, положительно полуопределенная матрица , такая, что характеристическая функция имеет вид μ {\displaystyle \mathbf {\mu } } k × k {\displaystyle k\times k} Σ {\displaystyle {\boldsymbol {\Sigma }}} X {\displaystyle \mathbf {X} } φ X ( u ) = exp ( i u T μ 1 2 u T Σ u ) . {\displaystyle \varphi _{\mathbf {X} }(\mathbf {u} )=\exp {\Big (}i\mathbf {u} ^{\mathrm {T} }{\boldsymbol {\mu }}-{\tfrac {1}{2}}\mathbf {u} ^{\mathrm {T} }{\boldsymbol {\Sigma }}\mathbf {u} {\Big )}.}

Сферическое нормальное распределение можно охарактеризовать как уникальное распределение, компоненты которого независимы в любой ортогональной системе координат. [3] [4]

Функция плотности

Двумерная нормальная плотность суставов

Невырожденный случай

Многомерное нормальное распределение называется «невырожденным», когда симметричная ковариационная матрица положительно определена . В этом случае распределение имеет плотность [5] Σ {\displaystyle {\boldsymbol {\Sigma }}}

f X ( x 1 , , x k ) = exp ( 1 2 ( x μ ) T Σ 1 ( x μ ) ) ( 2 π ) k | Σ | {\displaystyle f_{\mathbf {X} }(x_{1},\ldots ,x_{k})={\frac {\exp \left(-{\frac {1}{2}}\left({\mathbf {x} }-{\boldsymbol {\mu }}\right)^{\mathrm {T} }{\boldsymbol {\Sigma }}^{-1}\left({\mathbf {x} }-{\boldsymbol {\mu }}\right)\right)}{\sqrt {(2\pi )^{k}|{\boldsymbol {\Sigma }}|}}}}

где — действительный k -мерный вектор-столбец, а — определитель , также известный как обобщенная дисперсия . Уравнение выше сводится к уравнению одномерного нормального распределения, если — матрица (т. е. одно действительное число). x {\displaystyle {\mathbf {x} }} | Σ | det Σ {\displaystyle |{\boldsymbol {\Sigma }}|\equiv \det {\boldsymbol {\Sigma }}} Σ {\displaystyle {\boldsymbol {\Sigma }}} Σ {\displaystyle {\boldsymbol {\Sigma }}} 1 × 1 {\displaystyle 1\times 1}

Кругово-симметричная версия комплексного нормального распределения имеет несколько иную форму.

Каждое изоплотностное распределение — множество точек в k -мерном пространстве, каждая из которых дает одно и то же значение плотности — представляет собой эллипс или его обобщение в более высокой размерности; следовательно, многомерное нормальное распределение является частным случаем эллиптических распределений .

Величина известна как расстояние Махаланобиса , которое представляет собой расстояние контрольной точки от среднего значения . Квадрат расстояния Махаланобиса разлагается на сумму k членов, каждый из которых является произведением трех значимых компонентов. [6] Обратите внимание, что в случае, когда , распределение сводится к одномерному нормальному распределению, а расстояние Махаланобиса сводится к абсолютному значению стандартной оценки . См. также Интервал ниже. ( x μ ) T Σ 1 ( x μ ) {\displaystyle {\sqrt {({\mathbf {x} }-{\boldsymbol {\mu }})^{\mathrm {T} }{\boldsymbol {\Sigma }}^{-1}({\mathbf {x} }-{\boldsymbol {\mu }})}}} x {\displaystyle {\mathbf {x} }} μ {\displaystyle {\boldsymbol {\mu }}} ( x μ ) T Σ 1 ( x μ ) {\displaystyle ({\mathbf {x} }-{\boldsymbol {\mu }})^{\mathrm {T} }{\boldsymbol {\Sigma }}^{-1}({\mathbf {x} }-{\boldsymbol {\mu }})} k = 1 {\displaystyle k=1}

Двумерный случай

В двумерном несингулярном случае ( ) функция плотности вероятности вектора имеет вид: где — корреляция между и и где и . В этом случае k = rank ( Σ ) = 2 {\displaystyle k=\operatorname {rank} \left(\Sigma \right)=2} [XY] {\displaystyle {\text{[XY]}}\prime } f ( x , y ) = 1 2 π σ X σ Y 1 ρ 2 exp ( 1 2 [ 1 ρ 2 ] [ ( x μ X σ X ) 2 2 ρ ( x μ X σ X ) ( y μ Y σ Y ) + ( y μ Y σ Y ) 2 ] ) {\displaystyle f(x,y)={\frac {1}{2\pi \sigma _{X}\sigma _{Y}{\sqrt {1-\rho ^{2}}}}}\exp \left(-{\frac {1}{2\left[1-\rho ^{2}\right]}}\left[\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right]\right)} ρ {\displaystyle \rho } X {\displaystyle X} Y {\displaystyle Y} σ X > 0 {\displaystyle \sigma _{X}>0} σ Y > 0 {\displaystyle \sigma _{Y}>0}

μ = ( μ X μ Y ) , Σ = ( σ X 2 ρ σ X σ Y ρ σ X σ Y σ Y 2 ) . {\displaystyle {\boldsymbol {\mu }}={\begin{pmatrix}\mu _{X}\\\mu _{Y}\end{pmatrix}},\quad {\boldsymbol {\Sigma }}={\begin{pmatrix}\sigma _{X}^{2}&\rho \sigma _{X}\sigma _{Y}\\\rho \sigma _{X}\sigma _{Y}&\sigma _{Y}^{2}\end{pmatrix}}.}

В двумерном случае первое эквивалентное условие для многомерной реконструкции нормальности можно сделать менее ограничительным, поскольку достаточно проверить, что счетное бесконечное множество различных линейных комбинаций и являются нормальными, чтобы сделать вывод о том, что вектор является двумерным нормальным. [7] X {\displaystyle X} Y {\displaystyle Y} [XY] {\displaystyle {\text{[XY]}}\prime }

Двумерные изоплотностные локусы, построенные на плоскости , представляют собой эллипсы , главные оси которых определяются собственными векторами ковариационной матрицы (большой и малый полудиаметры эллипса равны квадратному корню из упорядоченных собственных значений). x , y {\displaystyle x,y} Σ {\displaystyle {\boldsymbol {\Sigma }}}

Двумерное нормальное распределение с центром в точке со стандартным отклонением 3 в приблизительном направлении и 1 в ортогональном направлении. ( 1 , 3 ) {\displaystyle (1,3)} ( 0.878 , 0.478 ) {\displaystyle (0.878,0.478)}

По мере увеличения абсолютного значения параметра корреляции эти локусы сжимаются к следующей линии: ρ {\displaystyle \rho }

y ( x ) = sgn ( ρ ) σ Y σ X ( x μ X ) + μ Y . {\displaystyle y(x)=\operatorname {sgn}(\rho ){\frac {\sigma _{Y}}{\sigma _{X}}}(x-\mu _{X})+\mu _{Y}.}

Это происходит потому, что это выражение, с (где sgn — знаковая функция ), замененное на , является наилучшим линейным несмещенным прогнозом для заданного значения . [8] sgn ( ρ ) {\displaystyle \operatorname {sgn}(\rho )} ρ {\displaystyle \rho } Y {\displaystyle Y} X {\displaystyle X}

Вырожденный случай

Если ковариационная матрица не имеет полного ранга, то многомерное нормальное распределение вырождено и не имеет плотности. Точнее, оно не имеет плотности относительно k -мерной меры Лебега (которая является обычной мерой, предполагаемой в курсах по теории вероятностей на уровне исчисления). Только случайные векторы, распределения которых абсолютно непрерывны относительно меры, считаются имеющими плотность (относительно этой меры). Чтобы говорить о плотностях, но при этом избегать сложностей теории меры, может быть проще ограничить внимание подмножеством координат таким образом, что ковариационная матрица для этого подмножества является положительно определенной; тогда другие координаты можно рассматривать как аффинную функцию этих выбранных координат. [9] Σ {\displaystyle {\boldsymbol {\Sigma }}} rank ( Σ ) {\displaystyle \operatorname {rank} ({\boldsymbol {\Sigma }})} x {\displaystyle \mathbf {x} }

Чтобы осмысленно говорить о плотностях в особых случаях, мы должны выбрать другую базовую меру. Используя теорему о распаде, мы можем определить ограничение меры Лебега на -мерное аффинное подпространство, где поддерживается гауссовское распределение, т.е. . Относительно этой меры распределение имеет плотность следующего мотива: rank ( Σ ) {\displaystyle \operatorname {rank} ({\boldsymbol {\Sigma }})} R k {\displaystyle \mathbb {R} ^{k}} { μ + Σ 1 / 2 v : v R k } {\displaystyle \left\{{\boldsymbol {\mu }}+{\boldsymbol {\Sigma ^{1/2}}}\mathbf {v} :\mathbf {v} \in \mathbb {R} ^{k}\right\}}

f ( x ) = exp ( 1 2 ( x μ ) T Σ + ( x μ ) ) det ( 2 π Σ ) {\displaystyle f(\mathbf {x} )={\frac {\exp \left(-{\frac {1}{2}}\left(\mathbf {x} -{\boldsymbol {\mu }}\right)^{\mathrm {T} }{\boldsymbol {\Sigma }}^{+}\left(\mathbf {x} -{\boldsymbol {\mu }}\right)\right)}{\sqrt {\det \nolimits ^{*}(2\pi {\boldsymbol {\Sigma }})}}}}

где — обобщенная обратная матрица , а — псевдодетерминант . [10] Σ + {\displaystyle {\boldsymbol {\Sigma }}^{+}} det {\displaystyle \det \nolimits ^{*}}

Кумулятивная функция распределения

Понятие кумулятивной функции распределения (cdf) в размерности 1 можно расширить двумя способами на многомерный случай, основываясь на прямоугольных и эллипсоидальных областях.

Первый способ — определить функцию распределения случайного вектора как вероятность того, что все компоненты меньше или равны соответствующим значениям в векторе : [11] F ( x ) {\displaystyle F(\mathbf {x} )} X {\displaystyle \mathbf {X} } X {\displaystyle \mathbf {X} } x {\displaystyle \mathbf {x} }

F ( x ) = P ( X x ) , where  X N ( μ , Σ ) . {\displaystyle F(\mathbf {x} )=\mathbb {P} (\mathbf {X} \leq \mathbf {x} ),\quad {\text{where }}\mathbf {X} \sim {\mathcal {N}}({\boldsymbol {\mu }},\,{\boldsymbol {\Sigma }}).}

Хотя для не существует замкнутой формы , существует ряд алгоритмов, которые оценивают ее численно. [11] [12] F ( x ) {\displaystyle F(\mathbf {x} )}

Другой способ — определить cdf как вероятность того, что образец находится внутри эллипсоида, определяемого его расстоянием Махаланобиса от гауссовой функции, что является прямым обобщением стандартного отклонения. [13] Для вычисления значений этой функции существует замкнутая аналитическая формула [13] следующим образом. F ( r ) {\displaystyle F(r)} r {\displaystyle r}

Интервал

Интервал для многомерного нормального распределения дает область, состоящую из тех векторов x , которые удовлетворяют

( x μ ) T Σ 1 ( x μ ) χ k 2 ( p ) . {\displaystyle ({\mathbf {x} }-{\boldsymbol {\mu }})^{\mathrm {T} }{\boldsymbol {\Sigma }}^{-1}({\mathbf {x} }-{\boldsymbol {\mu }})\leq \chi _{k}^{2}(p).}

Здесь — вектор размерности, — известный вектор размерности, — известная ковариационная матрица , — квантильная функция для вероятности распределения хи-квадрат со степенями свободы. [14] Когда выражение определяет внутреннюю часть эллипса, а распределение хи-квадрат упрощается до экспоненциального распределения со средним значением, равным двум (скорость равна половине). x {\displaystyle {\mathbf {x} }} k {\displaystyle k} μ {\displaystyle {\boldsymbol {\mu }}} k {\displaystyle k} Σ {\displaystyle {\boldsymbol {\Sigma }}} χ k 2 ( p ) {\displaystyle \chi _{k}^{2}(p)} p {\displaystyle p} k {\displaystyle k} k = 2 , {\displaystyle k=2,}

Дополнительная кумулятивная функция распределения (хвостовое распределение)

Дополнительная кумулятивная функция распределения (ccdf) или хвостовое распределение определяется как . Когда , то ccdf можно записать как вероятность максимума зависимых гауссовых переменных: [15] F ¯ ( x ) = 1 P ( X x ) {\displaystyle {\overline {F}}(\mathbf {x} )=1-\mathbb {P} \left(\mathbf {X} \leq \mathbf {x} \right)} X N ( μ , Σ ) {\displaystyle \mathbf {X} \sim {\mathcal {N}}({\boldsymbol {\mu }},\,{\boldsymbol {\Sigma }})}

F ¯ ( x ) = P ( i { X i x i } ) = P ( max i Y i 0 ) , where  Y N ( μ x , Σ ) . {\displaystyle {\overline {F}}(\mathbf {x} )=\mathbb {P} \left(\bigcup _{i}\{X_{i}\geq x_{i}\}\right)=\mathbb {P} \left(\max _{i}Y_{i}\geq 0\right),\quad {\text{where }}\mathbf {Y} \sim {\mathcal {N}}\left({\boldsymbol {\mu }}-\mathbf {x} ,\,{\boldsymbol {\Sigma }}\right).}

Хотя не существует простой замкнутой формулы для вычисления ccdf, максимум зависимых гауссовых переменных можно точно оценить с помощью метода Монте-Карло . [15] [16]

Характеристики

Вероятность в различных областях

Вверху: вероятность двумерной нормали в области (синие области). В середине: вероятность трехмерной нормали в тороидальной области. Внизу: сходящийся интеграл Монте-Карло вероятности 4-мерной нормали в 4-мерной правильной многогранной области, определяемой . Все они вычисляются численным методом трассировки лучей. [17] x sin y y cos x > 1 {\displaystyle x\sin y-y\cos x>1} i = 1 4 | x i | < 1 {\displaystyle \sum _{i=1}^{4}\vert x_{i}\vert <1}

Вероятностное содержание многомерной нормальной функции в квадратичной области, определяемой как (где — матрица, — вектор, а — скаляр), которое имеет отношение к байесовской теории классификации/принятия решений с использованием гауссовского дискриминантного анализа, задается обобщенным распределением хи-квадрат . [17] Вероятностное содержание в любой общей области, определяемой как (где — общая функция), можно вычислить с помощью численного метода трассировки лучей [17] (код Matlab). q ( x ) = x Q 2 x + q 1 x + q 0 > 0 {\displaystyle q({\boldsymbol {x}})={\boldsymbol {x}}'\mathbf {Q_{2}} {\boldsymbol {x}}+{\boldsymbol {q_{1}}}'{\boldsymbol {x}}+q_{0}>0} Q 2 {\displaystyle \mathbf {Q_{2}} } q 1 {\displaystyle {\boldsymbol {q_{1}}}} q 0 {\displaystyle q_{0}} f ( x ) > 0 {\displaystyle f({\boldsymbol {x}})>0} f ( x ) {\displaystyle f({\boldsymbol {x}})}

Высшие моменты

Моменты k - го порядка x определяются как

μ 1 , , N ( x ) = d e f μ r 1 , , r N ( x ) = d e f E [ j = 1 N X j r j ] {\displaystyle \mu _{1,\ldots ,N}(\mathbf {x} )\mathrel {\stackrel {\mathrm {def} }{=}} \mu _{r_{1},\ldots ,r_{N}}(\mathbf {x} )\mathrel {\stackrel {\mathrm {def} }{=}} \operatorname {E} \left[\prod _{j=1}^{N}X_{j}^{r_{j}}\right]}

где r 1 + r 2 + ⋯ + r N = k .

Центральные моменты k -го порядка следующие:

  1. Если k нечетно, μ 1, ..., N ( xμ ) = 0 .
  2. Если k четное с k = 2 λ , то [ неоднозначно ] μ 1 , , 2 λ ( x μ ) = ( σ i j σ k σ X Z ) {\displaystyle \mu _{1,\dots ,2\lambda }(\mathbf {x} -{\boldsymbol {\mu }})=\sum \left(\sigma _{ij}\sigma _{k\ell }\cdots \sigma _{XZ}\right)}

где сумма берется по всем распределениям набора в λ (неупорядоченные) пары. То есть, для k -го (= 2 λ = 6) центрального момента, суммируются произведения λ = 3 ковариаций (ожидаемое значение μ принимается равным 0 в интересах экономии): { 1 , , 2 λ } {\displaystyle \left\{1,\ldots ,2\lambda \right\}}

E [ X 1 X 2 X 3 X 4 X 5 X 6 ] = E [ X 1 X 2 ] E [ X 3 X 4 ] E [ X 5 X 6 ] + E [ X 1 X 2 ] E [ X 3 X 5 ] E [ X 4 X 6 ] + E [ X 1 X 2 ] E [ X 3 X 6 ] E [ X 4 X 5 ] + E [ X 1 X 3 ] E [ X 2 X 4 ] E [ X 5 X 6 ] + E [ X 1 X 3 ] E [ X 2 X 5 ] E [ X 4 X 6 ] + E [ X 1 X 3 ] E [ X 2 X 6 ] E [ X 4 X 5 ] + E [ X 1 X 4 ] E [ X 2 X 3 ] E [ X 5 X 6 ] + E [ X 1 X 4 ] E [ X 2 X 5 ] E [ X 3 X 6 ] + E [ X 1 X 4 ] E [ X 2 X 6 ] E [ X 3 X 5 ] + E [ X 1 X 5 ] E [ X 2 X 3 ] E [ X 4 X 6 ] + E [ X 1 X 5 ] E [ X 2 X 4 ] E [ X 3 X 6 ] + E [ X 1 X 5 ] E [ X 2 X 6 ] E [ X 3 X 4 ] + E [ X 1 X 6 ] E [ X 2 X 3 ] E [ X 4 X 5 ] + E [ X 1 X 6 ] E [ X 2 X 4 ] E [ X 3 X 5 ] + E [ X 1 X 6 ] E [ X 2 X 5 ] E [ X 3 X 4 ] . {\displaystyle {\begin{aligned}&\operatorname {E} [X_{1}X_{2}X_{3}X_{4}X_{5}X_{6}]\\[8pt]={}&\operatorname {E} [X_{1}X_{2}]\operatorname {E} [X_{3}X_{4}]\operatorname {E} [X_{5}X_{6}]+\operatorname {E} [X_{1}X_{2}]\operatorname {E} [X_{3}X_{5}]\operatorname {E} [X_{4}X_{6}]+\operatorname {E} [X_{1}X_{2}]\operatorname {E} [X_{3}X_{6}]\operatorname {E} [X_{4}X_{5}]\\[4pt]&{}+\operatorname {E} [X_{1}X_{3}]\operatorname {E} [X_{2}X_{4}]\operatorname {E} [X_{5}X_{6}]+\operatorname {E} [X_{1}X_{3}]\operatorname {E} [X_{2}X_{5}]\operatorname {E} [X_{4}X_{6}]+\operatorname {E} [X_{1}X_{3}]\operatorname {E} [X_{2}X_{6}]\operatorname {E} [X_{4}X_{5}]\\[4pt]&{}+\operatorname {E} [X_{1}X_{4}]\operatorname {E} [X_{2}X_{3}]\operatorname {E} [X_{5}X_{6}]+\operatorname {E} [X_{1}X_{4}]\operatorname {E} [X_{2}X_{5}]\operatorname {E} [X_{3}X_{6}]+\operatorname {E} [X_{1}X_{4}]\operatorname {E} [X_{2}X_{6}]\operatorname {E} [X_{3}X_{5}]\\[4pt]&{}+\operatorname {E} [X_{1}X_{5}]\operatorname {E} [X_{2}X_{3}]\operatorname {E} [X_{4}X_{6}]+\operatorname {E} [X_{1}X_{5}]\operatorname {E} [X_{2}X_{4}]\operatorname {E} [X_{3}X_{6}]+\operatorname {E} [X_{1}X_{5}]\operatorname {E} [X_{2}X_{6}]\operatorname {E} [X_{3}X_{4}]\\[4pt]&{}+\operatorname {E} [X_{1}X_{6}]\operatorname {E} [X_{2}X_{3}]\operatorname {E} [X_{4}X_{5}]+\operatorname {E} [X_{1}X_{6}]\operatorname {E} [X_{2}X_{4}]\operatorname {E} [X_{3}X_{5}]+\operatorname {E} [X_{1}X_{6}]\operatorname {E} [X_{2}X_{5}]\operatorname {E} [X_{3}X_{4}].\end{aligned}}}

Это дает члены в сумме (15 в приведенном выше случае), каждый из которых является произведением λ (в данном случае 3) ковариаций. Для моментов четвертого порядка (четыре переменные) есть три члена. Для моментов шестого порядка есть 3 × 5 = 15 членов, а для моментов восьмого порядка есть 3 × 5 × 7 = 105 членов. ( 2 λ 1 ) ! 2 λ 1 ( λ 1 ) ! {\displaystyle {\tfrac {(2\lambda -1)!}{2^{\lambda -1}(\lambda -1)!}}}

Затем ковариации определяются путем замены членов списка соответствующими членами списка, состоящего из r 1 единиц, затем r 2 двоек и т. д. Чтобы проиллюстрировать это, рассмотрим следующий случай центрального момента 4-го порядка: [ 1 , , 2 λ ] {\displaystyle [1,\ldots ,2\lambda ]}

E [ X i 4 ] = 3 σ i i 2 E [ X i 3 X j ] = 3 σ i i σ i j E [ X i 2 X j 2 ] = σ i i σ j j + 2 σ i j 2 E [ X i 2 X j X k ] = σ i i σ j k + 2 σ i j σ i k E [ X i X j X k X n ] = σ i j σ k n + σ i k σ j n + σ i n σ j k . {\displaystyle {\begin{aligned}\operatorname {E} \left[X_{i}^{4}\right]&=3\sigma _{ii}^{2}\\[4pt]\operatorname {E} \left[X_{i}^{3}X_{j}\right]&=3\sigma _{ii}\sigma _{ij}\\[4pt]\operatorname {E} \left[X_{i}^{2}X_{j}^{2}\right]&=\sigma _{ii}\sigma _{jj}+2\sigma _{ij}^{2}\\[4pt]\operatorname {E} \left[X_{i}^{2}X_{j}X_{k}\right]&=\sigma _{ii}\sigma _{jk}+2\sigma _{ij}\sigma _{ik}\\[4pt]\operatorname {E} \left[X_{i}X_{j}X_{k}X_{n}\right]&=\sigma _{ij}\sigma _{kn}+\sigma _{ik}\sigma _{jn}+\sigma _{in}\sigma _{jk}.\end{aligned}}}

где — ковариация X i и X j . С помощью вышеописанного метода сначала находят общий случай для k -го момента с k различными переменными X , , а затем упрощают его соответствующим образом. Например, для , полагают X i = X j и используют тот факт, что . σ i j {\displaystyle \sigma _{ij}} E [ X i X j X k X n ] {\displaystyle E\left[X_{i}X_{j}X_{k}X_{n}\right]} E [ X i 2 X k X n ] {\displaystyle \operatorname {E} [X_{i}^{2}X_{k}X_{n}]} σ i i = σ i 2 {\displaystyle \sigma _{ii}=\sigma _{i}^{2}}

Функции нормального вектора

a: Плотность вероятности функции одной нормальной переменной с и . b: Плотность вероятности функции нормального вектора , со средним значением , и ковариацией . c: Тепловая карта совместной плотности вероятности двух функций нормального вектора , со средним значением , и ковариацией . d: Плотность вероятности функции 4 независимых стандартных нормальных переменных. Они вычисляются численным методом трассировки лучей. [17] cos x 2 {\displaystyle \cos x^{2}} x {\displaystyle x} μ = 2 {\displaystyle \mu =-2} σ = 3 {\displaystyle \sigma =3} x y {\displaystyle x^{y}} ( x , y ) {\displaystyle (x,y)} μ = ( 1 , 2 ) {\displaystyle {\boldsymbol {\mu }}=(1,2)} Σ = [ .01 .016 .016 .04 ] {\displaystyle \mathbf {\Sigma } ={\begin{bmatrix}.01&.016\\.016&.04\end{bmatrix}}} ( x , y ) {\displaystyle (x,y)} μ = ( 2 , 5 ) {\displaystyle {\boldsymbol {\mu }}=(-2,5)} Σ = [ 10 7 7 10 ] {\displaystyle \mathbf {\Sigma } ={\begin{bmatrix}10&-7\\-7&10\end{bmatrix}}} i = 1 4 | x i | {\displaystyle \sum _{i=1}^{4}\vert x_{i}\vert }

Квадратичная форма нормального вектора ( где — матрица, — вектор, а — скаляр), является обобщенной переменной хи-квадрат . [17] Направление нормального вектора следует за спроецированным нормальным распределением . [18] x {\displaystyle {\boldsymbol {x}}} q ( x ) = x Q 2 x + q 1 x + q 0 {\displaystyle q({\boldsymbol {x}})={\boldsymbol {x}}'\mathbf {Q_{2}} {\boldsymbol {x}}+{\boldsymbol {q_{1}}}'{\boldsymbol {x}}+q_{0}} Q 2 {\displaystyle \mathbf {Q_{2}} } q 1 {\displaystyle {\boldsymbol {q_{1}}}} q 0 {\displaystyle q_{0}}

Если — общая скалярная функция нормального вектора, то ее функция плотности вероятности , кумулятивная функция распределения и обратная кумулятивная функция распределения могут быть вычислены с помощью численного метода трассировки лучей (код Matlab). [17] f ( x ) {\displaystyle f({\boldsymbol {x}})}

Функция правдоподобия

Если известны среднее значение и ковариационная матрица, то логарифм правдоподобия наблюдаемого вектора — это просто логарифм функции плотности вероятности : x {\displaystyle {\boldsymbol {x}}}

ln L ( x ) = 1 2 [ ln ( | Σ | ) + ( x μ ) Σ 1 ( x μ ) + k ln ( 2 π ) ] {\displaystyle \ln L({\boldsymbol {x}})=-{\frac {1}{2}}\left[\ln(|{\boldsymbol {\Sigma }}|\,)+({\boldsymbol {x}}-{\boldsymbol {\mu }})'{\boldsymbol {\Sigma }}^{-1}({\boldsymbol {x}}-{\boldsymbol {\mu }})+k\ln(2\pi )\right]} ,

Круговая симметричная версия нецентрального комплексного случая, где — вектор комплексных чисел, будет иметь вид z {\displaystyle {\boldsymbol {z}}}

ln L ( z ) = ln ( | Σ | ) ( z μ ) Σ 1 ( z μ ) k ln ( π ) {\displaystyle \ln L({\boldsymbol {z}})=-\ln(|{\boldsymbol {\Sigma }}|\,)-({\boldsymbol {z}}-{\boldsymbol {\mu }})^{\dagger }{\boldsymbol {\Sigma }}^{-1}({\boldsymbol {z}}-{\boldsymbol {\mu }})-k\ln(\pi )}

т.е. с сопряженной транспозицией (обозначенной ) заменяющей обычную транспозицию (обозначенную ). Это немного отличается от реального случая, поскольку круговая симметричная версия комплексного нормального распределения имеет немного иную форму для константы нормализации . {\displaystyle \dagger } {\displaystyle '}

Аналогичное обозначение используется для множественной линейной регрессии . [19]

Поскольку логарифм правдоподобия нормального вектора является квадратичной формой нормального вектора, он распределяется как обобщенная переменная хи-квадрат . [17]

Дифференциальная энтропия

Дифференциальная энтропия многомерного нормального распределения равна [20]

h ( f ) = f ( x ) ln f ( x ) d x = 1 2 ln | 2 π e Σ | = k 2 + k 2 ln 2 π + 1 2 ln | Σ | {\displaystyle {\begin{aligned}h\left(f\right)&=-\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }f(\mathbf {x} )\ln f(\mathbf {x} )\,d\mathbf {x} \\&={\frac {1}{2}}\ln {}\left|2\pi e{\boldsymbol {\Sigma }}\right|={\frac {k}{2}}+{\frac {k}{2}}\ln {}2\pi +{\frac {1}{2}}\ln {}\left|{\boldsymbol {\Sigma }}\right|\\\end{aligned}}} ,

где черточки обозначают определитель матрицы , k — размерность векторного пространства, а результат имеет единицы измерения nats .

Расхождение Кульбака–Лейблера

Расхождение Кульбака –Лейблера от до для невырожденных матриц Σ 1 и Σ 0 равно: [21] N 1 ( μ 1 , Σ 1 ) {\displaystyle {\mathcal {N}}_{1}({\boldsymbol {\mu }}_{1},{\boldsymbol {\Sigma }}_{1})} N 0 ( μ 0 , Σ 0 ) {\displaystyle {\mathcal {N}}_{0}({\boldsymbol {\mu }}_{0},{\boldsymbol {\Sigma }}_{0})}

D KL ( N 0 N 1 ) = 1 2 { tr ( Σ 1 1 Σ 0 ) + ( μ 1 μ 0 ) T Σ 1 1 ( μ 1 μ 0 ) k + ln | Σ 1 | | Σ 0 | } , {\displaystyle D_{\text{KL}}({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1})={1 \over 2}\left\{\operatorname {tr} \left({\boldsymbol {\Sigma }}_{1}^{-1}{\boldsymbol {\Sigma }}_{0}\right)+\left({\boldsymbol {\mu }}_{1}-{\boldsymbol {\mu }}_{0}\right)^{\rm {T}}{\boldsymbol {\Sigma }}_{1}^{-1}({\boldsymbol {\mu }}_{1}-{\boldsymbol {\mu }}_{0})-k+\ln {|{\boldsymbol {\Sigma }}_{1}| \over |{\boldsymbol {\Sigma }}_{0}|}\right\},}

где обозначает определитель матрицы , — след , — натуральный логарифм , — размерность векторного пространства. | | {\displaystyle |\cdot |} t r ( ) {\displaystyle tr(\cdot )} l n ( ) {\displaystyle ln(\cdot )} k {\displaystyle k}

Логарифм должен быть взят по основанию e, поскольку два члена, следующие за логарифмом, сами являются логарифмами по основанию e выражений, которые являются либо факторами функции плотности, либо иным образом возникают естественным образом. Таким образом, уравнение дает результат, измеряемый в nats . Деление всего выражения выше на log e  2 дает расхождение в bits .

Когда , μ 1 = μ 0 {\displaystyle {\boldsymbol {\mu }}_{1}={\boldsymbol {\mu }}_{0}}

D KL ( N 0 N 1 ) = 1 2 { tr ( Σ 1 1 Σ 0 ) k + ln | Σ 1 | | Σ 0 | } . {\displaystyle D_{\text{KL}}({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1})={1 \over 2}\left\{\operatorname {tr} \left({\boldsymbol {\Sigma }}_{1}^{-1}{\boldsymbol {\Sigma }}_{0}\right)-k+\ln {|{\boldsymbol {\Sigma }}_{1}| \over |{\boldsymbol {\Sigma }}_{0}|}\right\}.}

Взаимная информация

Взаимная информация двух многомерных нормальных распределений является частным случаем расхождения Кульбака–Лейблера , в котором есть полное размерное многомерное распределение и есть произведение и размерных маргинальных распределений и , таких что . Взаимная информация между и определяется как: [22] P {\displaystyle P} k {\displaystyle k} Q {\displaystyle Q} k 1 {\displaystyle k_{1}} k 2 {\displaystyle k_{2}} X {\displaystyle X} Y {\displaystyle Y} k 1 + k 2 = k {\displaystyle k_{1}+k_{2}=k} X {\displaystyle X} Y {\displaystyle Y}

I ( X , Y ) = 1 2 ln ( det ( Σ X ) det ( Σ Y ) det ( Σ ) ) , {\displaystyle I({\boldsymbol {X}},{\boldsymbol {Y}})={\frac {1}{2}}\ln \left({\frac {\det(\Sigma _{X})\det(\Sigma _{Y})}{\det(\Sigma )}}\right),}

где

Σ = [ Σ X Σ X Y Σ X Y Σ Y ] . {\displaystyle \Sigma ={\begin{bmatrix}\Sigma _{X}&\Sigma _{XY}\\\Sigma _{XY}&\Sigma _{Y}\end{bmatrix}}.}

Если — произведение одномерных нормальных распределений, то в обозначениях раздела «Расхождение Кульбака–Лейблера» этой статьи — диагональная матрица с диагональными элементами , и . Результирующая формула для взаимной информации: Q {\displaystyle Q} k {\displaystyle k} Σ 1 {\displaystyle {\boldsymbol {\Sigma }}_{1}} Σ 0 {\displaystyle {\boldsymbol {\Sigma }}_{0}} μ 1 = μ 0 {\displaystyle {\boldsymbol {\mu }}_{1}={\boldsymbol {\mu }}_{0}}

I ( X ) = 1 2 ln | ρ 0 | , {\displaystyle I({\boldsymbol {X}})=-{1 \over 2}\ln |{\boldsymbol {\rho }}_{0}|,}

где — корреляционная матрица, построенная из . [23] ρ 0 {\displaystyle {\boldsymbol {\rho }}_{0}} Σ 0 {\displaystyle {\boldsymbol {\Sigma }}_{0}}

В двумерном случае выражение для взаимной информации имеет вид:

I ( x ; y ) = 1 2 ln ( 1 ρ 2 ) . {\displaystyle I(x;y)=-{1 \over 2}\ln(1-\rho ^{2}).}

Норма суставов

Нормально распределенные и независимые

Если и нормально распределены и независимы , это означает, что они «совместно нормально распределены», т. е. пара должна иметь многомерное нормальное распределение. Однако пара совместно нормально распределенных переменных не обязательно должна быть независимой (будет таковой только в случае некоррелированности, ). X {\displaystyle X} Y {\displaystyle Y} ( X , Y ) {\displaystyle (X,Y)} ρ = 0 {\displaystyle \rho =0}

Две нормально распределенные случайные величины не обязательно должны быть совместно двумерными нормальными

Тот факт, что две случайные величины и обе имеют нормальное распределение, не означает, что пара имеет совместное нормальное распределение. Простым примером является случай, когда X имеет нормальное распределение с ожидаемым значением 0 и дисперсией 1, и если и если , где . Существуют аналогичные контрпримеры для более чем двух случайных величин. В общем случае они суммируются в модель смеси . [ необходима цитата ] X {\displaystyle X} Y {\displaystyle Y} ( X , Y ) {\displaystyle (X,Y)} Y = X {\displaystyle Y=X} | X | > c {\displaystyle |X|>c} Y = X {\displaystyle Y=-X} | X | < c {\displaystyle |X|<c} c > 0 {\displaystyle c>0}

Корреляции и независимость

В общем, случайные величины могут быть некоррелированными, но статистически зависимыми. Но если случайный вектор имеет многомерное нормальное распределение, то любые два или более его компонентов, которые некоррелированы, являются независимыми . Это подразумевает, что любые два или более его компонентов, которые попарно независимы, являются независимыми. Но, как было указано выше, неверно, что две случайные величины, которые ( отдельно , маргинально) нормально распределены и некоррелированы, являются независимыми.

Условные распределения

Если N -мерный x разбить следующим образом

x = [ x 1 x 2 ]  with sizes  [ q × 1 ( N q ) × 1 ] {\displaystyle \mathbf {x} ={\begin{bmatrix}\mathbf {x} _{1}\\\mathbf {x} _{2}\end{bmatrix}}{\text{ with sizes }}{\begin{bmatrix}q\times 1\\(N-q)\times 1\end{bmatrix}}}

и соответственно μ и Σ разбиваются следующим образом

μ = [ μ 1 μ 2 ]  with sizes  [ q × 1 ( N q ) × 1 ] {\displaystyle {\boldsymbol {\mu }}={\begin{bmatrix}{\boldsymbol {\mu }}_{1}\\{\boldsymbol {\mu }}_{2}\end{bmatrix}}{\text{ with sizes }}{\begin{bmatrix}q\times 1\\(N-q)\times 1\end{bmatrix}}}
Σ = [ Σ 11 Σ 12 Σ 21 Σ 22 ]  with sizes  [ q × q q × ( N q ) ( N q ) × q ( N q ) × ( N q ) ] {\displaystyle {\boldsymbol {\Sigma }}={\begin{bmatrix}{\boldsymbol {\Sigma }}_{11}&{\boldsymbol {\Sigma }}_{12}\\{\boldsymbol {\Sigma }}_{21}&{\boldsymbol {\Sigma }}_{22}\end{bmatrix}}{\text{ with sizes }}{\begin{bmatrix}q\times q&q\times (N-q)\\(N-q)\times q&(N-q)\times (N-q)\end{bmatrix}}}

тогда распределение x 1 условное на x 2 = a является многомерным нормальным [24] ( x 1  |  x 2 = a ) ~ N ( μ , Σ ) где

μ ¯ = μ 1 + Σ 12 Σ 22 1 ( a μ 2 ) {\displaystyle {\bar {\boldsymbol {\mu }}}={\boldsymbol {\mu }}_{1}+{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}\left(\mathbf {a} -{\boldsymbol {\mu }}_{2}\right)}

и ковариационная матрица

Σ ¯ = Σ 11 Σ 12 Σ 22 1 Σ 21 . {\displaystyle {\overline {\boldsymbol {\Sigma }}}={\boldsymbol {\Sigma }}_{11}-{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\Sigma }}_{21}.} [25]

Вот обобщенная обратная матрица . Матрица является дополнением Шура Σ 22 в Σ . То есть, уравнение выше эквивалентно инвертированию общей ковариационной матрицы, отбрасыванию строк и столбцов, соответствующих переменным, на которые накладываются условия, и обратному инвертированию для получения условной ковариационной матрицы . Σ 22 1 {\displaystyle {\boldsymbol {\Sigma }}_{22}^{-1}} Σ 22 {\displaystyle {\boldsymbol {\Sigma }}_{22}} Σ ¯ {\displaystyle {\overline {\boldsymbol {\Sigma }}}}

Обратите внимание, что знание того, что x 2 = a, изменяет дисперсию, хотя новая дисперсия не зависит от конкретного значения a ; возможно, что еще более удивительно, среднее значение смещается на ; сравните это с ситуацией, когда значение a неизвестно , в этом случае x 1 имело бы распределение . Σ 12 Σ 22 1 ( a μ 2 ) {\displaystyle {\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}\left(\mathbf {a} -{\boldsymbol {\mu }}_{2}\right)} N q ( μ 1 , Σ 11 ) {\displaystyle {\mathcal {N}}_{q}\left({\boldsymbol {\mu }}_{1},{\boldsymbol {\Sigma }}_{11}\right)}

Интересный факт, полученный для доказательства этого результата, заключается в том, что случайные векторы и независимы. x 2 {\displaystyle \mathbf {x} _{2}} y 1 = x 1 Σ 12 Σ 22 1 x 2 {\displaystyle \mathbf {y} _{1}=\mathbf {x} _{1}-{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}\mathbf {x} _{2}}

Матрица Σ 12 Σ 22 −1 известна как матрица коэффициентов регрессии .

Двумерный случай

В двумерном случае, когда x разбивается на и , условное распределение заданного имеет вид [26] X 1 {\displaystyle X_{1}} X 2 {\displaystyle X_{2}} X 1 {\displaystyle X_{1}} X 2 {\displaystyle X_{2}}

X 1 X 2 = a     N ( μ 1 + σ 1 σ 2 ρ ( a μ 2 ) , ( 1 ρ 2 ) σ 1 2 ) {\displaystyle X_{1}\mid X_{2}=a\ \sim \ {\mathcal {N}}\left(\mu _{1}+{\frac {\sigma _{1}}{\sigma _{2}}}\rho (a-\mu _{2}),\,(1-\rho ^{2})\sigma _{1}^{2}\right)}

где — коэффициент корреляции между и . ρ {\displaystyle \rho } X 1 {\displaystyle X_{1}} X 2 {\displaystyle X_{2}}

Двумерное условное ожидание

В общем случае
( X 1 X 2 ) N ( ( μ 1 μ 2 ) , ( σ 1 2 ρ σ 1 σ 2 ρ σ 1 σ 2 σ 2 2 ) ) {\displaystyle {\begin{pmatrix}X_{1}\\X_{2}\end{pmatrix}}\sim {\mathcal {N}}\left({\begin{pmatrix}\mu _{1}\\\mu _{2}\end{pmatrix}},{\begin{pmatrix}\sigma _{1}^{2}&\rho \sigma _{1}\sigma _{2}\\\rho \sigma _{1}\sigma _{2}&\sigma _{2}^{2}\end{pmatrix}}\right)}

Условное ожидание X 1 при условии X 2 равно:

E ( X 1 X 2 = x 2 ) = μ 1 + ρ σ 1 σ 2 ( x 2 μ 2 ) {\displaystyle \operatorname {E} (X_{1}\mid X_{2}=x_{2})=\mu _{1}+\rho {\frac {\sigma _{1}}{\sigma _{2}}}(x_{2}-\mu _{2})}

Доказательство: результат получается путем взятия математического ожидания условного распределения, указанного выше. X 1 X 2 {\displaystyle X_{1}\mid X_{2}}

В центрированном случае с единичными дисперсиями
( X 1 X 2 ) N ( ( 0 0 ) , ( 1 ρ ρ 1 ) ) {\displaystyle {\begin{pmatrix}X_{1}\\X_{2}\end{pmatrix}}\sim {\mathcal {N}}\left({\begin{pmatrix}0\\0\end{pmatrix}},{\begin{pmatrix}1&\rho \\\rho &1\end{pmatrix}}\right)}

Условное ожидание X 1 при условии X 2 равно

E ( X 1 X 2 = x 2 ) = ρ x 2 {\displaystyle \operatorname {E} (X_{1}\mid X_{2}=x_{2})=\rho x_{2}}

и условная дисперсия равна

var ( X 1 X 2 = x 2 ) = 1 ρ 2 ; {\displaystyle \operatorname {var} (X_{1}\mid X_{2}=x_{2})=1-\rho ^{2};}

таким образом, условная дисперсия не зависит от x 2 .

Условное ожидание X 1 при условии, что X 2 меньше/больше z , равно: [27] : 367 

E ( X 1 X 2 < z ) = ρ φ ( z ) Φ ( z ) , {\displaystyle \operatorname {E} (X_{1}\mid X_{2}<z)=-\rho {\varphi (z) \over \Phi (z)},}
E ( X 1 X 2 > z ) = ρ φ ( z ) ( 1 Φ ( z ) ) , {\displaystyle \operatorname {E} (X_{1}\mid X_{2}>z)=\rho {\varphi (z) \over (1-\Phi (z))},}

где конечное отношение здесь называется обратным отношением Миллса .

Доказательство: последние два результата получены с использованием результата , так что E ( X 1 X 2 = x 2 ) = ρ x 2 {\displaystyle \operatorname {E} (X_{1}\mid X_{2}=x_{2})=\rho x_{2}}

E ( X 1 X 2 < z ) = ρ E ( X 2 X 2 < z ) {\displaystyle \operatorname {E} (X_{1}\mid X_{2}<z)=\rho E(X_{2}\mid X_{2}<z)} а затем используя свойства ожидания усеченного нормального распределения .

Предельные распределения

Чтобы получить маргинальное распределение по подмножеству многомерных нормальных случайных величин, нужно только отбросить нерелевантные переменные (переменные, которые нужно маргинализировать) из среднего вектора и ковариационной матрицы. Доказательство этого следует из определений многомерных нормальных распределений и линейной алгебры. [28]

Пример

Пусть X = [ X 1 , X 2 , X 3 ] — многомерные нормальные случайные величины со средним вектором μ = [ μ 1 , μ 2 , μ 3 ] и ковариационной матрицей Σ (стандартная параметризация для многомерных нормальных распределений). Тогда совместное распределение X = [ X 1 , X 3 ] является многомерным нормальным со средним вектором μ = [ μ 1 , μ 3 ] и ковариационной матрицей . Σ = [ Σ 11 Σ 13 Σ 31 Σ 33 ] {\displaystyle {\boldsymbol {\Sigma }}'={\begin{bmatrix}{\boldsymbol {\Sigma }}_{11}&{\boldsymbol {\Sigma }}_{13}\\{\boldsymbol {\Sigma }}_{31}&{\boldsymbol {\Sigma }}_{33}\end{bmatrix}}}

Аффинное преобразование

Если Y = c + BXаффинное преобразование , где c — вектор констант, а B — константная матрица, то Y имеет многомерное нормальное распределение с ожидаемым значением c + и дисперсией BΣB T т. е . . В частности, любое подмножество X i имеет маргинальное распределение, которое также является многомерным нормальным. Чтобы увидеть это, рассмотрим следующий пример: чтобы извлечь подмножество ( X 1 , X 2 , X 4 ) T , используйте X   N ( μ , Σ ) , {\displaystyle \mathbf {X} \ \sim {\mathcal {N}}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }}),} M × 1 {\displaystyle M\times 1} M × N {\displaystyle M\times N} Y N ( c + B μ , B Σ B T ) {\displaystyle \mathbf {Y} \sim {\mathcal {N}}\left(\mathbf {c} +\mathbf {B} {\boldsymbol {\mu }},\mathbf {B} {\boldsymbol {\Sigma }}\mathbf {B} ^{\rm {T}}\right)}

B = [ 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 ] {\displaystyle \mathbf {B} ={\begin{bmatrix}1&0&0&0&0&\ldots &0\\0&1&0&0&0&\ldots &0\\0&0&0&1&0&\ldots &0\end{bmatrix}}}

который извлекает нужные элементы напрямую.

Другим следствием является то, что распределение Z = b · X , где b — постоянный вектор с тем же числом элементов, что и X , а точка обозначает скалярное произведение , является одномерным гауссовым с . Этот результат следует из использования Z N ( b μ , b T Σ b ) {\displaystyle Z\sim {\mathcal {N}}\left(\mathbf {b} \cdot {\boldsymbol {\mu }},\mathbf {b} ^{\rm {T}}{\boldsymbol {\Sigma }}\mathbf {b} \right)}

B = [ b 1 b 2 b n ] = b T . {\displaystyle \mathbf {B} ={\begin{bmatrix}b_{1}&b_{2}&\ldots &b_{n}\end{bmatrix}}=\mathbf {b} ^{\rm {T}}.}

Обратите внимание, что положительная определенность Σ подразумевает, что дисперсия скалярного произведения должна быть положительной.

Аффинное преобразование X , такое как 2 X, не является суммой двух независимых реализаций X.

Геометрическая интерпретация

Контуры равной плотности невырожденного многомерного нормального распределения представляют собой эллипсоиды (т.е. аффинные преобразования гиперсфер ), центрированные в среднем. [29] Следовательно, многомерное нормальное распределение является примером класса эллиптических распределений . Направления главных осей эллипсоидов задаются собственными векторами ковариационной матрицы . Квадраты относительных длин главных осей задаются соответствующими собственными значениями. Σ {\displaystyle {\boldsymbol {\Sigma }}}

Если Σ = UΛU T = 1/2 ( 1/2 ) Tсобственное разложение , где столбцы U — единичные собственные векторы, а Λдиагональная матрица собственных значений, то мы имеем

X   N ( μ , Σ ) X   μ + U Λ 1 / 2 N ( 0 , I ) X   μ + U N ( 0 , Λ ) . {\displaystyle \mathbf {X} \ \sim {\mathcal {N}}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})\iff \mathbf {X} \ \sim {\boldsymbol {\mu }}+\mathbf {U} {\boldsymbol {\Lambda }}^{1/2}{\mathcal {N}}(0,\mathbf {I} )\iff \mathbf {X} \ \sim {\boldsymbol {\mu }}+\mathbf {U} {\mathcal {N}}(0,{\boldsymbol {\Lambda }}).}

Более того, U можно выбрать в качестве матрицы поворота , поскольку инвертирование оси не оказывает никакого влияния на N (0, Λ ), но инвертирование столбца изменяет знак определителя U. Распределение N ( μ , Σ ) по сути является N (0, I ), масштабированным на Λ 1/2 , повернутым на U и смещенным на μ .

Наоборот, любой выбор μ , матрицы полного ранга U и положительных диагональных элементов Λ i дает невырожденное многомерное нормальное распределение. Если любое Λ i равно нулю, а U является квадратным, результирующая ковариационная матрица UΛU T является вырожденной . Геометрически это означает, что каждый контурный эллипсоид бесконечно тонок и имеет нулевой объем в n -мерном пространстве, так как по крайней мере одна из главных осей имеет длину, равную нулю; это вырожденный случай .

«Радиус вокруг истинного среднего значения в двумерной нормальной случайной величине, записанный в полярных координатах (радиус и угол), следует распределению Хойта ». [30]

В одном измерении вероятность нахождения образца нормального распределения в интервале составляет приблизительно 68,27%, но в более высоких измерениях вероятность нахождения образца в области эллипса стандартного отклонения ниже. [31] μ ± σ {\displaystyle \mu \pm \sigma }

РазмерностьВероятность
10,6827
20,3935
30.1987
40,0902
50,0374
60,0144
70,0052
80,0018
90,0006
100,0002

Статистический вывод

Оценка параметров

Вывод оценки максимального правдоподобия ковариационной матрицы многомерного нормального распределения прост.

Короче говоря, функция плотности вероятности (pdf) многомерного нормального распределения равна

f ( x ) = 1 ( 2 π ) k | Σ | exp ( 1 2 ( x μ ) T Σ 1 ( x μ ) ) {\displaystyle f(\mathbf {x} )={\frac {1}{\sqrt {(2\pi )^{k}|{\boldsymbol {\Sigma }}|}}}\exp \left(-{1 \over 2}(\mathbf {x} -{\boldsymbol {\mu }})^{\rm {T}}{\boldsymbol {\Sigma }}^{-1}({\mathbf {x} }-{\boldsymbol {\mu }})\right)}

и оценка ML матрицы ковариации из выборки из n наблюдений равна [32]

Σ ^ = 1 n i = 1 n ( x i x ¯ ) ( x i x ¯ ) T {\displaystyle {\widehat {\boldsymbol {\Sigma }}}={1 \over n}\sum _{i=1}^{n}({\mathbf {x} }_{i}-{\overline {\mathbf {x} }})({\mathbf {x} }_{i}-{\overline {\mathbf {x} }})^{\mathrm {T} }}

которая является просто выборочной ковариационной матрицей . Это смещенная оценка, чье ожидание равно

E [ Σ ^ ] = n 1 n Σ . {\displaystyle E\left[{\widehat {\boldsymbol {\Sigma }}}\right]={\frac {n-1}{n}}{\boldsymbol {\Sigma }}.}

Несмещенная выборочная ковариация — это

Σ ^ = 1 n 1 i = 1 n ( x i x ¯ ) ( x i x ¯ ) T = 1 n 1 [ X ( I 1 n J ) X ] {\displaystyle {\widehat {\boldsymbol {\Sigma }}}={\frac {1}{n-1}}\sum _{i=1}^{n}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})^{\rm {T}}={\frac {1}{n-1}}\left[X'\left(I-{\frac {1}{n}}\cdot J\right)X\right]} (матричная форма; — единичная матрица, J — матрица из единиц; член в скобках, таким образом, является центрирующей матрицей) I {\displaystyle I} K × K {\displaystyle K\times K} K × K {\displaystyle K\times K} K × K {\displaystyle K\times K}

Матрица информации Фишера для оценки параметров многомерного нормального распределения имеет выражение замкнутой формы. Это может быть использовано, например, для вычисления границы Крамера–Рао для оценки параметров в этой настройке. См. информацию Фишера для получения более подробной информации.

Байесовский вывод

В байесовской статистике сопряженное априорное распределение среднего вектора является другим многомерным нормальным распределением, а сопряженное априорное распределение ковариационной матрицы является обратным распределением Уишарта . Предположим, что было сделано n наблюдений W 1 {\displaystyle {\mathcal {W}}^{-1}}

X = { x 1 , , x n } N ( μ , Σ ) {\displaystyle \mathbf {X} =\{\mathbf {x} _{1},\dots ,\mathbf {x} _{n}\}\sim {\mathcal {N}}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})}

и что была назначена сопряженная априорная величина, где

p ( μ , Σ ) = p ( μ Σ )   p ( Σ ) , {\displaystyle p({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})=p({\boldsymbol {\mu }}\mid {\boldsymbol {\Sigma }})\ p({\boldsymbol {\Sigma }}),}

где

p ( μ Σ ) N ( μ 0 , m 1 Σ ) , {\displaystyle p({\boldsymbol {\mu }}\mid {\boldsymbol {\Sigma }})\sim {\mathcal {N}}({\boldsymbol {\mu }}_{0},m^{-1}{\boldsymbol {\Sigma }}),}

и

p ( Σ ) W 1 ( Ψ , n 0 ) . {\displaystyle p({\boldsymbol {\Sigma }})\sim {\mathcal {W}}^{-1}({\boldsymbol {\Psi }},n_{0}).}

Тогда [32]

p ( μ Σ , X ) N ( n x ¯ + m μ 0 n + m , 1 n + m Σ ) , p ( Σ X ) W 1 ( Ψ + n S + n m n + m ( x ¯ μ 0 ) ( x ¯ μ 0 ) , n + n 0 ) , {\displaystyle {\begin{array}{rcl}p({\boldsymbol {\mu }}\mid {\boldsymbol {\Sigma }},\mathbf {X} )&\sim &{\mathcal {N}}\left({\frac {n{\bar {\mathbf {x} }}+m{\boldsymbol {\mu }}_{0}}{n+m}},{\frac {1}{n+m}}{\boldsymbol {\Sigma }}\right),\\p({\boldsymbol {\Sigma }}\mid \mathbf {X} )&\sim &{\mathcal {W}}^{-1}\left({\boldsymbol {\Psi }}+n\mathbf {S} +{\frac {nm}{n+m}}({\bar {\mathbf {x} }}-{\boldsymbol {\mu }}_{0})({\bar {\mathbf {x} }}-{\boldsymbol {\mu }}_{0})',n+n_{0}\right),\end{array}}}

где

x ¯ = 1 n i = 1 n x i , S = 1 n i = 1 n ( x i x ¯ ) ( x i x ¯ ) . {\displaystyle {\begin{aligned}{\bar {\mathbf {x} }}&={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {x} _{i},\\\mathbf {S} &={\frac {1}{n}}\sum _{i=1}^{n}(\mathbf {x} _{i}-{\bar {\mathbf {x} }})(\mathbf {x} _{i}-{\bar {\mathbf {x} }})'.\end{aligned}}}

Многомерные тесты нормальности

Многомерные тесты нормальности проверяют заданный набор данных на сходство с многомерным нормальным распределением . Нулевая гипотеза заключается в том, что набор данных похож на нормальное распределение, поэтому достаточно малое значение p указывает на ненормальные данные. Многомерные тесты нормальности включают тест Кокса–Смолла [33] и адаптацию Смита и Джейна [34] теста Фридмана–Рафски, созданную Ларри Рафски и Джеромом Фридманом . [35]

Тест Мардиа [36] основан на многомерных расширениях мер асимметрии и эксцесса . Для выборки { x 1 , ..., x n } k -мерных векторов мы вычисляем

Σ ^ = 1 n j = 1 n ( x j x ¯ ) ( x j x ¯ ) T A = 1 6 n i = 1 n j = 1 n [ ( x i x ¯ ) T Σ ^ 1 ( x j x ¯ ) ] 3 B = n 8 k ( k + 2 ) { 1 n i = 1 n [ ( x i x ¯ ) T Σ ^ 1 ( x i x ¯ ) ] 2 k ( k + 2 ) } {\displaystyle {\begin{aligned}&{\widehat {\boldsymbol {\Sigma }}}={1 \over n}\sum _{j=1}^{n}\left(\mathbf {x} _{j}-{\bar {\mathbf {x} }}\right)\left(\mathbf {x} _{j}-{\bar {\mathbf {x} }}\right)^{\mathrm {T} }\\&A={1 \over 6n}\sum _{i=1}^{n}\sum _{j=1}^{n}\left[(\mathbf {x} _{i}-{\bar {\mathbf {x} }})^{\mathrm {T} }\;{\widehat {\boldsymbol {\Sigma }}}^{-1}(\mathbf {x} _{j}-{\bar {\mathbf {x} }})\right]^{3}\\&B={\sqrt {\frac {n}{8k(k+2)}}}\left\{{1 \over n}\sum _{i=1}^{n}\left[(\mathbf {x} _{i}-{\bar {\mathbf {x} }})^{\mathrm {T} }\;{\widehat {\boldsymbol {\Sigma }}}^{-1}(\mathbf {x} _{i}-{\bar {\mathbf {x} }})\right]^{2}-k(k+2)\right\}\end{aligned}}}

При нулевой гипотезе многомерной нормальности статистика A будет иметь приблизительно распределение хи-квадрат с 1/6k ( k + 1)( k + 2) степеней свободы, а B будет приблизительно стандартным нормальным N (0,1).

Статистика эксцесса Мардиа искажена и очень медленно сходится к предельному нормальному распределению. Для выборок среднего размера параметры асимптотического распределения статистики эксцесса изменяются [37] . Для тестов на малых выборках ( ) используются эмпирические критические значения. Таблицы критических значений для обеих статистик приведены Ренчером [38] для k  = 2, 3, 4. ( 50 n < 400 ) {\displaystyle (50\leq n<400)} n < 50 {\displaystyle n<50}

Тесты Мардиа являются аффинно-инвариантными, но не последовательными. Например, тест многомерной асимметрии не последовательны против симметричных ненормальных альтернатив. [39]

Тест BHEP [40] вычисляет норму разности между эмпирической характеристической функцией и теоретической характеристической функцией нормального распределения. Расчет нормы выполняется в пространстве L 2 ( μ ) квадратично-интегрируемых функций относительно гауссовой весовой функции . Тестовая статистика: μ β ( t ) = ( 2 π β 2 ) k / 2 e | t | 2 / ( 2 β 2 ) {\displaystyle \mu _{\beta }(\mathbf {t} )=(2\pi \beta ^{2})^{-k/2}e^{-|\mathbf {t} |^{2}/(2\beta ^{2})}}

T β = R k | 1 n j = 1 n e i t T Σ ^ 1 / 2 ( x j x ) ¯ e | t | 2 / 2 | 2 μ β ( t ) d t = 1 n 2 i , j = 1 n e β 2 2 ( x i x j ) T Σ ^ 1 ( x i x j ) 2 n ( 1 + β 2 ) k / 2 i = 1 n e β 2 2 ( 1 + β 2 ) ( x i x ¯ ) T Σ ^ 1 ( x i x ¯ ) + 1 ( 1 + 2 β 2 ) k / 2 {\displaystyle {\begin{aligned}T_{\beta }&=\int _{\mathbb {R} ^{k}}\left|{1 \over n}\sum _{j=1}^{n}e^{i\mathbf {t} ^{\mathrm {T} }{\widehat {\boldsymbol {\Sigma }}}^{-1/2}(\mathbf {x} _{j}-{\bar {\mathbf {x} )}}}-e^{-|\mathbf {t} |^{2}/2}\right|^{2}\;{\boldsymbol {\mu }}_{\beta }(\mathbf {t} )\,d\mathbf {t} \\&={1 \over n^{2}}\sum _{i,j=1}^{n}e^{-{\beta ^{2} \over 2}(\mathbf {x} _{i}-\mathbf {x} _{j})^{\mathrm {T} }{\widehat {\boldsymbol {\Sigma }}}^{-1}(\mathbf {x} _{i}-\mathbf {x} _{j})}-{\frac {2}{n(1+\beta ^{2})^{k/2}}}\sum _{i=1}^{n}e^{-{\frac {\beta ^{2}}{2(1+\beta ^{2})}}(\mathbf {x} _{i}-{\bar {\mathbf {x} }})^{\mathrm {T} }{\widehat {\boldsymbol {\Sigma }}}^{-1}(\mathbf {x} _{i}-{\bar {\mathbf {x} }})}+{\frac {1}{(1+2\beta ^{2})^{k/2}}}\end{aligned}}}

Предельное распределение этой тестовой статистики представляет собой взвешенную сумму случайных величин хи-квадрат. [40]

Подробный обзор этих и других процедур испытаний доступен. [41]

Классификация по многомерным нормальным классам

Слева: Классификация семи многомерных нормальных классов. Цветные эллипсы — это эллипсы ошибок 1 sd. Черным отмечены границы между областями классификации. — вероятность общей ошибки классификации. Справа: матрица ошибок. — вероятность классификации образца из нормального как . Они вычисляются численным методом трассировки лучей [17] (код Matlab). p e {\displaystyle p_{e}} p i j {\displaystyle p_{ij}} i {\displaystyle i} j {\displaystyle j}

Гауссовский дискриминантный анализ

Предположим, что наблюдения (которые являются векторами) предположительно происходят из одного из нескольких многомерных нормальных распределений с известными средними и ковариациями. Тогда любое данное наблюдение может быть отнесено к распределению, из которого оно имеет наибольшую вероятность возникновения. Эта процедура классификации называется гауссовым дискриминантным анализом. Эффективность классификации, т. е. вероятности различных результатов классификации и общая ошибка классификации, могут быть вычислены с помощью численного метода трассировки лучей [17] (код Matlab).

Методы расчета

Извлечение значений из распределения

Широко используемый метод получения (выборки) случайного вектора x из N -мерного многомерного нормального распределения со средним вектором μ и ковариационной матрицей Σ работает следующим образом: [42]

  1. Найдите любую вещественную матрицу A такую, что AA T = Σ . Когда Σ положительно определена, обычно используется разложение Холецкого , и расширенная форма этого разложения всегда может быть использована (так как ковариационная матрица может быть только положительно полуопределенной) в обоих случаях получается подходящая матрица A. Альтернативой является использование матрицы A = 1/2 , полученной из спектрального разложения Σ = UΛU −1 матрицы Σ . Первый подход более прост в вычислительном отношении, но матрицы A изменяются для различных порядков элементов случайного вектора, в то время как последний подход дает матрицы, которые связаны простыми переупорядочениями. Теоретически оба подхода дают одинаково хорошие способы определения подходящей матрицы A , но есть различия во времени вычислений.
  2. Пусть z = ( z 1 , ..., z N ) T — вектор, компонентами которого являются N независимых стандартных нормальных величин (которые можно сгенерировать, например, с помощью преобразования Бокса–Мюллера ).
  3. Пусть x будет μ + Az . Это имеет желаемое распределение благодаря свойству аффинного преобразования.

Смотрите также

Ссылки

  1. ^ abc Lapidoth, Amos (2009). Основы цифровой коммуникации . Cambridge University Press. ISBN 978-0-521-19395-5.
  2. ^ Гут, Аллан (2009). Промежуточный курс теории вероятностей . Springer. ISBN 978-1-441-90161-3.
  3. ^ Кац, М. (1939). «О характеристике нормального распределения». American Journal of Mathematics . 61 (3): 726– 728. doi :10.2307/2371328. JSTOR  2371328.
  4. ^ Синц, Фабиан; Гервинн, Себастьян; Бетге, Маттиас (2009). «Характеристика p-обобщенного нормального распределения». Журнал многомерного анализа . 100 (5): 817– 820. doi : 10.1016/j.jmva.2008.07.006 .
  5. ^ Саймон Дж. Д. Принс (июнь 2012 г.). Компьютерное зрение: модели, обучение и вывод. Архивировано 28 октября 2020 г. в Wayback Machine . Cambridge University Press. 3.7: «Многомерное нормальное распределение».
  6. ^ Ким, М. Г. (2000). «Многомерные выбросы и разложения расстояния Махаланобиса». Communications in Statistics – Theory and Methods . 29 (7): 1511– 1526. doi :10.1080/03610920008832559.
  7. ^ Хамедани, ГГ; Тата, МН (1975). «Определение двумерного нормального распределения из распределений линейных комбинаций переменных». The American Mathematical Monthly . 82 (9): 913– 915. doi :10.2307/2318494. JSTOR  2318494.
  8. ^ Wyatt, John (26 ноября 2008 г.). "Linear least-squared error estimate" (PDF) . Конспект лекций по прикладной вероятности . Архивировано из оригинала (PDF) 10 октября 2015 г. . Получено 23 января 2012 г. .
  9. ^ "линейная алгебра - Отображение между аффинными координатными функциями". Mathematics Stack Exchange . Получено 2022-06-24 .
  10. ^ Рао, CR (1973). Линейный статистический вывод и его применение . Нью-Йорк: Wiley. С.  527–528 . ISBN 0-471-70823-2.
  11. ^ ab Botev, ZI (2016). «Нормальный закон при линейных ограничениях: моделирование и оценка с помощью минимаксного наклона». Журнал Королевского статистического общества, серия B. 79 : 125–148 . arXiv : 1603.04166 . Bibcode : 2016arXiv160304166B. doi : 10.1111/rssb.12162. S2CID  88515228.
  12. ^ Генц, Алан (2009). Вычисление многомерных нормальных и t-вероятностей. Springer. ISBN 978-3-642-01689-9.
  13. ^ ab Bensimhoun Michael, N-мерная кумулятивная функция и другие полезные факты о гауссианах и нормальных плотностях (2006)
  14. ^ Сиотани, Минору (1964). "Области толерантности для многомерной нормальной популяции" (PDF) . Анналы Института статистической математики . 16 (1): 135– 153. doi :10.1007/BF02868568. S2CID  123269490.
  15. ^ ab Botev, ZI; Mandjes, M.; Ridder, A. (6–9 декабря 2015 г.). «Распределение хвоста максимума коррелированных гауссовских случайных величин». Зимняя конференция по моделированию 2015 г. (WSC) . Хантингтон-Бич, Калифорния, США: IEEE. стр.  633–642 . doi :10.1109/WSC.2015.7408202. hdl : 10419/130486 . ISBN 978-1-4673-9743-8.
  16. ^ Adler, RJ; Blanchet, J.; Liu, J. (7–10 декабря 2008 г.). «Эффективное моделирование для хвостовых вероятностей гауссовских случайных полей». Зимняя конференция по моделированию 2008 г. (WSC) . Майами, Флорида, США: IEEE. стр.  328–336 . doi :10.1109/WSC.2008.4736085. ISBN 978-1-4244-2707-9.{{cite conference}}: CS1 maint: date and year (link)
  17. ^ abcdefghi Das, Abhranil; Wilson S Geisler (2020). «Методы интеграции мультинормалей и вычисления мер классификации». arXiv : 2012.14331 [stat.ML].
  18. ^ Эрнандес-Штумпфхаузер, Дэниел; Брейдт, Ф. Джей; ван дер Вурд, Марк Дж. (2017). «Общее проектируемое нормальное распределение произвольной размерности: моделирование и байесовский вывод». Байесовский анализ . 12 (1): 113– 133. doi : 10.1214/15-BA989 .
  19. ^ Тонг, Т. (2010) Множественная линейная регрессия: MLE и ее результаты распределения Архивировано 16.06.2013 в WebCite , Lecture Notes
  20. ^ Gokhale, DV; Ahmed, NA; Res, BC; Piscataway, NJ (май 1989). «Выражения энтропии и их оценки для многомерных распределений». IEEE Transactions on Information Theory . 35 (3): 688– 692. doi :10.1109/18.30996.
  21. ^ Дучи, Дж. «Выводы для линейной алгебры и оптимизации» (PDF) : 13. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  22. ^ Доказательство: Взаимная информация многомерного нормального распределения
  23. ^ MacKay, David JC (2003-10-06). Теория информации, вывод и алгоритмы обучения (Иллюстрированное издание). Кембридж: Cambridge University Press. ISBN 978-0-521-64298-9.
  24. ^ Холт, В.; Нгуен, Д. (2023). «Основные аспекты байесовского импутирования данных». SSRN  4494314. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  25. ^ Итон, Моррис Л. (1983). Многомерная статистика: подход векторного пространства . John Wiley and Sons. стр.  116–117 . ISBN 978-0-471-02776-8.
  26. ^ Йенсен, Дж. (2000). Статистика для инженеров-нефтяников и геологов . Амстердам: Elsevier. С. 207. ISBN 0-444-50552-0.
  27. ^ Маддала, Г. С. (1983). Ограниченные зависимые и качественные переменные в эконометрике . Cambridge University Press. ISBN 0-521-33825-5.
  28. ^ Алгебраическое вычисление маргинального распределения показано здесь http://fourier.eng.hmc.edu/e161/lectures/gaussianprocess/node7.html Архивировано 2010-01-17 на Wayback Machine . Гораздо более короткое доказательство изложено здесь https://math.stackexchange.com/a/3832137
  29. ^ Николаус Хансен (2016). "Стратегия эволюции CMA: Учебное пособие" (PDF) . arXiv : 1604.00772 . Bibcode :2016arXiv160400772H. Архивировано из оригинала (PDF) 2010-03-31 . Получено 2012-01-07 .
  30. ^ Дэниел Воллшлегер. «Распределение Хойта (документация для пакета R 'shotGroups' версии 0.6.2)».[ постоянная мертвая ссылка ‍ ]
  31. ^ Ван, Бин; Ши, Вэньчжун; Мяо, Зеланг (13.03.2015). Роккини, Дуччио (ред.). «Анализ достоверности эллипса стандартного отклонения и его расширения в многомерное евклидово пространство». PLOS ONE . 10 (3): e0118537. Bibcode : 2015PLoSO..1018537W. doi : 10.1371/journal.pone.0118537 . ISSN  1932-6203. PMC 4358977. PMID 25769048  . 
  32. ^ ab Holt, W.; Nguyen, D. (2023). «Введение в байесовскую импутацию данных». SSRN  4494314. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  33. ^ Кокс, DR; Смолл, NJH (1978). «Проверка многомерной нормальности». Biometrika . 65 (2): 263. doi :10.1093/biomet/65.2.263.
  34. ^ Смит, С. П.; Джейн, А. К. (1988). «Тест для определения многомерной нормальности набора данных». Труды IEEE по анализу шаблонов и машинному интеллекту . 10 (5): 757. doi :10.1109/34.6789.
  35. ^ Фридман, Дж. Х.; Рафски, Л. К. (1979). «Многомерные обобщения двухвыборочных тестов Вальда–Вольфовица и Смирнова». Анналы статистики . 7 (4): 697. doi : 10.1214/aos/1176344722 .
  36. ^ Мардиа, К. В. (1970). «Меры многомерной асимметрии и эксцесса с приложениями». Biometrika . 57 (3): 519– 530. doi :10.1093/biomet/57.3.519.
  37. Ренчер (1995), страницы 112–113.
  38. Ренчер (1995), страницы 493–495.
  39. ^ Baringhaus, L.; Henze, N. (1991). «Предельные распределения для мер многомерной асимметрии и эксцесса на основе проекций». Журнал многомерного анализа . 38 : 51– 69. doi : 10.1016/0047-259X(91)90031-V .
  40. ^ ab Baringhaus, L.; Henze, N. (1988). "Последовательный тест на многомерную нормальность на основе эмпирической характеристической функции". Metrika . 35 (1): 339– 348. doi :10.1007/BF02613322. S2CID  122362448.
  41. ^ Хенце, Норберт (2002). «Инвариантные тесты для многомерной нормальности: критический обзор». Статистические статьи . 43 (4): 467– 506. doi :10.1007/s00362-002-0119-6. S2CID  122934510.
  42. ^ Gentle, JE (2009). Вычислительная статистика. Статистика и вычисления. Нью-Йорк: Springer. С.  315–316 . doi :10.1007/978-0-387-98144-4. ISBN 978-0-387-98143-7.

Литература

  • Ренчер, А.С. (1995). Методы многомерного анализа . Нью-Йорк: Wiley.
  • Тонг, Й. Л. (1990). Многомерное нормальное распределение . Springer Series in Statistics. Нью-Йорк: Springer-Verlag. doi :10.1007/978-1-4613-9655-0. ISBN 978-1-4613-9657-4. S2CID  120348131.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Multivariate_normal_distribution&oldid=1269427489#Bivariate_case"