Сопряженный априор

Понятие в теории вероятностей

В байесовской теории вероятностей, если при заданной функции правдоподобия апостериорное распределение находится в том же семействе распределений вероятностей , что и априорное распределение вероятностей , то априорное и апостериорное распределения называются сопряженными распределениями относительно этой функции правдоподобия, а априорное распределение называется сопряженным априорным для функции правдоподобия . п ( х θ ) {\displaystyle p(x\mid \theta )} п ( θ х ) {\displaystyle p(\theta \mid x)} п ( θ ) {\displaystyle p(\theta)} п ( х θ ) {\displaystyle p(x\mid \theta )}

Сопряженное априорное распределение является алгебраическим удобством, давая замкнутое выражение для апостериорного распределения; в противном случае может потребоваться численное интегрирование . Кроме того, сопряженные априорные распределения могут давать интуицию, более прозрачно показывая, как функция правдоподобия обновляет априорное распределение.

Понятие, а также термин «сопряженное априорное распределение» были введены Говардом Райффой и Робертом Шлайфером в их работе по байесовской теории принятия решений . [1] Подобная концепция была независимо открыта Джорджем Альфредом Барнардом . [2]

Пример

Форма сопряженного априорного распределения обычно может быть определена путем проверки плотности вероятности или функции массы вероятности распределения. Например, рассмотрим случайную величину , которая состоит из числа успехов в испытаниях Бернулли с неизвестной вероятностью успеха в [0,1]. Эта случайная величина будет следовать биномиальному распределению с функцией массы вероятности вида с {\displaystyle с} н {\displaystyle n} д {\displaystyle д}

п ( с ) = ( н с ) д с ( 1 д ) н с {\displaystyle p(s)={n \выберите s}q^{s}(1-q)^{ns}}

Обычным сопряженным априорным распределением является бета-распределение с параметрами ( , ): α {\displaystyle \альфа} β {\displaystyle \бета}

п ( д ) = д α 1 ( 1 д ) β 1 Б ( α , β ) {\displaystyle p(q)={q^{\alpha -1}(1-q)^{\beta -1} \over \mathrm {B} (\alpha ,\beta )}}

где и выбраны так, чтобы отражать любое существующее убеждение или информацию ( и давали бы равномерное распределение ), а — бета-функция, действующая как нормирующая константа . α {\displaystyle \альфа} β {\displaystyle \бета} α = 1 {\displaystyle \альфа =1} β = 1 {\displaystyle \бета =1} Б ( α , β ) {\displaystyle \mathrm {B} (\альфа,\бета)}

В этом контексте и называются гиперпараметрами (параметрами априорной вероятности), чтобы отличать их от параметров базовой модели (здесь ). Типичной характеристикой сопряженных априорных вероятностей является то, что размерность гиперпараметров на единицу больше, чем размерность параметров исходного распределения. Если все параметры являются скалярными значениями, то гиперпараметров будет на один больше, чем параметров; но это также применимо к векторно-значным и матрично-значным параметрам. (См. общую статью об экспоненциальном семействе , а также рассмотрим распределение Уишарта , сопряженное априорное распределение ковариационной матрицы многомерного нормального распределения , для примера, где задействована большая размерность.) α {\displaystyle \альфа} β {\displaystyle \бета} д {\displaystyle д}

Если мы выберем эту случайную величину и получим успехи и неудачи, то у нас будет с {\displaystyle с} ф = н с {\displaystyle f=ns}

П ( с , ф д = х ) = ( с + ф с ) х с ( 1 х ) ф , П ( д = х ) = х α 1 ( 1 х ) β 1 Б ( α , β ) , П ( д = х с , ф ) = П ( с , ф х ) П ( х ) П ( с , ф у ) П ( у ) г у = ( с + ф с ) х с + α 1 ( 1 х ) ф + β 1 / Б ( α , β ) у = 0 1 ( ( с + ф с ) у с + α 1 ( 1 у ) ф + β 1 / Б ( α , β ) ) г у = х с + α 1 ( 1 х ) ф + β 1 Б ( с + α , ф + β ) , {\displaystyle {\begin{aligned}P(s,f\mid q=x)&={s+f \choose s}x^{s}(1-x)^{f},\\P(q=x)&={x^{\alpha -1}(1-x)^{\beta -1} \over \mathrm {B} (\alpha ,\beta )},\\P(q=x\mid s,f)&={\frac {P(s,f\mid x)P(x)}{\int P(s,f\mid y)P(y)dy}}\\&={{{s+f \choose s}x^{s+\alpha -1}(1-x)^{f+\beta -1}/\mathrm {B} (\alpha ,\beta )} \over \int _{y=0}^{1}\left({s+f \choose s}y^{s+\alpha -1}(1-y)^{f+\beta -1}/\mathrm {B} (\alpha ,\beta )\right)dy}\\&={x^{s+\alpha -1}(1-x)^{f+\beta -1} \over \mathrm {B} (s+\alpha ,f+\beta )},\end{aligned}}}

что является другим распределением Бета с параметрами . Это апостериорное распределение затем может быть использовано в качестве априорного для большего количества образцов, при этом гиперпараметры просто добавляют каждую дополнительную часть информации по мере ее поступления. ( α + с , β + ф ) {\displaystyle (\альфа +s,\бета +f)}

Интерпретации

Псевдо-наблюдения

Часто бывает полезно думать о гиперпараметрах сопряженного априорного распределения, соответствующих наблюдению определенного количества псевдонаблюдений со свойствами, указанными параметрами. Например, значения и бета -распределения можно рассматривать как соответствующие успехам и неудачам, если апостериорная мода используется для выбора оптимальной настройки параметров, или успехам и неудачам, если апостериорное среднее используется для выбора оптимальной настройки параметров. В общем, почти для всех сопряженных априорных распределений гиперпараметры можно интерпретировать в терминах псевдонаблюдений. Это может помочь обеспечить интуицию, стоящую за часто запутанными уравнениями обновления, и помочь выбрать разумные гиперпараметры для априорного распределения. α {\displaystyle \альфа} β {\displaystyle \бета} α 1 {\displaystyle \альфа -1} β 1 {\displaystyle \бета -1} α {\displaystyle \альфа} β {\displaystyle \бета}

Динамическая система

Можно думать об обусловленности на сопряженных априорных данных как об определении своего рода (дискретной по времени) динамической системы : из заданного набора гиперпараметров входящие данные обновляют эти гиперпараметры, поэтому можно рассматривать изменение гиперпараметров как своего рода «эволюцию во времени» системы, соответствующую «обучению». Старт в разных точках дает разные потоки с течением времени. Это снова аналогично динамической системе, определяемой линейным оператором, но обратите внимание, что поскольку разные образцы приводят к разным выводам, это зависит не просто от времени, а от данных с течением времени. Для связанных подходов см. Рекурсивная байесовская оценка и Усваивание данных .

Практический пример

Предположим, что в вашем городе работает служба проката автомобилей. Водители могут сдавать и забирать автомобили в любом месте в черте города. Вы можете найти и арендовать автомобили с помощью приложения.

Предположим, вы хотите найти вероятность того, что вы сможете найти арендованный автомобиль в пределах короткой дистанции от вашего домашнего адреса в любое время суток.

В течение трех дней вы заходите в приложение и обнаруживаете следующее количество автомобилей в непосредственной близости от вашего домашнего адреса: х = [ 3 , 4 , 1 ] {\displaystyle \mathbf {x} =[3,4,1]}

Предположим, мы предполагаем, что данные получены из распределения Пуассона . В этом случае мы можем вычислить оценку максимального правдоподобия параметров модели, которая равна Используя эту оценку максимального правдоподобия, мы можем вычислить вероятность того, что в определенный день будет доступна хотя бы одна машина: λ = 3 + 4 + 1 3 2.67. {\textstyle \lambda ={\frac {3+4+1}{3}}\approx 2.67.} p ( x > 0 | λ 2.67 ) = 1 p ( x = 0 | λ 2.67 ) = 1 2.67 0 e 2.67 0 ! 0.93 {\textstyle p(x>0|\lambda \approx 2.67)=1-p(x=0|\lambda \approx 2.67)=1-{\frac {2.67^{0}e^{-2.67}}{0!}}\approx 0.93}

Это распределение Пуассона, которое с наибольшей вероятностью сгенерировало наблюдаемые данные . Но данные также могли быть получены из другого распределения Пуассона, например, с , или и т. д. Фактически, существует бесконечное количество распределений Пуассона, которые могли сгенерировать наблюдаемые данные. При относительно небольшом количестве точек данных мы должны быть совершенно не уверены в том, какое именно распределение Пуассона сгенерировало эти данные. Интуитивно мы должны вместо этого взять средневзвешенное значение вероятности для каждого из этих распределений Пуассона, взвешенное по тому, насколько вероятно каждое из них, учитывая наблюдаемые нами данные . x {\displaystyle \mathbf {x} } λ = 3 {\displaystyle \lambda =3} λ = 2 {\displaystyle \lambda =2} p ( x > 0 | λ ) {\displaystyle p(x>0|\lambda )} x {\displaystyle \mathbf {x} }

Обычно эта величина известна как апостериорное предсказательное распределение , где — новая точка данных, — наблюдаемые данные, а — параметры модели. Используя теорему Байеса, мы можем расширить , следовательно , Обычно этот интеграл трудно вычислить. Однако, если выбрать сопряженное априорное распределение , можно вывести выражение в замкнутой форме. Это апостериорный предсказательный столбец в таблицах ниже. p ( x | x ) = θ p ( x | θ ) p ( θ | x ) d θ , {\displaystyle p(x|\mathbf {x} )=\int _{\theta }p(x|\theta )p(\theta |\mathbf {x} )d\theta \,,} x {\displaystyle x} x {\displaystyle \mathbf {x} } θ {\displaystyle \theta } p ( θ | x ) = p ( x | θ ) p ( θ ) p ( x ) , {\displaystyle p(\theta |\mathbf {x} )={\frac {p(\mathbf {x} |\theta )p(\theta )}{p(\mathbf {x} )}}\,,} p ( x | x ) = θ p ( x | θ ) p ( x | θ ) p ( θ ) p ( x ) d θ . {\displaystyle p(x|\mathbf {x} )=\int _{\theta }p(x|\theta ){\frac {p(\mathbf {x} |\theta )p(\theta )}{p(\mathbf {x} )}}d\theta \,.} p ( θ ) {\displaystyle p(\theta )}

Возвращаясь к нашему примеру, если мы выберем гамма-распределение в качестве нашего априорного распределения по скорости распределения Пуассона, то апостериорным предсказателем будет отрицательное биномиальное распределение , как видно из таблицы ниже. Гамма-распределение параметризуется двумя гиперпараметрами , которые нам нужно выбрать. Рассматривая графики гамма-распределения, мы выбираем , что, по-видимому, является разумным априорным значением для среднего числа автомобилей. Выбор априорных гиперпараметров по своей сути субъективен и основан на априорных знаниях. α , β {\displaystyle \alpha ,\beta } α = β = 2 {\displaystyle \alpha =\beta =2}

Учитывая априорные гиперпараметры , мы можем вычислить апостериорные гиперпараметры и α {\displaystyle \alpha } β {\displaystyle \beta } α = α + i x i = 2 + 3 + 4 + 1 = 10 {\textstyle \alpha '=\alpha +\sum _{i}x_{i}=2+3+4+1=10} β = β + n = 2 + 3 = 5 {\textstyle \beta '=\beta +n=2+3=5}

Учитывая апостериорные гиперпараметры, мы можем, наконец, вычислить апостериорный прогноз p ( x > 0 | x ) = 1 p ( x = 0 | x ) = 1 N B ( 0 | 10 , 5 1 + 5 ) 0.84 {\textstyle p(x>0|\mathbf {x} )=1-p(x=0|\mathbf {x} )=1-NB\left(0\,|\,10,{\frac {5}{1+5}}\right)\approx 0.84}

Эта гораздо более консервативная оценка отражает неопределенность параметров модели, которую учитывает апостериорное прогнозирование.

Таблица сопряженных распределений

Пусть n обозначает число наблюдений. Во всех случаях ниже предполагается, что данные состоят из n точек (которые будут случайными векторами в многомерных случаях). x 1 , , x n {\displaystyle x_{1},\ldots ,x_{n}}

Если функция правдоподобия принадлежит к экспоненциальному семейству , то существует сопряженное априорное распределение, часто также в экспоненциальном семействе; см. Экспоненциальное семейство: Сопряженные распределения .

Когда функция правдоподобия представляет собой дискретное распределение

Вероятность
p ( x i | θ ) {\displaystyle p(x_{i}|\theta )}
Параметры модели
θ {\displaystyle \theta }
Сопряженное априорное (и апостериорное) распределение
p ( θ | Θ ) , p ( θ | x , Θ ) = p ( θ | Θ ) {\displaystyle p(\theta |\Theta ),p(\theta |\mathbf {x} ,\Theta )=p(\theta |\Theta ')}
Предыдущие гиперпараметры
Θ {\displaystyle \Theta }
Апостериорные гиперпараметры [примечание 1]
Θ {\displaystyle \Theta '}
Интерпретация гиперпараметровАпостериорный предиктивный [примечание 2]
p ( x ~ | x , Θ ) = p ( x ~ | Θ ) {\displaystyle p({\tilde {x}}|\mathbf {x} ,\Theta )=p({\tilde {x}}|\Theta ')}
Бернуллир (вероятность)Бета α , β R {\displaystyle \alpha ,\,\beta \in \mathbb {R} \!} α + i = 1 n x i , β + n i = 1 n x i {\displaystyle \alpha +\sum _{i=1}^{n}x_{i},\,\beta +n-\sum _{i=1}^{n}x_{i}\!} α {\displaystyle \alpha } успехи, неудачи [примечание 3] β {\displaystyle \beta } p ( x ~ = 1 ) = α α + β {\displaystyle p({\tilde {x}}=1)={\frac {\alpha '}{\alpha '+\beta '}}}
( Бернулли )
Биномиальная
с известным числом испытаний, м
р (вероятность)Бета α , β R {\displaystyle \alpha ,\,\beta \in \mathbb {R} \!} α + i = 1 n x i , β + i = 1 n N i i = 1 n x i {\displaystyle \alpha +\sum _{i=1}^{n}x_{i},\,\beta +\sum _{i=1}^{n}N_{i}-\sum _{i=1}^{n}x_{i}\!} α {\displaystyle \alpha } успехи, неудачи [примечание 3] β {\displaystyle \beta } BetaBin ( x ~ | α , β ) {\displaystyle \operatorname {BetaBin} ({\tilde {x}}|\alpha ',\beta ')}
( бета-биномиальный )
Отрицательный бином
с известным числом отказов, r
р (вероятность)Бета α , β R {\displaystyle \alpha ,\,\beta \in \mathbb {R} \!} α + r n , β + i = 1 n x i {\displaystyle \alpha +rn,\,\beta +\sum _{i=1}^{n}x_{i}\!} α {\displaystyle \alpha } общие успехи, неудачи [примечание 3] (т.е. эксперименты, предполагающие, что все остается неизменным) β {\displaystyle \beta } β r {\displaystyle {\frac {\beta }{r}}} r {\displaystyle r} BetaNegBin ( x ~ | α , β ) {\displaystyle \operatorname {BetaNegBin} ({\tilde {x}}|\alpha ',\beta ')}

(бета-отрицательный биномиальный)

Пуассонλ (скорость)Гамма k , θ R {\displaystyle k,\,\theta \in \mathbb {R} \!} k + i = 1 n x i ,   θ n θ + 1 {\displaystyle k+\sum _{i=1}^{n}x_{i},\ {\frac {\theta }{n\theta +1}}\!} k {\displaystyle k} общее количество появлений в интервалах 1 θ {\displaystyle {\frac {1}{\theta }}} NB ( x ~ k , 1 θ + 1 ) {\displaystyle \operatorname {NB} \left({\tilde {x}}\mid k',{\frac {1}{\theta '+1}}\right)}
( отрицательный бином )
α , β {\displaystyle \alpha ,\,\beta \!} [примечание 4] α + i = 1 n x i ,   β + n {\displaystyle \alpha +\sum _{i=1}^{n}x_{i},\ \beta +n\!} α {\displaystyle \alpha } общее количество появлений в интервалах β {\displaystyle \beta } NB ( x ~ α , β 1 + β ) {\displaystyle \operatorname {NB} \left({\tilde {x}}\mid \alpha ',{\frac {\beta '}{1+\beta '}}\right)}
( отрицательный бином )
Категорическийp (вектор вероятности), k (количество категорий; т.е. размер p )Дирихле α R k {\displaystyle {\boldsymbol {\alpha }}\in \mathbb {R} ^{k}\!} α + ( c 1 , , c k ) , {\displaystyle {\boldsymbol {\alpha }}+(c_{1},\ldots ,c_{k}),} где - число наблюдений в категории i c i {\displaystyle c_{i}} α i {\displaystyle \alpha _{i}} случаи категории [примечание 3] i {\displaystyle i} p ( x ~ = i ) = α i i α i = α i + c i i α i + n {\displaystyle {\begin{aligned}p({\tilde {x}}=i)&={\frac {{\alpha _{i}}'}{\sum _{i}{\alpha _{i}}'}}\\&={\frac {\alpha _{i}+c_{i}}{\sum _{i}\alpha _{i}+n}}\end{aligned}}}
( категорический )
Многочленp (вектор вероятности), k (количество категорий; т.е. размер p )Дирихле α R k {\displaystyle {\boldsymbol {\alpha }}\in \mathbb {R} ^{k}\!} α + i = 1 n x i {\displaystyle {\boldsymbol {\alpha }}+\sum _{i=1}^{n}\mathbf {x} _{i}\!} α i {\displaystyle \alpha _{i}} случаи категории [примечание 3] i {\displaystyle i} DirMult ( x ~ α ) {\displaystyle \operatorname {DirMult} ({\tilde {\mathbf {x} }}\mid {\boldsymbol {\alpha }}')}
( Дирихле-мультиномиал )
Гипергеометрический
с известной общей численностью населения, N
M (количество целевых членов)Бета-биномиальный [3] n = N , α , β {\displaystyle n=N,\alpha ,\,\beta \!} α + i = 1 n x i , β + i = 1 n N i i = 1 n x i {\displaystyle \alpha +\sum _{i=1}^{n}x_{i},\,\beta +\sum _{i=1}^{n}N_{i}-\sum _{i=1}^{n}x_{i}\!} α {\displaystyle \alpha } успехи, неудачи [примечание 3] β {\displaystyle \beta }
Геометрическийр 0 (вероятность)Бета α , β R {\displaystyle \alpha ,\,\beta \in \mathbb {R} \!} α + n , β + i = 1 n x i {\displaystyle \alpha +n,\,\beta +\sum _{i=1}^{n}x_{i}\!} α {\displaystyle \alpha } эксперименты, полный провал [примечание 3] β {\displaystyle \beta }

Когда функция правдоподобия представляет собой непрерывное распределение

Вероятность
p ( x i | θ ) {\displaystyle p(x_{i}|\theta )}
Параметры модели
θ {\displaystyle \theta }
Сопряженное априорное (и апостериорное) распределение p ( θ | Θ ) , p ( θ | x , Θ ) = p ( θ | Θ ) {\displaystyle p(\theta |\Theta ),p(\theta |\mathbf {x} ,\Theta )=p(\theta |\Theta ')} Предыдущие гиперпараметры
Θ {\displaystyle \Theta }
Апостериорные гиперпараметры [примечание 1]
Θ {\displaystyle \Theta '}
Интерпретация гиперпараметровАпостериорный предиктивный [примечание 5]
p ( x ~ | x , Θ ) = p ( x ~ | Θ ) {\displaystyle p({\tilde {x}}|\mathbf {x} ,\Theta )=p({\tilde {x}}|\Theta ')}
Нормальный
с известной дисперсией σ 2
μ (среднее)Нормальный μ 0 , σ 0 2 {\displaystyle \mu _{0},\,\sigma _{0}^{2}\!} 1 1 σ 0 2 + n σ 2 ( μ 0 σ 0 2 + i = 1 n x i σ 2 ) , ( 1 σ 0 2 + n σ 2 ) 1 {\displaystyle {\frac {1}{{\frac {1}{\sigma _{0}^{2}}}+{\frac {n}{\sigma ^{2}}}}}\left({\frac {\mu _{0}}{\sigma _{0}^{2}}}+{\frac {\sum _{i=1}^{n}x_{i}}{\sigma ^{2}}}\right),\left({\frac {1}{\sigma _{0}^{2}}}+{\frac {n}{\sigma ^{2}}}\right)^{-1}} среднее значение было оценено на основе наблюдений с общей точностью (сумма всех индивидуальных точностей) и с выборочным средним 1 / σ 0 2 {\displaystyle 1/\sigma _{0}^{2}} μ 0 {\displaystyle \mu _{0}} N ( x ~ | μ 0 , σ 0 2 + σ 2 ) {\displaystyle {\mathcal {N}}({\tilde {x}}|\mu _{0}',{\sigma _{0}^{2}}'+\sigma ^{2})} [4]
Нормаль
с известной точностью τ
μ (среднее)Нормальный μ 0 , τ 0 1 {\displaystyle \mu _{0},\,\tau _{0}^{-1}\!} τ 0 μ 0 + τ i = 1 n x i τ 0 + n τ , ( τ 0 + n τ ) 1 {\displaystyle {\frac {\tau _{0}\mu _{0}+\tau \sum _{i=1}^{n}x_{i}}{\tau _{0}+n\tau }},\,\left(\tau _{0}+n\tau \right)^{-1}} среднее значение было оценено на основе наблюдений с общей точностью (сумма всех индивидуальных точностей) и с выборочным средним τ 0 {\displaystyle \tau _{0}} μ 0 {\displaystyle \mu _{0}} N ( x ~ μ 0 , 1 τ 0 + 1 τ ) {\displaystyle {\mathcal {N}}\left({\tilde {x}}\mid \mu _{0}',{\frac {1}{\tau _{0}'}}+{\frac {1}{\tau }}\right)} [4]
Нормальный
с известным средним μ
σ 2 (дисперсия)Обратная гамма α , β {\displaystyle \mathbf {\alpha ,\,\beta } } [примечание 6] α + n 2 , β + i = 1 n ( x i μ ) 2 2 {\displaystyle \mathbf {\alpha } +{\frac {n}{2}},\,\mathbf {\beta } +{\frac {\sum _{i=1}^{n}{(x_{i}-\mu )^{2}}}{2}}} Дисперсия оценивалась на основе наблюдений с выборочной дисперсией (т.е. с суммой квадратов отклонений , где отклонения от известного среднего значения ) 2 α {\displaystyle 2\alpha } β / α {\displaystyle \beta /\alpha } 2 β {\displaystyle 2\beta } μ {\displaystyle \mu } t 2 α ( x ~ | μ , σ 2 = β / α ) {\displaystyle t_{2\alpha '}({\tilde {x}}|\mu ,\sigma ^{2}=\beta '/\alpha ')} [4]
Нормальный
с известным средним μ
σ 2 (дисперсия)Масштабированный обратный хи-квадрат ν , σ 0 2 {\displaystyle \nu ,\,\sigma _{0}^{2}\!} ν + n , ν σ 0 2 + i = 1 n ( x i μ ) 2 ν + n {\displaystyle \nu +n,\,{\frac {\nu \sigma _{0}^{2}+\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{\nu +n}}\!} дисперсия оценивалась на основе наблюдений с выборочной дисперсией ν {\displaystyle \nu } σ 0 2 {\displaystyle \sigma _{0}^{2}} t ν ( x ~ | μ , σ 0 2 ) {\displaystyle t_{\nu '}({\tilde {x}}|\mu ,{\sigma _{0}^{2}}')} [4]
Нормальный
с известным средним μ
τ (точность)Гамма α , β {\displaystyle \alpha ,\,\beta \!} [примечание 4] α + n 2 , β + i = 1 n ( x i μ ) 2 2 {\displaystyle \alpha +{\frac {n}{2}},\,\beta +{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2}}\!} Точность оценивалась на основе наблюдений с выборочной дисперсией (т.е. с суммой квадратов отклонений , где отклонения от известного среднего значения ) 2 α {\displaystyle 2\alpha } β / α {\displaystyle \beta /\alpha } 2 β {\displaystyle 2\beta } μ {\displaystyle \mu } t 2 α ( x ~ μ , σ 2 = β / α ) {\displaystyle t_{2\alpha '}({\tilde {x}}\mid \mu ,\sigma ^{2}=\beta '/\alpha ')} [4]
Нормально [примечание 7]μ и σ 2
Предполагая взаимозаменяемость
Нормально-обратная гамма μ 0 , ν , α , β {\displaystyle \mu _{0},\,\nu ,\,\alpha ,\,\beta } ν μ 0 + n x ¯ ν + n , ν + n , α + n 2 , {\displaystyle {\frac {\nu \mu _{0}+n{\bar {x}}}{\nu +n}},\,\nu +n,\,\alpha +{\frac {n}{2}},\,}
β + 1 2 i = 1 n ( x i x ¯ ) 2 + n ν ν + n ( x ¯ μ 0 ) 2 2 {\displaystyle \beta +{\tfrac {1}{2}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+{\frac {n\nu }{\nu +n}}{\frac {({\bar {x}}-\mu _{0})^{2}}{2}}}
  • x ¯ {\displaystyle {\bar {x}}} это выборочное среднее
среднее значение оценивалось по наблюдениям с выборочным средним ; дисперсия оценивалась по наблюдениям с выборочным средним и суммой квадратов отклонений ν {\displaystyle \nu } μ 0 {\displaystyle \mu _{0}} 2 α {\displaystyle 2\alpha } μ 0 {\displaystyle \mu _{0}} 2 β {\displaystyle 2\beta } t 2 α ( x ~ μ , β ( ν + 1 ) ν α ) {\displaystyle t_{2\alpha '}\left({\tilde {x}}\mid \mu ',{\frac {\beta '(\nu '+1)}{\nu '\alpha '}}\right)} [4]
Нормальныйμ и τ
Предполагая взаимозаменяемость
Нормальная гамма μ 0 , ν , α , β {\displaystyle \mu _{0},\,\nu ,\,\alpha ,\,\beta } ν μ 0 + n x ¯ ν + n , ν + n , α + n 2 , {\displaystyle {\frac {\nu \mu _{0}+n{\bar {x}}}{\nu +n}},\,\nu +n,\,\alpha +{\frac {n}{2}},\,}
β + 1 2 i = 1 n ( x i x ¯ ) 2 + n ν ν + n ( x ¯ μ 0 ) 2 2 {\displaystyle \beta +{\tfrac {1}{2}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+{\frac {n\nu }{\nu +n}}{\frac {({\bar {x}}-\mu _{0})^{2}}{2}}}
  • x ¯ {\displaystyle {\bar {x}}} это выборочное среднее
Среднее значение оценивалось по наблюдениям с использованием выборочного среднего значения , а точность оценивалась по наблюдениям с использованием выборочного среднего значения и суммы квадратов отклонений. ν {\displaystyle \nu } μ 0 {\displaystyle \mu _{0}} 2 α {\displaystyle 2\alpha } μ 0 {\displaystyle \mu _{0}} 2 β {\displaystyle 2\beta } t 2 α ( x ~ μ , β ( ν + 1 ) α ν ) {\displaystyle t_{2\alpha '}\left({\tilde {x}}\mid \mu ',{\frac {\beta '(\nu '+1)}{\alpha '\nu '}}\right)} [4]
Многомерное нормальное с известной ковариационной матрицей Σμ (средний вектор)Многомерный нормальный μ 0 , Σ 0 {\displaystyle {\boldsymbol {\boldsymbol {\mu }}}_{0},\,{\boldsymbol {\Sigma }}_{0}} ( Σ 0 1 + n Σ 1 ) 1 ( Σ 0 1 μ 0 + n Σ 1 x ¯ ) , {\displaystyle \left({\boldsymbol {\Sigma }}_{0}^{-1}+n{\boldsymbol {\Sigma }}^{-1}\right)^{-1}\left({\boldsymbol {\Sigma }}_{0}^{-1}{\boldsymbol {\mu }}_{0}+n{\boldsymbol {\Sigma }}^{-1}\mathbf {\bar {x}} \right),}
( Σ 0 1 + n Σ 1 ) 1 {\displaystyle \left({\boldsymbol {\Sigma }}_{0}^{-1}+n{\boldsymbol {\Sigma }}^{-1}\right)^{-1}}
  • x ¯ {\displaystyle \mathbf {\bar {x}} } это выборочное среднее
среднее значение было оценено на основе наблюдений с общей точностью (сумма всех индивидуальных точностей) и с выборочным средним Σ 0 1 {\displaystyle {\boldsymbol {\Sigma }}_{0}^{-1}} μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}} N ( x ~ μ 0 , Σ 0 + Σ ) {\displaystyle {\mathcal {N}}({\tilde {\mathbf {x} }}\mid {{\boldsymbol {\mu }}_{0}}',{{\boldsymbol {\Sigma }}_{0}}'+{\boldsymbol {\Sigma }})} [4]
Многомерная нормальная с известной точностью матрицы Λμ (средний вектор)Многомерный нормальный μ 0 , Λ 0 {\displaystyle \mathbf {\boldsymbol {\mu }} _{0},\,{\boldsymbol {\Lambda }}_{0}} ( Λ 0 + n Λ ) 1 ( Λ 0 μ 0 + n Λ x ¯ ) , ( Λ 0 + n Λ ) {\displaystyle \left({\boldsymbol {\Lambda }}_{0}+n{\boldsymbol {\Lambda }}\right)^{-1}\left({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+n{\boldsymbol {\Lambda }}\mathbf {\bar {x}} \right),\,\left({\boldsymbol {\Lambda }}_{0}+n{\boldsymbol {\Lambda }}\right)}
  • x ¯ {\displaystyle \mathbf {\bar {x}} } это выборочное среднее
среднее значение было оценено на основе наблюдений с общей точностью (сумма всех индивидуальных точностей) и с выборочным средним Λ 0 {\displaystyle {\boldsymbol {\Lambda }}_{0}} μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}} N ( x ~ μ 0 , Λ 0 1 + Λ 1 ) {\displaystyle {\mathcal {N}}\left({\tilde {\mathbf {x} }}\mid {{\boldsymbol {\mu }}_{0}}',{{{\boldsymbol {\Lambda }}_{0}}'}^{-1}+{\boldsymbol {\Lambda }}^{-1}\right)} [4]
Многомерное нормальное с известным средним μΣ (ковариационная матрица)Обратный-Уишарт ν , Ψ {\displaystyle \nu ,\,{\boldsymbol {\Psi }}} n + ν , Ψ + i = 1 n ( x i μ ) ( x i μ ) T {\displaystyle n+\nu ,\,{\boldsymbol {\Psi }}+\sum _{i=1}^{n}(\mathbf {x_{i}} -{\boldsymbol {\mu }})(\mathbf {x_{i}} -{\boldsymbol {\mu }})^{T}} Ковариационная матрица была оценена из наблюдений с суммой произведений парных отклонений ν {\displaystyle \nu } Ψ {\displaystyle {\boldsymbol {\Psi }}} t ν p + 1 ( x ~ | μ , 1 ν p + 1 Ψ ) {\displaystyle t_{\nu '-p+1}\left({\tilde {\mathbf {x} }}|{\boldsymbol {\mu }},{\frac {1}{\nu '-p+1}}{\boldsymbol {\Psi }}'\right)} [4]
Многомерное нормальное с известным средним μΛ (матрица точности)Уишарт ν , V {\displaystyle \nu ,\,\mathbf {V} } n + ν , ( V 1 + i = 1 n ( x i μ ) ( x i μ ) T ) 1 {\displaystyle n+\nu ,\,\left(\mathbf {V} ^{-1}+\sum _{i=1}^{n}(\mathbf {x_{i}} -{\boldsymbol {\mu }})(\mathbf {x_{i}} -{\boldsymbol {\mu }})^{T}\right)^{-1}} Ковариационная матрица была оценена из наблюдений с суммой произведений парных отклонений ν {\displaystyle \nu } V 1 {\displaystyle \mathbf {V} ^{-1}} t ν p + 1 ( x ~ μ , 1 ν p + 1 V 1 ) {\displaystyle t_{\nu '-p+1}\left({\tilde {\mathbf {x} }}\mid {\boldsymbol {\mu }},{\frac {1}{\nu '-p+1}}{\mathbf {V} '}^{-1}\right)} [4]
Многомерный нормальныйμ (средний вектор) и Σ (ковариационная матрица)нормальный-обратный-Уишарт μ 0 , κ 0 , ν 0 , Ψ {\displaystyle {\boldsymbol {\mu }}_{0},\,\kappa _{0},\,\nu _{0},\,{\boldsymbol {\Psi }}} κ 0 μ 0 + n x ¯ κ 0 + n , κ 0 + n , ν 0 + n , {\displaystyle {\frac {\kappa _{0}{\boldsymbol {\mu }}_{0}+n\mathbf {\bar {x}} }{\kappa _{0}+n}},\,\kappa _{0}+n,\,\nu _{0}+n,\,}
Ψ + C + κ 0 n κ 0 + n ( x ¯ μ 0 ) ( x ¯ μ 0 ) T {\displaystyle {\boldsymbol {\Psi }}+\mathbf {C} +{\frac {\kappa _{0}n}{\kappa _{0}+n}}(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})^{T}}
  • x ¯ {\displaystyle \mathbf {\bar {x}} } это выборочное среднее
  • C = i = 1 n ( x i x ¯ ) ( x i x ¯ ) T {\displaystyle \mathbf {C} =\sum _{i=1}^{n}(\mathbf {x_{i}} -\mathbf {\bar {x}} )(\mathbf {x_{i}} -\mathbf {\bar {x}} )^{T}}
среднее значение оценивалось из наблюдений с помощью выборочного среднего ; ковариационная матрица оценивалась из наблюдений с помощью выборочного среднего и суммы произведений парных отклонений κ 0 {\displaystyle \kappa _{0}} μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}} ν 0 {\displaystyle \nu _{0}} μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}} Ψ = ν 0 Σ 0 {\displaystyle {\boldsymbol {\Psi }}=\nu _{0}{\boldsymbol {\Sigma }}_{0}} t ν 0 p + 1 ( x ~ | μ 0 , κ 0 + 1 κ 0 ( ν 0 p + 1 ) Ψ ) {\displaystyle t_{{\nu _{0}}'-p+1}\left({\tilde {\mathbf {x} }}|{{\boldsymbol {\mu }}_{0}}',{\frac {{\kappa _{0}}'+1}{{\kappa _{0}}'({\nu _{0}}'-p+1)}}{\boldsymbol {\Psi }}'\right)} [4]
Многомерный нормальныйμ (средний вектор) и Λ (матрица точности)нормальный-Уишарт μ 0 , κ 0 , ν 0 , V {\displaystyle {\boldsymbol {\mu }}_{0},\,\kappa _{0},\,\nu _{0},\,\mathbf {V} } κ 0 μ 0 + n x ¯ κ 0 + n , κ 0 + n , ν 0 + n , {\displaystyle {\frac {\kappa _{0}{\boldsymbol {\mu }}_{0}+n\mathbf {\bar {x}} }{\kappa _{0}+n}},\,\kappa _{0}+n,\,\nu _{0}+n,\,}
( V 1 + C + κ 0 n κ 0 + n ( x ¯ μ 0 ) ( x ¯ μ 0 ) T ) 1 {\displaystyle \left(\mathbf {V} ^{-1}+\mathbf {C} +{\frac {\kappa _{0}n}{\kappa _{0}+n}}(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})^{T}\right)^{-1}}
  • x ¯ {\displaystyle \mathbf {\bar {x}} } это выборочное среднее
  • C = i = 1 n ( x i x ¯ ) ( x i x ¯ ) T {\displaystyle \mathbf {C} =\sum _{i=1}^{n}(\mathbf {x_{i}} -\mathbf {\bar {x}} )(\mathbf {x_{i}} -\mathbf {\bar {x}} )^{T}}
среднее значение оценивалось из наблюдений с помощью выборочного среднего ; ковариационная матрица оценивалась из наблюдений с помощью выборочного среднего и суммы произведений парных отклонений κ 0 {\displaystyle \kappa _{0}} μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}} ν 0 {\displaystyle \nu _{0}} μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}} V 1 {\displaystyle \mathbf {V} ^{-1}} t ν 0 p + 1 ( x ~ μ 0 , κ 0 + 1 κ 0 ( ν 0 p + 1 ) V 1 ) {\displaystyle t_{{\nu _{0}}'-p+1}\left({\tilde {\mathbf {x} }}\mid {{\boldsymbol {\mu }}_{0}}',{\frac {{\kappa _{0}}'+1}{{\kappa _{0}}'({\nu _{0}}'-p+1)}}{\mathbf {V} '}^{-1}\right)} [4]
Униформа U ( 0 , θ ) {\displaystyle U(0,\theta )\!} Парето x m , k {\displaystyle x_{m},\,k\!} max { x 1 , , x n , x m } , k + n {\displaystyle \max\{\,x_{1},\ldots ,x_{n},x_{\mathrm {m} }\},\,k+n\!} k {\displaystyle k} наблюдения с максимальным значением x m {\displaystyle x_{m}}
Парето
с известным минимумом x m
к (форма)Гамма α , β {\displaystyle \alpha ,\,\beta \!} α + n , β + i = 1 n ln x i x m {\displaystyle \alpha +n,\,\beta +\sum _{i=1}^{n}\ln {\frac {x_{i}}{x_{\mathrm {m} }}}\!} α {\displaystyle \alpha } наблюдения с суммой порядка величины каждого наблюдения (т.е. логарифмом отношения каждого наблюдения к минимуму ) β {\displaystyle \beta } x m {\displaystyle x_{m}}
Вейбулл
с известной формой β
θ (масштаб)Обратная гамма [3] a , b {\displaystyle a,b\!} a + n , b + i = 1 n x i β {\displaystyle a+n,\,b+\sum _{i=1}^{n}x_{i}^{\beta }\!} a {\displaystyle a} наблюдения с суммой β' степени каждого наблюдения b {\displaystyle b}
ЛогнормальныйТо же самое, что и для нормального распределения после применения натурального логарифма к данным для апостериорных гиперпараметров. Пожалуйста, обратитесь к Fink (1997, стр. 21–22), чтобы увидеть подробности.
Экспоненциальныйλ (скорость)Гамма α , β {\displaystyle \alpha ,\,\beta \!} [примечание 4] α + n , β + i = 1 n x i {\displaystyle \alpha +n,\,\beta +\sum _{i=1}^{n}x_{i}\!} α {\displaystyle \alpha } наблюдения, которые в сумме дают [5] β {\displaystyle \beta } Lomax ( x ~ β , α ) {\displaystyle \operatorname {Lomax} ({\tilde {x}}\mid \beta ',\alpha ')}
( Распределение Ломакса )
Гамма
с известной формой α
β (скорость)Гамма α 0 , β 0 {\displaystyle \alpha _{0},\,\beta _{0}\!} α 0 + n α , β 0 + i = 1 n x i {\displaystyle \alpha _{0}+n\alpha ,\,\beta _{0}+\sum _{i=1}^{n}x_{i}\!} α 0 / α {\displaystyle \alpha _{0}/\alpha } наблюдения с суммой β 0 {\displaystyle \beta _{0}} CG ( x ~ α , α 0 , β 0 ) = β ( x ~ | α , α 0 , 1 , β 0 ) {\displaystyle \operatorname {CG} ({\tilde {\mathbf {x} }}\mid \alpha ,{\alpha _{0}}',{\beta _{0}}')=\operatorname {\beta '} ({\tilde {\mathbf {x} }}|\alpha ,{\alpha _{0}}',1,{\beta _{0}}')} [примечание 8]
Обратная гамма
с известной формой α
β (обратная шкала)Гамма α 0 , β 0 {\displaystyle \alpha _{0},\,\beta _{0}\!} α 0 + n α , β 0 + i = 1 n 1 x i {\displaystyle \alpha _{0}+n\alpha ,\,\beta _{0}+\sum _{i=1}^{n}{\frac {1}{x_{i}}}\!} α 0 / α {\displaystyle \alpha _{0}/\alpha } наблюдения с суммой β 0 {\displaystyle \beta _{0}}
Гамма
с известной скоростью β
α (форма) a α 1 β α c Γ ( α ) b {\displaystyle \propto {\frac {a^{\alpha -1}\beta ^{\alpha c}}{\Gamma (\alpha )^{b}}}} a , b , c {\displaystyle a,\,b,\,c\!} a i = 1 n x i , b + n , c + n {\displaystyle a\prod _{i=1}^{n}x_{i},\,b+n,\,c+n\!} b {\displaystyle b} или наблюдения ( для оценки , для оценки ) с произведением c {\displaystyle c} b {\displaystyle b} α {\displaystyle \alpha } c {\displaystyle c} β {\displaystyle \beta } a {\displaystyle a}
Гамма [3]α (форма), β (обратный масштаб) p α 1 e β q Γ ( α ) r β α s {\displaystyle \propto {\frac {p^{\alpha -1}e^{-\beta q}}{\Gamma (\alpha )^{r}\beta ^{-\alpha s}}}} p , q , r , s {\displaystyle p,\,q,\,r,\,s\!} p i = 1 n x i , q + i = 1 n x i , r + n , s + n {\displaystyle p\prod _{i=1}^{n}x_{i},\,q+\sum _{i=1}^{n}x_{i},\,r+n,\,s+n\!} α {\displaystyle \alpha } оценивалось по наблюдениям с произведением ; оценивалось по наблюдениям с суммой r {\displaystyle r} p {\displaystyle p} β {\displaystyle \beta } s {\displaystyle s} q {\displaystyle q}
Бетаα , β Γ ( α + β ) k p α q β Γ ( α ) k Γ ( β ) k {\displaystyle \propto {\frac {\Gamma (\alpha +\beta )^{k}\,p^{\alpha }\,q^{\beta }}{\Gamma (\alpha )^{k}\,\Gamma (\beta )^{k}}}} p , q , k {\displaystyle p,\,q,\,k\!} p i = 1 n x i , q i = 1 n ( 1 x i ) , k + n {\displaystyle p\prod _{i=1}^{n}x_{i},\,q\prod _{i=1}^{n}(1-x_{i}),\,k+n\!} α {\displaystyle \alpha } и были оценены из наблюдений с произведением и произведением комплементов β {\displaystyle \beta } k {\displaystyle k} p {\displaystyle p} q {\displaystyle q}

Смотрите также

Примечания

  1. ^ ab Обозначается теми же символами, что и предыдущие гиперпараметры, с добавлением штрихов ('). Например, обозначается α {\displaystyle \alpha } α {\displaystyle \alpha '}
  2. ^ Это апостериорное предсказательное распределение новой точки данных с учетом наблюдаемых точек данных, с параметрами, выведенными за пределы . Переменные со штрихами указывают апостериорные значения параметров. x ~ {\displaystyle {\tilde {x}}}
  3. ^ abcdefg Точная интерпретация параметров бета-распределения в терминах количества успехов и неудач зависит от того, какая функция используется для извлечения точечной оценки из распределения. Среднее значение бета-распределения — это , что соответствует успехам и неудачам, в то время как мода — это , что соответствует успехам и неудачам. Байесовцы обычно предпочитают использовать апостериорное среднее, а не апостериорную моду в качестве точечной оценки, что оправдано квадратичной функцией потерь, а использование и более удобно с математической точки зрения, в то время как использование и имеет то преимущество, что равномерная априорная вероятность соответствует 0 успехов и 0 неудач. Те же проблемы применимы к распределению Дирихле . α α + β , {\displaystyle {\frac {\alpha }{\alpha +\beta }},} α {\displaystyle \alpha } β {\displaystyle \beta } α 1 α + β 2 , {\displaystyle {\frac {\alpha -1}{\alpha +\beta -2}},} α 1 {\displaystyle \alpha -1} β 1 {\displaystyle \beta -1} α {\displaystyle \alpha } β {\displaystyle \beta } α 1 {\displaystyle \alpha -1} β 1 {\displaystyle \beta -1} B e t a ( 1 , 1 ) {\displaystyle {\rm {Beta}}(1,1)}
  4. ^ abc β — скорость или обратная шкала. При параметризации гамма - распределения θ = 1/ β и k = α .
  5. ^ Это апостериорное предсказательное распределение новой точки данных с учетом наблюдаемых точек данных, с параметрами, исключенными из рассмотрения . Переменные со штрихами указывают апостериорные значения параметров. и относятся к нормальному распределению и распределению Стьюдента , соответственно, или к многомерному нормальному распределению и многомерному распределению Стьюдента в многомерных случаях. x ~ {\displaystyle {\tilde {x}}} N {\displaystyle {\mathcal {N}}} t n {\displaystyle t_{n}}
  6. ^ В терминах обратной гаммы , является параметром масштаба β {\displaystyle \beta }
  7. ^ Другое сопряженное априорное распределение для неизвестных среднего значения и дисперсии, но с фиксированной линейной связью между ними, обнаружено в нормальной дисперсионно-средней смеси с обобщенным обратным гауссовым распределением в качестве сопряженного смешивания.
  8. ^ — это составное гамма-распределение ; здесь — обобщенное бета-простое распределение . CG ( ) {\displaystyle \operatorname {CG} ()} β ( ) {\displaystyle \operatorname {\beta '} ()}

Ссылки

  1. ^ Говард Райффа и Роберт Шлайфер . Прикладная статистическая теория принятия решений . Отдел исследований, Высшая школа делового администрирования, Гарвардский университет, 1961.
  2. ^ Джефф Миллер и др. Самые ранние известные применения некоторых слов математики, «сопряженные априорные распределения». Электронный документ, редакция от 13 ноября 2005 г., извлечено 2 декабря 2005 г.
  3. ^ abc Fink, Daniel (1997). "A Compendium of Conjugate Priors" (PDF) . CiteSeerX  10.1.1.157.5540 . Архивировано из оригинала (PDF) 29 мая 2009 г.
  4. ^ abcdefghijklm Мерфи, Кевин П. (2007), Сопряженный байесовский анализ гауссовского распределения (PDF)
  5. ^ Лю, Хан; Вассерман, Ларри (2014). Статистическое машинное обучение (PDF) . стр. 314.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Conjugate_prior&oldid=1255124478"