Эмпирический метод Байеса

Байесовский метод статистического вывода, в котором априорное распределение оценивается на основе данных

Эмпирические байесовские методы — это процедуры статистического вывода , в которых априорное распределение вероятностей оценивается на основе данных. Этот подход отличается от стандартных байесовских методов , в которых априорное распределение фиксируется до того, как будут получены какие-либо данные. Несмотря на эту разницу в перспективах, эмпирический байесовский метод можно рассматривать как приближение к полностью байесовскому подходу к иерархической модели , в котором параметры на самом высоком уровне иерархии устанавливаются в соответствии с их наиболее вероятными значениями, а не интегрируются. [1] Эмпирический байесовский метод, также известный как метод максимального предельного правдоподобия , [2] представляет собой удобный подход к установке гиперпараметров , но с 2000-х годов был в основном вытеснен полностью байесовским иерархическим анализом с ростом доступности высокопроизводительных вычислительных методов. Однако он по-прежнему широко используется для вариационных методов в глубоком обучении, таких как вариационные автокодировщики , где скрытые переменные пространства являются высокоразмерными.

Введение

Эмпирические байесовские методы можно рассматривать как приближение к полностью байесовской трактовке иерархической байесовской модели .

Например, в двухэтапной иерархической байесовской модели предполагается, что наблюдаемые данные генерируются из ненаблюдаемого набора параметров в соответствии с распределением вероятностей . В свою очередь, параметры можно считать выборками, взятыми из популяции, характеризуемой гиперпараметрами в соответствии с распределением вероятностей . В иерархической байесовской модели, хотя и не в эмпирическом байесовском приближении, гиперпараметры считаются взятыми из непараметризованного распределения . y = { y 1 , y 2 , , y n } {\displaystyle y=\{y_{1},y_{2},\dots ,y_{n}\}} θ = { θ 1 , θ 2 , , θ n } {\displaystyle \theta =\{\theta _{1},\theta _{2},\dots ,\theta _{n}\}} p ( y θ ) {\displaystyle p(y\mid \theta )\,} θ {\displaystyle \theta } η {\displaystyle \eta \,} p ( θ η ) {\displaystyle p(\theta \mid \eta )\,} η {\displaystyle \eta \,} p ( η ) {\displaystyle p(\eta )\,}

Таким образом, информация о конкретной интересующей величине исходит не только из свойств тех данных , которые напрямую от нее зависят, но и из свойств совокупности параметров в целом, выведенных из данных в целом, обобщенных с помощью гиперпараметров . θ i {\displaystyle \theta _{i}\;} y {\displaystyle y} θ {\displaystyle \theta \;} η {\displaystyle \eta \;}

Используя теорему Байеса ,

p ( θ y ) = p ( y θ ) p ( θ ) p ( y ) = p ( y θ ) p ( y ) p ( θ η ) p ( η ) d η . {\displaystyle p(\theta \mid y)={\frac {p(y\mid \theta )p(\theta )}{p(y)}}={\frac {p(y\mid \theta )}{p(y)}}\int p(\theta \mid \eta )p(\eta )\,d\eta \,.}

В общем случае этот интеграл не поддается аналитическому или символическому анализу и должен быть оценен численными методами. Можно использовать стохастические (случайные) или детерминированные приближения. Примерами стохастических методов являются Монте-Карло с цепями Маркова и выборка Монте-Карло . Детерминированные приближения обсуждаются в квадратуре .

Альтернативно выражение можно записать как

p ( θ y ) = p ( θ η , y ) p ( η y ) d η = p ( y θ ) p ( θ η ) p ( y η ) p ( η y ) d η , {\displaystyle p(\theta \mid y)=\int p(\theta \mid \eta ,y)p(\eta \mid y)\;d\eta =\int {\frac {p(y\mid \theta )p(\theta \mid \eta )}{p(y\mid \eta )}}p(\eta \mid y)\;d\eta \,,}

а последний множитель в интеграле, в свою очередь, может быть выражен как

p ( η y ) = p ( η θ ) p ( θ y ) d θ . {\displaystyle p(\eta \mid y)=\int p(\eta \mid \theta )p(\theta \mid y)\;d\theta .}

Они предлагают итеративную схему, качественно похожую по структуре на сэмплер Гиббса , для последовательного улучшения приближений к и . Сначала вычислите начальное приближение к полностью игнорируя зависимость; затем вычислите приближение к на основе начального приближенного распределения ; затем используйте это для обновления приближения для ; затем обновите ; и так далее. p ( θ y ) {\displaystyle p(\theta \mid y)\;} p ( η y ) {\displaystyle p(\eta \mid y)\;} p ( θ y ) {\displaystyle p(\theta \mid y)\;} η {\displaystyle \eta } p ( η y ) {\displaystyle p(\eta \mid y)\;} p ( θ y ) {\displaystyle p(\theta \mid y)\;} p ( η y ) {\displaystyle p(\eta \mid y)\;} p ( θ y ) {\displaystyle p(\theta \mid y)\;} p ( η y ) {\displaystyle p(\eta \mid y)\;}

Когда истинное распределение имеет острый пик, определение интеграла может быть не сильно изменено путем замены распределения вероятностей точечной оценкой, представляющей пик распределения (или, альтернативно, его среднее значение), p ( η y ) {\displaystyle p(\eta \mid y)\;} p ( θ y ) {\displaystyle p(\theta \mid y)\;} η {\displaystyle \eta \;} η {\displaystyle \eta ^{*}\;}

p ( θ y ) p ( y θ ) p ( θ η ) p ( y η ) . {\displaystyle p(\theta \mid y)\simeq {\frac {p(y\mid \theta )\;p(\theta \mid \eta ^{*})}{p(y\mid \eta ^{*})}}\,.}

При таком приближении вышеприведенная итерационная схема становится алгоритмом EM .

Термин «Эмпирический Байес» может охватывать широкий спектр методов, но большинство из них можно рассматривать как раннее усечение либо вышеприведенной схемы, либо чего-то похожего. Для параметра(ов) обычно используются точечные оценки, а не все распределение . Оценки для обычно производятся от первого приближения до без последующего уточнения. Эти оценки для обычно производятся без учета соответствующего предварительного распределения для . η {\displaystyle \eta \;} η {\displaystyle \eta ^{*}\;} p ( θ y ) {\displaystyle p(\theta \mid y)\;} η {\displaystyle \eta ^{*}\;} η {\displaystyle \eta }

Оценка точки

Метод Роббинса: непараметрический эмпирический байесовский (NPEB)

Роббинс [3] рассмотрел случай выборки из смешанного распределения , где вероятность для каждого (условная на ) задается распределением Пуассона , y i {\displaystyle y_{i}} θ i {\displaystyle \theta _{i}}

p ( y i θ i ) = θ i y i e θ i y i ! {\displaystyle p(y_{i}\mid \theta _{i})={{\theta _{i}}^{y_{i}}e^{-\theta _{i}} \over {y_{i}}!}}

в то время как априорная вероятность θ не указана, за исключением того, что она также является независимой идентификацией из неизвестного распределения с кумулятивной функцией распределения . Составная выборка возникает в различных задачах статистической оценки, таких как показатели аварийности и клинические испытания. [ необходима цитата ] Мы просто ищем точечный прогноз для всех наблюдаемых данных. Поскольку априорная вероятность не указана, мы пытаемся сделать это без знания G . [4] G ( θ ) {\displaystyle G(\theta )} θ i {\displaystyle \theta _{i}}

При квадратичной ошибке потери (SEL) условное ожидание E( θ i  |  Y i  =  y i ) является разумной величиной для использования в прогнозировании. Для модели составной выборки Пуассона эта величина равна

E ( θ i y i ) = ( θ y i + 1 e θ / y i ! ) d G ( θ ) ( θ y i e θ / y i ! ) d G ( θ ) . {\displaystyle \operatorname {E} (\theta _{i}\mid y_{i})={\int (\theta ^{y_{i}+1}e^{-\theta }/{y_{i}}!)\,dG(\theta ) \over {\int (\theta ^{y_{i}}e^{-\theta }/{y_{i}}!)\,dG(\theta })}.}

Это можно упростить, умножив числитель и знаменатель на , получив ( y i + 1 ) {\displaystyle ({y_{i}}+1)}

E ( θ i y i ) = ( y i + 1 ) p G ( y i + 1 ) p G ( y i ) , {\displaystyle \operatorname {E} (\theta _{i}\mid y_{i})={{(y_{i}+1)p_{G}(y_{i}+1)} \over {p_{G}(y_{i})}},}

где p G — это функция предельной вероятности массы , полученная путем интегрирования θ по G.

Чтобы воспользоваться этим, Роббинс [3] предложил оценивать маргинальные значения с помощью их эмпирических частот ( ), получая полностью непараметрическую оценку как: # { Y j } {\displaystyle \#\{Y_{j}\}}

E ( θ i y i ) ( y i + 1 ) # { Y j = y i + 1 } # { Y j = y i } , {\displaystyle \operatorname {E} (\theta _{i}\mid y_{i})\approx (y_{i}+1){{\#\{Y_{j}=y_{i}+1\}} \over {\#\{Y_{j}=y_{i}\}}},}

где обозначает «количество». (См. также оценку частоты Гуда–Тьюринга .) # {\displaystyle \#}

Пример – Показатели аварийности

Предположим, что каждый клиент страховой компании имеет «уровень аварийности» Θ и застрахован от аварий; распределение вероятностей Θ является базовым распределением и неизвестно. Количество аварий, полученных каждым клиентом за указанный период времени, имеет распределение Пуассона с ожидаемым значением, равным уровню аварийности конкретного клиента. Фактическое количество аварий, полученных клиентом, является наблюдаемой величиной. Грубый способ оценки базового распределения вероятностей уровня аварийности Θ заключается в оценке доли членов всего населения, пострадавших от 0, 1, 2, 3, ... аварий за указанный период времени, как соответствующей доли в наблюдаемой случайной выборке. Сделав это, затем желательно спрогнозировать уровень аварийности каждого клиента в выборке. Как и выше, можно использовать условное ожидаемое значение уровня аварийности Θ, учитывая наблюдаемое количество аварий за базовый период. Таким образом, если клиент пострадал в шести несчастных случаях в течение базового периода, предполагаемый уровень несчастных случаев этого клиента составляет 7 × [доля выборки, пострадавшая в 7 несчастных случаях] / [доля выборки, пострадавшая в 6 несчастных случаях]. Обратите внимание, что если доля людей, пострадавших в k несчастных случаях, является убывающей функцией k , прогнозируемый уровень несчастных случаев клиента часто будет ниже, чем наблюдаемое количество несчастных случаев.

Этот эффект сжатия типичен для эмпирического байесовского анализа.

Параметрический эмпирический байесовский

Если правдоподобие и его априорная вероятность принимают простые параметрические формы (например, одномерные или двумерные функции правдоподобия с простыми сопряженными априорными вероятностями ), то эмпирическая байесовская проблема заключается только в оценке маргинальных и гиперпараметров с использованием полного набора эмпирических измерений. Например, один из распространенных подходов, называемый параметрической эмпирической байесовской точечной оценкой, заключается в аппроксимации маргинальных вероятностей с использованием оценки максимального правдоподобия (MLE) или разложения моментов , что позволяет выразить гиперпараметры в терминах эмпирического среднего и дисперсии. Эта упрощенная маргинальная вероятность позволяет включить эмпирические средние в точечную оценку для априорной вероятности . Полученное уравнение для априорной вероятности значительно упрощается, как показано ниже. m ( y η ) {\displaystyle m(y\mid \eta )} η {\displaystyle \eta } η {\displaystyle \eta } θ {\displaystyle \theta } θ {\displaystyle \theta }

Существует несколько общих параметрических эмпирических байесовских моделей, включая модель Пуассона–гамма (ниже), бета-биномиальную модель , модель Гаусса–Гаусса, модель Дирихле-мультиномиала , а также специальные модели для байесовской линейной регрессии (см. ниже) и байесовской многомерной линейной регрессии . Более продвинутые подходы включают иерархические байесовские модели и модели байесовской смеси.

Гауссово–Гауссовская модель

Пример эмпирической байесовской оценки с использованием гауссово-гауссовой модели см. в разделе Эмпирические байесовские оценки .

Модель Пуассона–гамма

Например, в приведенном выше примере пусть вероятность будет распределением Пуассона , а априорная вероятность теперь будет задана сопряженной априорной вероятностью , которая является гамма-распределением ( ) (где ): G ( α , β ) {\displaystyle G(\alpha ,\beta )} η = ( α , β ) {\displaystyle \eta =(\alpha ,\beta )}

ρ ( θ α , β ) d θ = ( θ / β ) α 1 e θ / β Γ ( α ) ( d θ / β )  for  θ > 0 , α > 0 , β > 0 . {\displaystyle \rho (\theta \mid \alpha ,\beta )\,d\theta ={\frac {(\theta /\beta )^{\alpha -1}\,e^{-\theta /\beta }}{\Gamma (\alpha )}}\,(d\theta /\beta ){\text{ for }}\theta >0,\alpha >0,\beta >0\,\!.}

Легко показать, что апостериорное распределение также является гамма-распределением. Запишите

ρ ( θ y ) ρ ( y θ ) ρ ( θ α , β ) , {\displaystyle \rho (\theta \mid y)\propto \rho (y\mid \theta )\rho (\theta \mid \alpha ,\beta ),}

где предельное распределение было опущено, поскольку оно не зависит явно от . Разложение членов, которые зависят от , дает апостериорную функцию как: θ {\displaystyle \theta } θ {\displaystyle \theta }

ρ ( θ y ) ( θ y e θ ) ( θ α 1 e θ / β ) = θ y + α 1 e θ ( 1 + 1 / β ) . {\displaystyle \rho (\theta \mid y)\propto (\theta ^{y}\,e^{-\theta })(\theta ^{\alpha -1}\,e^{-\theta /\beta })=\theta ^{y+\alpha -1}\,e^{-\theta (1+1/\beta )}.}

Таким образом, апостериорная плотность также является гамма-распределением , где , и . Также обратите внимание, что маргинальная плотность является просто интегралом апостериорной плотности по всем , что оказывается отрицательным биномиальным распределением . G ( α , β ) {\displaystyle G(\alpha ',\beta ')} α = y + α {\displaystyle \alpha '=y+\alpha } β = ( 1 + 1 / β ) 1 {\displaystyle \beta '=(1+1/\beta )^{-1}} Θ {\displaystyle \Theta }

Чтобы применить эмпирический Байес, мы аппроксимируем маргинальную величину с помощью оценки максимального правдоподобия (MLE). Но поскольку апостериорная величина является гамма-распределением, MLE маргинальной величины оказывается просто средним апостериорной величины, что и является нужной нам точечной оценкой. Вспоминая, что среднее значение гамма-распределения просто , мы имеем E ( θ y ) {\displaystyle \operatorname {E} (\theta \mid y)} μ {\displaystyle \mu } G ( α , β ) {\displaystyle G(\alpha ',\beta ')} α β {\displaystyle \alpha '\beta '}

E ( θ y ) = α β = y ¯ + α 1 + 1 / β = β 1 + β y ¯ + 1 1 + β ( α β ) . {\displaystyle \operatorname {E} (\theta \mid y)=\alpha '\beta '={\frac {{\bar {y}}+\alpha }{1+1/\beta }}={\frac {\beta }{1+\beta }}{\bar {y}}+{\frac {1}{1+\beta }}(\alpha \beta ).}

Для получения значений и эмпирический Байес предписывает оценивать среднее значение и дисперсию, используя полный набор эмпирических данных. α {\displaystyle \alpha } β {\displaystyle \beta } α β {\displaystyle \alpha \beta } α β 2 {\displaystyle \alpha \beta ^{2}}

Результирующая точечная оценка , таким образом, похожа на средневзвешенное значение выборочного среднего и априорного среднего . Это оказывается общей чертой эмпирического Байеса; точечные оценки для априорного (т.е. среднего) будут выглядеть как средневзвешенные значения выборочной оценки и априорной оценки (аналогично для оценок дисперсии). E ( θ y ) {\displaystyle \operatorname {E} (\theta \mid y)} y ¯ {\displaystyle {\bar {y}}} μ = α β {\displaystyle \mu =\alpha \beta }

Смотрите также

Ссылки

  1. ^ Карлин, Брэдли П.; Луис, Томас А. (2002). «Эмпирический Байес: прошлое, настоящее и будущее». В Рафтери, Адриан Э.; Таннер, Мартин А.; Уэллс, Мартин Т. (ред.). Статистика в 21 веке . Чапман и Холл. стр. 312–318. ISBN 1-58488-272-7.
  2. ^ CM Bishop (2005). Нейронные сети для распознавания образов . Oxford University Press ISBN 0-19-853864-2 
  3. ^ ab Robbins, Herbert (1956). "Эмпирический байесовский подход к статистике". Труды Третьего симпозиума в Беркли по математической статистике и вероятности, том 1: Вклад в теорию статистики . Springer Series in Statistics: 157–163. doi :10.1007/978-1-4612-0919-5_26. ISBN 978-0-387-94037-3. МР  0084919.
  4. ^ Карлин, Брэдли П.; Луис, Томас А. (2000). Байес и эмпирические байесовские методы анализа данных (2-е изд.). Chapman & Hall/CRC. стр. Раздел 3.2 и Приложение B. ISBN 978-1-58488-170-4.

Дальнейшее чтение

  • Питер Э. Росси; Грег М. Алленби; Роб Маккалок (14 мая 2012 г.). Байесовская статистика и маркетинг. John Wiley & Sons. ISBN 978-0-470-86368-8.
  • Казелла, Джордж (май 1985 г.). «Введение в эмпирический байесовский анализ данных» (PDF) . American Statistician . 39 (2): 83–87. doi :10.2307/2682801. hdl : 1813/32886 . JSTOR  2682801. MR  0789118.
  • Никулин, Михаил (1987). «Условия регулярности Бернштейна в задаче эмпирического байесовского подхода». Журнал советской математики . 36 (5): 596–600. doi : 10.1007/BF01093293 . S2CID  122405908.
  • Использование эмпирического метода Байеса для оценки безопасности дорожного движения (Северная Америка)
  • Эмпирические байесовские методы анализа пропущенных данных
  • Использование бета-биномиального распределения для оценки эффективности биометрического идентификационного устройства
  • Иерархические наивные байесовские классификаторы (для непрерывных и дискретных переменных).
Retrieved from "https://en.wikipedia.org/w/index.php?title=Empirical_Bayes_method&oldid=1249522930"