Часть серии статей о |
Байесовская статистика |
---|
Апостериор = Вероятность × Априор ÷ Доказательства |
Фон |
Модельное строительство |
|
Апостериорное приближение |
Оценщики |
Приближение доказательств |
Оценка модели |
В байесовской теории вероятностей, если при заданной функции правдоподобия апостериорное распределение находится в том же семействе распределений вероятностей , что и априорное распределение вероятностей , то априорное и апостериорное распределения называются сопряженными распределениями относительно этой функции правдоподобия, а априорное распределение называется сопряженным априорным для функции правдоподобия .
Сопряженное априорное распределение является алгебраическим удобством, давая замкнутое выражение для апостериорного распределения; в противном случае может потребоваться численное интегрирование . Кроме того, сопряженные априорные распределения могут давать интуицию, более прозрачно показывая, как функция правдоподобия обновляет априорное распределение.
Понятие, а также термин «сопряженное априорное распределение» были введены Говардом Райффой и Робертом Шлайфером в их работе по байесовской теории принятия решений . [1] Подобная концепция была независимо открыта Джорджем Альфредом Барнардом . [2]
Форма сопряженного априорного распределения обычно может быть определена путем проверки плотности вероятности или функции массы вероятности распределения. Например, рассмотрим случайную величину , которая состоит из числа успехов в испытаниях Бернулли с неизвестной вероятностью успеха в [0,1]. Эта случайная величина будет следовать биномиальному распределению с функцией массы вероятности вида
Обычным сопряженным априорным распределением является бета-распределение с параметрами ( , ):
где и выбраны так, чтобы отражать любое существующее убеждение или информацию ( и давали бы равномерное распределение ), а — бета-функция, действующая как нормирующая константа .
В этом контексте и называются гиперпараметрами (параметрами априорной вероятности), чтобы отличать их от параметров базовой модели (здесь ). Типичной характеристикой сопряженных априорных вероятностей является то, что размерность гиперпараметров на единицу больше, чем размерность параметров исходного распределения. Если все параметры являются скалярными значениями, то гиперпараметров будет на один больше, чем параметров; но это также применимо к векторно-значным и матрично-значным параметрам. (См. общую статью об экспоненциальном семействе , а также рассмотрим распределение Уишарта , сопряженное априорное распределение ковариационной матрицы многомерного нормального распределения , для примера, где задействована большая размерность.)
Если мы выберем эту случайную величину и получим успехи и неудачи, то у нас будет
что является другим распределением Бета с параметрами . Это апостериорное распределение затем может быть использовано в качестве априорного для большего количества образцов, при этом гиперпараметры просто добавляют каждую дополнительную часть информации по мере ее поступления.
Часто бывает полезно думать о гиперпараметрах сопряженного априорного распределения, соответствующих наблюдению определенного количества псевдонаблюдений со свойствами, указанными параметрами. Например, значения и бета -распределения можно рассматривать как соответствующие успехам и неудачам, если апостериорная мода используется для выбора оптимальной настройки параметров, или успехам и неудачам, если апостериорное среднее используется для выбора оптимальной настройки параметров. В общем, почти для всех сопряженных априорных распределений гиперпараметры можно интерпретировать в терминах псевдонаблюдений. Это может помочь обеспечить интуицию, стоящую за часто запутанными уравнениями обновления, и помочь выбрать разумные гиперпараметры для априорного распределения.
Можно думать об обусловленности на сопряженных априорных данных как об определении своего рода (дискретной по времени) динамической системы : из заданного набора гиперпараметров входящие данные обновляют эти гиперпараметры, поэтому можно рассматривать изменение гиперпараметров как своего рода «эволюцию во времени» системы, соответствующую «обучению». Старт в разных точках дает разные потоки с течением времени. Это снова аналогично динамической системе, определяемой линейным оператором, но обратите внимание, что поскольку разные образцы приводят к разным выводам, это зависит не просто от времени, а от данных с течением времени. Для связанных подходов см. Рекурсивная байесовская оценка и Усваивание данных .
Предположим, что в вашем городе работает служба проката автомобилей. Водители могут сдавать и забирать автомобили в любом месте в черте города. Вы можете найти и арендовать автомобили с помощью приложения.
Предположим, вы хотите найти вероятность того, что вы сможете найти арендованный автомобиль в пределах короткой дистанции от вашего домашнего адреса в любое время суток.
В течение трех дней вы заходите в приложение и обнаруживаете следующее количество автомобилей в непосредственной близости от вашего домашнего адреса:
Предположим, мы предполагаем, что данные получены из распределения Пуассона . В этом случае мы можем вычислить оценку максимального правдоподобия параметров модели, которая равна Используя эту оценку максимального правдоподобия, мы можем вычислить вероятность того, что в определенный день будет доступна хотя бы одна машина:
Это распределение Пуассона, которое с наибольшей вероятностью сгенерировало наблюдаемые данные . Но данные также могли быть получены из другого распределения Пуассона, например, с , или и т. д. Фактически, существует бесконечное количество распределений Пуассона, которые могли сгенерировать наблюдаемые данные. При относительно небольшом количестве точек данных мы должны быть совершенно не уверены в том, какое именно распределение Пуассона сгенерировало эти данные. Интуитивно мы должны вместо этого взять средневзвешенное значение вероятности для каждого из этих распределений Пуассона, взвешенное по тому, насколько вероятно каждое из них, учитывая наблюдаемые нами данные .
Обычно эта величина известна как апостериорное предсказательное распределение , где — новая точка данных, — наблюдаемые данные, а — параметры модели. Используя теорему Байеса, мы можем расширить , следовательно , Обычно этот интеграл трудно вычислить. Однако, если выбрать сопряженное априорное распределение , можно вывести выражение в замкнутой форме. Это апостериорный предсказательный столбец в таблицах ниже.
Возвращаясь к нашему примеру, если мы выберем гамма-распределение в качестве нашего априорного распределения по скорости распределения Пуассона, то апостериорным предсказателем будет отрицательное биномиальное распределение , как видно из таблицы ниже. Гамма-распределение параметризуется двумя гиперпараметрами , которые нам нужно выбрать. Рассматривая графики гамма-распределения, мы выбираем , что, по-видимому, является разумным априорным значением для среднего числа автомобилей. Выбор априорных гиперпараметров по своей сути субъективен и основан на априорных знаниях.
Учитывая априорные гиперпараметры , мы можем вычислить апостериорные гиперпараметры и
Учитывая апостериорные гиперпараметры, мы можем, наконец, вычислить апостериорный прогноз
Эта гораздо более консервативная оценка отражает неопределенность параметров модели, которую учитывает апостериорное прогнозирование.
Пусть n обозначает число наблюдений. Во всех случаях ниже предполагается, что данные состоят из n точек (которые будут случайными векторами в многомерных случаях).
Если функция правдоподобия принадлежит к экспоненциальному семейству , то существует сопряженное априорное распределение, часто также в экспоненциальном семействе; см. Экспоненциальное семейство: Сопряженные распределения .
This section needs additional citations for verification. (August 2020) |
Вероятность | Параметры модели | Сопряженное априорное (и апостериорное) распределение | Предыдущие гиперпараметры | Апостериорные гиперпараметры [примечание 1] | Интерпретация гиперпараметров | Апостериорный предиктивный [примечание 2] |
---|---|---|---|---|---|---|
Бернулли | р (вероятность) | Бета | успехи, неудачи [примечание 3] | ( Бернулли ) | ||
Биномиальная с известным числом испытаний, м | р (вероятность) | Бета | успехи, неудачи [примечание 3] | ( бета-биномиальный ) | ||
Отрицательный бином с известным числом отказов, r | р (вероятность) | Бета | общие успехи, неудачи [примечание 3] (т.е. эксперименты, предполагающие, что все остается неизменным) | |||
Пуассон | λ (скорость) | Гамма | общее количество появлений в интервалах | ( отрицательный бином ) | ||
[примечание 4] | общее количество появлений в интервалах | ( отрицательный бином ) | ||||
Категорический | p (вектор вероятности), k (количество категорий; т.е. размер p ) | Дирихле | где - число наблюдений в категории i | случаи категории [примечание 3] | ( категорический ) | |
Многочлен | p (вектор вероятности), k (количество категорий; т.е. размер p ) | Дирихле | случаи категории [примечание 3] | ( Дирихле-мультиномиал ) | ||
Гипергеометрический с известной общей численностью населения, N | M (количество целевых членов) | Бета-биномиальный [3] | успехи, неудачи [примечание 3] | |||
Геометрический | р 0 (вероятность) | Бета | эксперименты, полный провал [примечание 3] |
Вероятность | Параметры модели | Сопряженное априорное (и апостериорное) распределение | Предыдущие гиперпараметры | Апостериорные гиперпараметры [примечание 1] | Интерпретация гиперпараметров | Апостериорный предиктивный [примечание 5] |
---|---|---|---|---|---|---|
Нормальный с известной дисперсией σ 2 | μ (среднее) | Нормальный | среднее значение было оценено на основе наблюдений с общей точностью (сумма всех индивидуальных точностей) и с выборочным средним | [4] | ||
Нормаль с известной точностью τ | μ (среднее) | Нормальный | среднее значение было оценено на основе наблюдений с общей точностью (сумма всех индивидуальных точностей) и с выборочным средним | [4] | ||
Нормальный с известным средним μ | σ 2 (дисперсия) | Обратная гамма | [примечание 6] | Дисперсия оценивалась на основе наблюдений с выборочной дисперсией (т.е. с суммой квадратов отклонений , где отклонения от известного среднего значения ) | [4] | |
Нормальный с известным средним μ | σ 2 (дисперсия) | Масштабированный обратный хи-квадрат | дисперсия оценивалась на основе наблюдений с выборочной дисперсией | [4] | ||
Нормальный с известным средним μ | τ (точность) | Гамма | [примечание 4] | Точность оценивалась на основе наблюдений с выборочной дисперсией (т.е. с суммой квадратов отклонений , где отклонения от известного среднего значения ) | [4] | |
Нормально [примечание 7] | μ и σ 2 Предполагая взаимозаменяемость | Нормально-обратная гамма |
| среднее значение оценивалось по наблюдениям с выборочным средним ; дисперсия оценивалась по наблюдениям с выборочным средним и суммой квадратов отклонений | [4] | |
Нормальный | μ и τ Предполагая взаимозаменяемость | Нормальная гамма |
| Среднее значение оценивалось по наблюдениям с использованием выборочного среднего значения , а точность оценивалась по наблюдениям с использованием выборочного среднего значения и суммы квадратов отклонений. | [4] | |
Многомерное нормальное с известной ковариационной матрицей Σ | μ (средний вектор) | Многомерный нормальный |
| среднее значение было оценено на основе наблюдений с общей точностью (сумма всех индивидуальных точностей) и с выборочным средним | [4] | |
Многомерная нормальная с известной точностью матрицы Λ | μ (средний вектор) | Многомерный нормальный |
| среднее значение было оценено на основе наблюдений с общей точностью (сумма всех индивидуальных точностей) и с выборочным средним | [4] | |
Многомерное нормальное с известным средним μ | Σ (ковариационная матрица) | Обратный-Уишарт | Ковариационная матрица была оценена из наблюдений с суммой произведений парных отклонений | [4] | ||
Многомерное нормальное с известным средним μ | Λ (матрица точности) | Уишарт | Ковариационная матрица была оценена из наблюдений с суммой произведений парных отклонений | [4] | ||
Многомерный нормальный | μ (средний вектор) и Σ (ковариационная матрица) | нормальный-обратный-Уишарт |
| среднее значение оценивалось из наблюдений с помощью выборочного среднего ; ковариационная матрица оценивалась из наблюдений с помощью выборочного среднего и суммы произведений парных отклонений | [4] | |
Многомерный нормальный | μ (средний вектор) и Λ (матрица точности) | нормальный-Уишарт |
| среднее значение оценивалось из наблюдений с помощью выборочного среднего ; ковариационная матрица оценивалась из наблюдений с помощью выборочного среднего и суммы произведений парных отклонений | [4] | |
Униформа | Парето | наблюдения с максимальным значением | ||||
Парето с известным минимумом x m | к (форма) | Гамма | наблюдения с суммой порядка величины каждого наблюдения (т.е. логарифмом отношения каждого наблюдения к минимуму ) | |||
Вейбулл с известной формой β | θ (масштаб) | Обратная гамма [3] | наблюдения с суммой β' -й степени каждого наблюдения | |||
Логнормальный | То же самое, что и для нормального распределения после применения натурального логарифма к данным для апостериорных гиперпараметров. Пожалуйста, обратитесь к Fink (1997, стр. 21–22), чтобы увидеть подробности. | |||||
Экспоненциальный | λ (скорость) | Гамма | [примечание 4] | наблюдения, которые в сумме дают [5] | ( Распределение Ломакса ) | |
Гамма с известной формой α | β (скорость) | Гамма | наблюдения с суммой | [примечание 8] | ||
Обратная гамма с известной формой α | β (обратная шкала) | Гамма | наблюдения с суммой | |||
Гамма с известной скоростью β | α (форма) | или наблюдения ( для оценки , для оценки ) с произведением | ||||
Гамма [3] | α (форма), β (обратный масштаб) | оценивалось по наблюдениям с произведением ; оценивалось по наблюдениям с суммой | ||||
Бета | α , β | и были оценены из наблюдений с произведением и произведением комплементов |