Расхождение Штейна

Расхождение Штейна — это статистическое расхождение между двумя вероятностными мерами , которое основано на методе Штейна . Впервые оно было сформулировано как инструмент для оценки качества выборок Монте-Карло с цепями Маркова [1], но с тех пор используется в различных областях статистики, машинного обучения и компьютерных наук. [2]

Определение

Пусть будет измеримым пространством и пусть будет множеством измеримых функций вида . Естественное понятие расстояния между двумя распределениями вероятностей , , определенными на , обеспечивается интегральной метрикой вероятности [3] Х {\displaystyle {\mathcal {X}}} М {\displaystyle {\mathcal {M}}} м : Х Р {\displaystyle m:{\mathcal {X}}\rightarrow \mathbb {R} } П {\displaystyle P} В {\displaystyle Q} Х {\displaystyle {\mathcal {X}}}

( 1.1 ) г М ( П , В ) := Как дела м М | Э Х П [ м ( Х ) ] Э И В [ м ( И ) ] | , {\displaystyle (1.1)\quad d_{\mathcal {M}}(P,Q):=\sup _{m\in {\mathcal {M}}}|\mathbb {E} _{X\sim P}[m(X)]-\mathbb {E} _{Y\sim Q}[m(Y)]|,}

где для целей изложения мы предполагаем, что ожидания существуют, и что набор достаточно богат, чтобы (1.1) действительно было метрикой на множестве распределений вероятностей на , т.е. тогда и только тогда, когда . Выбор набора определяет топологические свойства (1.1). Однако для практических целей оценка (1.1) требует доступа как к , так и , что часто делает прямое вычисление (1.1) непрактичным. М {\displaystyle {\mathcal {M}}} Х {\displaystyle {\mathcal {X}}} г М ( П , В ) = 0 {\displaystyle d_{\mathcal {M}}(P,Q)=0} П = В {\displaystyle P=Q} М {\displaystyle {\mathcal {M}}} П {\displaystyle P} В {\displaystyle Q}

Метод Штейна — это теоретический инструмент, который можно использовать для ограничения (1.1). В частности, мы предполагаем, что можем определить оператор и набор вещественных функций в области , обе из которых могут быть зависимыми от , так что для каждой существует решение уравнения Штейна А П {\displaystyle {\mathcal {A}}_{P}} Ф П {\displaystyle {\mathcal {F}}_{P}} А П {\displaystyle {\mathcal {A}}_{P}} П {\displaystyle P} м М {\displaystyle m\in {\mathcal {M}}} ф м Ф П {\displaystyle f_{m}\in {\mathcal {F}}_{P}}

( 1.2 ) м ( х ) Э Х П [ м ( Х ) ] = А П ф м ( х ) . {\displaystyle (1.2)\quad m(x)-\mathbb {E} _{X\sim P}[m(X)]={\mathcal {A}}_{P}f_{m}(x).}

Оператор называется оператором Штейна , а множество называется множеством Штейна . Подставляя (1.2) в (1.1), получаем верхнюю оценку А П {\displaystyle {\mathcal {A}}_{P}} Ф П {\displaystyle {\mathcal {F}}_{P}}

г М ( П , В ) = Как дела м М | Э И В [ м ( И ) Э Х П [ м ( Х ) ] ] | = Как дела м М | Э И В [ А П ф м ( И ) ] | Как дела ф Ф П | Э И В [ А П ф ( И ) ] | {\displaystyle d_{\mathcal {M}}(P,Q)=\sup _{m\in {\mathcal {M}}}|\mathbb {E} _{Y\sim Q}[m(Y)-\mathbb {E} _{X\sim P}[m(X)]]|=\sup _{m\in {\mathcal {M}}}|\mathbb {E} _{Y\sim Q}[{\mathcal {A}}_{P}f_{m}(Y)]|\leq \sup _{f\in {\mathcal {F}}_{P}}|\mathbb {E} _{Y\sim Q}[{\mathcal {A}}_{P}f(Y)]|} .

Эта результирующая связь

Д П ( В ) := Как дела ф Ф П | Э И В [ А П ф ( И ) ] | {\displaystyle D_{P}(Q):=\sup _{f\in {\mathcal {F}}_{P}}|\mathbb {E} _{Y\sim Q}[{\mathcal {A}}_{P}f(Y)]|}

называется расхождением Штейна . [1] В отличие от исходной интегральной метрики вероятности , ее можно анализировать или вычислять, используя ожидания только относительно распределения . г М ( П , В ) {\displaystyle d_{\mathcal {M}}(P,Q)} Д П ( В ) {\displaystyle D_{P}(Q)} В {\displaystyle Q}

Примеры

Было изучено несколько различных несоответствий Стейна, некоторые из наиболее широко используемых представлены ниже.

Классическое расхождение Штейна

Для распределения вероятностей с положительной и дифференцируемой функцией плотности на выпуклом множестве , граница которого обозначена , комбинация оператора Ланжевена–Штейна и классического множества Штейна П {\displaystyle P} п {\displaystyle p} Х Р г {\displaystyle {\mathcal {X}}\subseteq \mathbb {R} ^{d}} Х {\displaystyle \partial {\mathcal {X}}} А П ф = ф + ф бревно п {\displaystyle {\mathcal {A}}_{P}f=\nabla \cdot f+f\cdot \nabla \log p}

Ф П = { ф : Х Р г | Как дела х у макс ( ф ( х ) , ф ( х ) , ф ( х ) ф ( у ) х у ) 1 , ф ( х ) , н ( х ) = 0 х Х } {\displaystyle {\mathcal {F}}_{P}=\left\{f:{\mathcal {X}}\rightarrow \mathbb {R} ^{d}\,{\Biggl \vert }\,\sup _{x\neq y}\max \left(\|f(x)\|,\|\nabla f(x)\|,{\frac {\|\nabla f(x)-\nabla f(y)\|}{\|xy\|}}\right)\leq 1,\;\langle f(x),n(x)\rangle =0\;\forall x\in \partial {\mathcal {X}}\right\}}

приводит к классическому расхождению Штейна . [1] Здесь обозначает евклидову норму и евклидово скалярное произведение. Здесь — ассоциированная операторная норма для матриц , а обозначает внешнюю единицу, нормальную к в точке . Если тогда мы интерпретируем . {\displaystyle \|\cdot \|} , {\displaystyle \langle \cdot,\cdot \rangle} М = Как дела в Р г , в = 1 М в {\displaystyle \|M\|=\textstyle \sup _{v\in \mathbb {R} ^{d},\|v\|=1}\|Mv\|} М Р г × г {\displaystyle M\in \mathbb {R} ^{d\times d}} н ( х ) {\displaystyle n(x)} Х {\displaystyle \partial {\mathcal {X}}} х Х {\displaystyle x\in \partial {\mathcal {X}}} Х = Р г {\displaystyle {\mathcal {X}}=\mathbb {R} ^{d}} X = {\displaystyle \partial {\mathcal {X}}=\emptyset }

В одномерном случае классическое расхождение Штейна может быть вычислено точно путем решения квадратично-ограниченной квадратичной программы . [1] d = 1 {\displaystyle d=1}

Графическое расхождение Штейна

Первые известные вычислимые расхождения Штейна были расхождениями Штейна графа (GSD). При наличии дискретного распределения можно определить граф с множеством вершин и множеством ребер . Из этого графа можно определить множество Штейна графа как Q = i = 1 n w i δ ( x i ) {\displaystyle Q=\textstyle \sum _{i=1}^{n}w_{i}\delta (x_{i})} G {\displaystyle G} V = { x 1 , , x n } {\displaystyle V=\{x_{1},\dots ,x_{n}\}} E V × V {\displaystyle E\subseteq V\times V}

F P = { f : X R d | max ( f ( v ) , f ( v ) , f ( x ) f ( y ) x y 1 , f ( x ) f ( y ) x y 1 ) 1 , f ( x ) f ( y ) ( x ) ( x y ) 1 2 x y 1 2 1 , f ( x ) f ( y ) f ( y ) ( x y ) 1 2 x y 1 2 1 , v supp ( Q n ) , ( x , y ) E } . {\displaystyle {\begin{aligned}{\mathcal {F}}_{P}={\Big \{}f:{\mathcal {X}}\rightarrow \mathbb {R} ^{d}&\,{\Bigl \vert }\,\max \left(\|f(v)\|_{\infty },\|\nabla f(v)\|_{\infty },{\textstyle {\frac {\|f(x)-f(y)\|_{\infty }}{\|x-y\|_{1}}}},{\textstyle {\frac {\|\nabla f(x)-\nabla f(y)\|_{\infty }}{\|x-y\|_{1}}}}\right)\leq 1,\\[8pt]&{\textstyle {\frac {\|f(x)-f(y)-{\nabla (x)}{(x-y)}\|_{\infty }}{{\frac {1}{2}}\|x-y\|_{1}^{2}}}\leq 1},{\textstyle {\frac {\|f(x)-f(y)-{\nabla f(y)}{(x-y)}\|_{\infty }}{{\frac {1}{2}}\|x-y\|_{1}^{2}}}\leq 1},\;\forall v\in \operatorname {supp} (Q_{n}),(x,y)\in E{\Big \}}.\end{aligned}}}

Комбинация оператора Ланжевена–Штейна и множества графа Штейна называется графовым расхождением Штейна (GSD). GSD на самом деле является решением конечномерной линейной программы с размером всего лишь линейным в , что означает, что GSD может быть эффективно вычислено. [1] E {\displaystyle E} n {\displaystyle n}

Несоответствие ядра Штейна

Супремум, возникающий в определении расхождения Штейна, можно оценить в замкнутой форме, используя определенный выбор множества Штейна. Действительно, пусть будет единичным шаром в (возможно, векторнозначном) воспроизводящем ядре гильбертова пространства с воспроизводящим ядром , элементы которого находятся в области оператора Штейна . Предположим, что F P = { f H ( K ) : f H ( K ) 1 } {\displaystyle {\mathcal {F}}_{P}=\{f\in H(K):\|f\|_{H(K)}\leq 1\}} H ( K ) {\displaystyle H(K)} K {\displaystyle K} A P {\displaystyle {\mathcal {A}}_{P}}

  • Для каждого фиксированного отображение является непрерывным линейным функционалом на . x X {\displaystyle x\in {\mathcal {X}}} f A P [ f ] ( x ) {\displaystyle f\mapsto {\mathcal {A}}_{P}[f](x)} F P {\displaystyle {\mathcal {F}}_{P}}
  • E X Q [ A P A P K ( X , X ) ] < {\displaystyle \mathbb {E} _{X\sim Q}[{\mathcal {A}}_{P}{\mathcal {A}}_{P}'K(X,X)]<\infty } .

где оператор Штейна действует на первый аргумент и действует на второй аргумент. Тогда можно показать [4] , что A P {\displaystyle {\mathcal {A}}_{P}} K ( , ) {\displaystyle K(\cdot ,\cdot )} A P {\displaystyle {\mathcal {A}}_{P}'}

D P ( Q ) = E X , X Q [ A P A P K ( X , X ) ] {\displaystyle D_{P}(Q)={\sqrt {\mathbb {E} _{X,X'\sim Q}[{\mathcal {A}}_{P}{\mathcal {A}}_{P}'K(X,X')]}}} ,

где случайные величины и в ожидание независимы. В частности, если — дискретное распределение на , то расхождение Штейна принимает замкнутую форму X {\displaystyle X} X {\displaystyle X'} Q = i = 1 n w i δ ( x i ) {\textstyle Q=\sum _{i=1}^{n}w_{i}\delta (x_{i})} X {\displaystyle {\mathcal {X}}}

D P ( Q ) = i = 1 n j = 1 n w i w j A P A P K ( x i , x j ) . {\displaystyle D_{P}(Q)={\sqrt {\sum _{i=1}^{n}\sum _{j=1}^{n}w_{i}w_{j}{\mathcal {A}}_{P}{\mathcal {A}}_{P}'K(x_{i},x_{j})}}.}

Построенное таким образом расхождение Штейна называется ядерным расхождением Штейна [5] [6] [7] [8] , и его построение тесно связано с теорией вложения ядер распределений вероятностей .

Пусть будет воспроизводящим ядром. Для распределения вероятностей с положительной и дифференцируемой функцией плотности на комбинация оператора Ланжевена—Штейна и множества Штейна k : X × X R {\displaystyle k:{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R} } P {\displaystyle P} p {\displaystyle p} X = R d {\displaystyle {\mathcal {X}}=\mathbb {R} ^{d}} A P f = f + f log p {\displaystyle {\mathcal {A}}_{P}f=\nabla \cdot f+f\cdot \nabla \log p}

F P = { f H ( k ) × × H ( k ) : i = 1 d f i H ( k ) 2 1 } , {\displaystyle {\mathcal {F}}_{P}=\left\{f\in H(k)\times \dots \times H(k):\sum _{i=1}^{d}\|f_{i}\|_{H(k)}^{2}\leq 1\right\},}

связанный с матрично-значным воспроизводящим ядром , дает ядро ​​Стейна с расхождением [5] K ( x , x ) = k ( x , x ) I d × d {\displaystyle K(x,x')=k(x,x')I_{d\times d}}

A P A P K ( x , x ) = x x k ( x , x ) + x k ( x , x ) x log p ( x ) + x k ( x , x ) x log p ( x ) + k ( x , x ) x log p ( x ) x log p ( x ) {\displaystyle {\mathcal {A}}_{P}{\mathcal {A}}_{P}'K(x,x')=\nabla _{x}\cdot \nabla _{x'}k(x,x')+\nabla _{x}k(x,x')\cdot \nabla _{x'}\log p(x')+\nabla _{x'}k(x,x')\cdot \nabla _{x}\log p(x)+k(x,x')\nabla _{x}\log p(x)\cdot \nabla _{x'}\log p(x')}

где (соответственно ) указывает градиент относительно аргумента, индексированного (соответственно ). x {\displaystyle \nabla _{x}} x {\displaystyle \nabla _{x'}} x {\displaystyle x} x {\displaystyle x'}

Конкретно, если мы возьмем обратное мультиквадратное ядро ​​с параметрами и симметричной положительно определенной матрицей, и если мы обозначим , то мы имеем k ( x , x ) = ( 1 + ( x x ) Σ 1 ( x x ) ) β {\displaystyle k(x,x')=(1+(x-x')^{\top }\Sigma ^{-1}(x-x'))^{-\beta }} β > 0 {\displaystyle \beta >0} Σ R d × d {\displaystyle \Sigma \in \mathbb {R} ^{d\times d}} u ( x ) = log p ( x ) {\displaystyle u(x)=\nabla \log p(x)}

( 2.1 ) A P A P K ( x , x ) = 4 β ( β + 1 ) ( x x ) Σ 2 ( x x ) ( 1 + ( x x ) Σ 1 ( x x ) ) β + 2 + 2 β [ tr ( Σ 1 ) + [ u ( x ) u ( x ) ] Σ 1 ( x x ) ( 1 + ( x x ) Σ 1 ( x x ) ) 1 + β ] + u ( x ) u ( x ) ( 1 + ( x x ) Σ 1 ( x x ) ) β {\displaystyle (2.1)\quad {\mathcal {A}}_{P}{\mathcal {A}}_{P}'K(x,x')=-{\frac {4\beta (\beta +1)(x-x')^{\top }\Sigma ^{-2}(x-x')}{\left(1+(x-x')^{\top }\Sigma ^{-1}(x-x')\right)^{\beta +2}}}+2\beta \left[{\frac {{\text{tr}}(\Sigma ^{-1})+[u(x)-u(x')]^{\top }\Sigma ^{-1}(x-x')}{\left(1+(x-x')^{\top }\Sigma ^{-1}(x-x')\right)^{1+\beta }}}\right]+{\frac {u(x)^{\top }u(x')}{\left(1+(x-x')^{\top }\Sigma ^{-1}(x-x')\right)^{\beta }}}} .

Диффузионное расхождение Штейна

Диффузионные расхождения Штейна [9] обобщают оператор Ланжевена Штейна до класса диффузионных операторов Штейна , каждый из которых представляет собой диффузию Ито , имеющую в качестве своего стационарного распределения. Здесь — матричная функция, определяемая бесконечно малым генератором диффузии. A P f = f + f log p = 1 p ( f p ) {\displaystyle {\mathcal {A}}_{P}f=\nabla \cdot f+f\cdot \nabla \log p=\textstyle {\frac {1}{p}}\nabla \cdot (fp)} A P f = 1 p ( m f p ) {\displaystyle {\mathcal {A}}_{P}f=\textstyle {\frac {1}{p}}\nabla \cdot (mfp)} P {\displaystyle P} m {\displaystyle m}

Другие несоответствия Стайна

Дополнительные расхождения Штейна были разработаны для ограниченных областей, [10] неевклидовых областей [11] [12] [10] , дискретных областей, [13] [14] улучшенной масштабируемости., [15] [16] и безградиентных расхождений Штейна, где обойдены производные плотности . [17] Более того, этот подход расширен до безградиентного ядра условного расхождения Штейна, которое нацелено на условные распределения. [18] p {\displaystyle p}

Характеристики

Гибкость в выборе оператора Штейна и множества Штейна при построении расхождения Штейна исключает общие утверждения теоретического характера. Однако о конкретных расхождениях Штейна известно многое.

Вычислимо без константы нормализации

Расхождение Штейна иногда можно вычислить в сложных условиях, где распределение вероятностей допускает функцию плотности вероятности (относительно соответствующей эталонной меры на ) вида , где и ее производная может быть численно оценена, но константа нормализации которой нелегко вычисляется или аппроксимируется. Рассматривая (2.1), мы видим, что зависимость от возникает только через член P {\displaystyle P} p {\displaystyle p} X {\displaystyle {\mathcal {X}}} p ( x ) = 1 Z p ~ ( x ) {\displaystyle p(x)=\textstyle {\frac {1}{Z}}{\tilde {p}}(x)} p ~ ( x ) {\displaystyle {\tilde {p}}(x)} Z {\displaystyle Z} A P A P K ( x , x ) {\displaystyle {\mathcal {A}}_{P}{\mathcal {A}}_{P}K(x,x')} P {\displaystyle P}

u ( x ) = log p ( x ) = log ( p ~ ( x ) Z ) = log p ~ ( x ) log Z = log p ~ ( x ) {\displaystyle u(x)=\nabla \log p(x)=\nabla \log \left({\frac {{\tilde {p}}(x)}{Z}}\right)=\nabla \log {\tilde {p}}(x)-\nabla \log Z=\nabla \log {\tilde {p}}(x)}

которая не зависит от константы нормировки . Z {\displaystyle Z}

Расхождение Штейна как статистическое расхождение

Основным требованием к расхождению Штейна является то, что оно является статистическим расхождением, то есть и тогда и только тогда, когда . Можно показать, что это свойство выполняется для классического расхождения Штейна [1] и ядерного расхождения Штейна [6] [7] [8] при условии, что выполняются соответствующие условия регулярности. D P ( Q ) 0 {\displaystyle D_{P}(Q)\geq 0} D P ( Q ) = 0 {\displaystyle D_{P}(Q)=0} Q = P {\displaystyle Q=P}

Контроль сходимости

Более сильным свойством, по сравнению со статистическим расхождением, является управление сходимостью , что означает, что подразумевает сходимость к в смысле, который должен быть указан. Например, при соответствующих условиях регулярности, как классическое расхождение Штейна, так и графовое расхождение Штейна обладают контролем сходимостью Вассерштейна , что означает, что подразумевает, что метрика Вассерштейна между и сходится к нулю. [1] [19] [9] Для ядра расхождения Штейна был установлен слабый контроль сходимостью [8] [20] при условиях регулярности распределения и воспроизводящего ядра , которые применимы, в частности, к (2.1). Другие известные варианты , такие как основанные на гауссовском ядре, доказуемо не обладают слабым контролем сходимостью. [8] D P ( Q n ) 0 {\displaystyle D_{P}(Q_{n})\rightarrow 0} Q n {\displaystyle Q_{n}} P {\displaystyle P} D P ( Q n ) 0 {\displaystyle D_{P}(Q_{n})\rightarrow 0} Q n {\displaystyle Q_{n}} P {\displaystyle P} P {\displaystyle P} K {\displaystyle K} K {\displaystyle K}

Обнаружение конвергенции

Обратным свойством к управлению сходимостью является обнаружение сходимости , что означает, что всякий раз, когда сходится к в смысле, который должен быть указан. Например, при соответствующих условиях регулярности классическое расхождение Штейна пользуется особой формой обнаружения среднеквадратичной сходимости [1] [9] , что означает, что всякий раз, когда сходится в среднеквадратичном к и сходится в среднеквадратичном к . Для ядерного расхождения Штейна было установлено обнаружение сходимости Вассерштейна [8] при соответствующих условиях регулярности на распределение и воспроизводящее ядро ​​. D P ( Q n ) 0 {\displaystyle D_{P}(Q_{n})\rightarrow 0} Q n {\displaystyle Q_{n}} P {\displaystyle P} D P ( Q n ) 0 {\displaystyle D_{P}(Q_{n})\rightarrow 0} X n Q n {\displaystyle X_{n}\sim Q_{n}} X P {\displaystyle X\sim P} log p ( X m ) {\displaystyle \nabla \log p(X_{m})} log p ( X ) {\displaystyle \nabla \log p(X)} P {\displaystyle P} K {\displaystyle K}

Применение противоречия Штейна

Было предложено несколько вариантов применения противоречия Стейна, некоторые из которых сейчас описаны.

Оптимальное квантование

Оптимальное квантование с использованием расхождения Штейна. Контуры в этом видео представляют собой уровни множеств непрерывного распределения вероятностей , и мы рассматриваем задачу суммирования этого распределения с дискретным набором состояний, выбранных из его области . В частности, мы предполагаем, что функция плотности известна только с точностью до пропорциональности, в этой ситуации широко используются методы Монте-Карло с цепями Маркова (MCMC). В первой половине этого видео цепь Маркова создает выборки, которые приблизительно распределены из , при этом путь выборки показан черным цветом. Во второй половине видео алгоритм, называемый прореживанием Штейна , [21] применяется для выбора подмножества состояний из пути выборки, при этом выбранные состояния показаны красным цветом. Эти состояния выбираются на основе жадной минимизации расхождения Штейна между дискретным распределением и . Вместе выбранные состояния обеспечивают приближение , которое в данном случае является более точным, чем то, которое обеспечивается исходным выходом MCMC. P {\displaystyle P} x 1 , , x m {\displaystyle x_{1},\dots ,x_{m}} X {\displaystyle {\mathcal {X}}} p ( x ) {\displaystyle p(x)} P {\displaystyle P} P {\displaystyle P} P {\displaystyle P}

При заданном распределении вероятностей в измеримом пространстве задача квантования состоит в выборе небольшого числа состояний таким образом, чтобы соответствующее дискретное распределение было точным приближением в определенном смысле. P {\displaystyle P} X {\displaystyle {\mathcal {X}}} x 1 , , x n X {\displaystyle x_{1},\dots ,x_{n}\in {\mathcal {X}}} Q n = 1 n i = 1 n δ ( x i ) {\textstyle Q^{n}={\frac {1}{n}}\sum _{i=1}^{n}\delta (x_{i})} P {\displaystyle P}

Точки Штейна [20] являются результатом выполнения оптимального квантования посредством минимизации расхождения Штейна:

( 3.1 ) a r g m i n x 1 , , x n X D P ( 1 n i = 1 n δ ( x i ) ) {\displaystyle (3.1)\quad {\underset {x_{1},\dots ,x_{n}\in {\mathcal {X}}}{\operatorname {arg\,min} }}\;D_{P}\left({\frac {1}{n}}\sum _{i=1}^{n}\delta (x_{i})\right)}

При соответствующих условиях регулярности можно показать [20] , что при . Таким образом, если несоответствие Штейна обладает контролем сходимости, то следует, что сходится к . Также были получены расширения этого результата, позволяющие несовершенную численную оптимизацию. [20] [22] [21] D P ( Q n ) 0 {\displaystyle D_{P}(Q^{n})\rightarrow 0} n {\displaystyle n\rightarrow \infty } Q n {\displaystyle Q^{n}} P {\displaystyle P}

Разработаны сложные алгоритмы оптимизации для выполнения эффективного квантования на основе расхождения Штейна, включая алгоритмы градиентного потока, которые направлены на минимизацию расхождения Штейна ядра в соответствующем пространстве вероятностных мер. [23]

Оптимальное взвешенное приближение

Если разрешено рассматривать взвешенные комбинации точечных масс, то возможна более точная аппроксимация по сравнению с (3.1). Для простоты изложения предположим, что нам дан набор состояний . Тогда оптимальная взвешенная комбинация точечных масс , т.е. { x i } i = 1 n X {\displaystyle \{x_{i}\}_{i=1}^{n}\subset {\mathcal {X}}} δ ( x i ) {\displaystyle \delta (x_{i})}

Q n := i = 1 n w i δ ( x i ) , w a r g m i n w 1 + + w n = 1 D P ( i = 1 n w i δ ( x i ) ) , {\displaystyle Q_{n}:=\sum _{i=1}^{n}w_{i}^{*}\delta (x_{i}),\qquad w^{*}\in {\underset {w_{1}+\cdots +w_{n}=1}{\operatorname {arg\,min} }}\;D_{P}\left(\sum _{i=1}^{n}w_{i}\delta (x_{i})\right),}

которые минимизируют расхождение Штейна, могут быть получены в замкнутой форме, когда используется ядро ​​расхождения Штейна. [5] Некоторые авторы [24] [25] рассматривают возможность наложения, кроме того, ограничения неотрицательности на веса, т. е . . Однако в обоих случаях вычисления, необходимые для вычисления оптимальных весов, могут включать решение линейных систем уравнений, которые численно плохо обусловлены. Интересно, что было показано [21] , что жадное приближение использования невзвешенной комбинации состояний может уменьшить это вычислительное требование. В частности, жадный алгоритм прореживания Штейна w i 0 {\displaystyle w_{i}\geq 0} w {\displaystyle w^{*}} Q n {\displaystyle Q_{n}} m n {\displaystyle m\ll n}

Q n , m := 1 m i = 1 m δ ( x π ( i ) ) , π ( m ) a r g m i n j = 1 , , n D P ( 1 m i = 1 m 1 δ ( x π ( i ) ) + 1 m δ ( x j ) ) {\displaystyle Q_{n,m}:={\frac {1}{m}}\sum _{i=1}^{m}\delta (x_{\pi (i)}),\qquad \pi (m)\in {\underset {j=1,\dots ,n}{\operatorname {arg\,min} }}\;D_{P}\left({\frac {1}{m}}\sum _{i=1}^{m-1}\delta (x_{\pi (i)})+{\frac {1}{m}}\delta (x_{j})\right)}

было показано, что удовлетворяет пределу погрешности

D P ( Q n , m ) = D P ( Q n ) + O ( log m m ) . {\displaystyle D_{P}(Q_{n,m})=D_{P}(Q_{n})+O\left({\sqrt {\frac {\log m}{m}}}\right).}

Было показано [26], что неблизорукие и мини-пакетные обобщения жадного алгоритма обеспечивают дальнейшее улучшение качества аппроксимации относительно вычислительных затрат.

Вариационный вывод

Расхождение Штейна использовалось как вариационная цель в вариационных байесовских методах . [27] [28] Имея набор вероятностных распределений на , параметризованных с помощью , можно найти распределение в этом наборе, которое наилучшим образом приближает интересующее распределение: { Q θ } θ Θ {\displaystyle \{Q_{\theta }\}_{\theta \in \Theta }} X {\displaystyle {\mathcal {X}}} θ Θ {\displaystyle \theta \in \Theta } P {\displaystyle P}

a r g m i n θ Θ D P ( Q θ ) {\displaystyle {\underset {\theta \in \Theta }{\operatorname {arg\,min} }}\;D_{P}(Q_{\theta })}

Возможным преимуществом расхождения Штейна в этом контексте [28] по сравнению с традиционной вариационной целью Кульбака–Лейблера является то, что не обязательно быть абсолютно непрерывным относительно для того, чтобы быть хорошо определенным. Это свойство можно использовать для обхода использования генеративных моделей на основе потока , например, которые накладывают ограничения диффеоморфизма для обеспечения абсолютной непрерывности и . Q θ {\displaystyle Q_{\theta }} P {\displaystyle P} D P ( Q θ ) {\displaystyle D_{P}(Q_{\theta })} Q θ {\displaystyle Q_{\theta }} P {\displaystyle P}

Статистическая оценка

Расхождение Штейна было предложено в качестве инструмента для подгонки параметрических статистических моделей к данным. При наличии набора данных рассмотрим связанное дискретное распределение . Для заданного параметрического набора распределений вероятностей на можно оценить значение параметра, совместимого с набором данных, используя минимальную оценку расхождения Штейна [29] { x i } i = 1 n X {\displaystyle \{x_{i}\}_{i=1}^{n}\subset {\mathcal {X}}} Q n = 1 n i = 1 n δ ( x i ) {\displaystyle Q^{n}=\textstyle {\frac {1}{n}}\sum _{i=1}^{n}\delta (x_{i})} { P θ } θ Θ {\displaystyle \{P_{\theta }\}_{\theta \in \Theta }} X {\displaystyle {\mathcal {X}}} θ {\displaystyle \theta }

a r g m i n θ Θ D P θ ( Q n ) . {\displaystyle {\underset {\theta \in \Theta }{\operatorname {arg\,min} }}\;D_{P_{\theta }}(Q^{n}).}

Подход тесно связан с фреймворком оценки минимального расстояния , где роль «расстояния» играет расхождение Стейна. В качестве альтернативы можно рассмотреть обобщенный байесовский подход к оценке параметра [4], где, учитывая априорное распределение вероятностей с функцией плотности , , (относительно соответствующей референтной меры на ), строится обобщенное апостериорное распределение с функцией плотности вероятности θ {\displaystyle \theta } π ( θ ) {\displaystyle \pi (\theta )} θ Θ {\displaystyle \theta \in \Theta } Θ {\displaystyle \Theta }

π n ( θ ) π ( θ ) exp ( γ D P θ ( Q n ) 2 ) , {\displaystyle \pi ^{n}(\theta )\propto \pi (\theta )\exp \left(-\gamma D_{P_{\theta }}(Q^{n})^{2}\right),}

для некоторых из них необходимо указать или определить. γ > 0 {\displaystyle \gamma >0}

Проверка гипотез

Расхождение Стейна также использовалось в качестве тестовой статистики для выполнения проверки согласия [6] [7] и сравнения моделей скрытых переменных. [30] Поскольку вышеупомянутые тесты имеют вычислительную стоимость, квадратичную по размеру выборки, были разработаны альтернативы с (почти)линейным временем выполнения. [31] [15]

Смотрите также

Ссылки

  1. ^ abcdefgh Дж. Горхэм и Л. Макки. Измерение качества выборки с помощью метода Стайна. Достижения в области нейронных систем обработки информации, 2015.
  2. ^ Анастасиу, А., Барп, А., Бриол, Ф.К., Эбнер, Б., Гонт, Р.Э., Гадеринежад, Ф., Горхэм, Дж., Греттон, А., Лей, К., Лю, К., Макки Л., Оутс С.Дж., Рейнерт Г. и Свон Ю. (2021). Метод Штейна соответствует статистике: обзор некоторых недавних событий. arXiv: 2105.03481.
  3. ^ Мюллер, Альфред (1997). «Интегральные вероятностные метрики и их порождающие классы функций». Advances in Applied Probability . 29 (2): 429– 443. doi :10.2307/1428011. ISSN  0001-8678.
  4. ^ ab Mastubara, T., Knoblauch, J., Briol, FX., Oates, CJ Надежный обобщенный байесовский вывод для трудноразрешимых правдоподобий. arXiv:2104.07359.
  5. ^ abc Oates, CJ, Girolami, M., & Chopin, N. (2017). Функционалы управления для интеграции Монте-Карло. Журнал Королевского статистического общества B: Статистическая методология, 79(3), 695–718.
  6. ^ abc Liu, Q., Lee, JD, & Jordan, MI (2016). Ядеризированное расхождение Стейна для тестов согласия и оценки модели. Международная конференция по машинному обучению, 276–284.
  7. ^ abc Chwialkowski, K., Strathmann, H., & Gretton, A. (2016). Ядерный тест на соответствие. Международная конференция по машинному обучению, 2606–2615.
  8. ^ abcde Горэм Дж., Макки Л. Измерение качества выборки с помощью ядер. Международная конференция по машинному обучению 2017 г., 17 июля (стр. 1292–1301). PMLR.
  9. ^ abc Gorham, J., Duncan, AB, Vollmer, SJ, & Mackey, L. (2019). Измерение качества выборки с помощью диффузий. Annals of Applied Probability, 29(5), 2884-2928.
  10. ^ ab Shi, J., Liu, C., & Mackey, L. (2021). Выборка с зеркальными операторами Штейна. Препринт arXiv arXiv:2106.12506
  11. ^ Барп А., Оутс С.Дж., Порку Э., Джиролами М. Метод ядра Римана-Штейна. Препринт arXiv arXiv:1810.04946. 2018.
  12. ^ Сюй В., Мацуда Т. Интерпретируемые тесты согласия Стейна на римановых многообразиях. В ICML 2021.
  13. ^ Yang J, Liu Q, Rao V, Neville J. Тестирование согласия для дискретных распределений с помощью расхождения Штейна. В ICML 2018 (стр. 5561-5570). PMLR.
  14. ^ Ши Дж., Чжоу И., Хван Дж., Титсиас М., Макки Л. Оценка градиента с помощью дискретных операторов Штейна. Препринт arXiv arXiv:2202.09497. 2022.
  15. ^ ab Huggins JH, Mackey L. Случайные признаки Stein Discrepancies. В NeurIPS 2018.
  16. ^ Горхэм Дж., Радж А., Макки Л. Стохастические расхождения Штейна. В NeurIPS 2020.
  17. ^ Фишер М., Оутс К.Дж. Несоответствие ядра Штейна без градиента. Препринт arXiv arXiv:2207.02636. 2022.
  18. ^ Афзали, Элхам и Мутукумарана, Саман. Тестирование соответствия несоответствия Стейна без градиента ядра. Машинное обучение с приложениями, т. 12, стр. 100463, 2023. Elsevier.
  19. ^ Mackey, L., & Gorham, J. (2016). Многомерные факторы Стейна для класса сильно логарифмически вогнутых распределений. Electronic Communications in Probability, 21, 1-14.
  20. ^ abcd Chen WY, Mackey L, Gorham J, Briol FX, Oates CJ. Точки Stein. На Международной конференции по машинному обучению 2018 г. (стр. 844-853). PMLR.
  21. ^ abc Riabiz M, Chen W, Cockayne J, Swietach P, Niederer SA, Mackey L, Oates CJ. Оптимальное прореживание выходных данных MCMC. Журнал Королевского статистического общества B: Статистическая методология, появится в печати. ​​2021. arXiv :2005.03952
  22. ^ Chen WY, Barp A, Briol FX, Gorham J, Girolami M, Mackey L, Oates CJ. Stein Point Markov Chain Monte Carlo. Международная конференция по машинному обучению (ICML 2019). arXiv :1905.03673
  23. ^ Корба А., Обин-Франковски ПК, Маевски С., Аблин П. «Спуск несоответствия ядра Штейна». Препринт arXiv arXiv : 2105.09994. 2021.
  24. ^ Лю Цюй, Ли Дж. Выборка важности черного ящика. В Искусственном интеллекте и статистике 2017 (стр. 952-961). PMLR.
  25. ^ Ходжкинсон Л., Саломоне Р., Руста Ф. Воспроизводящий подход ядра Штейна для апостериорной скорректированной выборки. Препринт arXiv arXiv:2001.09266. 2020.
  26. ^ Теймур О, Горхэм Дж, Риабиз М, Оутс К.Дж. Оптимальное квантование вероятностных мер с использованием максимального среднего расхождения. На Международной конференции по искусственному интеллекту и статистике 2021 г. (стр. 1027-1035). PMLR.
  27. ^ Ранганат Р., Тран Д., Альтосаар Дж., Блей Д. Операторный вариационный вывод. Достижения в области нейронных систем обработки информации. 2016;29:496-504.
  28. ^ ab Фишер М., Нолан Т., Грэм М., Прангл Д., Оутс К.Дж. Измерение транспорта с расхождением ядра Стейна. Международная конференция по искусственному интеллекту и статистике 2021 г. (стр. 1054-1062). PMLR.
  29. ^ Barp, A., Briol, F.-X., Duncan, AB, Girolami, M., & Mackey, L. (2019). Оценки минимального расхождения Штейна. Neural Information Processing Systems, 12964–12976.
  30. ^ Канагава, Х., Джиткриттум, В., Макки, Л., Фукумизу, К. и Греттон, А. (2019). Тест ядра Стейна для сравнения моделей скрытых переменных. Препринт arXiv arXiv:1907.00586.
  31. ^ Джиткриттум В., Сюй В., Сабо З., Фукумидзу К., Греттон А. Тест согласия ядра в линейном времени.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Stein_discrepancy&oldid=1262286028"