Пусть будет измеримым пространством и пусть будет множеством измеримых функций вида . Естественное понятие расстояния между двумя распределениями вероятностей , , определенными на , обеспечивается интегральной метрикой вероятности [3]
где для целей изложения мы предполагаем, что ожидания существуют, и что набор достаточно богат, чтобы (1.1) действительно было метрикой на множестве распределений вероятностей на , т.е. тогда и только тогда, когда . Выбор набора определяет топологические свойства (1.1). Однако для практических целей оценка (1.1) требует доступа как к , так и , что часто делает прямое вычисление (1.1) непрактичным.
Метод Штейна — это теоретический инструмент, который можно использовать для ограничения (1.1). В частности, мы предполагаем, что можем определить оператор и набор вещественных функций в области , обе из которых могут быть зависимыми от , так что для каждой существует решение уравнения Штейна
Оператор называется оператором Штейна , а множество называется множеством Штейна . Подставляя (1.2) в (1.1), получаем верхнюю оценку
.
Эта результирующая связь
называется расхождением Штейна . [1] В отличие от исходной интегральной метрики вероятности , ее можно анализировать или вычислять, используя ожидания только относительно распределения .
Примеры
Было изучено несколько различных несоответствий Стейна, некоторые из наиболее широко используемых представлены ниже.
Классическое расхождение Штейна
Для распределения вероятностей с положительной и дифференцируемой функцией плотности на выпуклом множестве , граница которого обозначена , комбинация оператора Ланжевена–Штейна и классического множества Штейна
приводит к классическому расхождению Штейна . [1] Здесь обозначает евклидову норму и евклидово скалярное произведение. Здесь — ассоциированная операторная норма для матриц , а обозначает внешнюю единицу, нормальную к в точке . Если тогда мы интерпретируем .
Первые известные вычислимые расхождения Штейна были расхождениями Штейна графа (GSD). При наличии дискретного распределения можно определить граф с множеством вершин и множеством ребер . Из этого графа можно определить множество Штейна графа как
Комбинация оператора Ланжевена–Штейна и множества графа Штейна называется графовым расхождением Штейна (GSD). GSD на самом деле является решением конечномерной линейной программы с размером всего лишь линейным в , что означает, что GSD может быть эффективно вычислено. [1]
Несоответствие ядра Штейна
Супремум, возникающий в определении расхождения Штейна, можно оценить в замкнутой форме, используя определенный выбор множества Штейна. Действительно, пусть будет единичным шаром в (возможно, векторнозначном) воспроизводящем ядре гильбертова пространства с воспроизводящим ядром , элементы которого находятся в области оператора Штейна . Предположим, что
Для каждого фиксированного отображение является непрерывным линейным функционалом на .
.
где оператор Штейна действует на первый аргумент и действует на второй аргумент. Тогда можно показать [4] , что
,
где случайные величины и в ожидание независимы. В частности, если — дискретное распределение на , то расхождение Штейна принимает замкнутую форму
Построенное таким образом расхождение Штейна называется ядерным расхождением Штейна [5] [6] [7] [8] , и его построение тесно связано с теорией вложения ядер распределений вероятностей .
Пусть будет воспроизводящим ядром. Для распределения вероятностей с положительной и дифференцируемой функцией плотности на комбинация оператора Ланжевена—Штейна и множества Штейна
связанный с матрично-значным воспроизводящим ядром , дает ядро Стейна с расхождением [5]
где (соответственно ) указывает градиент относительно аргумента, индексированного (соответственно ).
Конкретно, если мы возьмем обратное мультиквадратное ядро с параметрами и симметричной положительно определенной матрицей, и если мы обозначим , то мы имеем
.
Диффузионное расхождение Штейна
Диффузионные расхождения Штейна [9] обобщают оператор Ланжевена Штейна до класса диффузионных операторов Штейна , каждый из которых представляет собой диффузию Ито , имеющую в качестве своего стационарного распределения. Здесь — матричная функция, определяемая бесконечно малым генератором диффузии.
Другие несоответствия Стайна
Дополнительные расхождения Штейна были разработаны для ограниченных областей, [10] неевклидовых областей [11] [12] [10] , дискретных областей, [13] [14] улучшенной масштабируемости., [15] [16] и безградиентных расхождений Штейна, где обойдены производные плотности . [17] Более того, этот подход расширен до безградиентного ядра условного расхождения Штейна, которое нацелено на условные распределения. [18]
Характеристики
Гибкость в выборе оператора Штейна и множества Штейна при построении расхождения Штейна исключает общие утверждения теоретического характера. Однако о конкретных расхождениях Штейна известно многое.
Вычислимо без константы нормализации
Расхождение Штейна иногда можно вычислить в сложных условиях, где распределение вероятностей допускает функцию плотности вероятности (относительно соответствующей эталонной меры на ) вида , где и ее производная может быть численно оценена, но константа нормализации которой нелегко вычисляется или аппроксимируется. Рассматривая (2.1), мы видим, что зависимость от возникает только через член
которая не зависит от константы нормировки .
Расхождение Штейна как статистическое расхождение
Основным требованием к расхождению Штейна является то, что оно является статистическим расхождением, то есть и тогда и только тогда, когда . Можно показать, что это свойство выполняется для классического расхождения Штейна [1] и ядерного расхождения Штейна [6] [7] [8] при условии, что выполняются соответствующие условия регулярности.
Контроль сходимости
Более сильным свойством, по сравнению со статистическим расхождением, является управление сходимостью , что означает, что подразумевает сходимость к в смысле, который должен быть указан. Например, при соответствующих условиях регулярности, как классическое расхождение Штейна, так и графовое расхождение Штейна обладают контролем сходимостью Вассерштейна , что означает, что подразумевает, что метрика Вассерштейна между и сходится к нулю. [1] [19] [9] Для ядра расхождения Штейна был установлен слабый контроль сходимостью [8] [20] при условиях регулярности распределения и воспроизводящего ядра , которые применимы, в частности, к (2.1). Другие известные варианты , такие как основанные на гауссовском ядре, доказуемо не обладают слабым контролем сходимостью. [8]
Обнаружение конвергенции
Обратным свойством к управлению сходимостью является обнаружение сходимости , что означает, что всякий раз, когда сходится к в смысле, который должен быть указан. Например, при соответствующих условиях регулярности классическое расхождение Штейна пользуется особой формой обнаружения среднеквадратичной сходимости [1] [9] , что означает, что всякий раз, когда сходится в среднеквадратичном к и сходится в среднеквадратичном к . Для ядерного расхождения Штейна было установлено обнаружение сходимости Вассерштейна [8] при соответствующих условиях регулярности на распределение и воспроизводящее ядро .
Применение противоречия Штейна
Было предложено несколько вариантов применения противоречия Стейна, некоторые из которых сейчас описаны.
Оптимальное квантование
При заданном распределении вероятностей в измеримом пространстве задача квантования состоит в выборе небольшого числа состояний таким образом, чтобы соответствующее дискретное распределение было точным приближением в определенном смысле.
Точки Штейна [20] являются результатом выполнения оптимального квантования посредством минимизации расхождения Штейна:
При соответствующих условиях регулярности можно показать [20] , что при . Таким образом, если несоответствие Штейна обладает контролем сходимости, то следует, что сходится к . Также были получены расширения этого результата, позволяющие несовершенную численную оптимизацию. [20] [22] [21]
Разработаны сложные алгоритмы оптимизации для выполнения эффективного квантования на основе расхождения Штейна, включая алгоритмы градиентного потока, которые направлены на минимизацию расхождения Штейна ядра в соответствующем пространстве вероятностных мер. [23]
Оптимальное взвешенное приближение
Если разрешено рассматривать взвешенные комбинации точечных масс, то возможна более точная аппроксимация по сравнению с (3.1). Для простоты изложения предположим, что нам дан набор состояний . Тогда оптимальная взвешенная комбинация точечных масс , т.е.
которые минимизируют расхождение Штейна, могут быть получены в замкнутой форме, когда используется ядро расхождения Штейна. [5] Некоторые авторы [24] [25] рассматривают возможность наложения, кроме того, ограничения неотрицательности на веса, т. е . . Однако в обоих случаях вычисления, необходимые для вычисления оптимальных весов, могут включать решение линейных систем уравнений, которые численно плохо обусловлены. Интересно, что было показано [21] , что жадное приближение использования невзвешенной комбинации состояний может уменьшить это вычислительное требование. В частности, жадный алгоритм прореживания Штейна
было показано, что удовлетворяет пределу погрешности
Было показано [26], что неблизорукие и мини-пакетные обобщения жадного алгоритма обеспечивают дальнейшее улучшение качества аппроксимации относительно вычислительных затрат.
Вариационный вывод
Расхождение Штейна использовалось как вариационная цель в вариационных байесовских методах . [27] [28] Имея набор вероятностных распределений на , параметризованных с помощью , можно найти распределение в этом наборе, которое наилучшим образом приближает интересующее распределение:
Возможным преимуществом расхождения Штейна в этом контексте [28] по сравнению с традиционной вариационной целью Кульбака–Лейблера является то, что не обязательно быть абсолютно непрерывным относительно для того, чтобы быть хорошо определенным. Это свойство можно использовать для обхода использования генеративных моделей на основе потока , например, которые накладывают ограничения диффеоморфизма для обеспечения абсолютной непрерывности и .
Статистическая оценка
Расхождение Штейна было предложено в качестве инструмента для подгонки параметрических статистических моделей к данным. При наличии набора данных рассмотрим связанное дискретное распределение . Для заданного параметрического набора распределений вероятностей на можно оценить значение параметра, совместимого с набором данных, используя минимальную оценку расхождения Штейна [29]
Подход тесно связан с фреймворком оценки минимального расстояния , где роль «расстояния» играет расхождение Стейна. В качестве альтернативы можно рассмотреть обобщенный байесовский подход к оценке параметра [4], где, учитывая априорное распределение вероятностей с функцией плотности , , (относительно соответствующей референтной меры на ), строится обобщенное апостериорное распределение с функцией плотности вероятности
для некоторых из них необходимо указать или определить.
Проверка гипотез
Расхождение Стейна также использовалось в качестве тестовой статистики для выполнения проверки согласия [6] [7] и сравнения моделей скрытых переменных. [30]
Поскольку вышеупомянутые тесты имеют вычислительную стоимость, квадратичную по размеру выборки, были разработаны альтернативы с (почти)линейным временем выполнения. [31] [15]
^ abcdefgh Дж. Горхэм и Л. Макки. Измерение качества выборки с помощью метода Стайна. Достижения в области нейронных систем обработки информации, 2015.
^ Анастасиу, А., Барп, А., Бриол, Ф.К., Эбнер, Б., Гонт, Р.Э., Гадеринежад, Ф., Горхэм, Дж., Греттон, А., Лей, К., Лю, К., Макки Л., Оутс С.Дж., Рейнерт Г. и Свон Ю. (2021). Метод Штейна соответствует статистике: обзор некоторых недавних событий. arXiv: 2105.03481.
^ Мюллер, Альфред (1997). «Интегральные вероятностные метрики и их порождающие классы функций». Advances in Applied Probability . 29 (2): 429– 443. doi :10.2307/1428011. ISSN 0001-8678.
^ ab Mastubara, T., Knoblauch, J., Briol, FX., Oates, CJ Надежный обобщенный байесовский вывод для трудноразрешимых правдоподобий. arXiv:2104.07359.
^ abc Oates, CJ, Girolami, M., & Chopin, N. (2017). Функционалы управления для интеграции Монте-Карло. Журнал Королевского статистического общества B: Статистическая методология, 79(3), 695–718.
^ abc Liu, Q., Lee, JD, & Jordan, MI (2016). Ядеризированное расхождение Стейна для тестов согласия и оценки модели. Международная конференция по машинному обучению, 276–284.
^ abc Chwialkowski, K., Strathmann, H., & Gretton, A. (2016). Ядерный тест на соответствие. Международная конференция по машинному обучению, 2606–2615.
^ abcde Горэм Дж., Макки Л. Измерение качества выборки с помощью ядер. Международная конференция по машинному обучению 2017 г., 17 июля (стр. 1292–1301). PMLR.
^ abc Gorham, J., Duncan, AB, Vollmer, SJ, & Mackey, L. (2019). Измерение качества выборки с помощью диффузий. Annals of Applied Probability, 29(5), 2884-2928.
^ ab Shi, J., Liu, C., & Mackey, L. (2021). Выборка с зеркальными операторами Штейна. Препринт arXiv arXiv:2106.12506
^ Барп А., Оутс С.Дж., Порку Э., Джиролами М. Метод ядра Римана-Штейна. Препринт arXiv arXiv:1810.04946. 2018.
^ Сюй В., Мацуда Т. Интерпретируемые тесты согласия Стейна на римановых многообразиях. В ICML 2021.
^ Yang J, Liu Q, Rao V, Neville J. Тестирование согласия для дискретных распределений с помощью расхождения Штейна. В ICML 2018 (стр. 5561-5570). PMLR.
^ Ши Дж., Чжоу И., Хван Дж., Титсиас М., Макки Л. Оценка градиента с помощью дискретных операторов Штейна. Препринт arXiv arXiv:2202.09497. 2022.
^ ab Huggins JH, Mackey L. Случайные признаки Stein Discrepancies. В NeurIPS 2018.
^ Горхэм Дж., Радж А., Макки Л. Стохастические расхождения Штейна. В NeurIPS 2020.
^ Фишер М., Оутс К.Дж. Несоответствие ядра Штейна без градиента. Препринт arXiv arXiv:2207.02636. 2022.
^ Афзали, Элхам и Мутукумарана, Саман. Тестирование соответствия несоответствия Стейна без градиента ядра. Машинное обучение с приложениями, т. 12, стр. 100463, 2023. Elsevier.
^ Mackey, L., & Gorham, J. (2016). Многомерные факторы Стейна для класса сильно логарифмически вогнутых распределений. Electronic Communications in Probability, 21, 1-14.
^ abcd Chen WY, Mackey L, Gorham J, Briol FX, Oates CJ. Точки Stein. На Международной конференции по машинному обучению 2018 г. (стр. 844-853). PMLR.
^ abc Riabiz M, Chen W, Cockayne J, Swietach P, Niederer SA, Mackey L, Oates CJ. Оптимальное прореживание выходных данных MCMC. Журнал Королевского статистического общества B: Статистическая методология, появится в печати. 2021. arXiv :2005.03952
^ Chen WY, Barp A, Briol FX, Gorham J, Girolami M, Mackey L, Oates CJ. Stein Point Markov Chain Monte Carlo. Международная конференция по машинному обучению (ICML 2019). arXiv :1905.03673
^ Корба А., Обин-Франковски ПК, Маевски С., Аблин П. «Спуск несоответствия ядра Штейна». Препринт arXiv arXiv : 2105.09994. 2021.
^ Лю Цюй, Ли Дж. Выборка важности черного ящика. В Искусственном интеллекте и статистике 2017 (стр. 952-961). PMLR.
^ Ходжкинсон Л., Саломоне Р., Руста Ф. Воспроизводящий подход ядра Штейна для апостериорной скорректированной выборки. Препринт arXiv arXiv:2001.09266. 2020.
^ Теймур О, Горхэм Дж, Риабиз М, Оутс К.Дж. Оптимальное квантование вероятностных мер с использованием максимального среднего расхождения. На Международной конференции по искусственному интеллекту и статистике 2021 г. (стр. 1027-1035). PMLR.
^ Ранганат Р., Тран Д., Альтосаар Дж., Блей Д. Операторный вариационный вывод. Достижения в области нейронных систем обработки информации. 2016;29:496-504.
^ ab Фишер М., Нолан Т., Грэм М., Прангл Д., Оутс К.Дж. Измерение транспорта с расхождением ядра Стейна. Международная конференция по искусственному интеллекту и статистике 2021 г. (стр. 1054-1062). PMLR.
^ Barp, A., Briol, F.-X., Duncan, AB, Girolami, M., & Mackey, L. (2019). Оценки минимального расхождения Штейна. Neural Information Processing Systems, 12964–12976.
^ Канагава, Х., Джиткриттум, В., Макки, Л., Фукумизу, К. и Греттон, А. (2019). Тест ядра Стейна для сравнения моделей скрытых переменных. Препринт arXiv arXiv:1907.00586.
^ Джиткриттум В., Сюй В., Сабо З., Фукумидзу К., Греттон А. Тест согласия ядра в линейном времени.