Эти расхождения были введены Альфредом Реньи [1] в той же статье, где он ввел известную энтропию Реньи . Он доказал, что эти расхождения уменьшаются в марковских процессах . f -расхождения были далее изучены независимо Чисаром (1963), Моримото (1963) и Али и Силви (1966) и иногда известны как расхождения Чисара, расхождения Чисара–Моримото или расстояния Али–Силви.
Определение
Неединственный случай
Пусть и будут двумя вероятностными распределениями в пространстве , такими , что , то есть, абсолютно непрерывны относительно . Тогда для выпуклой функции такой, что конечна для всех , и (которые могут быть бесконечными), -дивергенция от определяется как
Мы вызываем генератор .
В конкретных приложениях обычно имеется опорное распределение (например, когда опорное распределение является мерой Лебега ), такое что , тогда мы можем использовать теорему Радона–Никодима, чтобы взять их плотности вероятностей и , давая
Когда нет такого справочного распределения под рукой, мы можем просто определить , и действовать так, как указано выше. Это полезный прием в более абстрактных доказательствах.
Равенство здесь выполняется тогда и только тогда, когда переход вызван достаточной статистикой относительно { P , Q }.
Совместная выпуклость : для любого 0 ≤ λ ≤ 1 ,
Это следует из выпуклости отображения на .
Обращение выпуклой инверсией : для любой функции ее выпуклая инверсия определяется как . Когда удовлетворяет определяющим признакам генератора f-дивергенции ( конечно для всех , и ), то удовлетворяет тем же признакам и, таким образом, определяет f-дивергенцию . Это «обратный» , в том смысле, что для всех , которые абсолютно непрерывны относительно друг друга. Таким образом, каждая f-дивергенция может быть превращена симметричной с помощью . Например, выполнение этой симметризации превращает KL-дивергенцию в дивергенцию Джеффри.
В частности, монотонность подразумевает, что если марковский процесс имеет положительное равновесное распределение вероятностей , то является монотонной (невозрастающей) функцией времени, где распределение вероятностей является решением прямых уравнений Колмогорова (или Уравнения Мастера ), используемых для описания временной эволюции распределения вероятностей в марковском процессе. Это означает, что все f -дивергенции являются функциями Ляпунова прямых уравнений Колмогорова. Обратное утверждение также верно: если является функцией Ляпунова для всех цепей Маркова с положительным равновесием и имеет следовую форму ( ), то , для некоторой выпуклой функции f . [3] [4] Например, дивергенции Брегмана в общем случае не обладают таким свойством и могут увеличиваться в марковских процессах. [5]
Аналитические свойства
F-расхождения можно выразить с помощью ряда Тейлора и переписать с использованием взвешенной суммы расстояний типа хи (Nielsen & Nock (2013)).
Используя эту теорему о полном вариационном расстоянии, с генератором его выпуклого сопряжения , мы получаем
Для хи-квадрат расхождения, определяемого как , мы получаем
Поскольку член вариации не является аффинно-инвариантным в , даже если область, в которой варьируется, является аффинно-инвариантной, мы можем использовать аффинно-инвариантность, чтобы получить более компактное выражение.
Для -дивергенции с , имеем , с диапазоном . Его выпуклое сопряжение есть с диапазоном , где .
Применение этой теоремы дает после замены на ,
или, сняв ограничение на ,
Задание дает вариационное представление -дивергенции, полученное выше.
Область, по которой меняется, не является аффинно-инвариантной в общем случае, в отличие от случая -дивергенции. -Дивергенция является особой, поскольку в этом случае мы можем удалить из .
Для общего случая область, в которой изменяется, является просто инвариантом масштаба. Подобно вышесказанному, мы можем заменить на и взять минимум для получения
Задание и выполнение другой замены на дает два вариационных представления квадрата расстояния Хеллингера:
Применение этой теоремы к KL-дивергенции, определяемой как , дает
Это строго менее эффективно, чем представление Донскера–Варадхана
Этот дефект устраняется следующей теоремой.
Улучшенное вариативное представление
Предположим, что мы имеем дело с ситуацией, описанной в начале этого раздела («Вариационные представления»).
Теорема — Если на (переопределить при необходимости), то
,
где
и , где — функция плотности вероятности относительно некоторой базовой меры.
В частном случае мы имеем
.
Это теорема 7.25 в. [2]
Примеры приложений
Применение этой теоремы к KL-дивергенции приводит к представлению Донскера–Варадхана.
Попытка применить эту теорему к общей -дивергенции с не приводит к решению в замкнутой форме.
Распространенные примерыф-расхождения
В следующей таблице перечислены многие из распространенных расхождений между распределениями вероятностей и возможными производящими функциями, которым они соответствуют. Примечательно, что за исключением расстояния полной вариации, все остальные являются частными случаями -расхождений или линейными суммами -расхождений.
Для каждой f-дивергенции ее производящая функция определена не однозначно, а только до , где — любая действительная константа. То есть для любой , которая порождает f-дивергенцию, мы имеем . Эта свобода не только удобна, но и фактически необходима.
Пусть будет генератором -дивергенции, тогда и являются выпуклыми инверсиями друг друга, так что . В частности, это показывает, что квадрат расстояния Хеллингера и дивергенция Дженсена-Шеннона симметричны.
В литературе -расхождения иногда параметризуются как
что эквивалентно параметризации на этой странице путем замены .
Пару распределений вероятностей можно рассматривать как азартную игру, в которой одно из распределений определяет официальные шансы, а другое содержит фактические вероятности. Знание фактических вероятностей позволяет игроку получать прибыль от игры. Для большого класса рациональных игроков ожидаемая норма прибыли имеет ту же общую форму, что и ƒ -дивергенция. [8]
^ Реньи, Альфред (1961). О мерах энтропии и информации (PDF) . 4-й Берклийский симпозиум по математике, статистике и вероятности, 1960. Беркли, Калифорния: Издательство Калифорнийского университета. С. 547–561 .Ур. (4.20)
^ abcd Полянский, Юрий; Ихонг, У (2022). Теория информации: от кодирования к обучению (черновик от 20 октября 2022 г.) (PDF) . Cambridge University Press. Архивировано из оригинала (PDF) 2023-02-01.
^ Горбань, Павел А. (15 октября 2003 г.). «Монотонно эквивалентные энтропии и решение уравнения аддитивности». Physica A . 328 ( 3– 4): 380– 390. arXiv : cond-mat/0304131 . Bibcode :2003PhyA..328..380G. doi :10.1016/S0378-4371(03)00578-8. S2CID 14975501.
^ Amari, Shun'ichi (2009). Leung, CS; Lee, M.; Chan, JH (ред.). Divergence, Optimization, Geometry . 16-я международная конференция по нейронной обработке информации (ICONIP 20009), Бангкок, Таиланд, 1–5 декабря 2009 г. Lecture Notes in Computer Science, т. 5863. Берлин, Гейдельберг: Springer. стр. 185–193 . doi :10.1007/978-3-642-10677-4_21.
^ Горбань, Александр Н. (29 апреля 2014 г.). «Общая H-теорема и энтропии, нарушающие второй закон». Entropy . 16 (5): 2408– 2432. arXiv : 1212.6767 . Bibcode :2014Entrp..16.2408G. doi : 10.3390/e16052408 .
^ Цзяо, Цзяньтао; Куртэйд, Томас; Но, Альберт; Венкат, Картик; Вайсман, Цахи (декабрь 2014 г.). «Информационные меры: любопытный случай двоичного алфавита». Труды IEEE по теории информации . 60 (12): 7616– 7626. arXiv : 1404.6810 . doi : 10.1109/TIT.2014.2360184. ISSN 0018-9448. S2CID 13108908.
^ Соклаков, Андрей Н. (2020). «Экономика разногласий — финансовая интуиция для расхождения Реньи». Энтропия . 22 (8): 860. arXiv : 1811.08308 . Bibcode : 2020Entrp..22..860S. doi : 10.3390/e22080860 . PMC 7517462. PMID 33286632 .
Чисар, И. (1963). «Eine Informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodizitat von Markoffschen Ketten». Мадьяр. Туд. Акад. Мат. Кутато Междунар. Козл . 8 : 85–108 .
Моримото, Т. (1963). «Марковские процессы и H-теорема». J. Phys. Soc. Jpn . 18 (3): 328– 331. Bibcode :1963JPSJ...18..328M. doi :10.1143/JPSJ.18.328.
Али, SM; Силви, SD (1966). «Общий класс коэффициентов расхождения одного распределения от другого». Журнал Королевского статистического общества, Серия B. 28 ( 1): 131– 142. JSTOR 2984279. MR 0196777.
Чисар, И. (1967). «Информационные меры разности распределений вероятностей и косвенные наблюдения». Studia Scientiarum Mathematicarum Hungarica . 2 : 229–318 .
Чисар, И.; Шилдс, П. (2004). "Теория информации и статистика: Учебное пособие" (PDF) . Основы и тенденции в теории коммуникаций и информации . 1 (4): 417– 528. doi :10.1561/0100000004 . Получено 08.04.2009 .
Лизе, Ф.; Вайда, И. (2006). «О расхождениях и информации в статистике и теории информации». Труды IEEE по теории информации . 52 (10): 4394– 4412. doi :10.1109/TIT.2006.881731. S2CID 2720215.
Nielsen, F.; Nock, R. (2013). «О хи-квадрате и хи-расстояниях более высокого порядка для аппроксимации f-расхождений». IEEE Signal Processing Letters . 21 (1): 10– 13. arXiv : 1309.3029 . Bibcode : 2014ISPL...21...10N. doi : 10.1109/LSP.2013.2288355. S2CID 4152365.
Кержолли, Ж. Ф.; Друйе, Р. (2006). «Нормализованные информационные расхождения». arXiv : math/0604246 .