f-дивергенция

Функция, измеряющая различие между двумя распределениями вероятностей


В теории вероятностей -дивергенция - это определенный тип функции , которая измеряет разницу между двумя распределениями вероятностей и . Многие распространенные дивергенции, такие как KL-дивергенция , расстояние Хеллингера и расстояние полной вариации , являются частными случаями -дивергенции. ф {\displaystyle f} Д ф ( П В ) {\displaystyle D_{f}(P\|Q)} П {\displaystyle P} В {\displaystyle Q} ф {\displaystyle f}

История

Эти расхождения были введены Альфредом Реньи [1] в той же статье, где он ввел известную энтропию Реньи . Он доказал, что эти расхождения уменьшаются в марковских процессах . f -расхождения были далее изучены независимо Чисаром (1963), Моримото (1963) и Али и Силви (1966) и иногда известны как расхождения Чисара, расхождения Чисара–Моримото или расстояния Али–Силви. ф {\displaystyle f}

Определение

Неединственный случай

Пусть и будут двумя вероятностными распределениями в пространстве , такими , что , то есть, абсолютно непрерывны относительно . Тогда для выпуклой функции такой, что конечна для всех , и (которые могут быть бесконечными), -дивергенция от определяется как П {\displaystyle P} В {\displaystyle Q} Ω {\displaystyle \Омега} П В {\displaystyle P\ll Q} П {\displaystyle P} В {\displaystyle Q} ф : [ 0 , + ) ( , + ] {\displaystyle е:[0,+\infty)\to (-\infty,+\infty]} ф ( х ) {\displaystyle f(x)} х > 0 {\displaystyle х>0} ф ( 1 ) = 0 {\displaystyle f(1)=0} ф ( 0 ) = лим т 0 + ф ( т ) {\displaystyle f(0)=\lim _{t\to 0^{+}}f(t)} ф {\displaystyle f} П {\displaystyle P} В {\displaystyle Q}

Д ф ( П В ) Ω ф ( г П г В ) г В . {\displaystyle D_{f}(P\parallel Q)\equiv \int _{\Omega }f\left({\frac {dP}{dQ}}\right)\,dQ.}

Мы вызываем генератор . ф {\displaystyle f} Д ф {\displaystyle D_{f}}

В конкретных приложениях обычно имеется опорное распределение (например, когда опорное распределение является мерой Лебега ), такое что , тогда мы можем использовать теорему Радона–Никодима, чтобы взять их плотности вероятностей и , давая μ {\displaystyle \мю} Ω {\displaystyle \Омега} Ω = Р н {\displaystyle \Омега =\mathbb {R} ^{n}} П , В μ {\displaystyle P,Q\ll \mu } п {\displaystyle p} д {\displaystyle д}

Д ф ( П В ) = Ω ф ( п ( х ) д ( х ) ) д ( х ) г μ ( х ) . {\displaystyle D_{f}(P\parallel Q)=\int _{\Omega }f\left({\frac {p(x)}{q(x)}}\right)q(x)\,d\mu (x).}

Когда нет такого справочного распределения под рукой, мы можем просто определить , и действовать так, как указано выше. Это полезный прием в более абстрактных доказательствах. μ = П + В {\displaystyle \mu =P+Q}

Расширение досингулярные меры

Приведенное выше определение можно распространить на случаи, когда больше не выполняется (Определение 7.1 из [2] ). П В {\displaystyle P\ll Q}

Так как является выпуклой, а , то функция должна быть неубывающей, поэтому существует , принимающая значение в . ф {\displaystyle f} ф ( 1 ) = 0 {\displaystyle f(1)=0} ф ( х ) х 1 {\displaystyle {\frac {f(x)}{x-1}}} ф ( ) := лим х ф ( х ) / х {\displaystyle f'(\infty ):=\lim _{x\to \infty }f(x)/x} ( , + ] {\displaystyle (-\infty ,+\infty ]}

Так как для любого имеем , то можно распространить f-дивергенцию на . п ( х ) > 0 {\displaystyle р(х)>0} лим д ( х ) 0 д ( х ) ф ( п ( х ) д ( х ) ) = п ( х ) ф ( ) {\displaystyle \lim _{q(x)\to 0}q(x)f\left({\frac {p(x)}{q(x)}}\right)=p(x)f'(\infty )} П ≪ ̸ В {\displaystyle P\not \ll Q}

Характеристики

Основные соотношения между f-дивергенциями

  • Линейность: дана конечная последовательность неотрицательных действительных чисел и генераторов . Д я а я ф я = я а я Д ф я {\displaystyle D_{\sum _{i}a_{i}f_{i}}=\sum _{i}a_{i}D_{f_{i}}} а я {\displaystyle a_{i}} ф я {\displaystyle f_{i}}
  • Д ф = Д г {\displaystyle D_{f}=D_{g}} если для некоторых . ф ( х ) = г ( х ) + с ( х 1 ) {\displaystyle f(x)=g(x)+c(x-1)} с Р {\displaystyle c\in \mathbb {R} }
Доказательство

Если , то по определению. ф ( х ) = г ( х ) + с ( х 1 ) {\displaystyle f(x)=g(x)+c(x-1)} Д ф = Д г {\displaystyle D_{f}=D_{g}}

Обратно, если , то пусть . Для любых двух вероятностных мер на множестве , поскольку , получаем Д ф Д г = 0 {\displaystyle D_{f}-D_{g}=0} час = ф г {\displaystyle h=fg} П , В {\displaystyle P,Q} { 0 , 1 } {\displaystyle \{0,1\}} Д ф ( П В ) Д г ( П В ) = 0 {\displaystyle D_{f}(P\|Q)-D_{g}(P\|Q)=0} h ( P 1 / Q 1 ) = Q 0 Q 1 h ( P 0 / Q 0 ) {\displaystyle h(P_{1}/Q_{1})=-{\frac {Q_{0}}{Q_{1}}}h(P_{0}/Q_{0})}

Поскольку каждая мера вероятности имеет одну степень свободы, мы можем решить для каждого выбора . P , Q {\displaystyle P,Q} P 0 Q 0 = a , P 1 Q 1 = x {\displaystyle {\frac {P_{0}}{Q_{0}}}=a,{\frac {P_{1}}{Q_{1}}}=x} 0 < a < 1 < x {\displaystyle 0<a<1<x}

Линейная алгебра дает , что является допустимой мерой вероятности. Тогда мы получаем . Q 0 = x 1 x a , Q 1 = 1 a x a {\displaystyle Q_{0}={\frac {x-1}{x-a}},Q_{1}={\frac {1-a}{x-a}}} h ( x ) = h ( a ) a 1 ( x 1 ) , h ( a ) = h ( x ) x 1 ( a 1 ) {\displaystyle h(x)={\frac {h(a)}{a-1}}(x-1),h(a)={\frac {h(x)}{x-1}}(a-1)}

Таким образом, для некоторых констант . Подстановка формулы в дает . h ( x ) = { c 1 ( x 1 ) if  x > 1 , c 0 ( x 1 ) if  0 < x < 1 , {\displaystyle h(x)={\begin{cases}c_{1}(x-1)\quad {\text{if }}x>1,\\c_{0}(x-1)\quad {\text{if }}0<x<1,\\\end{cases}}} c 0 , c 1 {\displaystyle c_{0},c_{1}} h ( x ) = h ( a ) a 1 ( x 1 ) {\displaystyle h(x)={\frac {h(a)}{a-1}}(x-1)} c 0 = c 1 {\displaystyle c_{0}=c_{1}}

Основные свойства f-дивергенций

  • Неотрицательность : ƒ -дивергенция всегда положительна; она равна нулю, если меры P и Q совпадают. Это немедленно следует из неравенства Йенсена :
    D f ( P Q ) = f ( d P d Q ) d Q f ( d P d Q d Q ) = f ( 1 ) = 0. {\displaystyle D_{f}(P\!\parallel \!Q)=\int \!f{\bigg (}{\frac {dP}{dQ}}{\bigg )}dQ\geq f{\bigg (}\int {\frac {dP}{dQ}}dQ{\bigg )}=f(1)=0.}
  • Неравенство обработки данных : если κ — произвольная вероятность перехода , которая преобразует меры P и Q в P κ и Q κ соответственно, то
    D f ( P Q ) D f ( P κ Q κ ) . {\displaystyle D_{f}(P\!\parallel \!Q)\geq D_{f}(P_{\kappa }\!\parallel \!Q_{\kappa }).}
    Равенство здесь выполняется тогда и только тогда, когда переход вызван достаточной статистикой относительно { P , Q }.
  • Совместная выпуклость : для любого 0 ≤ λ ≤ 1 ,
    D f ( λ P 1 + ( 1 λ ) P 2 λ Q 1 + ( 1 λ ) Q 2 ) λ D f ( P 1 Q 1 ) + ( 1 λ ) D f ( P 2 Q 2 ) . {\displaystyle D_{f}{\Big (}\lambda P_{1}+(1-\lambda )P_{2}\parallel \lambda Q_{1}+(1-\lambda )Q_{2}{\Big )}\leq \lambda D_{f}(P_{1}\!\parallel \!Q_{1})+(1-\lambda )D_{f}(P_{2}\!\parallel \!Q_{2}).}
    Это следует из выпуклости отображения на . ( p , q ) q f ( p / q ) {\displaystyle (p,q)\mapsto qf(p/q)} R + 2 {\displaystyle \mathbb {R} _{+}^{2}}
  • Обращение выпуклой инверсией : для любой функции ее выпуклая инверсия определяется как . Когда удовлетворяет определяющим признакам генератора f-дивергенции ( конечно для всех , и ), то удовлетворяет тем же признакам и, таким образом, определяет f-дивергенцию . Это «обратный» , в том смысле, что для всех , которые абсолютно непрерывны относительно друг друга. Таким образом, каждая f-дивергенция может быть превращена симметричной с помощью . Например, выполнение этой симметризации превращает KL-дивергенцию в дивергенцию Джеффри. f {\displaystyle f} g ( t ) := t f ( 1 / t ) {\displaystyle g(t):=tf(1/t)} f {\displaystyle f} f ( x ) {\displaystyle f(x)} x > 0 {\displaystyle x>0} f ( 1 ) = 0 {\displaystyle f(1)=0} f ( 0 ) = lim t 0 + f ( t ) {\displaystyle f(0)=\lim _{t\to 0^{+}}f(t)} g {\displaystyle g} D g {\displaystyle D_{g}} D f {\displaystyle D_{f}} D g ( P Q ) = D f ( Q P ) {\displaystyle D_{g}(P\|Q)=D_{f}(Q\|P)} P , Q {\displaystyle P,Q} D f {\displaystyle D_{f}} D 1 2 ( f + g ) {\displaystyle D_{{\frac {1}{2}}(f+g)}}

В частности, монотонность подразумевает, что если марковский процесс имеет положительное равновесное распределение вероятностей , то является монотонной (невозрастающей) функцией времени, где распределение вероятностей является решением прямых уравнений Колмогорова (или Уравнения Мастера ), используемых для описания временной эволюции распределения вероятностей в марковском процессе. Это означает, что все f -дивергенции являются функциями Ляпунова прямых уравнений Колмогорова. Обратное утверждение также верно: если является функцией Ляпунова для всех цепей Маркова с положительным равновесием и имеет следовую форму ( ), то , для некоторой выпуклой функции f . [3] [4] Например, дивергенции Брегмана в общем случае не обладают таким свойством и могут увеличиваться в марковских процессах. [5] P {\displaystyle P^{*}} D f ( P ( t ) P ) {\displaystyle D_{f}(P(t)\parallel P^{*})} P ( t ) {\displaystyle P(t)} D f ( P ( t ) P ) {\displaystyle D_{f}(P(t)\parallel P^{*})} H ( P ) {\displaystyle H(P)} P {\displaystyle P^{*}} H ( P ) = i f ( P i , P i ) {\displaystyle H(P)=\sum _{i}f(P_{i},P_{i}^{*})} H ( P ) = D f ( P ( t ) P ) {\displaystyle H(P)=D_{f}(P(t)\parallel P^{*})}

Аналитические свойства

F-расхождения можно выразить с помощью ряда Тейлора и переписать с использованием взвешенной суммы расстояний типа хи (Nielsen & Nock (2013)).

Наивное вариационное представление

Пусть будет выпуклым сопряжением . Пусть будет эффективной областью , то есть . Тогда у нас есть два вариационных представления , которые мы опишем ниже. f {\displaystyle f^{*}} f {\displaystyle f} e f f d o m ( f ) {\displaystyle \mathrm {effdom} (f^{*})} f {\displaystyle f^{*}} e f f d o m ( f ) = { y : f ( y ) < } {\displaystyle \mathrm {effdom} (f^{*})=\{y:f^{*}(y)<\infty \}} D f {\displaystyle D_{f}}

Базовое вариационное представление

В соответствии с вышеуказанной настройкой,

Теорема  —  . D f ( P ; Q ) = sup g : Ω e f f d o m ( f ) E P [ g ] E Q [ f g ] {\displaystyle D_{f}(P;Q)=\sup _{g:\Omega \to \mathrm {effdom} (f^{*})}E_{P}[g]-E_{Q}[f^{*}\circ g]}

Это теорема 7.24 в [2] .

Примеры приложений

Используя эту теорему о полном вариационном расстоянии, с генератором его выпуклого сопряжения , мы получаем Для хи-квадрат расхождения, определяемого как , мы получаем Поскольку член вариации не является аффинно-инвариантным в , даже если область, в которой варьируется, является аффинно-инвариантной, мы можем использовать аффинно-инвариантность, чтобы получить более компактное выражение. f ( x ) = 1 2 | x 1 | , {\displaystyle f(x)={\frac {1}{2}}|x-1|,} f ( x ) = { x  on  [ 1 / 2 , 1 / 2 ] , +  else. {\displaystyle f^{*}(x^{*})={\begin{cases}x^{*}{\text{ on }}[-1/2,1/2],\\+\infty {\text{ else.}}\end{cases}}} T V ( P Q ) = sup | g | 1 / 2 E P [ g ( X ) ] E Q [ g ( X ) ] . {\displaystyle TV(P\|Q)=\sup _{|g|\leq 1/2}E_{P}[g(X)]-E_{Q}[g(X)].} f ( x ) = ( x 1 ) 2 , f ( y ) = y 2 / 4 + y {\displaystyle f(x)=(x-1)^{2},f^{*}(y)=y^{2}/4+y} χ 2 ( P ; Q ) = sup g E P [ g ( X ) ] E Q [ g ( X ) 2 / 4 + g ( X ) ] . {\displaystyle \chi ^{2}(P;Q)=\sup _{g}E_{P}[g(X)]-E_{Q}[g(X)^{2}/4+g(X)].} g {\displaystyle g} g {\displaystyle g}

Заменяя на и взяв максимум по , получаем что находится всего в нескольких шагах от границы Хаммерсли–Чепмена–Роббинса и границы Крамера–Рао (теорема 29.1 и ее следствие в [2] ). g {\displaystyle g} a g + b {\displaystyle ag+b} a , b R {\displaystyle a,b\in \mathbb {R} } χ 2 ( P ; Q ) = sup g ( E P [ g ( X ) ] E Q [ g ( X ) ] ) 2 V a r Q [ g ( X ) ] , {\displaystyle \chi ^{2}(P;Q)=\sup _{g}{\frac {(E_{P}[g(X)]-E_{Q}[g(X)])^{2}}{Var_{Q}[g(X)]}},}

Для -дивергенции с , имеем , с диапазоном . Его выпуклое сопряжение есть с диапазоном , где . α {\displaystyle \alpha } α ( , 0 ) ( 0 , 1 ) {\displaystyle \alpha \in (-\infty ,0)\cup (0,1)} f α ( x ) = x α α x ( 1 α ) α ( α 1 ) {\displaystyle f_{\alpha }(x)={\frac {x^{\alpha }-\alpha x-(1-\alpha )}{\alpha (\alpha -1)}}} x [ 0 , ) {\displaystyle x\in [0,\infty )} f α ( y ) = 1 α ( x ( y ) α 1 ) {\displaystyle f_{\alpha }^{*}(y)={\frac {1}{\alpha }}(x(y)^{\alpha }-1)} y ( , ( 1 α ) 1 ) {\displaystyle y\in (-\infty ,(1-\alpha )^{-1})} x ( y ) = ( ( α 1 ) y + 1 ) 1 α 1 {\displaystyle x(y)=((\alpha -1)y+1)^{\frac {1}{\alpha -1}}}

Применение этой теоремы дает после замены на , или, сняв ограничение на , Задание дает вариационное представление -дивергенции, полученное выше. h = ( ( α 1 ) g + 1 ) 1 α 1 {\displaystyle h=((\alpha -1)g+1)^{\frac {1}{\alpha -1}}} D α ( P Q ) = 1 α ( 1 α ) inf h : Ω ( 0 , ) ( E Q [ h α α ] + E P [ h α 1 1 α ] ) , {\displaystyle D_{\alpha }(P\|Q)={\frac {1}{\alpha (1-\alpha )}}-\inf _{h:\Omega \to (0,\infty )}\left(E_{Q}\left[{\frac {h^{\alpha }}{\alpha }}\right]+E_{P}\left[{\frac {h^{\alpha -1}}{1-\alpha }}\right]\right),} h {\displaystyle h} D α ( P Q ) = 1 α ( 1 α ) inf h : Ω R ( E Q [ | h | α α ] + E P [ | h | α 1 1 α ] ) . {\displaystyle D_{\alpha }(P\|Q)={\frac {1}{\alpha (1-\alpha )}}-\inf _{h:\Omega \to \mathbb {R} }\left(E_{Q}\left[{\frac {|h|^{\alpha }}{\alpha }}\right]+E_{P}\left[{\frac {|h|^{\alpha -1}}{1-\alpha }}\right]\right).} α = 1 {\displaystyle \alpha =-1} χ 2 {\displaystyle \chi ^{2}}

Область, по которой меняется, не является аффинно-инвариантной в общем случае, в отличие от случая -дивергенции. -Дивергенция является особой, поскольку в этом случае мы можем удалить из . h {\displaystyle h} χ 2 {\displaystyle \chi ^{2}} χ 2 {\displaystyle \chi ^{2}} | | {\displaystyle |\cdot |} | h | {\displaystyle |h|}

Для общего случая область, в которой изменяется, является просто инвариантом масштаба. Подобно вышесказанному, мы можем заменить на и взять минимум для получения Задание и выполнение другой замены на дает два вариационных представления квадрата расстояния Хеллингера: Применение этой теоремы к KL-дивергенции, определяемой как , дает Это строго менее эффективно, чем представление Донскера–Варадхана Этот дефект устраняется следующей теоремой. α ( , 0 ) ( 0 , 1 ) {\displaystyle \alpha \in (-\infty ,0)\cup (0,1)} h {\displaystyle h} h {\displaystyle h} a h {\displaystyle ah} a > 0 {\displaystyle a>0} D α ( P Q ) = sup h > 0 [ 1 α ( 1 α ) ( 1 E P [ h α 1 ] α E Q [ h α ] α 1 ) ] . {\displaystyle D_{\alpha }(P\|Q)=\sup _{h>0}\left[{\frac {1}{\alpha (1-\alpha )}}\left(1-{\frac {E_{P}[h^{\alpha -1}]^{\alpha }}{E_{Q}[h^{\alpha }]^{\alpha -1}}}\right)\right].} α = 1 2 {\displaystyle \alpha ={\frac {1}{2}}} g = h {\displaystyle g={\sqrt {h}}} H 2 ( P Q ) = 1 2 D 1 / 2 ( P Q ) = 2 inf h > 0 ( E Q [ h ( X ) ] + E P [ h ( X ) 1 ] ) , {\displaystyle H^{2}(P\|Q)={\frac {1}{2}}D_{1/2}(P\|Q)=2-\inf _{h>0}\left(E_{Q}\left[h(X)\right]+E_{P}\left[h(X)^{-1}\right]\right),} H 2 ( P Q ) = 2 sup h > 0 ( 1 E P [ h 1 ] E Q [ h ] ) . {\displaystyle H^{2}(P\|Q)=2\sup _{h>0}\left(1-{\sqrt {E_{P}[h^{-1}]E_{Q}[h]}}\right).} f ( x ) = x ln x , f ( y ) = e y 1 {\displaystyle f(x)=x\ln x,f^{*}(y)=e^{y-1}} D K L ( P ; Q ) = sup g E P [ g ( X ) ] e 1 E Q [ e g ( X ) ] . {\displaystyle D_{KL}(P;Q)=\sup _{g}E_{P}[g(X)]-e^{-1}E_{Q}[e^{g(X)}].} D K L ( P ; Q ) = sup g E P [ g ( X ) ] ln E Q [ e g ( X ) ] . {\displaystyle D_{KL}(P;Q)=\sup _{g}E_{P}[g(X)]-\ln E_{Q}[e^{g(X)}].}

Улучшенное вариативное представление

Предположим, что мы имеем дело с ситуацией, описанной в начале этого раздела («Вариационные представления»).

Теорема  —  Если на (переопределить при необходимости), то f ( x ) = + {\displaystyle f(x)=+\infty } x < 0 {\displaystyle x<0} f {\displaystyle f}

D f ( P Q ) = f ( ) P [ S c ] + sup g E P [ g 1 S ] Ψ Q , P ( g ) {\displaystyle D_{f}(P\|Q)=f^{\prime }(\infty )P\left[S^{c}\right]+\sup _{g}\mathbb {E} _{P}\left[g1_{S}\right]-\Psi _{Q,P}^{*}(g)} ,

где и , где — функция плотности вероятности относительно некоторой базовой меры. Ψ Q , P ( g ) := inf a R E Q [ f ( g ( X ) a ) ] + a P [ S ] {\displaystyle \Psi _{Q,P}^{*}(g):=\inf _{a\in \mathbb {R} }\mathbb {E} _{Q}\left[f^{*}(g(X)-a)\right]+aP[S]} S := { q > 0 } {\displaystyle S:=\{q>0\}} q {\displaystyle q} Q {\displaystyle Q}

В частном случае мы имеем f ( ) = + {\displaystyle f^{\prime }(\infty )=+\infty }

D f ( P Q ) = sup g E P [ g ] Ψ Q ( g ) , Ψ Q ( g ) := inf a R E Q [ f ( g ( X ) a ) ] + a {\displaystyle D_{f}(P\|Q)=\sup _{g}\mathbb {E} _{P}[g]-\Psi _{Q}^{*}(g),\quad \Psi _{Q}^{*}(g):=\inf _{a\in \mathbb {R} }\mathbb {E} _{Q}\left[f^{*}(g(X)-a)\right]+a} .

Это теорема 7.25 в. [2]

Примеры приложений

Применение этой теоремы к KL-дивергенции приводит к представлению Донскера–Варадхана.

Попытка применить эту теорему к общей -дивергенции с не приводит к решению в замкнутой форме. α {\displaystyle \alpha } α ( , 0 ) ( 0 , 1 ) {\displaystyle \alpha \in (-\infty ,0)\cup (0,1)}

Распространенные примерыф-расхождения

В следующей таблице перечислены многие из распространенных расхождений между распределениями вероятностей и возможными производящими функциями, которым они соответствуют. Примечательно, что за исключением расстояния полной вариации, все остальные являются частными случаями -расхождений или линейными суммами -расхождений. α {\displaystyle \alpha } α {\displaystyle \alpha }

Для каждой f-дивергенции ее производящая функция определена не однозначно, а только до , где — любая действительная константа. То есть для любой , которая порождает f-дивергенцию, мы имеем . Эта свобода не только удобна, но и фактически необходима. D f {\displaystyle D_{f}} c ( t 1 ) {\displaystyle c\cdot (t-1)} c {\displaystyle c} f {\displaystyle f} D f ( t ) = D f ( t ) + c ( t 1 ) {\displaystyle D_{f(t)}=D_{f(t)+c\cdot (t-1)}}

ДивергенцияСоответствующая f(t)Дискретная форма
χ α {\displaystyle \chi ^{\alpha }} -расхождение, α 1 {\displaystyle \alpha \geq 1\,} 1 2 | t 1 | α {\displaystyle {\frac {1}{2}}|t-1|^{\alpha }\,} 1 2 i | p i q i q i | α q i {\displaystyle {\frac {1}{2}}\sum _{i}\left|{\frac {p_{i}-q_{i}}{q_{i}}}\right|^{\alpha }q_{i}\,}
Общее расстояние вариации ( ) α = 1 {\displaystyle \alpha =1\,} 1 2 | t 1 | {\displaystyle {\frac {1}{2}}|t-1|\,} 1 2 i | p i q i | {\displaystyle {\frac {1}{2}}\sum _{i}|p_{i}-q_{i}|\,}
α-дивергенция { t α α t ( 1 α ) α ( α 1 ) if   α 0 , α 1 , t ln t t + 1 , if   α = 1 , ln t + t 1 , if   α = 0 {\displaystyle {\begin{cases}{\frac {t^{\alpha }-\alpha t-\left(1-\alpha \right)}{\alpha \left(\alpha -1\right)}}&{\text{if}}\ \alpha \neq 0,\,\alpha \neq 1,\\t\ln t-t+1,&{\text{if}}\ \alpha =1,\\-\ln t+t-1,&{\text{if}}\ \alpha =0\end{cases}}}
KL-дивергенция ( ) α = 1 {\displaystyle \alpha =1} t ln t {\displaystyle t\ln t} i p i ln p i q i {\displaystyle \sum _{i}p_{i}\ln {\frac {p_{i}}{q_{i}}}}
обратная KL-дивергенция ( ) α = 0 {\displaystyle \alpha =0} ln t {\displaystyle -\ln t} i q i ln q i p i {\displaystyle \sum _{i}q_{i}\ln {\frac {q_{i}}{p_{i}}}}
Расхождение Дженсена-Шеннона 1 2 ( t ln t ( t + 1 ) ln ( t + 1 2 ) ) {\displaystyle {\frac {1}{2}}\left(t\ln t-(t+1)\ln \left({\frac {t+1}{2}}\right)\right)} 1 2 i ( p i ln p i ( p i + q i ) / 2 + q i ln q i ( p i + q i ) / 2 ) {\displaystyle {\frac {1}{2}}\sum _{i}\left(p_{i}\ln {\frac {p_{i}}{(p_{i}+q_{i})/2}}+q_{i}\ln {\frac {q_{i}}{(p_{i}+q_{i})/2}}\right)}
Дивергенция Джеффриса (KL + обратная KL) ( t 1 ) ln ( t ) {\displaystyle (t-1)\ln(t)} i ( p i q i ) ln p i q i {\displaystyle \sum _{i}(p_{i}-q_{i})\ln {\frac {p_{i}}{q_{i}}}}
квадрат расстояния Хеллингера ( ) α = 1 2 {\displaystyle \alpha ={\frac {1}{2}}} 1 2 ( t 1 ) 2 , 1 t {\displaystyle {\frac {1}{2}}({\sqrt {t}}-1)^{2},\,1-{\sqrt {t}}} 1 2 i ( p i q i ) 2 ; 1 i p i q i {\displaystyle {\frac {1}{2}}\sum _{i}({\sqrt {p_{i}}}-{\sqrt {q_{i}}})^{2};\;1-\sum _{i}{\sqrt {p_{i}q_{i}}}}
Пирсон -дивергенция (изменение масштаба ) χ 2 {\displaystyle \chi ^{2}} α = 2 {\displaystyle \alpha =2} ( t 1 ) 2 , t 2 1 , t 2 t {\displaystyle (t-1)^{2},\,t^{2}-1,\,t^{2}-t} i ( p i q i ) 2 q i {\displaystyle \sum _{i}{\frac {(p_{i}-q_{i})^{2}}{q_{i}}}}
Нейман -дивергенция (обратная Пирсону) χ 2 {\displaystyle \chi ^{2}}

(изменение масштаба ) α = 1 {\displaystyle \alpha =-1}

1 t 1 , 1 t t {\displaystyle {\frac {1}{t}}-1,\,{\frac {1}{t}}-t} i ( p i q i ) 2 p i {\displaystyle \sum _{i}{\frac {(p_{i}-q_{i})^{2}}{p_{i}}}}
Сравнение генераторов альфа-дивергенций, поскольку альфа изменяется от -1 до 2.

Пусть будет генератором -дивергенции, тогда и являются выпуклыми инверсиями друг друга, так что . В частности, это показывает, что квадрат расстояния Хеллингера и дивергенция Дженсена-Шеннона симметричны. f α {\displaystyle f_{\alpha }} α {\displaystyle \alpha } f α {\displaystyle f_{\alpha }} f 1 α {\displaystyle f_{1-\alpha }} D α ( P Q ) = D 1 α ( Q P ) {\displaystyle D_{\alpha }(P\|Q)=D_{1-\alpha }(Q\|P)}

В литературе -расхождения иногда параметризуются как α {\displaystyle \alpha }

{ 4 1 α 2 ( 1 t ( 1 + α ) / 2 ) , if   α ± 1 , t ln t , if   α = 1 , ln t , if   α = 1 {\displaystyle {\begin{cases}{\frac {4}{1-\alpha ^{2}}}{\big (}1-t^{(1+\alpha )/2}{\big )},&{\text{if}}\ \alpha \neq \pm 1,\\t\ln t,&{\text{if}}\ \alpha =1,\\-\ln t,&{\text{if}}\ \alpha =-1\end{cases}}}

что эквивалентно параметризации на этой странице путем замены . α α + 1 2 {\displaystyle \alpha \leftarrow {\frac {\alpha +1}{2}}}

Связь с другими статистическими расхождениями

Здесь мы сравниваем f -расхождения с другими статистическими расхождениями .

расхождение Реньи

Расхождения Реньи — это семейство расхождений, определяемых

R α ( P Q ) = 1 α 1 log ( E Q [ ( d P d Q ) α ] ) {\displaystyle R_{\alpha }(P\|Q)={\frac {1}{\alpha -1}}\log {\Bigg (}E_{Q}\left[\left({\frac {dP}{dQ}}\right)^{\alpha }\right]{\Bigg )}\,}

когда . Это распространяется на случаи взятия предела. α ( 0 , 1 ) ( 1 , + ) {\displaystyle \alpha \in (0,1)\cup (1,+\infty )} α = 0 , 1 , + {\displaystyle \alpha =0,1,+\infty }

Простая алгебра показывает , что , где - дивергенция, определенная выше. R α ( P Q ) = 1 α 1 ln ( 1 + α ( α 1 ) D α ( P Q ) ) {\displaystyle R_{\alpha }(P\|Q)={\frac {1}{\alpha -1}}\ln(1+\alpha (\alpha -1)D_{\alpha }(P\|Q))} D α {\displaystyle D_{\alpha }} α {\displaystyle \alpha }

расхождение Брегмана

Единственная f-дивергенция, которая также является дивергенцией Брегмана, — это дивергенция KL. [6]

Интегральные метрики вероятности

Единственная f-дивергенция, которая также является интегральной вероятностной метрикой, — это общая вариация. [7]

Финансовая интерпретация

Пару распределений вероятностей можно рассматривать как азартную игру, в которой одно из распределений определяет официальные шансы, а другое содержит фактические вероятности. Знание фактических вероятностей позволяет игроку получать прибыль от игры. Для большого класса рациональных игроков ожидаемая норма прибыли имеет ту же общую форму, что и ƒ -дивергенция. [8]

Смотрите также

Ссылки

  1. ^ Реньи, Альфред (1961). О мерах энтропии и информации (PDF) . 4-й Берклийский симпозиум по математике, статистике и вероятности, 1960. Беркли, Калифорния: Издательство Калифорнийского университета. С.  547–561 .Ур. (4.20)
  2. ^ abcd Полянский, Юрий; Ихонг, У (2022). Теория информации: от кодирования к обучению (черновик от 20 октября 2022 г.) (PDF) . Cambridge University Press. Архивировано из оригинала (PDF) 2023-02-01.
  3. ^ Горбань, Павел А. (15 октября 2003 г.). «Монотонно эквивалентные энтропии и решение уравнения аддитивности». Physica A . 328 ( 3– 4): 380– 390. arXiv : cond-mat/0304131 . Bibcode :2003PhyA..328..380G. doi :10.1016/S0378-4371(03)00578-8. S2CID  14975501.
  4. ^ Amari, Shun'ichi (2009). Leung, CS; Lee, M.; Chan, JH (ред.). Divergence, Optimization, Geometry . 16-я международная конференция по нейронной обработке информации (ICONIP 20009), Бангкок, Таиланд, 1–5 декабря 2009 г. Lecture Notes in Computer Science, т. 5863. Берлин, Гейдельберг: Springer. стр.  185–193 . doi :10.1007/978-3-642-10677-4_21.
  5. ^ Горбань, Александр Н. (29 апреля 2014 г.). «Общая H-теорема и энтропии, нарушающие второй закон». Entropy . 16 (5): 2408– 2432. arXiv : 1212.6767 . Bibcode :2014Entrp..16.2408G. doi : 10.3390/e16052408 .
  6. ^ Цзяо, Цзяньтао; Куртэйд, Томас; Но, Альберт; Венкат, Картик; Вайсман, Цахи (декабрь 2014 г.). «Информационные меры: любопытный случай двоичного алфавита». Труды IEEE по теории информации . 60 (12): 7616– 7626. arXiv : 1404.6810 . doi : 10.1109/TIT.2014.2360184. ISSN  0018-9448. S2CID  13108908.
  7. ^ Шриперумбудур, Бхарат К.; Фукумизу, Кэндзи; Греттон, Артур; Шёлькопф, Бернхард ; Ланкриет, Герт РГ (2009). «Об интегральных метриках вероятности, φ-дивергенциях и бинарной классификации». arXiv : 0901.2698 [cs.IT].
  8. ^ Соклаков, Андрей Н. (2020). «Экономика разногласий — финансовая интуиция для расхождения Реньи». Энтропия . 22 (8): 860. arXiv : 1811.08308 . Bibcode : 2020Entrp..22..860S. doi : 10.3390/e22080860 . PMC 7517462. PMID  33286632 . 
  • Чисар, И. (1963). «Eine Informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodizitat von Markoffschen Ketten». Мадьяр. Туд. Акад. Мат. Кутато Междунар. Козл . 8 : 85–108 .
  • Моримото, Т. (1963). «Марковские процессы и H-теорема». J. Phys. Soc. Jpn . 18 (3): 328– 331. Bibcode :1963JPSJ...18..328M. doi :10.1143/JPSJ.18.328.
  • Али, SM; Силви, SD (1966). «Общий класс коэффициентов расхождения одного распределения от другого». Журнал Королевского статистического общества, Серия B. 28 ( 1): 131– 142. JSTOR  2984279. MR  0196777.
  • Чисар, И. (1967). «Информационные меры разности распределений вероятностей и косвенные наблюдения». Studia Scientiarum Mathematicarum Hungarica . 2 : 229–318 .
  • Чисар, И.; Шилдс, П. (2004). "Теория информации и статистика: Учебное пособие" (PDF) . Основы и тенденции в теории коммуникаций и информации . 1 (4): 417– 528. doi :10.1561/0100000004 . Получено 08.04.2009 .
  • Лизе, Ф.; Вайда, И. (2006). «О расхождениях и информации в статистике и теории информации». Труды IEEE по теории информации . 52 (10): 4394– 4412. doi :10.1109/TIT.2006.881731. S2CID  2720215.
  • Nielsen, F.; Nock, R. (2013). «О хи-квадрате и хи-расстояниях более высокого порядка для аппроксимации f-расхождений». IEEE Signal Processing Letters . 21 (1): 10– 13. arXiv : 1309.3029 . Bibcode : 2014ISPL...21...10N. doi : 10.1109/LSP.2013.2288355. S2CID  4152365.
  • Кержолли, Ж. Ф.; Друйе, Р. (2006). «Нормализованные информационные расхождения». arXiv : math/0604246 .
Retrieved from "https://en.wikipedia.org/w/index.php?title=F-divergence&oldid=1258393057"