Неравенство Фано

Неравенство, применяемое к случайным величинам

В теории информации неравенство Фано (также известное как обратное уравнение Фано и лемма Фано ) связывает среднюю потерю информации в шумном канале с вероятностью ошибки категоризации. Оно было выведено Робертом Фано в начале 1950-х годов во время преподавания на семинаре по теории информации в Массачусетском технологическом институте и позднее записано в его учебнике 1961 года.

Он используется для нахождения нижней границы вероятности ошибки любого декодера, а также нижних границ минимаксных рисков при оценке плотности .

Пусть дискретные случайные величины и представляют входные и выходные сообщения с совместной вероятностью . Пусть представляют возникновение ошибки; т.е., что , причем является приближенной версией . Неравенство Фано имеет вид Х {\displaystyle X} И {\displaystyle Y} П ( х , у ) {\displaystyle P(x,y)} е {\displaystyle е} Х Х ~ {\displaystyle X\neq {\tilde {X}}} Х ~ = ф ( И ) {\displaystyle {\tilde {X}}=f(Y)} Х {\displaystyle X}

ЧАС ( Х | И ) ЧАС б ( е ) + П ( е ) бревно ( | Х | 1 ) , {\displaystyle H(X|Y)\leq H_{b}(e)+P(e)\log(|{\mathcal {X}}|-1),}

где обозначает поддержку , обозначает мощность (количество элементов в) , Х {\displaystyle {\mathcal {X}}} Х {\displaystyle X} | Х | {\displaystyle |{\mathcal {X}}|} Х {\displaystyle {\mathcal {X}}}

ЧАС ( Х | И ) = я , дж П ( х я , у дж ) бревно П ( х я | у дж ) {\displaystyle H\left(X|Y\right)=-\sum _{i,j}P(x_{i},y_{j})\log P\left(x_{i}|y_{j}\right)}

- условная энтропия ,

П ( е ) = П ( Х Х ~ ) {\displaystyle P(e)=P(X\neq {\tilde {X}})}

вероятность ошибки связи, и

ЧАС б ( е ) = П ( е ) бревно П ( е ) ( 1 П ( е ) ) бревно ( 1 П ( е ) ) {\displaystyle H_{b}(e)=-P(e)\log P(e)-(1-P(e))\log(1-P(e))}

— соответствующая бинарная энтропия .

Доказательство

Определим индикаторную случайную величину , которая указывает на событие, когда наша оценка ошибочна, Э {\displaystyle E} Х ~ = ф ( И ) {\displaystyle {\tilde {X}}=f(Y)}

Э := { 1    если    Х ~ Х   , 0    если    Х ~ = Х   . {\displaystyle E:={\begin{cases}1~&{\text{ if }}~{\tilde {X}}\neq X~,\\0~&{\text{ if }}~{\tilde {X}}=X~.\end{cases}}}

Рассмотрим . Мы можем использовать цепное правило для энтропий, чтобы расширить это двумя разными способами ЧАС ( Э , Х | Х ~ ) {\displaystyle H(E,X|{\tilde {X}})}

ЧАС ( Э , Х | Х ~ ) = ЧАС ( Х | Х ~ ) + ЧАС ( Э | Х , Х ~ ) = 0 = ЧАС ( Э | Х ~ ) + ЧАС ( Х | Э , Х ~ ) {\displaystyle {\begin{align}H(E,X|{\tilde {X}})&=H(X|{\tilde {X}})+\underbrace {H(E|X,{\tilde {X}})} _{=0}\\&=H(E|{\tilde {X}})+H(X|E,{\tilde {X}})\end{align}}}

Приравнивая эти два

ЧАС ( Х | Х ~ ) = ЧАС ( Э | Х ~ ) + ЧАС ( Х | Э , Х ~ ) {\displaystyle H(X|{\tilde {X}})=H(E|{\tilde {X}})+H(X|E,{\tilde {X}})}

Расширяя самый правый термин, ЧАС ( Х | Э , Х ~ ) {\displaystyle H(X|E,{\tilde {X}})}

ЧАС ( Х | Э , Х ~ ) = ЧАС ( Х | Э = 0 , Х ~ ) = 0 П ( Э = 0 ) + ЧАС ( Х | Э = 1 , Х ~ ) П ( Э = 1 ) = П ( е ) = ЧАС ( Х | Э = 1 , Х ~ ) П ( е ) {\displaystyle {\begin{align}H(X|E,{\tilde {X}})&=\underbrace {H(X|E=0,{\tilde {X}})} _{=0}\cdot P(E=0)+H(X|E=1,{\tilde {X}})\cdot \underbrace {P(E=1)} _{=P(e)}\\&=H(X|E=1,{\tilde {X}})\cdot P(e)\end{align}}}

Так как означает ; , имея значение , мы можем точно знать значение . Это делает термин . С другой стороны, означает, что , следовательно, имея значение , мы можем сузить круг до одного из различных значений, что позволяет нам ограничить сверху условную энтропию . Следовательно Э = 0 {\displaystyle E=0} Х = Х ~ {\displaystyle X={\тильда {X}}} Х ~ {\displaystyle {\тильда {X}}} Х {\displaystyle X} ЧАС ( Х | Э = 0 , Х ~ ) = 0 {\displaystyle H(X|E=0,{\tilde {X}})=0} Э = 1 {\displaystyle E=1} Х ~ Х {\displaystyle {\tilde {X}}\neq X} Х ~ {\displaystyle {\тильда {X}}} Х {\displaystyle X} | Х | 1 {\displaystyle |{\mathcal {X}}|-1} ЧАС ( Х | Э = 1 , Х ~ ) бревно ( | Х | 1 ) {\displaystyle H(X|E=1,{\tilde {X}})\leq \log(|{\mathcal {X}}|-1)}

ЧАС ( Х | Э , Х ~ ) бревно ( | Х | 1 ) П ( е ) {\displaystyle H(X|E,{\tilde {X}})\leq \log(|{\mathcal {X}}|-1)\cdot P(e)}

Другой термин, , потому что обусловливание уменьшает энтропию. Из-за способа определяется, , что означает, что . Собирая все вместе, H ( E | X ~ ) H ( E ) {\displaystyle H(E|{\tilde {X}})\leq H(E)} E {\displaystyle E} H ( E ) = H b ( e ) {\displaystyle H(E)=H_{b}(e)} H ( E | X ~ ) H b ( e ) {\displaystyle H(E|{\tilde {X}})\leq H_{b}(e)}

H ( X | X ~ ) H b ( e ) + P ( e ) log ( | X | 1 ) {\displaystyle H(X|{\tilde {X}})\leq H_{b}(e)+P(e)\log(|{\mathcal {X}}|-1)}

Поскольку — цепь Маркова, то по неравенству обработки данных имеем , и, следовательно , , что дает нам X Y X ~ {\displaystyle X\rightarrow Y\rightarrow {\tilde {X}}} I ( X ; X ~ ) I ( X ; Y ) {\displaystyle I(X;{\tilde {X}})\leq I(X;Y)} H ( X | X ~ ) H ( X | Y ) {\displaystyle H(X|{\tilde {X}})\geq H(X|Y)}

H ( X | Y ) H b ( e ) + P ( e ) log ( | X | 1 ) {\displaystyle H(X|Y)\leq H_{b}(e)+P(e)\log(|{\mathcal {X}}|-1)}

Интуиция

Неравенство Фано можно интерпретировать как способ разделения неопределенности условного распределения на два вопроса при наличии произвольного предиктора. Первый вопрос, соответствующий термину , относится к неопределенности предиктора. Если прогноз верен, то неопределенности больше не остается. Если прогноз неверен, то неопределенность любого дискретного распределения имеет верхнюю границу энтропии равномерного распределения по всем выборам, кроме неверного прогноза. Это имеет энтропию . Рассматривая крайние случаи, если предиктор всегда верен, первый и второй члены неравенства равны 0, и существование идеального предиктора подразумевает, что полностью определяется , и поэтому . Если предиктор всегда неверен, то первый член равен 0 и может быть ограничен сверху только равномерным распределением по оставшимся выборам. H b ( e ) {\displaystyle H_{b}(e)} log ( | X | 1 ) {\displaystyle \log(|{\mathcal {X}}|-1)} X {\displaystyle X} Y {\displaystyle Y} H ( X | Y ) = 0 {\displaystyle H(X|Y)=0} H ( X | Y ) {\displaystyle H(X|Y)}

Альтернативная формулировка

Пусть будет случайной величиной с плотностью, равной одной из возможных плотностей . Более того, расхождение Кульбака–Лейблера между любой парой плотностей не может быть слишком большим, X {\displaystyle X} r + 1 {\displaystyle r+1} f 1 , , f r + 1 {\displaystyle f_{1},\ldots ,f_{r+1}}

D K L ( f i f j ) β {\displaystyle D_{KL}(f_{i}\|f_{j})\leq \beta } для всех i j . {\displaystyle i\not =j.}

Пусть будет оценкой индекса. Тогда ψ ( X ) { 1 , , r + 1 } {\displaystyle \psi (X)\in \{1,\ldots ,r+1\}}

sup i P i ( ψ ( X ) i ) 1 β + log 2 log r {\displaystyle \sup _{i}P_{i}(\psi (X)\not =i)\geq 1-{\frac {\beta +\log 2}{\log r}}}

где — вероятность, индуцированная . P i {\displaystyle P_{i}} f i {\displaystyle f_{i}}

Обобщение

Следующее обобщение принадлежит Ибрагимову и Хасминскому (1979), Ассуаду и Бирге (1983).

Пусть F — класс плотностей с подклассом из r  + 1 плотностей ƒ θ, таких что для любого θ  ≠  θ

f θ f θ L 1 α , {\displaystyle \|f_{\theta }-f_{\theta '}\|_{L_{1}}\geq \alpha ,}
D K L ( f θ f θ ) β . {\displaystyle D_{KL}(f_{\theta }\|f_{\theta '})\leq \beta .}

Тогда в худшем случае ожидаемое значение погрешности оценки ограничено снизу,

sup f F E f n f L 1 α 2 ( 1 n β + log 2 log r ) {\displaystyle \sup _{f\in \mathbf {F} }E\|f_{n}-f\|_{L_{1}}\geq {\frac {\alpha }{2}}\left(1-{\frac {n\beta +\log 2}{\log r}}\right)}

где ƒ n — любая оценка плотности, основанная на выборке размера n .

Ссылки

  • П. Ассуад, «Два замечания по оценке», Comptes Rendus de l'Académie des Sciences de Paris , Vol. 296, стр. 1021–1024, 1983.
  • Л. Бирге, «Оценка плотности при ограничениях порядка: неасимптотический минимаксный риск», Технический отчет, UER de Sciences Économiques, Universite Paris X, Нантер, Франция, 1983.
  • T. Cover, J. Thomas (1991). Элементы теории информации. стр. 38–42. ISBN 978-0-471-06259-2.
  • Л. Деврой, Курс оценки плотности . Прогресс в теории вероятности и статистики, т. 14. Бостон, Биркхаузер, 1987. ISBN 0-8176-3365-0 , ISBN 3-7643-3365-0 .  
  • Фано, Роберт (1968). Передача информации: статистическая теория коммуникаций. Кембридж, Массачусетс: MIT Press. ISBN 978-0-262-56169-3. OCLC  804123877.
  • Р. Фано, Неравенство Фано Scholarpedia , 2008.
  • И. А. Ибрагимов, Р. З. Хасьминский, Статистическое оценивание, асимптотическая теория . Приложения математики, т. 16, Springer-Verlag, Нью-Йорк, 1981. ISBN 0-387-90523-5 
Retrieved from "https://en.wikipedia.org/w/index.php?title=Fano%27s_inequality&oldid=1253157938"