Неравенство Йенсена

Теорема о выпуклых функциях

Неравенство Йенсена обобщает утверждение о том, что секущая линия выпуклой функции лежит выше ее графика.
Визуализация выпуклости и неравенства Йенсена

В математике неравенство Йенсена , названное в честь датского математика Йохана Йенсена , связывает значение выпуклой функции интеграла с интегралом выпуклой функции. Оно было доказано Йенсеном в 1906 году, [1] основываясь на более раннем доказательстве того же неравенства для дважды дифференцируемых функций Отто Гёльдером в 1889 году. [2] Учитывая его общность, неравенство появляется во многих формах в зависимости от контекста, некоторые из которых представлены ниже. В своей простейшей форме неравенство утверждает, что выпуклое преобразование среднего меньше или равно среднему значению, примененному после выпуклого преобразования (или, что эквивалентно, противоположному неравенству для вогнутых преобразований). [3]

Неравенство Йенсена обобщает утверждение о том, что секущая выпуклой функции лежит выше графика функции , что является неравенством Йенсена для двух точек: секущая состоит из взвешенных средних значений выпуклой функции (для t  ∈ [0,1]),

т ф ( х 1 ) + ( 1 т ) ф ( х 2 ) , {\displaystyle tf(x_{1})+(1-t)f(x_{2}),}

в то время как график функции представляет собой выпуклую функцию взвешенных средних,

ф ( т х 1 + ( 1 т ) х 2 ) . {\displaystyle f(tx_{1}+(1-t)x_{2}).}

Таким образом, неравенство Йенсена в этом случае имеет вид

ф ( т х 1 + ( 1 т ) х 2 ) т ф ( х 1 ) + ( 1 т ) ф ( х 2 ) . {\displaystyle f(tx_{1}+(1-t)x_{2})\leq tf(x_{1})+(1-t)f(x_{2}).}

В контексте теории вероятностей это обычно формулируется в следующей форме: если Xслучайная величина , а φ — выпуклая функция, то

φ ( E ⁡ [ Икс ] ) ≤ E ⁡ [ φ ( Икс ) ] . {\displaystyle \varphi (\operatorname {E} [X])\leq \operatorname {E} \left[\varphi (X)\right].}

Разница между двумя сторонами неравенства называется разрывом Йенсена. [4] Э [ φ ( Х ) ] φ ( Э [ Х ] ) {\displaystyle \operatorname {E} \left[\varphi (X)\right]-\varphi \left(\operatorname {E} [X]\right)}

Заявления

Классическая форма неравенства Йенсена включает несколько чисел и весов. Неравенство можно сформулировать в общем виде, используя либо язык теории меры , либо (что эквивалентно) вероятности. В вероятностной постановке неравенство можно еще больше обобщить до его полной силы .

Конечная форма

Для действительной выпуклой функции , чисел в ее области определения и положительных весов неравенство Йенсена можно сформулировать как: φ {\displaystyle \varphi} х 1 , х 2 , , х н {\displaystyle x_{1},x_{2},\ldots ,x_{n}} а я {\displaystyle a_{i}}

и неравенство меняется на противоположное, если является вогнутым , что φ {\displaystyle \varphi}

Равенство имеет место тогда и только тогда, когда или является линейным на области, содержащей . х 1 = х 2 = = х н {\displaystyle x_{1}=x_{2}=\cdots =x_{n}} φ {\displaystyle \varphi} х 1 , х 2 , , х н {\displaystyle x_{1},x_{2},\cdots ,x_{n}}

В частном случае, если все веса равны, то ( 1 ) и ( 2 ) становятся а я {\displaystyle a_{i}}

Например, функция log( x ) является вогнутой , поэтому подстановка в предыдущую формулу ( 4 ) устанавливает (логарифм) известного неравенства среднего арифметического/среднего геометрического : φ ( х ) = бревно ( х ) {\displaystyle \varphi (x)=\log(x)}

бревно ( я = 1 н х я н ) я = 1 н бревно ( х я ) н {\displaystyle \log \!\left({\frac {\sum _{i=1}^{n}x_{i}}{n}}\right)\geq {\frac {\sum _{i=1}^{n}\log \!\left(x_{i}\right)}{n}}} опыт ( бревно ( я = 1 н х я н ) ) опыт ( я = 1 н бревно ( х я ) н ) {\displaystyle \exp \!\left(\log \!\left({\frac {\sum _{i=1}^{n}x_{i}}{n}}\right)\right)\geq \exp \!\left({\frac {\sum _{i=1}^{n}\log \!\left(x_{i}\right)}{n}}\right)} х 1 + х 2 + + х н н х 1 х 2 х н н {\displaystyle {\frac {x_{1}+x_{2}+\cdots +x_{n}}{n}}\geq {\sqrt[{n}]{x_{1}\cdot x_{2}\cdots x_{n}}}}

Обычное приложение имеет x как функцию другой переменной (или набора переменных) t , то есть . Все это напрямую переносится на общий непрерывный случай: веса a i заменяются неотрицательной интегрируемой функцией f  ( x ) , такой как распределение вероятностей, а суммы заменяются интегралами. х я = г ( т я ) {\displaystyle x_{i}=g(t_{i})}

Теоретико-мерная форма

Пусть будет вероятностным пространством . Пусть будет -измеримой функцией и будет выпуклой. Тогда: [5] ( Ω , А , μ ) {\displaystyle (\Омега,А,\му)} ф : Ω Р {\displaystyle f:\Omega \to \mathbb {R} } μ {\displaystyle \мю} φ : Р Р {\displaystyle \varphi :\mathbb {R} \to \mathbb {R} } φ ( Ω ф г μ ) Ω φ ф г μ {\displaystyle \varphi \left(\int _{\Omega}f\,\mathrm {d} \mu \right)\leq \int _{\Omega }\varphi \circ f\,\mathrm {d} \ му }

В реальном анализе нам может потребоваться оценка

φ ( а б ф ( х ) г х ) {\displaystyle \varphi \left(\int _{a}^{b}f(x)\,dx\right)}

где , и — неотрицательная интегрируемая по Лебегу функция. В этом случае мера Лебега не обязательно должна быть единицей. Однако, путем интегрирования путем подстановки, интервал можно масштабировать так, чтобы он имел меру единицу. Затем можно применить неравенство Йенсена, чтобы получить [6] a , b R {\displaystyle a,b\in \mathbb {R} } f : [ a , b ] R {\displaystyle f\colon [a,b]\to \mathbb {R} } [ a , b ] {\displaystyle [a,b]}

φ ( 1 b a a b f ( x ) d x ) 1 b a a b φ ( f ( x ) ) d x . {\displaystyle \varphi \left({\frac {1}{b-a}}\int _{a}^{b}f(x)\,dx\right)\leq {\frac {1}{b-a}}\int _{a}^{b}\varphi (f(x))\,dx.}

Вероятностная форма

Тот же результат может быть эквивалентно сформулирован в теории вероятностей , путем простого изменения обозначений. Пусть будет вероятностным пространством , Xинтегрируемой действительной случайной величиной и выпуклой функцией . Тогда: ( Ω , F , P ) {\displaystyle (\Omega ,{\mathfrak {F}},\operatorname {P} )} φ {\displaystyle \varphi }

φ ( E [ X ] ) E [ φ ( X ) ] . {\displaystyle \varphi \left(\operatorname {E} [X]\right)\leq \operatorname {E} \left[\varphi (X)\right].} [7]

В этой вероятностной постановке мера μ рассматривается как вероятность , интеграл по μ — как ожидаемое значение , а функция — как случайная величина X. P {\displaystyle \operatorname {P} } E {\displaystyle \operatorname {E} } f {\displaystyle f}

Обратите внимание, что равенство выполняется тогда и только тогда, когда является линейной функцией на некотором выпуклом множестве, таком что (что следует из рассмотрения приведенного ниже доказательства с точки зрения теории меры). φ {\displaystyle \varphi } A {\displaystyle A} P ( X A ) = 1 {\displaystyle \mathrm {P} (X\in A)=1}

Общее неравенство в вероятностной обстановке

В более общем случае, пусть T будет вещественным топологическим векторным пространством , а Xинтегрируемой случайной величиной со значением T. В этой общей постановке интегрируемость означает, что существует элемент в T , такой что для любого элемента z в сопряженном пространстве T : , и . Тогда для любой измеримой выпуклой функции φ и любой под- σ- алгебры : E [ X ] {\displaystyle \operatorname {E} [X]} E | z , X | < {\displaystyle \operatorname {E} |\langle z,X\rangle |<\infty } z , E [ X ] = E [ z , X ] {\displaystyle \langle z,\operatorname {E} [X]\rangle =\operatorname {E} [\langle z,X\rangle ]} G {\displaystyle {\mathfrak {G}}} F {\displaystyle {\mathfrak {F}}}

φ ( E [ X G ] ) E [ φ ( X ) G ] . {\displaystyle \varphi \left(\operatorname {E} \left[X\mid {\mathfrak {G}}\right]\right)\leq \operatorname {E} \left[\varphi (X)\mid {\mathfrak {G}}\right].}

Здесь обозначает ожидание, обусловленное σ-алгеброй . Это общее утверждение сводится к предыдущим, когда топологическое векторное пространство T является вещественной осью , а является тривиальной σ -алгеброй {∅, Ω} (где пустое множество , а Ωвыборочное пространство ). [8] E [ G ] {\displaystyle \operatorname {E} [\cdot \mid {\mathfrak {G}}]} G {\displaystyle {\mathfrak {G}}} G {\displaystyle {\mathfrak {G}}}

Заостренная и обобщенная форма

Пусть X — одномерная случайная величина со средним значением и дисперсией . Пусть — дважды дифференцируемая функция, и определим функцию μ {\displaystyle \mu } σ 2 0 {\displaystyle \sigma ^{2}\geq 0} φ ( x ) {\displaystyle \varphi (x)}

h ( x ) φ ( x ) φ ( μ ) ( x μ ) 2 φ ( μ ) x μ . {\displaystyle h(x)\triangleq {\frac {\varphi \left(x\right)-\varphi \left(\mu \right)}{\left(x-\mu \right)^{2}}}-{\frac {\varphi '\left(\mu \right)}{x-\mu }}.}

Тогда [9]

σ 2 inf φ ( x ) 2 σ 2 inf h ( x ) E [ φ ( X ) ] φ ( E [ X ] ) σ 2 sup h ( x ) σ 2 sup φ ( x ) 2 . {\displaystyle \sigma ^{2}\inf {\frac {\varphi ''(x)}{2}}\leq \sigma ^{2}\inf h(x)\leq E\left[\varphi \left(X\right)\right]-\varphi \left(E[X]\right)\leq \sigma ^{2}\sup h(x)\leq \sigma ^{2}\sup {\frac {\varphi ''(x)}{2}}.}

В частности, когда выпукло, то и стандартная форма неравенства Йенсена немедленно следует для случая, когда дополнительно предполагается дважды дифференцируемым. φ ( x ) {\displaystyle \varphi (x)} φ ( x ) 0 {\displaystyle \varphi ''(x)\geq 0} φ ( x ) {\displaystyle \varphi (x)}

Доказательства

Интуитивно понятное графическое доказательство

Графическое «доказательство» неравенства Йенсена для вероятностного случая. Пунктирная кривая вдоль оси X — гипотетическое распределение X , тогда как пунктирная кривая вдоль оси Y — соответствующее распределение значений Y. Обратите внимание, что выпуклое отображение Y ( X ) все больше « растягивает » распределение для возрастающих значений X .
Это доказательство без слов неравенства Йенсена для n переменных. Без потери общности, сумма положительных весов равна 1. Из этого следует, что взвешенная точка лежит в выпуклой оболочке исходных точек, которая лежит выше самой функции по определению выпуклости. Вывод следует. [10]

Неравенство Йенсена можно доказать несколькими способами, и будут предложены три различных доказательства, соответствующие различным утверждениям выше. Однако, прежде чем приступить к этим математическим выводам, стоит проанализировать интуитивное графическое рассуждение, основанное на вероятностном случае, когда X — действительное число (см. рисунок). Предположив гипотетическое распределение значений X , можно сразу определить положение и его изображение на графике. Заметив, что для выпуклых отображений Y = φ ( x ) некоторых значений x соответствующее распределение значений Y все больше «растягивается» для возрастающих значений X , легко увидеть, что распределение Y шире в интервале, соответствующем X > X 0 , и уже в X < X 0 для любого X 0 ; в частности, это также верно для . Следовательно, в этой картине ожидание Y всегда будет смещаться вверх относительно положения . Аналогичное рассуждение справедливо, если распределение X охватывает убывающую часть выпуклой функции или как убывающую, так и возрастающую ее часть. Это «доказывает» неравенство, т.е. E [ X ] {\displaystyle \operatorname {E} [X]} φ ( E [ X ] ) {\displaystyle \varphi (\operatorname {E} [X])} X 0 = E [ X ] {\displaystyle X_{0}=\operatorname {E} [X]} φ ( E [ X ] ) {\displaystyle \varphi (\operatorname {E} [X])}

φ ( E [ X ] ) E [ φ ( X ) ] = E [ Y ] , {\displaystyle \varphi (\operatorname {E} [X])\leq \operatorname {E} [\varphi (X)]=\operatorname {E} [Y],}

с равенством, когда φ ( X ) не является строго выпуклой, например, когда она представляет собой прямую линию или когда X следует вырожденному распределению (т.е. является константой).

Приведенные ниже доказательства формализуют это интуитивное представление.

Доказательство 1 (конечная форма)

Если λ 1 и λ 2 — два произвольных неотрицательных действительных числа, такие, что λ 1 + λ 2 = 1, то выпуклость φ влечет

x 1 , x 2 : φ ( λ 1 x 1 + λ 2 x 2 ) λ 1 φ ( x 1 ) + λ 2 φ ( x 2 ) . {\displaystyle \forall x_{1},x_{2}:\qquad \varphi \left(\lambda _{1}x_{1}+\lambda _{2}x_{2}\right)\leq \lambda _{1}\,\varphi (x_{1})+\lambda _{2}\,\varphi (x_{2}).}

Это можно обобщить: если λ 1 , ..., λ n — неотрицательные действительные числа, такие, что λ 1 + ... + λ n = 1 , то

φ ( λ 1 x 1 + λ 2 x 2 + + λ n x n ) λ 1 φ ( x 1 ) + λ 2 φ ( x 2 ) + + λ n φ ( x n ) , {\displaystyle \varphi (\lambda _{1}x_{1}+\lambda _{2}x_{2}+\cdots +\lambda _{n}x_{n})\leq \lambda _{1}\,\varphi (x_{1})+\lambda _{2}\,\varphi (x_{2})+\cdots +\lambda _{n}\,\varphi (x_{n}),}

для любых x 1 , ..., x n .

Конечную форму неравенства Йенсена можно доказать методом индукции : по гипотезе выпуклости утверждение верно для n  = 2. Предположим, что утверждение верно для некоторого n , тогда

φ ( i = 1 n λ i x i ) i = 1 n λ i φ ( x i ) {\displaystyle \varphi \left(\sum _{i=1}^{n}\lambda _{i}x_{i}\right)\leq \sum _{i=1}^{n}\lambda _{i}\varphi \left(x_{i}\right)}

для любых λ 1 , ..., λ n таких, что λ 1 + ... + λ n = 1 .

Нужно доказать это для n + 1. По крайней мере одно из λ i строго меньше , скажем, λ n +1 ; поэтому по неравенству выпуклости: 1 {\displaystyle 1}

φ ( i = 1 n + 1 λ i x i ) = φ ( ( 1 λ n + 1 ) i = 1 n λ i 1 λ n + 1 x i + λ n + 1 x n + 1 ) ( 1 λ n + 1 ) φ ( i = 1 n λ i 1 λ n + 1 x i ) + λ n + 1 φ ( x n + 1 ) . {\displaystyle {\begin{aligned}\varphi \left(\sum _{i=1}^{n+1}\lambda _{i}x_{i}\right)&=\varphi \left((1-\lambda _{n+1})\sum _{i=1}^{n}{\frac {\lambda _{i}}{1-\lambda _{n+1}}}x_{i}+\lambda _{n+1}x_{n+1}\right)\\&\leq (1-\lambda _{n+1})\varphi \left(\sum _{i=1}^{n}{\frac {\lambda _{i}}{1-\lambda _{n+1}}}x_{i}\right)+\lambda _{n+1}\,\varphi (x_{n+1}).\end{aligned}}}

Поскольку λ 1 + ... + λ n + λ n +1 = 1 ,

i = 1 n λ i 1 λ n + 1 = 1 {\displaystyle \sum _{i=1}^{n}{\frac {\lambda _{i}}{1-\lambda _{n+1}}}=1} ,

применение индуктивной гипотезы дает

φ ( i = 1 n λ i 1 λ n + 1 x i ) i = 1 n λ i 1 λ n + 1 φ ( x i ) {\displaystyle \varphi \left(\sum _{i=1}^{n}{\frac {\lambda _{i}}{1-\lambda _{n+1}}}x_{i}\right)\leq \sum _{i=1}^{n}{\frac {\lambda _{i}}{1-\lambda _{n+1}}}\varphi (x_{i})}

поэтому

φ ( i = 1 n + 1 λ i x i ) ( 1 λ n + 1 ) i = 1 n λ i 1 λ n + 1 φ ( x i ) + λ n + 1 φ ( x n + 1 ) = i = 1 n + 1 λ i φ ( x i ) {\displaystyle {\begin{aligned}\varphi \left(\sum _{i=1}^{n+1}\lambda _{i}x_{i}\right)&\leq (1-\lambda _{n+1})\sum _{i=1}^{n}{\frac {\lambda _{i}}{1-\lambda _{n+1}}}\varphi (x_{i})+\lambda _{n+1}\,\varphi (x_{n+1})=\sum _{i=1}^{n+1}\lambda _{i}\varphi (x_{i})\end{aligned}}}

Мы выводим, что неравенство верно для n + 1 , по индукции следует, что результат также верен для всех целых n, больших 2.

Чтобы получить общее неравенство из этой конечной формы, нужно использовать аргумент плотности. Конечную форму можно переписать как:

φ ( x d μ n ( x ) ) φ ( x ) d μ n ( x ) , {\displaystyle \varphi \left(\int x\,d\mu _{n}(x)\right)\leq \int \varphi (x)\,d\mu _{n}(x),}

где μ n — мера, заданная произвольной выпуклой комбинацией дельта -функций Дирака :

μ n = i = 1 n λ i δ x i . {\displaystyle \mu _{n}=\sum _{i=1}^{n}\lambda _{i}\delta _{x_{i}}.}

Поскольку выпуклые функции непрерывны , а выпуклые комбинации дельт Дирака слабо плотны в множестве вероятностных мер (как можно легко проверить), общее утверждение получается просто с помощью предельной процедуры.

Доказательство 2 (теоретико-мерная форма)

Пусть будет вещественнозначной -интегрируемой функцией на вероятностном пространстве , и пусть будет выпуклой функцией на вещественных числах. Поскольку является выпуклой, при каждом вещественном числе мы имеем непустое множество субпроизводных , которые можно рассматривать как линии, касающиеся графика в , но которые находятся ниже графика во всех точках (опорные линии графика). g {\displaystyle g} μ {\displaystyle \mu } Ω {\displaystyle \Omega } φ {\displaystyle \varphi } φ {\displaystyle \varphi } x {\displaystyle x} φ {\displaystyle \varphi } x {\displaystyle x} φ {\displaystyle \varphi }

Теперь, если мы определим

x 0 := Ω g d μ , {\displaystyle x_{0}:=\int _{\Omega }g\,d\mu ,}

из-за существования субпроизводных для выпуклых функций мы можем выбрать и такие, что a {\displaystyle a} b {\displaystyle b}

a x + b φ ( x ) , {\displaystyle ax+b\leq \varphi (x),}

для всех реальных и x {\displaystyle x}

a x 0 + b = φ ( x 0 ) . {\displaystyle ax_{0}+b=\varphi (x_{0}).}

Но тогда у нас есть это

φ g ( ω ) a g ( ω ) + b {\displaystyle \varphi \circ g(\omega )\geq ag(\omega )+b}

для почти всех . Поскольку у нас есть вероятностная мера, интеграл монотонен с так что ω Ω {\displaystyle \omega \in \Omega } μ ( Ω ) = 1 {\displaystyle \mu (\Omega )=1}

Ω φ g d μ Ω ( a g + b ) d μ = a Ω g d μ + b Ω d μ = a x 0 + b = φ ( x 0 ) = φ ( Ω g d μ ) , {\displaystyle \int _{\Omega }\varphi \circ g\,d\mu \geq \int _{\Omega }(ag+b)\,d\mu =a\int _{\Omega }g\,d\mu +b\int _{\Omega }d\mu =ax_{0}+b=\varphi (x_{0})=\varphi \left(\int _{\Omega }g\,d\mu \right),}

по желанию.

Доказательство 3 (общее неравенство в вероятностной постановке)

Пусть X — интегрируемая случайная величина, принимающая значения в действительном топологическом векторном пространстве T. Поскольку является выпуклой, для любого величина φ : T R {\displaystyle \varphi :T\to \mathbb {R} } x , y T {\displaystyle x,y\in T}

φ ( x + θ y ) φ ( x ) θ , {\displaystyle {\frac {\varphi (x+\theta \,y)-\varphi (x)}{\theta }},}

уменьшается по мере того, как θ приближается к 0 + . В частности, субдифференциал оценки в точке x в направлении y хорошо определяется выражением φ {\displaystyle \varphi }

( D φ ) ( x ) y := lim θ 0 φ ( x + θ y ) φ ( x ) θ = inf θ 0 φ ( x + θ y ) φ ( x ) θ . {\displaystyle (D\varphi )(x)\cdot y:=\lim _{\theta \downarrow 0}{\frac {\varphi (x+\theta \,y)-\varphi (x)}{\theta }}=\inf _{\theta \neq 0}{\frac {\varphi (x+\theta \,y)-\varphi (x)}{\theta }}.}

Легко видеть, что субдифференциал линеен по y [ требуется ссылка ] (это неверно, и утверждение требует доказательства теоремы Хана-Банаха) и, поскольку инфимум, взятый в правой части предыдущей формулы, меньше значения того же члена при θ = 1 , получаем

φ ( x ) φ ( x + y ) ( D φ ) ( x ) y . {\displaystyle \varphi (x)\leq \varphi (x+y)-(D\varphi )(x)\cdot y.}

В частности, для произвольной под- σ -алгебры можно оценить последнее неравенство, получив G {\displaystyle {\mathfrak {G}}} x = E [ X G ] , y = X E [ X G ] {\displaystyle x=\operatorname {E} [X\mid {\mathfrak {G}}],\,y=X-\operatorname {E} [X\mid {\mathfrak {G}}]}

φ ( E [ X G ] ) φ ( X ) ( D φ ) ( E [ X G ] ) ( X E [ X G ] ) . {\displaystyle \varphi (\operatorname {E} [X\mid {\mathfrak {G}}])\leq \varphi (X)-(D\varphi )(\operatorname {E} [X\mid {\mathfrak {G}}])\cdot (X-\operatorname {E} [X\mid {\mathfrak {G}}]).}

Теперь, если мы возьмем ожидание, обусловленное с обеих сторон предыдущего выражения, то получим результат, поскольку: G {\displaystyle {\mathfrak {G}}}

E [ [ ( D φ ) ( E [ X G ] ) ( X E [ X G ] ) ] G ] = ( D φ ) ( E [ X G ] ) E [ ( X E [ X G ] ) G ] = 0 , {\displaystyle \operatorname {E} \left[\left[(D\varphi )(\operatorname {E} [X\mid {\mathfrak {G}}])\cdot (X-\operatorname {E} [X\mid {\mathfrak {G}}])\right]\mid {\mathfrak {G}}\right]=(D\varphi )(\operatorname {E} [X\mid {\mathfrak {G}}])\cdot \operatorname {E} [\left(X-\operatorname {E} [X\mid {\mathfrak {G}}]\right)\mid {\mathfrak {G}}]=0,}

линейностью субдифференциала по переменной y и следующим известным свойством условного ожидания :

E [ ( E [ X G ] ) G ] = E [ X G ] . {\displaystyle \operatorname {E} \left[\left(\operatorname {E} [X\mid {\mathfrak {G}}]\right)\mid {\mathfrak {G}}\right]=\operatorname {E} [X\mid {\mathfrak {G}}].}

Приложения и особые случаи

Форма, включающая функцию плотности вероятности

Предположим, что Ω — измеримое подмножество действительной прямой, а f ( x ) — неотрицательная функция, такая что

f ( x ) d x = 1. {\displaystyle \int _{-\infty }^{\infty }f(x)\,dx=1.}

На вероятностном языке f — это функция плотности вероятности .

Тогда неравенство Йенсена принимает вид следующего утверждения о выпуклых интегралах:

Если g — любая измеримая функция с действительными значениями, выпуклая в диапазоне значений g , то φ {\textstyle \varphi }

φ ( g ( x ) f ( x ) d x ) φ ( g ( x ) ) f ( x ) d x . {\displaystyle \varphi \left(\int _{-\infty }^{\infty }g(x)f(x)\,dx\right)\leq \int _{-\infty }^{\infty }\varphi (g(x))f(x)\,dx.}

Если g ( x ) = x , то эта форма неравенства сводится к обычно используемому частному случаю:

φ ( x f ( x ) d x ) φ ( x ) f ( x ) d x . {\displaystyle \varphi \left(\int _{-\infty }^{\infty }x\,f(x)\,dx\right)\leq \int _{-\infty }^{\infty }\varphi (x)\,f(x)\,dx.}

Это применяется в вариационных байесовских методах .

Пример: дажемоментыслучайной величины

Если g ( x ) = x 2n , а X — случайная величина, то g является выпуклой функцией, так как

d 2 g d x 2 ( x ) = 2 n ( 2 n 1 ) x 2 n 2 0   x R {\displaystyle {\frac {d^{2}g}{dx^{2}}}(x)=2n(2n-1)x^{2n-2}\geq 0\quad \forall \ x\in \mathbb {R} }

и так

g ( E [ X ] ) = ( E [ X ] ) 2 n E [ X 2 n ] . {\displaystyle g(\operatorname {E} [X])=(\operatorname {E} [X])^{2n}\leq \operatorname {E} [X^{2n}].}

В частности, если некоторый четный момент 2n X конечен, то X имеет конечное среднее. Расширение этого аргумента показывает, что X имеет конечные моменты каждого порядка , делящего n . l N {\displaystyle l\in \mathbb {N} }

Альтернативная конечная форма

Пусть Ω = { x 1 , ... x n }, и возьмем μ в качестве меры подсчета на Ω , тогда общая форма сводится к утверждению о суммах:

φ ( i = 1 n g ( x i ) λ i ) i = 1 n φ ( g ( x i ) ) λ i , {\displaystyle \varphi \left(\sum _{i=1}^{n}g(x_{i})\lambda _{i}\right)\leq \sum _{i=1}^{n}\varphi (g(x_{i}))\lambda _{i},}

при условии, что λ i ≥ 0 и

λ 1 + + λ n = 1. {\displaystyle \lambda _{1}+\cdots +\lambda _{n}=1.}

Существует также бесконечная дискретная форма.

Статистическая физика

Неравенство Йенсена имеет особое значение в статистической физике, когда выпуклая функция является экспоненциальной, давая:

e E [ X ] E [ e X ] , {\displaystyle e^{\operatorname {E} [X]}\leq \operatorname {E} \left[e^{X}\right],}

где ожидаемые значения относятся к некоторому распределению вероятностей случайной величины X.

Доказательство: Впустить φ ( x ) = e x {\displaystyle \varphi (x)=e^{x}} φ ( E [ X ] ) E [ φ ( X ) ] . {\displaystyle \varphi \left(\operatorname {E} [X]\right)\leq \operatorname {E} \left[\varphi (X)\right].}

Теория информации

Если p ( x ) — истинная плотность вероятности для X , а q ( x ) — другая плотность, то применение неравенства Йенсена для случайной величины Y ( X ) = q ( X )/ p ( X ) и выпуклой функции φ ( y ) = −log( y ) дает

E [ φ ( Y ) ] φ ( E [ Y ] ) {\displaystyle \operatorname {E} [\varphi (Y)]\geq \varphi (\operatorname {E} [Y])}

Поэтому:

D ( p ( x ) q ( x ) ) = p ( x ) log ( q ( x ) p ( x ) ) d x log ( p ( x ) q ( x ) p ( x ) d x ) = log ( q ( x ) d x ) = 0 {\displaystyle -D(p(x)\|q(x))=\int p(x)\log \left({\frac {q(x)}{p(x)}}\right)\,dx\leq \log \left(\int p(x){\frac {q(x)}{p(x)}}\,dx\right)=\log \left(\int q(x)\,dx\right)=0}

результат, называемый неравенством Гиббса .

Он показывает, что средняя длина сообщения минимизируется , когда коды назначаются на основе истинных вероятностей p, а не любого другого распределения q . Неотрицательная величина называется отклонением Кульбака–Лейблера q от p , где . D ( p ( x ) q ( x ) ) = p ( x ) log ( p ( x ) q ( x ) ) d x {\displaystyle D(p(x)\|q(x))=\int p(x)\log \left({\frac {p(x)}{q(x)}}\right)dx}

Поскольку −log( x ) является строго выпуклой функцией при x > 0 , то равенство имеет место, когда p ( x ) равно q ( x ) почти всюду.

Теорема Рао–Блэквелла

Если L — выпуклая функция и суб-сигма-алгебра, то из условной версии неравенства Йенсена получаем G {\displaystyle {\mathfrak {G}}}

L ( E [ δ ( X ) G ] ) E [ L ( δ ( X ) ) G ] E [ L ( E [ δ ( X ) G ] ) ] E [ L ( δ ( X ) ) ] . {\displaystyle L(\operatorname {E} [\delta (X)\mid {\mathfrak {G}}])\leq \operatorname {E} [L(\delta (X))\mid {\mathfrak {G}}]\quad \Longrightarrow \quad \operatorname {E} [L(\operatorname {E} [\delta (X)\mid {\mathfrak {G}}])]\leq \operatorname {E} [L(\delta (X))].}

Итак, если δ( X ) является некоторой оценкой ненаблюдаемого параметра θ при заданном векторе наблюдаемых X ; и если T ( X ) является достаточной статистикой для θ ; то улучшенную оценку, в смысле наличия меньших ожидаемых потерь L , можно получить путем вычисления

δ 1 ( X ) = E θ [ δ ( X ) T ( X ) = T ( X ) ] , {\displaystyle \delta _{1}(X)=\operatorname {E} _{\theta }[\delta (X')\mid T(X')=T(X)],}

ожидаемое значение δ относительно θ, взятое по всем возможным векторам наблюдений X, совместимым с тем же значением T ( X ), что и наблюдаемое. Кроме того, поскольку T является достаточной статистикой, не зависит от θ, следовательно, становится статистикой. δ 1 ( X ) {\displaystyle \delta _{1}(X)}

Этот результат известен как теорема Рао–Блэквелла .

Избегание риска

Связь между неприятием риска и снижением предельной полезности для скалярных результатов можно формально сформулировать с помощью неравенства Йенсена: неприятие риска можно сформулировать как предпочтение определенного результата честной игре с потенциально большим, но неопределенным результатом : u ( E [ x ] ) {\displaystyle u(E[x])} u ( x ) {\displaystyle u(x)}

u ( E [ x ] ) > E [ u ( x ) ] {\displaystyle u(E[x])>E[u(x)]} .

Но это просто неравенство Йенсена для вогнутой функции полезности , которая демонстрирует убывающую предельную полезность. [11] u ( x ) {\displaystyle u(x)}

Смотрите также

Примечания

  1. ^ Дженсен, JLWV (1906). «Выпуклые функции и неравенства между моими ценностями». Акта Математика . 30 (1): 175–193 . doi : 10.1007/BF02418571 .
  2. ^ Guessab, A.; Schmeisser, G. (2013). «Необходимые и достаточные условия для справедливости неравенства Йенсена». Archiv der Mathematik . 100 (6): 561– 570. doi :10.1007/s00013-013-0522-3. MR  3069109. S2CID  56372266.
  3. ^ Деккинг, FM; Краайкамп, C.; Лопухаа, HP; Мистер, LE (2005). Современное введение в вероятность и статистику: понимание почему и как. Springer Texts in Statistics. Лондон: Springer. doi :10.1007/1-84628-168-7. ISBN 978-1-85233-896-1.
  4. ^ Гао, Сян; Ситхарам, Мира; Ройтберг, Адриан (2019). «Границы разрыва Дженсена и их значение для распределений, сконцентрированных на среднем» (PDF) . Австралийский журнал математического анализа и приложений . 16 (2). arXiv : 1712.05267 .
  5. ^ стр. 25 Рика Дарретта (2019). Вероятность: теория и примеры (5-е изд.). Cambridge University Press. ISBN 978-1108473682.
  6. ^ Никулеску, Константин П. «Интегральные неравенства», стр. 12.
  7. ^ стр. 29 Рика Дарретта (2019). Вероятность: теория и примеры (5-е изд.). Cambridge University Press. ISBN 978-1108473682.
  8. ^ Внимание: в этой общности необходимы дополнительные предположения о выпуклой функции и/или топологическом векторном пространстве, см. Пример (1.3) на стр. 53 в Perlman, Michael D. (1974). "Jensen's Inequality for a Convex Vector-Valued Function on an Infinite-Dimensional Space". Journal of Multivariate Analysis . 4 (1): 52– 65. doi : 10.1016/0047-259X(74)90005-0 . hdl : 11299/199167 .
  9. ^ Ляо, Дж.; Берг, А. (2018). «Усиление неравенства Дженсена». American Statistician . 73 (3): 278–281 . arXiv : 1707.08644 . doi : 10.1080/00031305.2017.1419145. S2CID  88515366.
  10. ^ Брэдли, CJ (2006). Введение в неравенства. Лидс, Соединенное Королевство: United Kingdom Mathematics Trust. стр. 97. ISBN 978-1-906001-11-7.
  11. ^ Бэк, Керри (2010). Теория ценообразования активов и выбора портфеля . Oxford University Press. стр. 5. ISBN 978-0-19-538061-3.

Ссылки

Retrieved from "https://en.wikipedia.org/w/index.php?title=Jensen%27s_inequality&oldid=1252491645"