В математике неравенство Йенсена , названное в честь датского математика Йохана Йенсена , связывает значение выпуклой функции интеграла с интегралом выпуклой функции. Оно было доказано Йенсеном в 1906 году, [1] основываясь на более раннем доказательстве того же неравенства для дважды дифференцируемых функций Отто Гёльдером в 1889 году. [2] Учитывая его общность, неравенство появляется во многих формах в зависимости от контекста, некоторые из которых представлены ниже. В своей простейшей форме неравенство утверждает, что выпуклое преобразование среднего меньше или равно среднему значению, примененному после выпуклого преобразования (или, что эквивалентно, противоположному неравенству для вогнутых преобразований). [3]
Неравенство Йенсена обобщает утверждение о том, что секущая выпуклой функции лежит выше графика функции , что является неравенством Йенсена для двух точек: секущая состоит из взвешенных средних значений выпуклой функции (для t ∈ [0,1]),
в то время как график функции представляет собой выпуклую функцию взвешенных средних,
Таким образом, неравенство Йенсена в этом случае имеет вид
Разница между двумя сторонами неравенства называется разрывом Йенсена. [4]
Заявления
Классическая форма неравенства Йенсена включает несколько чисел и весов. Неравенство можно сформулировать в общем виде, используя либо язык теории меры , либо (что эквивалентно) вероятности. В вероятностной постановке неравенство можно еще больше обобщить до его полной силы .
Конечная форма
Для действительной выпуклой функции , чисел в ее области определения и положительных весов неравенство Йенсена можно сформулировать как:
1
и неравенство меняется на противоположное, если является вогнутым , что
2
Равенство имеет место тогда и только тогда, когда или является линейным на области, содержащей .
В частном случае, если все веса равны, то ( 1 ) и ( 2 ) становятся
Обычное приложение имеет x как функцию другой переменной (или набора переменных) t , то есть . Все это напрямую переносится на общий непрерывный случай: веса a i заменяются неотрицательной интегрируемой функцией f ( x ) , такой как распределение вероятностей, а суммы заменяются интегралами.
где , и — неотрицательная интегрируемая по Лебегу функция. В этом случае мера Лебега не обязательно должна быть единицей. Однако, путем интегрирования путем подстановки, интервал можно масштабировать так, чтобы он имел меру единицу. Затем можно применить неравенство Йенсена, чтобы получить [6]
В этой вероятностной постановке мера μ рассматривается как вероятность , интеграл по μ — как ожидаемое значение , а функция — как случайная величина X.
Обратите внимание, что равенство выполняется тогда и только тогда, когда является линейной функцией на некотором выпуклом множестве, таком что (что следует из рассмотрения приведенного ниже доказательства с точки зрения теории меры).
Общее неравенство в вероятностной обстановке
В более общем случае, пусть T будет вещественным топологическим векторным пространством , а X — интегрируемой случайной величиной со значением T. В этой общей постановке интегрируемость означает, что существует элемент в T , такой что для любого элемента z в сопряженном пространстве T : , и . Тогда для любой измеримой выпуклой функции φ и любой под- σ- алгебры :
Пусть X — одномерная случайная величина со средним значением и дисперсией . Пусть — дважды дифференцируемая функция, и определим функцию
Тогда [9]
В частности, когда выпукло, то и стандартная форма неравенства Йенсена немедленно следует для случая, когда дополнительно предполагается дважды дифференцируемым.
Доказательства
Интуитивно понятное графическое доказательство
Неравенство Йенсена можно доказать несколькими способами, и будут предложены три различных доказательства, соответствующие различным утверждениям выше. Однако, прежде чем приступить к этим математическим выводам, стоит проанализировать интуитивное графическое рассуждение, основанное на вероятностном случае, когда X — действительное число (см. рисунок). Предположив гипотетическое распределение значений X , можно сразу определить положение и его изображение на графике. Заметив, что для выпуклых отображений Y = φ ( x ) некоторых значений x соответствующее распределение значений Y все больше «растягивается» для возрастающих значений X , легко увидеть, что распределение Y шире в интервале, соответствующем X > X 0 , и уже в X < X 0 для любого X 0 ; в частности, это также верно для . Следовательно, в этой картине ожидание Y всегда будет смещаться вверх относительно положения . Аналогичное рассуждение справедливо, если распределение X охватывает убывающую часть выпуклой функции или как убывающую, так и возрастающую ее часть. Это «доказывает» неравенство, т.е.
с равенством, когда φ ( X ) не является строго выпуклой, например, когда она представляет собой прямую линию или когда X следует вырожденному распределению (т.е. является константой).
Приведенные ниже доказательства формализуют это интуитивное представление.
Доказательство 1 (конечная форма)
Если λ 1 и λ 2 — два произвольных неотрицательных действительных числа, такие, что λ 1 + λ 2 = 1, то выпуклость φ влечет
Это можно обобщить: если λ 1 , ..., λ n — неотрицательные действительные числа, такие, что λ 1 + ... + λ n = 1 , то
для любых x 1 , ..., x n .
Конечную форму неравенства Йенсена можно доказать методом индукции : по гипотезе выпуклости утверждение верно для n = 2. Предположим, что утверждение верно для некоторого n , тогда
для любых λ 1 , ..., λ n таких, что λ 1 + ... + λ n = 1 .
Нужно доказать это для n + 1. По крайней мере одно из λ i строго меньше , скажем, λ n +1 ; поэтому по неравенству выпуклости:
Поскольку λ 1 + ... + λ n + λ n +1 = 1 ,
,
применение индуктивной гипотезы дает
поэтому
Мы выводим, что неравенство верно для n + 1 , по индукции следует, что результат также верен для всех целых n, больших 2.
Чтобы получить общее неравенство из этой конечной формы, нужно использовать аргумент плотности. Конечную форму можно переписать как:
Поскольку выпуклые функции непрерывны , а выпуклые комбинации дельт Дирака слабо плотны в множестве вероятностных мер (как можно легко проверить), общее утверждение получается просто с помощью предельной процедуры.
Доказательство 2 (теоретико-мерная форма)
Пусть будет вещественнозначной -интегрируемой функцией на вероятностном пространстве , и пусть будет выпуклой функцией на вещественных числах. Поскольку является выпуклой, при каждом вещественном числе мы имеем непустое множество субпроизводных , которые можно рассматривать как линии, касающиеся графика в , но которые находятся ниже графика во всех точках (опорные линии графика).
Теперь, если мы определим
из-за существования субпроизводных для выпуклых функций мы можем выбрать и такие, что
для всех реальных и
Но тогда у нас есть это
для почти всех . Поскольку у нас есть вероятностная мера, интеграл монотонен с так что
по желанию.
Доказательство 3 (общее неравенство в вероятностной постановке)
Пусть X — интегрируемая случайная величина, принимающая значения в действительном топологическом векторном пространстве T. Поскольку является выпуклой, для любого величина
уменьшается по мере того, как θ приближается к 0 + . В частности, субдифференциал оценки в точке x в направлении y хорошо определяется выражением
Легко видеть, что субдифференциал линеен по y [ требуется ссылка ] (это неверно, и утверждение требует доказательства теоремы Хана-Банаха) и, поскольку инфимум, взятый в правой части предыдущей формулы, меньше значения того же члена при θ = 1 , получаем
В частности, для произвольной под- σ -алгебры можно оценить последнее неравенство, получив
Теперь, если мы возьмем ожидание, обусловленное с обеих сторон предыдущего выражения, то получим результат, поскольку:
линейностью субдифференциала по переменной y и следующим известным свойством условного ожидания :
Приложения и особые случаи
Форма, включающая функцию плотности вероятности
Предположим, что Ω — измеримое подмножество действительной прямой, а f ( x ) — неотрицательная функция, такая что
Если g ( x ) = x 2n , а X — случайная величина, то g является выпуклой функцией, так как
и так
В частности, если некоторый четный момент 2n X конечен, то X имеет конечное среднее. Расширение этого аргумента показывает, что X имеет конечные моменты каждого порядка , делящего n .
Альтернативная конечная форма
Пусть Ω = { x 1 , ... x n }, и возьмем μ в качестве меры подсчета на Ω , тогда общая форма сводится к утверждению о суммах:
при условии, что λ i ≥ 0 и
Существует также бесконечная дискретная форма.
Статистическая физика
Неравенство Йенсена имеет особое значение в статистической физике, когда выпуклая функция является экспоненциальной, давая:
Если p ( x ) — истинная плотность вероятности для X , а q ( x ) — другая плотность, то применение неравенства Йенсена для случайной величины Y ( X ) = q ( X )/ p ( X ) и выпуклой функции φ ( y ) = −log( y ) дает
Он показывает, что средняя длина сообщения минимизируется , когда коды назначаются на основе истинных вероятностей p, а не любого другого распределения q . Неотрицательная величина называется отклонением Кульбака–Лейблера q от p , где .
Поскольку −log( x ) является строго выпуклой функцией при x > 0 , то равенство имеет место, когда p ( x ) равно q ( x ) почти всюду.
Теорема Рао–Блэквелла
Если L — выпуклая функция и суб-сигма-алгебра, то из условной версии неравенства Йенсена получаем
Итак, если δ( X ) является некоторой оценкой ненаблюдаемого параметра θ при заданном векторе наблюдаемых X ; и если T ( X ) является достаточной статистикой для θ ; то улучшенную оценку, в смысле наличия меньших ожидаемых потерь L , можно получить путем вычисления
ожидаемое значение δ относительно θ, взятое по всем возможным векторам наблюдений X, совместимым с тем же значением T ( X ), что и наблюдаемое. Кроме того, поскольку T является достаточной статистикой, не зависит от θ, следовательно, становится статистикой.
Связь между неприятием риска и снижением предельной полезности для скалярных результатов можно формально сформулировать с помощью неравенства Йенсена: неприятие риска можно сформулировать как предпочтение определенного результата честной игре с потенциально большим, но неопределенным результатом :
.
Но это просто неравенство Йенсена для вогнутой функции полезности , которая демонстрирует убывающую предельную полезность. [11]
^ Дженсен, JLWV (1906). «Выпуклые функции и неравенства между моими ценностями». Акта Математика . 30 (1): 175–193 . doi : 10.1007/BF02418571 .
^ Guessab, A.; Schmeisser, G. (2013). «Необходимые и достаточные условия для справедливости неравенства Йенсена». Archiv der Mathematik . 100 (6): 561– 570. doi :10.1007/s00013-013-0522-3. MR 3069109. S2CID 56372266.
^ Деккинг, FM; Краайкамп, C.; Лопухаа, HP; Мистер, LE (2005). Современное введение в вероятность и статистику: понимание почему и как. Springer Texts in Statistics. Лондон: Springer. doi :10.1007/1-84628-168-7. ISBN978-1-85233-896-1.
^ Гао, Сян; Ситхарам, Мира; Ройтберг, Адриан (2019). «Границы разрыва Дженсена и их значение для распределений, сконцентрированных на среднем» (PDF) . Австралийский журнал математического анализа и приложений . 16 (2). arXiv : 1712.05267 .
^ Внимание: в этой общности необходимы дополнительные предположения о выпуклой функции и/или топологическом векторном пространстве, см. Пример (1.3) на стр. 53 в Perlman, Michael D. (1974). "Jensen's Inequality for a Convex Vector-Valued Function on an Infinite-Dimensional Space". Journal of Multivariate Analysis . 4 (1): 52– 65. doi : 10.1016/0047-259X(74)90005-0 . hdl : 11299/199167 .
^ Ляо, Дж.; Берг, А. (2018). «Усиление неравенства Дженсена». American Statistician . 73 (3): 278–281 . arXiv : 1707.08644 . doi : 10.1080/00031305.2017.1419145. S2CID 88515366.
^ Брэдли, CJ (2006). Введение в неравенства. Лидс, Соединенное Королевство: United Kingdom Mathematics Trust. стр. 97. ISBN978-1-906001-11-7.
^ Бэк, Керри (2010). Теория ценообразования активов и выбора портфеля . Oxford University Press. стр. 5. ISBN978-0-19-538061-3.