Дифференциальная энтропия

Понятие в теории информации

Дифференциальная энтропия (также называемая непрерывной энтропией ) — это концепция в теории информации , которая началась как попытка Клода Шеннона распространить идею (шенноновской) энтропии (меры средней неожиданности) случайной величины на непрерывные распределения вероятностей. К сожалению, Шеннон не вывел эту формулу, а скорее просто предположил, что это правильный непрерывный аналог дискретной энтропии, но это не так. [1] : 181–218  Фактическая непрерывная версия дискретной энтропии — это предельная плотность дискретных точек (LDDP). Дифференциальная энтропия (описанная здесь) часто встречается в литературе, но это предельный случай LDDP, и тот, который теряет свою фундаментальную связь с дискретной энтропией .

В терминах теории меры дифференциальная энтропия вероятностной меры — это отрицательная относительная энтропия от этой меры к мере Лебега , где последняя рассматривается так, как если бы она была вероятностной мерой, несмотря на то, что она ненормализована.

Определение

Пусть будет случайной величиной с функцией плотности вероятности , носителем которой является множество . Дифференциальная энтропия или определяется как [2] : 243  Х {\displaystyle X} ф {\displaystyle f} Х {\displaystyle {\mathcal {X}}} час ( Х ) {\displaystyle h(X)} час ( ф ) {\displaystyle h(f)}

час ( Х ) = Э [ бревно ( ф ( Х ) ) ] = Х ф ( х ) бревно ф ( х ) г х {\displaystyle h(X)=\operatorname {E} [-\log(f(X))]=-\int _{\mathcal {X}}f(x)\log f(x)\,dx}

Для распределений вероятностей, которые не имеют явного выражения функции плотности, но имеют явное выражение функции квантиля , тогда можно определить в терминах производной, т.е. функции плотности квантиля , как [3] : 54–59  В ( п ) {\displaystyle Q(p)} час ( В ) {\displaystyle h(Q)} В ( п ) {\displaystyle Q(p)} В ( п ) {\displaystyle Q'(p)}

час ( В ) = 0 1 бревно В ( п ) г п {\displaystyle h(Q)=\int _{0}^{1}\log Q'(p)\,dp} .

Как и в случае с дискретным аналогом, единицы дифференциальной энтропии зависят от основания логарифма , которое обычно равно 2 (т. е. единицами являются биты ). См. логарифмические единицы для логарифмов, взятых в разных основаниях. Связанные понятия, такие как совместная , условная дифференциальная энтропия и относительная энтропия , определяются аналогичным образом. В отличие от дискретного аналога, дифференциальная энтропия имеет смещение, которое зависит от единиц, используемых для измерения . [4] : 183–184  Например, дифференциальная энтропия величины, измеренной в миллиметрах, будет на log(1000) больше, чем та же величина, измеренная в метрах; безразмерная величина будет иметь дифференциальную энтропию на log(1000) больше, чем та же величина, деленная на 1000. Х {\displaystyle X}

Необходимо проявлять осторожность при попытке применить свойства дискретной энтропии к дифференциальной энтропии, поскольку функции плотности вероятности могут быть больше 1. Например, равномерное распределение имеет отрицательную дифференциальную энтропию; т.е. оно лучше упорядочено, чем показано сейчас. У ( 0 , 1 / 2 ) {\displaystyle {\mathcal {U}}(0,1/2)} У ( 0 , 1 ) {\displaystyle {\mathcal {U}}(0,1)}

0 1 2 2 бревно ( 2 ) г х = бревно ( 2 ) {\displaystyle \int _{0}^{\frac {1}{2}}-2\log(2)\,dx=-\log(2)\,}

будучи меньше, чем тот, у которого нулевая дифференциальная энтропия. Таким образом, дифференциальная энтропия не разделяет все свойства дискретной энтропии. У ( 0 , 1 ) {\displaystyle {\mathcal {U}}(0,1)}

Непрерывная взаимная информация отличается тем , что сохраняет свое фундаментальное значение как мера дискретной информации, поскольку она фактически является пределом дискретной взаимной информации разделов и по мере того, как эти разделы становятся все тоньше и тоньше. Таким образом, она инвариантна относительно нелинейных гомеоморфизмов (непрерывных и однозначно обратимых отображений), [5] включая линейные [6] преобразования и , и по-прежнему представляет собой объем дискретной информации, который может быть передан по каналу, допускающему непрерывное пространство значений. я ( Х ; И ) {\displaystyle I(X;Y)} Х {\displaystyle X} И {\displaystyle Y} Х {\displaystyle X} И {\displaystyle Y}

Для прямого аналога дискретной энтропии, распространенной на непрерывное пространство, см. предельную плотность дискретных точек .

Свойства дифференциальной энтропии

  • Для плотностей вероятности и расхождение Кульбака –Лейблера больше или равно 0 с равенством только если почти всюду . Аналогично для двух случайных величин и , и с равенством тогда и только тогда, когда и независимы . ф {\displaystyle f} г {\displaystyle г} Д К Л ( ф г ) {\displaystyle D_{KL}(f\параллельно g)} ф = г {\displaystyle f=g} Х {\displaystyle X} И {\displaystyle Y} я ( Х ; И ) 0 {\displaystyle I(X;Y)\geq 0} час ( Х И ) час ( Х ) {\displaystyle h(X\mid Y)\leq h(X)} Х {\displaystyle X} И {\displaystyle Y}
  • Правило цепочки для дифференциальной энтропии выполняется так же, как и в дискретном случае [2] : 253 
час ( Х 1 , , Х н ) = я = 1 н час ( Х я Х 1 , , Х я 1 ) я = 1 н час ( Х я ) {\displaystyle h(X_{1},\ldots ,X_{n})=\sum _{i=1}^{n}h(X_{i}\mid X_{1},\ldots ,X_{i-1})\leq \sum _{i=1}^{n}h(X_{i})} .
  • Дифференциальная энтропия инвариантна относительно трансляции, т.е. для константы . [2] : 253  c {\displaystyle c}
h ( X + c ) = h ( X ) {\displaystyle h(X+c)=h(X)}
  • Дифференциальная энтропия в общем случае не инвариантна относительно произвольных обратимых отображений.
В частности, для постоянного a {\displaystyle a}
h ( a X ) = h ( X ) + log | a | {\displaystyle h(aX)=h(X)+\log |a|}
Для векторной случайной величины и обратимой (квадратной) матрицы X {\displaystyle \mathbf {X} } A {\displaystyle \mathbf {A} }
h ( A X ) = h ( X ) + log ( | det A | ) {\displaystyle h(\mathbf {A} \mathbf {X} )=h(\mathbf {X} )+\log \left(|\det \mathbf {A} |\right)} [2] : 253 
  • В общем случае, для преобразования случайного вектора в другой случайный вектор той же размерности соответствующие энтропии связаны соотношением Y = m ( X ) {\displaystyle \mathbf {Y} =m\left(\mathbf {X} \right)}
h ( Y ) h ( X ) + f ( x ) log | m x | d x {\displaystyle h(\mathbf {Y} )\leq h(\mathbf {X} )+\int f(x)\log \left\vert {\frac {\partial m}{\partial x}}\right\vert \,dx}
где — якобиан преобразования . [7] Вышеуказанное неравенство становится равенством, если преобразование является биекцией. Кроме того, когда — жесткое вращение, перенос или их комбинация, определитель якобиана всегда равен 1, и . | m x | {\displaystyle \left\vert {\frac {\partial m}{\partial x}}\right\vert } m {\displaystyle m} m {\displaystyle m} h ( Y ) = h ( X ) {\displaystyle h(Y)=h(X)}
  • Если случайный вектор имеет нулевое среднее значение и ковариационную матрицу , причем равенство имеет место тогда и только тогда, когда он является совместно гауссовым (см. ниже). [2] : 254  X R n {\displaystyle X\in \mathbb {R} ^{n}} K {\displaystyle K} h ( X ) 1 2 log ( det 2 π e K ) = 1 2 log [ ( 2 π e ) n det K ] {\displaystyle h(\mathbf {X} )\leq {\frac {1}{2}}\log(\det {2\pi eK})={\frac {1}{2}}\log[(2\pi e)^{n}\det {K}]} X {\displaystyle X}

Однако дифференциальная энтропия не обладает другими желательными свойствами:

  • Он не инвариантен относительно замены переменных и поэтому наиболее полезен для безразмерных переменных.
  • Может быть и отрицательным.

Модификацией дифференциальной энтропии, которая устраняет эти недостатки, является относительная информационная энтропия , также известная как расхождение Кульбака–Лейблера, которая включает в себя инвариантный фактор меры (см. предельную плотность дискретных точек ).

Максимизация в нормальном распределении

Теорема

При нормальном распределении дифференциальная энтропия максимизируется для заданной дисперсии. Гауссовская случайная величина имеет наибольшую энтропию среди всех случайных величин с одинаковой дисперсией, или, альтернативно, распределение максимальной энтропии при ограничениях среднего и дисперсии является гауссовским. [2] : 255 

Доказательство

Пусть будет гауссовской PDF со средним μ и дисперсией и произвольной PDF с той же дисперсией. Поскольку дифференциальная энтропия инвариантна относительно трансляции, мы можем предположить, что имеет то же среднее, что и . g ( x ) {\displaystyle g(x)} σ 2 {\displaystyle \sigma ^{2}} f ( x ) {\displaystyle f(x)} f ( x ) {\displaystyle f(x)} μ {\displaystyle \mu } g ( x ) {\displaystyle g(x)}

Рассмотрим расхождение Кульбака–Лейблера между двумя распределениями

0 D K L ( f g ) = f ( x ) log ( f ( x ) g ( x ) ) d x = h ( f ) f ( x ) log ( g ( x ) ) d x . {\displaystyle 0\leq D_{KL}(f\parallel g)=\int _{-\infty }^{\infty }f(x)\log \left({\frac {f(x)}{g(x)}}\right)\,dx=-h(f)-\int _{-\infty }^{\infty }f(x)\log(g(x))\,dx.}

Теперь обратите внимание, что

f ( x ) log ( g ( x ) ) d x = f ( x ) log ( 1 2 π σ 2 e ( x μ ) 2 2 σ 2 ) d x = f ( x ) log 1 2 π σ 2 d x + log ( e ) f ( x ) ( ( x μ ) 2 2 σ 2 ) d x = 1 2 log ( 2 π σ 2 ) log ( e ) σ 2 2 σ 2 = 1 2 ( log ( 2 π σ 2 ) + log ( e ) ) = 1 2 log ( 2 π e σ 2 ) = h ( g ) {\displaystyle {\begin{aligned}\int _{-\infty }^{\infty }f(x)\log(g(x))\,dx&=\int _{-\infty }^{\infty }f(x)\log \left({\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}\right)\,dx\\&=\int _{-\infty }^{\infty }f(x)\log {\frac {1}{\sqrt {2\pi \sigma ^{2}}}}dx\,+\,\log(e)\int _{-\infty }^{\infty }f(x)\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)\,dx\\&=-{\tfrac {1}{2}}\log(2\pi \sigma ^{2})-\log(e){\frac {\sigma ^{2}}{2\sigma ^{2}}}\\&=-{\tfrac {1}{2}}\left(\log(2\pi \sigma ^{2})+\log(e)\right)\\&=-{\tfrac {1}{2}}\log(2\pi e\sigma ^{2})\\&=-h(g)\end{aligned}}}

потому что результат не зависит ни от чего, кроме как через дисперсию. Объединение двух результатов дает f ( x ) {\displaystyle f(x)}

h ( g ) h ( f ) 0 {\displaystyle h(g)-h(f)\geq 0\!}

с равенством, вытекающим из свойств дивергенции Кульбака–Лейблера. f ( x ) = g ( x ) {\displaystyle f(x)=g(x)}

Альтернативное доказательство

Этот результат можно также продемонстрировать с помощью вариационного исчисления . Функция Лагранжа с двумя множителями Лагранжа может быть определена как:

L = g ( x ) ln ( g ( x ) ) d x λ 0 ( 1 g ( x ) d x ) λ ( σ 2 g ( x ) ( x μ ) 2 d x ) {\displaystyle L=\int _{-\infty }^{\infty }g(x)\ln(g(x))\,dx-\lambda _{0}\left(1-\int _{-\infty }^{\infty }g(x)\,dx\right)-\lambda \left(\sigma ^{2}-\int _{-\infty }^{\infty }g(x)(x-\mu )^{2}\,dx\right)}

где g(x) — некоторая функция со средним значением μ. Когда энтропия g(x) максимальна и уравнения ограничений, которые состоят из условия нормализации и требования фиксированной дисперсии , оба удовлетворены, то небольшое изменение δg ( x ) относительно g ( x ) приведет к изменению δL относительно L , которое равно нулю: ( 1 = g ( x ) d x ) {\displaystyle \left(1=\int _{-\infty }^{\infty }g(x)\,dx\right)} ( σ 2 = g ( x ) ( x μ ) 2 d x ) {\displaystyle \left(\sigma ^{2}=\int _{-\infty }^{\infty }g(x)(x-\mu )^{2}\,dx\right)}

0 = δ L = δ g ( x ) ( ln ( g ( x ) ) + 1 + λ 0 + λ ( x μ ) 2 ) d x {\displaystyle 0=\delta L=\int _{-\infty }^{\infty }\delta g(x)\left(\ln(g(x))+1+\lambda _{0}+\lambda (x-\mu )^{2}\right)\,dx}

Поскольку это должно выполняться для любого малого δ g ( x ), член в скобках должен быть равен нулю, и решение для g(x) дает:

g ( x ) = e λ 0 1 λ ( x μ ) 2 {\displaystyle g(x)=e^{-\lambda _{0}-1-\lambda (x-\mu )^{2}}}

Используя уравнения ограничений для решения относительно λ 0 и λ, получаем нормальное распределение:

g ( x ) = 1 2 π σ 2 e ( x μ ) 2 2 σ 2 {\displaystyle g(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}}

Пример: экспоненциальное распределение

Пусть будет экспоненциально распределенной случайной величиной с параметром , то есть с функцией плотности вероятности X {\displaystyle X} λ {\displaystyle \lambda }

f ( x ) = λ e λ x  for  x 0. {\displaystyle f(x)=\lambda e^{-\lambda x}{\mbox{ for }}x\geq 0.}

Тогда его дифференциальная энтропия равна

h e ( X ) {\displaystyle h_{e}(X)\,} = 0 λ e λ x log ( λ e λ x ) d x {\displaystyle =-\int _{0}^{\infty }\lambda e^{-\lambda x}\log(\lambda e^{-\lambda x})\,dx}
= ( 0 ( log λ ) λ e λ x d x + 0 ( λ x ) λ e λ x d x ) {\displaystyle =-\left(\int _{0}^{\infty }(\log \lambda )\lambda e^{-\lambda x}\,dx+\int _{0}^{\infty }(-\lambda x)\lambda e^{-\lambda x}\,dx\right)}
= log λ 0 f ( x ) d x + λ E [ X ] {\displaystyle =-\log \lambda \int _{0}^{\infty }f(x)\,dx+\lambda E[X]}
= log λ + 1 . {\displaystyle =-\log \lambda +1\,.}

Здесь вместо того , чтобы явно указать, что логарифм взят по основанию e , использовалось для упрощения вычислений. h e ( X ) {\displaystyle h_{e}(X)} h ( X ) {\displaystyle h(X)}

Отношение к ошибке оценки

Дифференциальная энтропия дает нижнюю границу ожидаемой квадратичной ошибки оценщика . Для любой случайной величины и оценщика справедливо следующее: [2] X {\displaystyle X} X ^ {\displaystyle {\widehat {X}}}

E [ ( X X ^ ) 2 ] 1 2 π e e 2 h ( X ) {\displaystyle \operatorname {E} [(X-{\widehat {X}})^{2}]\geq {\frac {1}{2\pi e}}e^{2h(X)}}

с равенством тогда и только тогда, когда — гауссовская случайная величина и — среднее значение . X {\displaystyle X} X ^ {\displaystyle {\widehat {X}}} X {\displaystyle X}

Дифференциальные энтропии для различных распределений

В таблице ниже — гамма-функция , — дигамма-функция , — бета-функция , а γ Eпостоянная Эйлера . [8] : 219–230  Γ ( x ) = 0 e t t x 1 d t {\displaystyle \Gamma (x)=\int _{0}^{\infty }e^{-t}t^{x-1}dt} ψ ( x ) = d d x ln Γ ( x ) = Γ ( x ) Γ ( x ) {\displaystyle \psi (x)={\frac {d}{dx}}\ln \Gamma (x)={\frac {\Gamma '(x)}{\Gamma (x)}}} B ( p , q ) = Γ ( p ) Γ ( q ) Γ ( p + q ) {\displaystyle B(p,q)={\frac {\Gamma (p)\Gamma (q)}{\Gamma (p+q)}}}

Таблица дифференциальных энтропий
Название дистрибутиваФункция плотности вероятности (pdf)Дифференциальная энтропия в нац.Поддерживать
Униформа f ( x ) = 1 b a {\displaystyle f(x)={\frac {1}{b-a}}} ln ( b a ) {\displaystyle \ln(b-a)\,} [ a , b ] {\displaystyle [a,b]\,}
Нормальный f ( x ) = 1 2 π σ 2 exp ( ( x μ ) 2 2 σ 2 ) {\displaystyle f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)} ln ( σ 2 π e ) {\displaystyle \ln \left(\sigma {\sqrt {2\,\pi \,e}}\right)} ( , ) {\displaystyle (-\infty ,\infty )\,}
Экспоненциальный f ( x ) = λ exp ( λ x ) {\displaystyle f(x)=\lambda \exp \left(-\lambda x\right)} 1 ln λ {\displaystyle 1-\ln \lambda \,} [ 0 , ) {\displaystyle [0,\infty )\,}
Рэлей f ( x ) = x σ 2 exp ( x 2 2 σ 2 ) {\displaystyle f(x)={\frac {x}{\sigma ^{2}}}\exp \left(-{\frac {x^{2}}{2\sigma ^{2}}}\right)} 1 + ln σ 2 + γ E 2 {\displaystyle 1+\ln {\frac {\sigma }{\sqrt {2}}}+{\frac {\gamma _{E}}{2}}} [ 0 , ) {\displaystyle [0,\infty )\,}
Бета f ( x ) = x α 1 ( 1 x ) β 1 B ( α , β ) {\displaystyle f(x)={\frac {x^{\alpha -1}(1-x)^{\beta -1}}{B(\alpha ,\beta )}}} для 0 x 1 {\displaystyle 0\leq x\leq 1} ln B ( α , β ) ( α 1 ) [ ψ ( α ) ψ ( α + β ) ] {\displaystyle \ln B(\alpha ,\beta )-(\alpha -1)[\psi (\alpha )-\psi (\alpha +\beta )]\,}
( β 1 ) [ ψ ( β ) ψ ( α + β ) ] {\displaystyle -(\beta -1)[\psi (\beta )-\psi (\alpha +\beta )]\,}
[ 0 , 1 ] {\displaystyle [0,1]\,}
Коши f ( x ) = γ π 1 γ 2 + x 2 {\displaystyle f(x)={\frac {\gamma }{\pi }}{\frac {1}{\gamma ^{2}+x^{2}}}} ln ( 4 π γ ) {\displaystyle \ln(4\pi \gamma )\,} ( , ) {\displaystyle (-\infty ,\infty )\,}
Чи f ( x ) = 2 2 k / 2 Γ ( k / 2 ) x k 1 exp ( x 2 2 ) {\displaystyle f(x)={\frac {2}{2^{k/2}\Gamma (k/2)}}x^{k-1}\exp \left(-{\frac {x^{2}}{2}}\right)} ln Γ ( k / 2 ) 2 k 1 2 ψ ( k 2 ) + k 2 {\displaystyle \ln {\frac {\Gamma (k/2)}{\sqrt {2}}}-{\frac {k-1}{2}}\psi \left({\frac {k}{2}}\right)+{\frac {k}{2}}} [ 0 , ) {\displaystyle [0,\infty )\,}
Хи-квадрат f ( x ) = 1 2 k / 2 Γ ( k / 2 ) x k 2 1 exp ( x 2 ) {\displaystyle f(x)={\frac {1}{2^{k/2}\Gamma (k/2)}}x^{{\frac {k}{2}}\!-\!1}\exp \left(-{\frac {x}{2}}\right)} ln 2 Γ ( k 2 ) ( 1 k 2 ) ψ ( k 2 ) + k 2 {\displaystyle \ln 2\Gamma \left({\frac {k}{2}}\right)-\left(1-{\frac {k}{2}}\right)\psi \left({\frac {k}{2}}\right)+{\frac {k}{2}}} [ 0 , ) {\displaystyle [0,\infty )\,}
Эрланг f ( x ) = λ k ( k 1 ) ! x k 1 exp ( λ x ) {\displaystyle f(x)={\frac {\lambda ^{k}}{(k-1)!}}x^{k-1}\exp(-\lambda x)} ( 1 k ) ψ ( k ) + ln Γ ( k ) λ + k {\displaystyle (1-k)\psi (k)+\ln {\frac {\Gamma (k)}{\lambda }}+k} [ 0 , ) {\displaystyle [0,\infty )\,}
Ф f ( x ) = n 1 n 1 2 n 2 n 2 2 B ( n 1 2 , n 2 2 ) x n 1 2 1 ( n 2 + n 1 x ) n 1 + n 2 2 {\displaystyle f(x)={\frac {n_{1}^{\frac {n_{1}}{2}}n_{2}^{\frac {n_{2}}{2}}}{B({\frac {n_{1}}{2}},{\frac {n_{2}}{2}})}}{\frac {x^{{\frac {n_{1}}{2}}-1}}{(n_{2}+n_{1}x)^{\frac {n_{1}+n2}{2}}}}} ln n 1 n 2 B ( n 1 2 , n 2 2 ) + ( 1 n 1 2 ) ψ ( n 1 2 ) {\displaystyle \ln {\frac {n_{1}}{n_{2}}}B\left({\frac {n_{1}}{2}},{\frac {n_{2}}{2}}\right)+\left(1-{\frac {n_{1}}{2}}\right)\psi \left({\frac {n_{1}}{2}}\right)-}
( 1 + n 2 2 ) ψ ( n 2 2 ) + n 1 + n 2 2 ψ ( n 1 + n 2 2 ) {\displaystyle \left(1+{\frac {n_{2}}{2}}\right)\psi \left({\frac {n_{2}}{2}}\right)+{\frac {n_{1}+n_{2}}{2}}\psi \left({\frac {n_{1}\!+\!n_{2}}{2}}\right)}
[ 0 , ) {\displaystyle [0,\infty )\,}
Гамма f ( x ) = x k 1 exp ( x θ ) θ k Γ ( k ) {\displaystyle f(x)={\frac {x^{k-1}\exp(-{\frac {x}{\theta }})}{\theta ^{k}\Gamma (k)}}} ln ( θ Γ ( k ) ) + ( 1 k ) ψ ( k ) + k {\displaystyle \ln(\theta \Gamma (k))+(1-k)\psi (k)+k\,} [ 0 , ) {\displaystyle [0,\infty )\,}
Лаплас f ( x ) = 1 2 b exp ( | x μ | b ) {\displaystyle f(x)={\frac {1}{2b}}\exp \left(-{\frac {|x-\mu |}{b}}\right)} 1 + ln ( 2 b ) {\displaystyle 1+\ln(2b)\,} ( , ) {\displaystyle (-\infty ,\infty )\,}
Логистический f ( x ) = e x / s s ( 1 + e x / s ) 2 {\displaystyle f(x)={\frac {e^{-x/s}}{s(1+e^{-x/s})^{2}}}} ln s + 2 {\displaystyle \ln s+2\,} ( , ) {\displaystyle (-\infty ,\infty )\,}
Логнормальный f ( x ) = 1 σ x 2 π exp ( ( ln x μ ) 2 2 σ 2 ) {\displaystyle f(x)={\frac {1}{\sigma x{\sqrt {2\pi }}}}\exp \left(-{\frac {(\ln x-\mu )^{2}}{2\sigma ^{2}}}\right)} μ + 1 2 ln ( 2 π e σ 2 ) {\displaystyle \mu +{\frac {1}{2}}\ln(2\pi e\sigma ^{2})} [ 0 , ) {\displaystyle [0,\infty )\,}
Максвелл–Больцман f ( x ) = 1 a 3 2 π x 2 exp ( x 2 2 a 2 ) {\displaystyle f(x)={\frac {1}{a^{3}}}{\sqrt {\frac {2}{\pi }}}\,x^{2}\exp \left(-{\frac {x^{2}}{2a^{2}}}\right)} ln ( a 2 π ) + γ E 1 2 {\displaystyle \ln(a{\sqrt {2\pi }})+\gamma _{E}-{\frac {1}{2}}} [ 0 , ) {\displaystyle [0,\infty )\,}
Обобщенный нормальный f ( x ) = 2 β α 2 Γ ( α 2 ) x α 1 exp ( β x 2 ) {\displaystyle f(x)={\frac {2\beta ^{\frac {\alpha }{2}}}{\Gamma ({\frac {\alpha }{2}})}}x^{\alpha -1}\exp(-\beta x^{2})} ln Γ ( α / 2 ) 2 β 1 2 α 1 2 ψ ( α 2 ) + α 2 {\displaystyle \ln {\frac {\Gamma (\alpha /2)}{2\beta ^{\frac {1}{2}}}}-{\frac {\alpha -1}{2}}\psi \left({\frac {\alpha }{2}}\right)+{\frac {\alpha }{2}}} ( , ) {\displaystyle (-\infty ,\infty )\,}
Парето f ( x ) = α x m α x α + 1 {\displaystyle f(x)={\frac {\alpha x_{m}^{\alpha }}{x^{\alpha +1}}}} ln x m α + 1 + 1 α {\displaystyle \ln {\frac {x_{m}}{\alpha }}+1+{\frac {1}{\alpha }}} [ x m , ) {\displaystyle [x_{m},\infty )\,}
Студенческий т f ( x ) = ( 1 + x 2 / ν ) ν + 1 2 ν B ( 1 2 , ν 2 ) {\displaystyle f(x)={\frac {(1+x^{2}/\nu )^{-{\frac {\nu +1}{2}}}}{{\sqrt {\nu }}B({\frac {1}{2}},{\frac {\nu }{2}})}}} ν + 1 2 ( ψ ( ν + 1 2 ) ψ ( ν 2 ) ) + ln ν B ( 1 2 , ν 2 ) {\displaystyle {\frac {\nu \!+\!1}{2}}\left(\psi \left({\frac {\nu \!+\!1}{2}}\right)\!-\!\psi \left({\frac {\nu }{2}}\right)\right)\!+\!\ln {\sqrt {\nu }}B\left({\frac {1}{2}},{\frac {\nu }{2}}\right)} ( , ) {\displaystyle (-\infty ,\infty )\,}
Треугольный f ( x ) = { 2 ( x a ) ( b a ) ( c a ) f o r   a x c , 2 ( b x ) ( b a ) ( b c ) f o r   c < x b , {\displaystyle f(x)={\begin{cases}{\frac {2(x-a)}{(b-a)(c-a)}}&\mathrm {for\ } a\leq x\leq c,\\[4pt]{\frac {2(b-x)}{(b-a)(b-c)}}&\mathrm {for\ } c<x\leq b,\\[4pt]\end{cases}}} 1 2 + ln b a 2 {\displaystyle {\frac {1}{2}}+\ln {\frac {b-a}{2}}} [ a , b ] {\displaystyle [a,b]\,}
Вейбулл f ( x ) = k λ k x k 1 exp ( x k λ k ) {\displaystyle f(x)={\frac {k}{\lambda ^{k}}}x^{k-1}\exp \left(-{\frac {x^{k}}{\lambda ^{k}}}\right)} ( k 1 ) γ E k + ln λ k + 1 {\displaystyle {\frac {(k-1)\gamma _{E}}{k}}+\ln {\frac {\lambda }{k}}+1} [ 0 , ) {\displaystyle [0,\infty )\,}
Многомерный нормальный f X ( x ) = {\displaystyle f_{X}({\vec {x}})=}
exp ( 1 2 ( x μ ) Σ 1 ( x μ ) ) ( 2 π ) N / 2 | Σ | 1 / 2 {\displaystyle {\frac {\exp \left(-{\frac {1}{2}}({\vec {x}}-{\vec {\mu }})^{\top }\Sigma ^{-1}\cdot ({\vec {x}}-{\vec {\mu }})\right)}{(2\pi )^{N/2}\left|\Sigma \right|^{1/2}}}}
1 2 ln { ( 2 π e ) N det ( Σ ) } {\displaystyle {\frac {1}{2}}\ln\{(2\pi e)^{N}\det(\Sigma )\}} R N {\displaystyle \mathbb {R} ^{N}}

Многие дифференциальные энтропии взяты из [9] : 120–122 

Варианты

Как описано выше, дифференциальная энтропия не разделяет все свойства дискретной энтропии. Например, дифференциальная энтропия может быть отрицательной; также она не инвариантна относительно непрерывных преобразований координат. Эдвин Томпсон Джейнс показал, что выражение выше не является правильным пределом выражения для конечного набора вероятностей. [10] : 181–218 

Модификация дифференциальной энтропии добавляет инвариантный фактор меры для исправления этого (см. предельную плотность дискретных точек ). Если дополнительно ограничивается плотностью вероятности, то полученное понятие называется относительной энтропией в теории информации: m ( x ) {\displaystyle m(x)}

D ( p m ) = p ( x ) log p ( x ) m ( x ) d x . {\displaystyle D(p\parallel m)=\int p(x)\log {\frac {p(x)}{m(x)}}\,dx.}

Определение дифференциальной энтропии выше может быть получено путем разбиения диапазона на ячейки длины с соответствующими точками выборки внутри ячеек, для интегрируемой по Риману. Это дает квантованную версию , определяемую как , если . Тогда энтропия равна [2] X {\displaystyle X} h {\displaystyle h} i h {\displaystyle ih} X {\displaystyle X} X {\displaystyle X} X h = i h {\displaystyle X_{h}=ih} i h X ( i + 1 ) h {\displaystyle ih\leq X\leq (i+1)h} X h = i h {\displaystyle X_{h}=ih}

H h = i h f ( i h ) log ( f ( i h ) ) h f ( i h ) log ( h ) . {\displaystyle H_{h}=-\sum _{i}hf(ih)\log(f(ih))-\sum hf(ih)\log(h).}

Первый член справа аппроксимирует дифференциальную энтропию, тогда как второй член приблизительно равен . Обратите внимание, что эта процедура предполагает, что энтропия в дискретном смысле непрерывной случайной величины должна быть . log ( h ) {\displaystyle -\log(h)} {\displaystyle \infty }

Смотрите также

Ссылки

  1. ^ Джейнс, ET (1963). "Теория информации и статистическая механика" (PDF) . Лекции Летнего института по теоретической физике Университета Брандейса . 3 (раздел 4b).
  2. ^ abcdefgh Cover, Thomas M.; Thomas, Joy A. (1991). Элементы теории информации . Нью-Йорк: Wiley. ISBN 0-471-06259-6.
  3. ^ Васичек, Олдрич (1976), «Тест на нормальность на основе выборочной энтропии», Журнал Королевского статистического общества, Серия B , 38 (1): 54–59, doi :10.1111/j.2517-6161.1976.tb01566.x, JSTOR  2984828.
  4. ^ Гиббс, Джозайя Уиллард (1902). Элементарные принципы статистической механики, разработанные с особым упором на рациональные основы термодинамики . Нью-Йорк: Charles Scribner's Sons.
  5. ^ Красков, Александр; Штёгбауэр, Грассбергер (2004). «Оценка взаимной информации». Physical Review E. 60 ( 6): 066138. arXiv : cond-mat/0305641 . Bibcode : 2004PhRvE..69f6138K. doi : 10.1103/PhysRevE.69.066138. PMID  15244698. S2CID  1269438.
  6. ^ Фазлолла М. Реза (1994) [1961]. Введение в теорию информации. Dover Publications, Inc., Нью-Йорк. ISBN 0-486-68210-2.
  7. ^ "доказательство верхней границы дифференциальной энтропии f(X)". Stack Exchange . 16 апреля 2016 г.
  8. ^ Park, Sung Y.; Bera, Anil K. (2009). "Модель условной гетероскедастичности с максимальной энтропией авторегрессии" (PDF) . Journal of Econometrics . 150 (2). Elsevier: 219–230. doi :10.1016/j.jeconom.2008.12.014. Архивировано из оригинала (PDF) 2016-03-07 . Получено 2011-06-02 .
  9. ^ Лазо, А. и П. Рати (1978). «Об энтропии непрерывных распределений вероятностей». Труды IEEE по теории информации . 24 (1): 120–122. doi :10.1109/TIT.1978.1055832.
  10. ^ Джейнс, ET (1963). "Теория информации и статистическая механика" (PDF) . Лекции Летнего института по теоретической физике Университета Брандейса . 3 (раздел 4b).
Retrieved from "https://en.wikipedia.org/w/index.php?title=Differential_entropy&oldid=1234952489"