Дифференциальная энтропия (также называемая непрерывной энтропией ) — это концепция в теории информации , которая началась как попытка Клода Шеннона распространить идею (шенноновской) энтропии (меры средней неожиданности) случайной величины на непрерывные распределения вероятностей. К сожалению, Шеннон не вывел эту формулу, а скорее просто предположил, что это правильный непрерывный аналог дискретной энтропии, но это не так. [1] : 181–218 Фактическая непрерывная версия дискретной энтропии — это предельная плотность дискретных точек (LDDP). Дифференциальная энтропия (описанная здесь) часто встречается в литературе, но это предельный случай LDDP, и тот, который теряет свою фундаментальную связь с дискретной энтропией .
В терминах теории меры дифференциальная энтропия вероятностной меры — это отрицательная относительная энтропия от этой меры к мере Лебега , где последняя рассматривается так, как если бы она была вероятностной мерой, несмотря на то, что она ненормализована.
Для распределений вероятностей, которые не имеют явного выражения функции плотности, но имеют явное выражение функции квантиля , тогда можно определить в терминах производной, т.е. функции плотности квантиля , как [3] : 54–59
.
Как и в случае с дискретным аналогом, единицы дифференциальной энтропии зависят от основания логарифма , которое обычно равно 2 (т. е. единицами являются биты ). См. логарифмические единицы для логарифмов, взятых в разных основаниях. Связанные понятия, такие как совместная , условная дифференциальная энтропия и относительная энтропия , определяются аналогичным образом. В отличие от дискретного аналога, дифференциальная энтропия имеет смещение, которое зависит от единиц, используемых для измерения . [4] : 183–184 Например, дифференциальная энтропия величины, измеренной в миллиметрах, будет на log(1000) больше, чем та же величина, измеренная в метрах; безразмерная величина будет иметь дифференциальную энтропию на log(1000) больше, чем та же величина, деленная на 1000.
Необходимо проявлять осторожность при попытке применить свойства дискретной энтропии к дифференциальной энтропии, поскольку функции плотности вероятности могут быть больше 1. Например, равномерное распределение имеет отрицательную дифференциальную энтропию; т.е. оно лучше упорядочено, чем показано сейчас.
будучи меньше, чем тот, у которого нулевая дифференциальная энтропия. Таким образом, дифференциальная энтропия не разделяет все свойства дискретной энтропии.
Непрерывная взаимная информация отличается тем , что сохраняет свое фундаментальное значение как мера дискретной информации, поскольку она фактически является пределом дискретной взаимной информации разделов и по мере того, как эти разделы становятся все тоньше и тоньше. Таким образом, она инвариантна относительно нелинейных гомеоморфизмов (непрерывных и однозначно обратимых отображений), [5] включая линейные [6] преобразования и , и по-прежнему представляет собой объем дискретной информации, который может быть передан по каналу, допускающему непрерывное пространство значений.
Для плотностей вероятности и расхождение Кульбака –Лейблера больше или равно 0 с равенством только если почти всюду . Аналогично для двух случайных величин и , и с равенством тогда и только тогда, когда и независимы .
Правило цепочки для дифференциальной энтропии выполняется так же, как и в дискретном случае [2] : 253
.
Дифференциальная энтропия инвариантна относительно трансляции, т.е. для константы . [2] : 253
Дифференциальная энтропия в общем случае не инвариантна относительно произвольных обратимых отображений.
В частности, для постоянного
Для векторной случайной величины и обратимой (квадратной) матрицы
[2] : 253
В общем случае, для преобразования случайного вектора в другой случайный вектор той же размерности соответствующие энтропии связаны соотношением
где — якобиан преобразования . [7] Вышеуказанное неравенство становится равенством, если преобразование является биекцией. Кроме того, когда — жесткое вращение, перенос или их комбинация, определитель якобиана всегда равен 1, и .
Если случайный вектор имеет нулевое среднее значение и ковариационную матрицу , причем равенство имеет место тогда и только тогда, когда он является совместно гауссовым (см. ниже). [2] : 254
Однако дифференциальная энтропия не обладает другими желательными свойствами:
Он не инвариантен относительно замены переменных и поэтому наиболее полезен для безразмерных переменных.
Может быть и отрицательным.
Модификацией дифференциальной энтропии, которая устраняет эти недостатки, является относительная информационная энтропия , также известная как расхождение Кульбака–Лейблера, которая включает в себя инвариантный фактор меры (см. предельную плотность дискретных точек ).
Максимизация в нормальном распределении
Теорема
При нормальном распределении дифференциальная энтропия максимизируется для заданной дисперсии. Гауссовская случайная величина имеет наибольшую энтропию среди всех случайных величин с одинаковой дисперсией, или, альтернативно, распределение максимальной энтропии при ограничениях среднего и дисперсии является гауссовским. [2] : 255
Доказательство
Пусть будет гауссовской PDF со средним μ и дисперсией и произвольной PDF с той же дисперсией. Поскольку дифференциальная энтропия инвариантна относительно трансляции, мы можем предположить, что имеет то же среднее, что и .
где g(x) — некоторая функция со средним значением μ. Когда энтропия g(x) максимальна и уравнения ограничений, которые состоят из условия нормализации и требования фиксированной дисперсии , оба удовлетворены, то небольшое изменение δg ( x ) относительно g ( x ) приведет к изменению δL относительно L , которое равно нулю:
Поскольку это должно выполняться для любого малого δ g ( x ), член в скобках должен быть равен нулю, и решение для g(x) дает:
Используя уравнения ограничений для решения относительно λ 0 и λ, получаем нормальное распределение:
Здесь вместо того , чтобы явно указать, что логарифм взят по основанию e , использовалось для упрощения вычислений.
Отношение к ошибке оценки
Дифференциальная энтропия дает нижнюю границу ожидаемой квадратичной ошибки оценщика . Для любой случайной величины и оценщика справедливо следующее: [2]
с равенством тогда и только тогда, когда — гауссовская случайная величина и — среднее значение .
Дифференциальные энтропии для различных распределений
Многие дифференциальные энтропии взяты из [9] : 120–122
Варианты
Как описано выше, дифференциальная энтропия не разделяет все свойства дискретной энтропии. Например, дифференциальная энтропия может быть отрицательной; также она не инвариантна относительно непрерывных преобразований координат. Эдвин Томпсон Джейнс показал, что выражение выше не является правильным пределом выражения для конечного набора вероятностей. [10] : 181–218
Определение дифференциальной энтропии выше может быть получено путем разбиения диапазона на ячейки длины с соответствующими точками выборки внутри ячеек, для интегрируемой по Риману. Это дает квантованную версию , определяемую как , если . Тогда энтропия равна [2]
Первый член справа аппроксимирует дифференциальную энтропию, тогда как второй член приблизительно равен . Обратите внимание, что эта процедура предполагает, что энтропия в дискретном смысле непрерывной случайной величины должна быть .
^ Джейнс, ET (1963). "Теория информации и статистическая механика" (PDF) . Лекции Летнего института по теоретической физике Университета Брандейса . 3 (раздел 4b).
^ abcdefgh Cover, Thomas M.; Thomas, Joy A. (1991). Элементы теории информации . Нью-Йорк: Wiley. ISBN0-471-06259-6.
^ Фазлолла М. Реза (1994) [1961]. Введение в теорию информации. Dover Publications, Inc., Нью-Йорк. ISBN0-486-68210-2.
^ "доказательство верхней границы дифференциальной энтропии f(X)". Stack Exchange . 16 апреля 2016 г.
^ Park, Sung Y.; Bera, Anil K. (2009). "Модель условной гетероскедастичности с максимальной энтропией авторегрессии" (PDF) . Journal of Econometrics . 150 (2). Elsevier: 219–230. doi :10.1016/j.jeconom.2008.12.014. Архивировано из оригинала (PDF) 2016-03-07 . Получено 2011-06-02 .
^ Лазо, А. и П. Рати (1978). «Об энтропии непрерывных распределений вероятностей». Труды IEEE по теории информации . 24 (1): 120–122. doi :10.1109/TIT.1978.1055832.
^ Джейнс, ET (1963). "Теория информации и статистическая механика" (PDF) . Лекции Летнего института по теоретической физике Университета Брандейса . 3 (раздел 4b).