Перекрестная энтропия

Информационно-теоретическая мера

В теории информации перекрестная энтропия между двумя распределениями вероятностей и для одного и того же базового набора событий измеряет среднее число бит, необходимое для идентификации события, взятого из набора, когда схема кодирования, используемая для набора, оптимизирована для предполагаемого распределения вероятностей , а не для истинного распределения . п {\displaystyle p} д {\displaystyle д} д {\displaystyle д} п {\displaystyle p}

Определение

Перекрестная энтропия распределения относительно распределения по заданному набору определяется следующим образом: д {\displaystyle д} п {\displaystyle p}

ЧАС ( п , д ) = Э п [ бревно д ] , {\displaystyle H(p,q)=-\operatorname {E} _{p}[\log q],}

где — оператор ожидаемого значения относительно распределения . Э п [ ] {\displaystyle E_{p}[\cdot ]} п {\displaystyle p}

Определение можно сформулировать с помощью дивергенции Кульбака–Лейблера , дивергенции от (также известной как относительная энтропия по отношению к ). Д К Л ( п д ) {\displaystyle D_{\mathrm {KL} }(p\parallel q)} п {\displaystyle p} д {\displaystyle д} п {\displaystyle p} д {\displaystyle д}

ЧАС ( п , д ) = ЧАС ( п ) + Д К Л ( п д ) , {\ displaystyle H (p, q) = H (p) + D _ {\ mathrm {KL}} (p \ parallel q),}

где - энтропия . ​ ЧАС ( п ) {\displaystyle H(p)} п {\displaystyle p}

Для дискретных распределений вероятностей и с той же поддержкой это означает п {\displaystyle p} д {\displaystyle д} Х {\displaystyle {\mathcal {X}}}

ЧАС ( п , д ) = х Х п ( х ) бревно д ( х ) . {\displaystyle H(p,q)=-\sum _{x\in {\mathcal {X}}}p(x)\,\log q(x).}    ( Уравнение 1 )

Аналогичная ситуация для непрерывных распределений. Мы должны предположить, что и абсолютно непрерывны относительно некоторой референтной меры (обычно это мера Лебега на борелевской σ-алгебре ). Пусть и будут функциями плотности вероятности и относительно . Тогда п {\displaystyle p} д {\displaystyle д} г {\displaystyle r} г {\displaystyle r} П {\displaystyle P} В {\displaystyle Q} п {\displaystyle p} д {\displaystyle д} г {\displaystyle r}

Х П ( х ) бревно В ( х ) г х = Э п [ бревно В ] , {\displaystyle -\int _{\mathcal {X}}P(x)\,\log Q(x)\,\mathrm {d} x=\operatorname {E} _{p}[-\log Q] ,}

и поэтому

ЧАС ( п , д ) = Х П ( х ) бревно В ( х ) г х . {\displaystyle H(p,q)=-\int _ {\mathcal {X}}P(x)\,\log Q(x)\,\mathrm {d} x.}    ( Уравнение 2 )

Примечание: эта нотация также используется для другого понятия — совместной энтропии и . ЧАС ( п , д ) {\displaystyle H(p,q)} п {\displaystyle p} д {\displaystyle д}

Мотивация

В теории информации теорема Крафта-Макмиллана устанавливает, что любая непосредственно декодируемая схема кодирования для кодирования сообщения для идентификации одного значения из набора возможностей может рассматриваться как представление неявного распределения вероятностей по , где — длина кода для в битах. Таким образом, кросс-энтропия может быть интерпретирована как ожидаемая длина сообщения на единицу данных, когда предполагается неправильное распределение, в то время как данные фактически следуют распределению . Вот почему ожидание берется по истинному распределению вероятностей , а не Действительно, ожидаемая длина сообщения при истинном распределении равна х я {\displaystyle x_{i}} { х 1 , , х н } {\displaystyle \{x_{1},\ldots ,x_{n}\}} д ( х я ) = ( 1 2 ) я {\displaystyle q(x_{i})=\left({\frac {1}{2}}\right)^{\ell _{i}}} { х 1 , , х н } {\displaystyle \{x_{1},\ldots ,x_{n}\}} я {\displaystyle \ell _{i}} х я {\displaystyle x_{i}} д {\displaystyle д} п {\displaystyle p} п {\displaystyle p} д . {\displaystyle д.} п {\displaystyle p}

Э п [ ] = Э п [ вн д ( х ) вн ( 2 ) ] = Э п [ бревно 2 д ( х ) ] = х я п ( х я ) бревно 2 д ( х я ) = х п ( х ) бревно 2 д ( х ) = ЧАС ( п , д ) . {\displaystyle \operatorname {E} _{p}[\ell ]=-\operatorname {E} _{p}\left[{\frac {\ln {q(x)}}{\ln(2)}}\right]=-\operatorname {E} _{p}\left[\log _{2}{q(x)}\right]=-\sum _{x_{i}}p(x_{i})\,\log _{2}q(x_{i})=-\sum _{x}p(x)\,\log _{2}q(x)=H(p,q).}

Оценка

Существует много ситуаций, когда необходимо измерить кросс-энтропию, но распределение неизвестно. Примером является моделирование языка , где модель создается на основе обучающего набора , а затем ее кросс-энтропия измеряется на тестовом наборе, чтобы оценить, насколько точна модель в прогнозировании тестовых данных. В этом примере — истинное распределение слов в любом корпусе, а — распределение слов, предсказанное моделью. Поскольку истинное распределение неизвестно, кросс-энтропия не может быть рассчитана напрямую. В этих случаях оценка кросс-энтропии рассчитывается с использованием следующей формулы: п {\displaystyle p} Т {\displaystyle Т} п {\displaystyle p} д {\displaystyle д}

ЧАС ( Т , д ) = я = 1 Н 1 Н бревно 2 д ( х я ) {\displaystyle H(T,q)=-\sum _{i=1}^{N}{\frac {1}{N}}\log _{2}q(x_{i})}

где — размер тестового набора, а — вероятность события, оцененная по обучающему набору. Другими словами, — оценка вероятности модели того, что i-е слово текста — это . Сумма усредняется по словам теста. Это оценка Монте-Карло истинной кросс-энтропии, где тестовый набор рассматривается как выборки из . [ необходима цитата ] Н {\displaystyle N} д ( х ) {\displaystyle q(x)} х {\displaystyle x} д ( х я ) {\displaystyle q(x_{i})} х я {\displaystyle x_{i}} Н {\displaystyle N} п ( х ) {\displaystyle p(x)}

Отношение к максимальному правдоподобию

Перекрестная энтропия возникает в задачах классификации при введении логарифма под видом логарифмической функции правдоподобия .

Раздел посвящен теме оценки вероятности различных возможных дискретных результатов. Для этого обозначим параметризованное семейство распределений как , с учетом усилий по оптимизации. Рассмотрим заданную конечную последовательность значений из обучающего набора, полученную из условно независимой выборки. Правдоподобие, назначенное любому рассматриваемому параметру модели, затем задается произведением по всем вероятностям . Возможны повторные появления, что приводит к равным факторам в произведении. Если количество появлений значения, равного (для некоторого индекса ), обозначено как , то частота этого значения равна . Обозначим последнее как , так как это можно понимать как эмпирическое приближение к распределению вероятностей, лежащему в основе сценария. Далее обозначим через недоумение , которое можно увидеть равным по правилам расчета для логарифма , и где произведение находится по значениям без двойного счета. Так или Поскольку логарифм является монотонно возрастающей функцией , он не влияет на экстремизацию. Поэтому заметим, что максимизация правдоподобия сводится к минимизации перекрестной энтропии. д θ {\displaystyle q_{\theta }} θ {\displaystyle \theta } N {\displaystyle N} x i {\displaystyle x_{i}} θ {\displaystyle \theta } q θ ( X = x i ) {\displaystyle q_{\theta }(X=x_{i})} x i {\displaystyle x_{i}} i {\displaystyle i} # x i {\displaystyle \#x_{i}} # x i / N {\displaystyle \#x_{i}/N} p ( X = x i ) {\displaystyle p(X=x_{i})} P P := e H ( p , q θ ) {\displaystyle PP:={\mathrm {e} }^{H(p,q_{\theta })}} x i q θ ( X = x i ) p ( X = x i ) {\textstyle \prod _{x_{i}}q_{\theta }(X=x_{i})^{-p(X=x_{i})}} L ( θ ; x ) = i q θ ( X = x i ) = x i q θ ( X = x i ) # x i = P P N = e N H ( p , q θ ) {\displaystyle {\mathcal {L}}(\theta ;{\mathbf {x} })=\prod _{i}q_{\theta }(X=x_{i})=\prod _{x_{i}}q_{\theta }(X=x_{i})^{\#x_{i}}=PP^{-N}={\mathrm {e} }^{-N\cdot H(p,q_{\theta })}} log L ( θ ; x ) = N H ( p , q θ ) . {\displaystyle \log {\mathcal {L}}(\theta ;{\mathbf {x} })=-N\cdot H(p,q_{\theta }).}

Минимизация кросс-энтропии

Минимизация кросс-энтропии часто используется в оптимизации и оценке вероятности редких событий. При сравнении распределения с фиксированным эталонным распределением кросс-энтропия и дивергенция KL идентичны с точностью до аддитивной константы (поскольку фиксировано): Согласно неравенству Гиббса , оба принимают минимальные значения, когда , что соответствует дивергенции KL, и для кросс-энтропии. В инженерной литературе принцип минимизации дивергенции KL (Кульбакский « Принцип минимальной дискриминационной информации ») часто называют принципом минимальной кросс-энтропии (MCE) или Minxent . q {\displaystyle q} p {\displaystyle p} p {\displaystyle p} p = q {\displaystyle p=q} 0 {\displaystyle 0} H ( p ) {\displaystyle \mathrm {H} (p)}

Однако, как обсуждалось в статье Расхождение Кульбака–Лейблера , иногда распределение является фиксированным априорным референтным распределением, и распределение оптимизируется, чтобы быть как можно ближе к нему, при условии некоторого ограничения. В этом случае две минимизации не эквивалентны. Это привело к некоторой двусмысленности в литературе, и некоторые авторы пытались разрешить несоответствие, переформулируя кросс-энтропию как , а не . Фактически, кросс-энтропия — это еще одно название относительной энтропии ; см. Cover и Thomas [1] и Good. [2] С другой стороны, не согласуется с литературой и может вводить в заблуждение. q {\displaystyle q} p {\displaystyle p} q {\displaystyle q} D K L ( p q ) {\displaystyle D_{\mathrm {KL} }(p\parallel q)} H ( p , q ) {\displaystyle H(p,q)} H ( p , q ) {\displaystyle H(p,q)}

Функция кросс-энтропийных потерь и логистическая регрессия

Перекрестная энтропия может использоваться для определения функции потерь в машинном обучении и оптимизации . Мао, Мори и Чжун (2023) дают обширный анализ свойств семейства функций потерь перекрестной энтропии в машинном обучении, включая теоретические гарантии обучения и расширения для состязательного обучения . [3] Истинная вероятность является истинной меткой, а заданное распределение является прогнозируемым значением текущей модели. Это также известно как логарифмические потери (или логарифмические потери [4] или логистические потери ); [5] термины «логарифмические потери» и «потери перекрестной энтропии» используются взаимозаменяемо. [6] p i {\displaystyle p_{i}} q i {\displaystyle q_{i}}

Более конкретно, рассмотрим бинарную регрессионную модель, которая может быть использована для классификации наблюдений на два возможных класса (часто просто обозначенных и ). Выходные данные модели для данного наблюдения, заданного вектором входных признаков , можно интерпретировать как вероятность, которая служит основой для классификации наблюдения. В логистической регрессии вероятность моделируется с использованием логистической функции , где — некоторая функция входного вектора , обычно просто линейная функция. Вероятность выходных данных задается как , где вектор весов оптимизируется с помощью некоторого подходящего алгоритма, такого как градиентный спуск . Аналогично, дополнительная вероятность нахождения выходных данных просто задается как 0 {\displaystyle 0} 1 {\displaystyle 1} x {\displaystyle x} g ( z ) = 1 / ( 1 + e z ) {\displaystyle g(z)=1/(1+e^{-z})} z {\displaystyle z} x {\displaystyle x} y = 1 {\displaystyle y=1} q y = 1 = y ^ g ( w x ) = 1 1 + e w x , {\displaystyle q_{y=1}={\hat {y}}\equiv g(\mathbf {w} \cdot \mathbf {x} )={\frac {1}{1+e^{-\mathbf {w} \cdot \mathbf {x} }}},} w {\displaystyle \mathbf {w} } y = 0 {\displaystyle y=0} q y = 0 = 1 y ^ . {\displaystyle q_{y=0}=1-{\hat {y}}.}

Установив наши обозначения и , мы можем использовать перекрестную энтропию, чтобы получить меру различия между и : p { y , 1 y } {\displaystyle p\in \{y,1-y\}} q { y ^ , 1 y ^ } {\displaystyle q\in \{{\hat {y}},1-{\hat {y}}\}} p {\displaystyle p} q {\displaystyle q} H ( p , q )   =   i p i log q i   =   y log y ^ ( 1 y ) log ( 1 y ^ ) . {\displaystyle H(p,q)\ =\ -\sum _{i}p_{i}\log q_{i}\ =\ -y\log {\hat {y}}-(1-y)\log(1-{\hat {y}}).}

На графике показаны различные функции потерь, которые можно использовать для обучения бинарного классификатора. Показан только случай, когда целевой выход равен 1. Замечено, что потеря равна нулю, когда целевой выход равен выходу, и увеличивается по мере того, как выход становится все более неверным.

Логистическая регрессия обычно оптимизирует логарифм потерь для всех наблюдений, на которых она обучается, что то же самое, что и оптимизация средней перекрестной энтропии в выборке. Другие функции потерь, которые штрафуют ошибки по-разному, также могут использоваться для обучения, что приводит к моделям с различной конечной точностью теста. [7] Например, предположим, что у нас есть выборки, каждая из которых индексирована на . Среднее значение функции потерь тогда определяется как: N {\displaystyle N} n = 1 , , N {\displaystyle n=1,\dots ,N}

J ( w )   =   1 N n = 1 N H ( p n , q n )   =   1 N n = 1 N   [ y n log y ^ n + ( 1 y n ) log ( 1 y ^ n ) ] , {\displaystyle J(\mathbf {w} )\ =\ {\frac {1}{N}}\sum _{n=1}^{N}H(p_{n},q_{n})\ =\ -{\frac {1}{N}}\sum _{n=1}^{N}\ {\bigg [}y_{n}\log {\hat {y}}_{n}+(1-y_{n})\log(1-{\hat {y}}_{n}){\bigg ]}\,,}

где , с логистической функцией, как и прежде. y ^ n g ( w x n ) = 1 / ( 1 + e w x n ) {\displaystyle {\hat {y}}_{n}\equiv g(\mathbf {w} \cdot \mathbf {x} _{n})=1/(1+e^{-\mathbf {w} \cdot \mathbf {x} _{n}})} g ( z ) {\displaystyle g(z)}

Логистическая потеря иногда называется кросс-энтропийной потерей. Она также известна как логарифмическая потеря. [ дублирование? ] (В этом случае бинарная метка часто обозначается как {−1,+1}. [8] )

Замечание: Градиент потери кросс-энтропии для логистической регрессии такой же, как градиент потери квадратичной ошибки для линейной регрессии . То есть, определим

X T = ( 1 x 11 x 1 p 1 x 21 x 2 p 1 x n 1 x n p ) R n × ( p + 1 ) , {\displaystyle X^{\mathsf {T}}={\begin{pmatrix}1&x_{11}&\dots &x_{1p}\\1&x_{21}&\cdots &x_{2p}\\\vdots &\vdots &&\vdots \\1&x_{n1}&\cdots &x_{np}\\\end{pmatrix}}\in \mathbb {R} ^{n\times (p+1)},} y i ^ = f ^ ( x i 1 , , x i p ) = 1 1 + exp ( β 0 β 1 x i 1 β p x i p ) , {\displaystyle {\hat {y_{i}}}={\hat {f}}(x_{i1},\dots ,x_{ip})={\frac {1}{1+\exp(-\beta _{0}-\beta _{1}x_{i1}-\dots -\beta _{p}x_{ip})}},} L ( β ) = i = 1 N [ y i log y ^ i + ( 1 y i ) log ( 1 y ^ i ) ] . {\displaystyle L({\boldsymbol {\beta }})=-\sum _{i=1}^{N}\left[y_{i}\log {\hat {y}}_{i}+(1-y_{i})\log(1-{\hat {y}}_{i})\right].}

Тогда у нас есть результат

β L ( β ) = X T ( Y ^ Y ) . {\displaystyle {\frac {\partial }{\partial {\boldsymbol {\beta }}}}L({\boldsymbol {\beta }})=X^{T}({\hat {Y}}-Y).}

Доказательство следующее. Для любого имеем y ^ i {\displaystyle {\hat {y}}_{i}}

β 0 ln 1 1 + e β 0 + k 0 = e β 0 + k 0 1 + e β 0 + k 0 , {\displaystyle {\frac {\partial }{\partial \beta _{0}}}\ln {\frac {1}{1+e^{-\beta _{0}+k_{0}}}}={\frac {e^{-\beta _{0}+k_{0}}}{1+e^{-\beta _{0}+k_{0}}}},} β 0 ln ( 1 1 1 + e β 0 + k 0 ) = 1 1 + e β 0 + k 0 , {\displaystyle {\frac {\partial }{\partial \beta _{0}}}\ln \left(1-{\frac {1}{1+e^{-\beta _{0}+k_{0}}}}\right)={\frac {-1}{1+e^{-\beta _{0}+k_{0}}}},} β 0 L ( β ) = i = 1 N [ y i e β 0 + k 0 1 + e β 0 + k 0 ( 1 y i ) 1 1 + e β 0 + k 0 ] = i = 1 N [ y i y ^ i ] = i = 1 N ( y ^ i y i ) , {\displaystyle {\begin{aligned}{\frac {\partial }{\partial \beta _{0}}}L({\boldsymbol {\beta }})&=-\sum _{i=1}^{N}\left[{\frac {y_{i}\cdot e^{-\beta _{0}+k_{0}}}{1+e^{-\beta _{0}+k_{0}}}}-(1-y_{i}){\frac {1}{1+e^{-\beta _{0}+k_{0}}}}\right]\\&=-\sum _{i=1}^{N}\left[y_{i}-{\hat {y}}_{i}\right]=\sum _{i=1}^{N}({\hat {y}}_{i}-y_{i}),\end{aligned}}} β 1 ln 1 1 + e β 1 x i 1 + k 1 = x i 1 e k 1 e β 1 x i 1 + e k 1 , {\displaystyle {\frac {\partial }{\partial \beta _{1}}}\ln {\frac {1}{1+e^{-\beta _{1}x_{i1}+k_{1}}}}={\frac {x_{i1}e^{k_{1}}}{e^{\beta _{1}x_{i1}}+e^{k_{1}}}},} β 1 ln [ 1 1 1 + e β 1 x i 1 + k 1 ] = x i 1 e β 1 x i 1 e β 1 x i 1 + e k 1 , {\displaystyle {\frac {\partial }{\partial \beta _{1}}}\ln \left[1-{\frac {1}{1+e^{-\beta _{1}x_{i1}+k_{1}}}}\right]={\frac {-x_{i1}e^{\beta _{1}x_{i1}}}{e^{\beta _{1}x_{i1}}+e^{k_{1}}}},} β 1 L ( β ) = i = 1 N x i 1 ( y i y ^ i ) = i = 1 N x i 1 ( y ^ i y i ) . {\displaystyle {\frac {\partial }{\partial \beta _{1}}}L({\boldsymbol {\beta }})=-\sum _{i=1}^{N}x_{i1}(y_{i}-{\hat {y}}_{i})=\sum _{i=1}^{N}x_{i1}({\hat {y}}_{i}-y_{i}).}

Подобным образом мы в конечном итоге получаем желаемый результат.

Измененная кросс-энтропия

Может быть полезно обучить ансамбль моделей, которые имеют разнообразие, так что при их объединении увеличивается их предсказательная точность. [9] [10] Предполагая, что простой ансамбль классификаторов собирается путем усреднения выходов, тогда измененная перекрестная энтропия задается как , где — функция стоимости классификатора , — вероятность выхода классификатора , — истинная вероятность, которая должна быть оценена, и — параметр между 0 и 1, который определяет «разнообразие», которое мы хотели бы установить среди ансамбля. Когда мы хотим, чтобы каждый классификатор делал все возможное независимо от ансамбля, и когда мы хотели бы, чтобы классификатор был максимально разнообразным. K {\displaystyle K} e k = H ( p , q k ) λ K j k H ( q j , q k ) {\displaystyle e^{k}=H(p,q^{k})-{\frac {\lambda }{K}}\sum _{j\neq k}H(q^{j},q^{k})} e k {\displaystyle e^{k}} k t h {\displaystyle k^{th}} q k {\displaystyle q^{k}} k t h {\displaystyle k^{th}} p {\displaystyle p} λ {\displaystyle \lambda } λ = 0 {\displaystyle \lambda =0} λ = 1 {\displaystyle \lambda =1}

Смотрите также

Ссылки

  1. ^ Томас М. Кавер, Джой А. Томас, Элементы теории информации, 2-е издание, Wiley, стр. 80
  2. ^ IJ Good, Максимальная энтропия для формулировки гипотез, особенно для многомерных таблиц сопряженности, Ann. of Math. Statistics, 1963
  3. ^ Аньци Мао, Мехриар Мохри, Ютао Чжун. Функции потери кросс-энтропии: теоретический анализ и приложения. ICML 2023. https://arxiv.org/pdf/2304.07288.pdf
  4. ^ Математика кодирования, извлечения и распределения информации , Джордж Цибенко, Дайан П. О'Лири, Йорма Риссанен, 1999, стр. 82
  5. ^ Вероятность для машинного обучения: узнайте, как использовать неопределенность с помощью Python , Джейсон Браунли, 2019, стр. 220: «Логистические потери относятся к функции потерь, обычно используемой для оптимизации модели логистической регрессии. Их также могут называть логарифмическими потерями (что сбивает с толку) или просто логарифмическими потерями».
  6. ^ sklearn.metrics.log_loss
  7. ^ Ноэль, Мэтью; Банерджи, Ариндам; Д, Джеральдин Бесси Амали; Мутиа-Накараджан, Венкатараман (17 марта 2023 г.). «Альтернативные функции потерь для классификации и надежной регрессии могут повысить точность искусственных нейронных сетей». arXiv : 2303.09935 [cs.NE].
  8. ^ Мерфи, Кевин (2012). Машинное обучение: вероятностная перспектива . MIT. ISBN 978-0262018029.
  9. ^ Шохам, Рон; Пермутер, Хаим Х. (2019). «Измененная стоимость кросс-энтропии: подход к поощрению разнообразия в ансамбле классификации (краткое объявление)». В Долев, Шломи; Хендлер, Дэнни; ​​Лодха, Сачин; Юнг, Моти (ред.). Кибербезопасность, криптография и машинное обучение – Третий международный симпозиум, CSCML 2019, Беэр-Шева, Израиль, 27–28 июня 2019 г., Труды . Конспект лекций по информатике. Том 11527. Springer. стр. 202–207. doi :10.1007/978-3-030-20951-3_18. ISBN 978-3-030-20950-6.
  10. ^ Шохам, Рон; Пермутер, Хаим (2020). «Измененная стоимость перекрестной энтропии: структура для явного поощрения разнообразия». arXiv : 2007.08140 [cs.LG].

Дальнейшее чтение

  • де Бур, Крез, Д.П., Маннор, С. и Рубинштейн, Р.Ю. (2005). Учебное пособие по методу кросс-энтропии. Annals of Operations Research 134 (1), 19–67.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Cross-entropy&oldid=1252205690#Cross-entropy_loss_function_and_logistic_regression"