Максимум плавности

В математике гладкий максимум индексированного семейства x 1 , ...,  x n чисел — это гладкое приближение к максимальной функции, то есть параметрическое семейство функций, такое что для каждого α функция является гладкой, и семейство сходится к максимальной функции как . Понятие гладкого минимума определяется аналогичным образом. Во многих случаях одно семейство аппроксимирует оба: максимум, когда параметр стремится к положительной бесконечности, минимум, когда параметр стремится к отрицательной бесконечности; в символах как и как . Этот термин также может использоваться в широком смысле для определенной гладкой функции, которая ведет себя подобно максимуму, не обязательно являясь частью параметризованного семейства. макс ( х 1 , , х н ) , {\displaystyle \max(x_{1},\ldots ,x_{n}),} м α ( х 1 , , х н ) {\displaystyle m_{\alpha }(x_{1},\ldots ,x_{n})} м α {\displaystyle m_{\альфа}} м α макс {\displaystyle m_{\alpha }\to \max } α {\displaystyle \alpha \to \infty } м α макс {\displaystyle m_{\alpha }\to \max } α {\displaystyle \alpha \to \infty } м α мин {\displaystyle m_{\alpha }\to \min } α {\displaystyle \alpha \to -\infty }

Примеры

оператор Больцмана

Smoothmax (−x, x) в зависимости от x для различных значений параметров. Очень плавный для =0,5 и более резкий для =8. α {\displaystyle \альфа} α {\displaystyle \альфа}

Для больших положительных значений параметра следующая формулировка является плавной, дифференцируемой аппроксимацией функции максимума. Для отрицательных значений параметра, больших по абсолютной величине, она аппроксимирует минимум. α > 0 {\displaystyle \альфа >0}

С α ( х 1 , , х н ) = я = 1 н х я е α х я я = 1 н е α х я {\displaystyle {\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n})={\frac {\sum _{i=1}^{n}x_{i}e^{\alpha x_{i}}}{\sum _{i=1}^{n}e^{\alpha x_{i}}}}}

С α {\displaystyle {\mathcal {S}}_{\alpha }} имеет следующие свойства:

  1. С α макс {\displaystyle {\mathcal {S}}_{\alpha }\to \max } как α {\displaystyle \alpha \to \infty }
  2. С 0 {\displaystyle {\mathcal {S}}_{0}} является средним арифметическим его входов
  3. С α мин {\displaystyle {\mathcal {S}}_{\alpha }\to \min } как α {\displaystyle \alpha \to -\infty }

Градиент тесно связан с softmax и определяется выражением С α {\displaystyle {\mathcal {S}}_{\alpha }}

х я С α ( х 1 , , х н ) = е α х я дж = 1 н е α х дж [ 1 + α ( х я С α ( х 1 , , х н ) ) ] . {\displaystyle \nabla _{x_{i}}{\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n})={\frac {e^{\alpha x_{i}}}{\sum _{j=1}^{n}e^{\alpha x_{j}}}}[1+\alpha (x_{i}-{\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n}))].}

Это делает функцию softmax полезной для методов оптимизации, использующих градиентный спуск .

Этот оператор иногда называют оператором Больцмана [1] по названию распределения Больцмана .

LogSumExp

Другой гладкий максимум — LogSumExp :

Л С Э α ( х 1 , , х н ) = 1 α бревно я = 1 н эксп α х я {\displaystyle \mathrm {LSE} _{\alpha }(x_{1},\ldots ,x_{n})={\frac {1}{\alpha }}\log \sum _{i=1}^{n}\exp \alpha x_{i}}

Это также можно нормализовать, если все неотрицательны, что даст функцию с областью определения и диапазоном : х я {\displaystyle x_{i}} [ 0 , ) н {\displaystyle [0,\infty)^{n}} [ 0 , ) {\displaystyle [0,\infty )}

г ( х 1 , , х н ) = бревно ( я = 1 н эксп х я ( н 1 ) ) {\displaystyle g(x_{1},\ldots ,x_{n})=\log \left(\sum _{i=1}^{n}\exp x_{i}-(n-1)\right)}

Этот термин корректирует тот факт, что путем сокращения всех экспонент, кроме одной нулевой, и если все они равны нулю. ( н 1 ) {\displaystyle (n-1)} эксп ( 0 ) = 1 {\displaystyle \exp(0)=1} бревно 1 = 0 {\displaystyle \log 1=0} х я {\displaystyle x_{i}}

Меллоумакс

Оператор mellowmax [1] определяется следующим образом:

м м α ( х ) = 1 α бревно 1 н я = 1 н эксп α х я {\displaystyle \mathrm {мм} _{\alpha }(x)={\frac {1}{\alpha }}\log {\frac {1}{n}}\sum _{i=1}^{n}\exp \alpha x_{i}}

Это нерасширяющий оператор. Как , он действует как максимум. Как , он действует как среднее арифметическое. Как , он действует как минимум. Этот оператор можно рассматривать как частную реализацию квазиарифметического среднего . Его также можно вывести из принципов теории информации как способ регуляризации политик с функцией стоимости, определяемой дивергенцией KL. Оператор ранее использовался в других областях, таких как энергетика. [2] α {\displaystyle \alpha \to \infty } α 0 {\displaystyle \альфа \до 0} α {\displaystyle \alpha \to -\infty }

p-норма

Другим гладким максимумом является p-норма :

( х 1 , , х н ) п = ( я = 1 н | х я | п ) 1 п {\displaystyle \|(x_{1},\ldots ,x_{n})\|_{p}=\left(\sum _{i=1}^{n}|x_{i}|^{p}\right)^{\frac {1}{p}}}

который сходится к как . ( х 1 , , х н ) = макс 1 я н | х я | {\displaystyle \|(x_{1},\ldots ,x_{n})\|_{\infty }=\max _{1\leq i\leq n}|x_{i}|} п {\displaystyle p\to \infty }

Преимущество p-нормы в том, что она является нормой . Как таковая, она масштабно инвариантна ( однородна ): , и удовлетворяет неравенству треугольника . ( λ х 1 , , λ х н ) п = | λ | ( х 1 , , х н ) п {\displaystyle \|(\lambda x_{1},\ldots ,\lambda x_{n})\|_{p}=|\lambda |\cdot \|(x_{1},\ldots ,x_{n})\|_{p}}

Гладкая максимальная единица

Следующий бинарный оператор называется Smooth Maximum Unit (SMU): [3]

макс ε ( а , б ) = а + б + | а б | ε 2 = а + б + ( а б ) 2 + ε 2 {\displaystyle {\begin{align}\textstyle \max _{\varepsilon}(a,b)&={\frac {a+b+|ab|_{\varepsilon}}{2}}\\&={\frac {a+b+{\sqrt {(ab)^{2}+\varepsilon}}}{2}}\end{align}}}

где — параметр. Так как , и, таким образом , . ε 0 {\displaystyle \varepsilon \geq 0} ε 0 {\displaystyle \varepsilon \to 0} | | ε | | {\displaystyle |\cdot |_{\varepsilon }\to |\cdot |} max ε max {\displaystyle \textstyle \max _{\varepsilon }\to \max }

Смотрите также

Ссылки

  1. ^ ab Asadi, Kavosh; Littman, Michael L. (2017). «Альтернативный оператор Softmax для обучения с подкреплением». PMLR . 70 : 243–252. arXiv : 1612.05628 . Получено 6 января 2023 г. .
  2. ^ Safak, Aysel (февраль 1993 г.). «Статистический анализ суммы мощности множественных коррелированных логнормальных компонентов». IEEE Transactions on Vehicular Technology . 42 (1): {58–61. doi :10.1109/25.192387 . Получено 6 января 2023 г.
  3. ^ Бисвас, Кошик; Кумар, Сандип; Банерджи, Шилпак; Ашиш Кумар Пандей (2021). «SMU: Сглаженная функция активации для глубоких сетей с использованием метода сглаживания максимума». arXiv : 2111.04682 [cs.LG].

https://www.johndcook.com/soft_maximum.pdf

M. Lange, D. Zühlke, O. Holz и T. Villmann, «Применение lp-норм и их гладких аппроксимаций для квантования векторов обучения на основе градиента», в Proc. ESANN , апрель 2014 г., стр. 271–276. (https://www.elen.ucl.ac.be/Proceedings/esann/esannpdf/es2014-153.pdf)

Retrieved from "https://en.wikipedia.org/w/index.php?title=Smooth_maximum&oldid=1163729044"