Распределение Гумбеля

Частный случай обобщенного распределения экстремальных значений
Гумбель
Функция плотности вероятности
Функция распределения вероятностей
Кумулятивная функция распределения
Кумулятивная функция распределения
Обозначение Гумбель ( μ , β ) {\displaystyle {\text{Гумбель}}(\mu ,\beta )}
Параметры μ , {\displaystyle \мю ,} местоположение ( реальное ) масштаб (реальный)
β > 0 , {\displaystyle \бета >0,}
Поддерживать х Р {\displaystyle x\in \mathbb {R} }
PDF 1 β е ( з + е з ) {\displaystyle {\frac {1}{\beta }}e^{- (z+e^{-z})}}
где з = х μ β {\displaystyle z={\frac {x-\mu }{\beta }}}
СДФ е е ( х μ ) / β {\displaystyle е^{-е^{-(х-\му)/\бета }}}
Квантиль μ β вн ( вн ( п ) ) {\displaystyle \mu -\beta \ln(-\ln(p))}
Иметь в виду μ + β γ {\displaystyle \mu +\beta \gamma }
где постоянная Эйлера –Маскерони γ {\displaystyle \гамма}
Медиана μ β вн ( вн 2 ) {\displaystyle \mu -\beta \ln(\ln 2)}
Режим μ {\displaystyle \мю}
Дисперсия π 2 6 β 2 {\displaystyle {\frac {\pi ^{2}}{6}}\beta ^{2}}
Асимметрия 12 6 ζ ( 3 ) π 3 1.14 {\displaystyle {\frac {12{\sqrt {6}}\,\zeta (3)}{\pi ^{3}}}\approx 1,14}
Избыточный эксцесс 12 5 {\displaystyle {\frac {12}{5}}}
Энтропия вн ( β ) + γ + 1 {\displaystyle \ln(\beta)+\gamma +1}
МГФ Г ( 1 β т ) е μ т {\displaystyle \Гамма (1-\бета t)e^{\mu t}}
CF Г ( 1 я β т ) е я μ т {\displaystyle \Гамма (1-i\beta t)e^{i\mu t}}

В теории вероятностей и статистике распределение Гумбеля (также известное как обобщенное распределение экстремальных значений типа I ) используется для моделирования распределения максимума (или минимума) ряда выборок различных распределений.

Это распределение может быть использовано для представления распределения максимального уровня реки в определенный год, если бы существовал список максимальных значений за последние десять лет. Оно полезно для прогнозирования вероятности того, что произойдет экстремальное землетрясение, наводнение или другое стихийное бедствие. Потенциальная применимость распределения Гумбеля для представления распределения максимумов относится к теории экстремальных значений , которая указывает, что оно, вероятно, будет полезным, если распределение базовых выборочных данных имеет нормальный или экспоненциальный тип. [a]

Распределение Гумбеля является частным случаем обобщенного распределения экстремальных значений (также известного как распределение Фишера–Типпета). Оно также известно как логарифмическое распределение Вейбулла и двойное экспоненциальное распределение (термин, который иногда также используется для обозначения распределения Лапласа ). Оно связано с распределением Гомпертца : когда его плотность сначала отражается относительно начала координат, а затем ограничивается положительной полупрямой, получается функция Гомпертца.

В формулировке скрытых переменных полиномиальной логит- модели — распространенной в теории дискретного выбора — ошибки скрытых переменных следуют распределению Гумбеля. Это полезно, поскольку разность двух распределенных по Гумбелю случайных величин имеет логистическое распределение .

Распределение Гумбеля названо в честь Эмиля Юлиуса Гумбеля (1891–1966) на основе его оригинальных работ, описывающих это распределение. [1] [2]

Определения

Кумулятивная функция распределения Гумбеля имеет вид

Ф ( х ; μ , β ) = е е ( х μ ) / β {\displaystyle F(x;\mu ,\beta )=e^{-e^{-(x-\mu )/\beta }}\,}

Стандартное распределение Гумбеля

Стандартное распределение Гумбеля — это случай, когда и с кумулятивной функцией распределения μ = 0 {\displaystyle \мю =0} β = 1 {\displaystyle \бета =1}

Ф ( х ) = е е ( х ) {\displaystyle F(x)=e^{-e^{(-x)}}\,}

и функция плотности вероятности

ф ( х ) = е ( х + е х ) . {\displaystyle f(x)=e^{-(x+e^{-x})}.}

В этом случае мода равна 0, медиана равна , среднее значение равно ( константа Эйлера–Маскерони ), а стандартное отклонение равно вн ( вн ( 2 ) ) 0,3665 {\displaystyle -\ln(\ln(2))\approx 0.3665} γ 0.5772 {\displaystyle \gamma \approx 0.5772} π / 6 1.2825. {\displaystyle \pi /{\sqrt {6}}\approx 1.2825.}

Кумулянты для n  > 1 определяются как

κ n = ( n 1 ) ! ζ ( n ) . {\displaystyle \kappa _{n}=(n-1)!\zeta (n).}

Характеристики

Мода равна μ, а медиана равна , а среднее значение определяется как μ β ln ( ln 2 ) , {\displaystyle \mu -\beta \ln \left(\ln 2\right),}

E ( X ) = μ + γ β {\displaystyle \operatorname {E} (X)=\mu +\gamma \beta } ,

где — постоянная Эйлера–Маскерони . γ {\displaystyle \gamma }

Стандартное отклонение , следовательно, равно [3] σ {\displaystyle \sigma } β π / 6 {\displaystyle \beta \pi /{\sqrt {6}}} β = σ 6 / π 0.78 σ . {\displaystyle \beta =\sigma {\sqrt {6}}/\pi \approx 0.78\sigma .}

В режиме, где , значение становится , независимо от значения x = μ {\displaystyle x=\mu } F ( x ; μ , β ) {\displaystyle F(x;\mu ,\beta )} e 1 0.37 {\displaystyle e^{-1}\approx 0.37} β . {\displaystyle \beta .}

Если — iid случайные величины Гумбеля с параметрами , то — также случайная величина Гумбеля с параметрами . G 1 , . . . , G k {\displaystyle G_{1},...,G_{k}} ( μ , β ) {\displaystyle (\mu ,\beta )} max { G 1 , . . . , G k } {\displaystyle \max\{G_{1},...,G_{k}\}} ( μ + β ln k , β ) {\displaystyle (\mu +\beta \ln k,\beta )}

Если есть независимые случайные величины, имеющие такое же распределение, как и для всех натуральных чисел , то обязательно распределены по закону Гумбеля с параметром масштаба (на самом деле достаточно рассмотреть только два различных значения k>1, которые являются взаимно простыми). G 1 , G 2 , . . . {\displaystyle G_{1},G_{2},...} max { G 1 , . . . , G k } β ln k {\displaystyle \max\{G_{1},...,G_{k}\}-\beta \ln k} G 1 {\displaystyle G_{1}} k {\displaystyle k} G 1 {\displaystyle G_{1}} β {\displaystyle \beta }

  • Если имеет распределение Гумбеля, то условное распределение Y  = − X при условии, что Y положительно, или, что эквивалентно, при условии, что X отрицательно, имеет распределение Гомпертца . Функция распределения распределения G функции Y связана с F , функцией распределения распределения X , формулой для y  > 0. Следовательно, плотности связаны соотношением : плотность Гомпертца пропорциональна отраженной плотности Гумбеля, ограниченной положительной полупрямой. [4] X {\displaystyle X} G ( y ) = P ( Y y ) = P ( X y X 0 ) = ( F ( 0 ) F ( y ) ) / F ( 0 ) {\displaystyle G(y)=P(Y\leq y)=P(X\geq -y\mid X\leq 0)=(F(0)-F(-y))/F(0)} g ( y ) = f ( y ) / F ( 0 ) {\displaystyle g(y)=f(-y)/F(0)}
  • Если X — экспоненциально распределенная переменная со средним значением 1, то −log( X ) имеет стандартное распределение Гумбеля.
  • Если и независимы, то (см. Логистическое распределение ). X G u m b e l ( α X , β ) {\displaystyle X\sim \mathrm {Gumbel} (\alpha _{X},\beta )} Y G u m b e l ( α Y , β ) {\displaystyle Y\sim \mathrm {Gumbel} (\alpha _{Y},\beta )} X Y L o g i s t i c ( α X α Y , β ) {\displaystyle X-Y\sim \mathrm {Logistic} (\alpha _{X}-\alpha _{Y},\beta )\,}
  • Несмотря на это, если независимы, то . Это можно легко увидеть, заметив, что (где — константа Эйлера-Маскерони). Вместо этого распределение линейных комбинаций независимых случайных величин Гумбеля можно аппроксимировать распределениями GNIG и GIG. [5] X , Y G u m b e l ( α , β ) {\displaystyle X,Y\sim \mathrm {Gumbel} (\alpha ,\beta )} X + Y L o g i s t i c ( 2 α , β ) {\displaystyle X+Y\nsim \mathrm {Logistic} (2\alpha ,\beta )} E ( X + Y ) = 2 α + 2 β γ 2 α = E ( L o g i s t i c ( 2 α , β ) ) {\displaystyle E(X+Y)=2\alpha +2\beta \gamma \neq 2\alpha =E\left(\mathrm {Logistic} (2\alpha ,\beta )\right)} γ {\displaystyle \gamma }

Теория, связанная с обобщенным многомерным логарифмическим гамма-распределением, представляет собой многомерную версию распределения Гумбеля.

Возникновение и применение

Распределение, соответствующее доверительному интервалу кумулятивного распределения Гумбеля для максимального количества однодневных осадков в октябре. [6]

Гамбел показал, что максимальное значение (или статистика последнего порядка ) в выборке случайных величин , следующих экспоненциальному распределению за вычетом натурального логарифма размера выборки [7], приближается к распределению Гамбеля по мере увеличения размера выборки. [8]

Конкретно, пусть будет распределением вероятностей и его кумулятивным распределением. Тогда максимальное значение из реализаций меньше, чем тогда и только тогда, когда все реализации меньше, чем . Таким образом, кумулятивное распределение максимального значения удовлетворяет ρ ( x ) = e x {\displaystyle \rho (x)=e^{-x}} x {\displaystyle x} Q ( x ) = 1 e x {\displaystyle Q(x)=1-e^{-x}} N {\displaystyle N} x {\displaystyle x} X {\displaystyle X} X {\displaystyle X} x ~ {\displaystyle {\tilde {x}}}

P ( x ~ log ( N ) X ) = P ( x ~ X + log ( N ) ) = [ Q ( X + log ( N ) ) ] N = ( 1 e X N ) N , {\displaystyle P({\tilde {x}}-\log(N)\leq X)=P({\tilde {x}}\leq X+\log(N))=[Q(X+\log(N))]^{N}=\left(1-{\frac {e^{-X}}{N}}\right)^{N},}

и, при больших , правая часть сходится к N {\displaystyle N} e e ( X ) . {\displaystyle e^{-e^{(-X)}}.}

Поэтому в гидрологии распределение Гумбеля используется для анализа таких переменных, как месячные и годовые максимальные значения суточных осадков и объемов речного стока, [3] а также для описания засух. [9]

Гумбел также показал, что оценка r( n +1) для вероятности события — где r — номер ранга наблюдаемого значения в ряду данных, а n — общее число наблюдений — является несмещенной оценкой кумулятивной вероятности вокруг моды распределения. Поэтому эта оценка часто используется в качестве позиции построения графика .

В теории чисел распределение Гумбеля аппроксимирует число членов в случайном разбиении целого числа [10] , а также скорректированные по тренду размеры максимальных промежутков между простыми числами и максимальных промежутков между простыми созвездиями . [11]

Это встречается в задаче коллекционера купонов .

Трюки репараметризации Гумбеля

В машинном обучении распределение Гумбеля иногда используется для генерации выборок из категориального распределения . Этот метод называется «трюк Гумбеля-макса» и является особым примером « трюков репараметризации ». [12]

Подробно, пусть будут неотрицательными, и не все нули, и пусть будут независимыми выборками Гумбеля (0, 1), тогда с помощью рутинного интегрирования, то есть, ( π 1 , , π n ) {\displaystyle (\pi _{1},\ldots ,\pi _{n})} g 1 , , g n {\displaystyle g_{1},\ldots ,g_{n}} P r ( j = arg max i ( g i + log π i ) ) = π j i π i {\displaystyle Pr(j=\arg \max _{i}(g_{i}+\log \pi _{i}))={\frac {\pi _{j}}{\sum _{i}\pi _{i}}}} arg max i ( g i + log π i ) Categorical ( π j i π i ) j {\displaystyle \arg \max _{i}(g_{i}+\log \pi _{i})\sim {\text{Categorical}}\left({\frac {\pi _{j}}{\sum _{i}\pi _{i}}}\right)_{j}}

Эквивалентно, учитывая любой , мы можем сделать выборку из его распределения Больцмана с помощью x 1 , . . . , x n R {\displaystyle x_{1},...,x_{n}\in \mathbb {R} }

P r ( j = arg max i ( g i + x i ) ) = e x j i e x i {\displaystyle Pr(j=\arg \max _{i}(g_{i}+x_{i}))={\frac {e^{x_{j}}}{\sum _{i}e^{x_{i}}}}} Связанные уравнения включают: [13]

  • Если , то . x Exp ( λ ) {\displaystyle x\sim \operatorname {Exp} (\lambda )} ( ln x γ ) Gumbel ( γ + ln λ , 1 ) {\displaystyle (-\ln x-\gamma )\sim {\text{Gumbel}}(-\gamma +\ln \lambda ,1)}
  • arg max i ( g i + log π i ) Categorical ( π j i π i ) j {\displaystyle \arg \max _{i}(g_{i}+\log \pi _{i})\sim {\text{Categorical}}\left({\frac {\pi _{j}}{\sum _{i}\pi _{i}}}\right)_{j}} .
  • max i ( g i + log π i ) Gumbel ( log ( i π i ) , 1 ) {\displaystyle \max _{i}(g_{i}+\log \pi _{i})\sim {\text{Gumbel}}\left(\log \left(\sum _{i}\pi _{i}\right),1\right)} . То есть распределение Гумбеля является максимально устойчивым семейством распределений.
  • E [ max i ( g i + β x i ) ] = log ( i e β x i ) + γ . {\displaystyle \mathbb {E} [\max _{i}(g_{i}+\beta x_{i})]=\log \left(\sum _{i}e^{\beta x_{i}}\right)+\gamma .}

Генерация случайных величин

Так как функция квантиля (обратная кумулятивная функция распределения ), распределения Гумбеля определяется как Q ( p ) {\displaystyle Q(p)}

Q ( p ) = μ β ln ( ln ( p ) ) , {\displaystyle Q(p)=\mu -\beta \ln(-\ln(p)),}

случайная величина имеет распределение Гумбеля с параметрами и когда случайная величина взята из равномерного распределения на интервале . Q ( U ) {\displaystyle Q(U)} μ {\displaystyle \mu } β {\displaystyle \beta } U {\displaystyle U} ( 0 , 1 ) {\displaystyle (0,1)}

Вероятностная статья

Лист миллиметровой бумаги, на котором отображено распределение Гумбеля.

В допрограммное время вероятностная статья использовалась для изображения распределения Гумбеля (см. иллюстрацию). Статья основана на линеаризации кумулятивной функции распределения  : F {\displaystyle F}

ln [ ln ( F ) ] = x μ β {\displaystyle -\ln[-\ln(F)]={\frac {x-\mu }{\beta }}}

В статье горизонтальная ось построена в двойной логарифмической шкале. Вертикальная ось линейна. При построении графика на горизонтальной оси статьи и -переменной на вертикальной оси распределение представлено прямой линией с наклоном 1. Когда стало доступно программное обеспечение для подгонки распределения, такое как CumFreq , задача построения графика распределения упростилась. F {\displaystyle F} x {\displaystyle x} / β {\displaystyle /\beta }

Смотрите также

Примечания

  1. ^ В этой статье для моделирования распределения максимального значения используется распределение Гумбеля . Для моделирования минимального значения используйте отрицательные значения исходных значений.

Ссылки

  1. ^ Гамбель, EJ (1935), «Les valeurs extrêmes des Distributions statistiques» (PDF) , Annales de l'Institut Henri Poincaré , 5 (2): 115–158
  2. ^ Gumbel EJ (1941). «Период повторяемости паводковых потоков». Анналы математической статистики, 12, 163–190.
  3. ^ ab Oosterbaan, RJ (1994). "Глава 6 Анализ частоты и регрессии" (PDF) . В Ritzema, HP (ред.). Принципы и применение дренажа, публикация 16. Вагенинген, Нидерланды: Международный институт мелиорации и улучшения земель (ILRI). стр. 175–224. ISBN 90-70754-33-9.
  4. ^ Willemse, WJ; Kaas, R. (2007). "Рациональная реконструкция моделей смертности, основанных на слабости, путем обобщения закона смертности Гомпертца" (PDF) . Страхование: математика и экономика . 40 (3): 468. doi :10.1016/j.insmatheco.2006.07.003. Архивировано из оригинала (PDF) 2017-08-09 . Получено 2019-09-24 .
  5. ^ Marques, F.; Coelho, C.; de Carvalho, M. (2015). "О распределении линейных комбинаций независимых случайных величин Гумбеля" (PDF) . Статистика и вычисления . 25 (3): 683‒701. doi :10.1007/s11222-014-9453-5. S2CID  255067312.
  6. ^ "CumFreq, подгонка распределения вероятности, бесплатный калькулятор". www.waterlog.info .
  7. ^ "Распределение Гумбеля и экспоненциальное распределение". Mathematics Stack Exchange .
  8. ^ Gumbel, EJ (1954). Статистическая теория экстремальных значений и некоторые практические приложения. Серия «Прикладная математика». Т. 33 (1-е изд.). Министерство торговли США, Национальное бюро стандартов. ASIN  B0007DSHG4.
  9. ^ Берк, Элеанор Дж.; Перри, Ричард Х. Дж.; Браун, Саймон Дж. (2010). «Анализ экстремальных значений засухи в Великобритании и прогнозы изменений в будущем». Журнал гидрологии . 388 (1–2): 131–143. Bibcode : 2010JHyd..388..131B. doi : 10.1016/j.jhydrol.2010.04.035.
  10. ^ Эрдёш, Пауль; Ленер, Джозеф (1941). «Распределение числа слагаемых в разбиениях положительного целого числа». Duke Mathematical Journal . 8 (2): 335. doi :10.1215/S0012-7094-41-00826-8.
  11. ^ Курбатов , А. (2013). "Максимальные зазоры между простыми k -кортежами: статистический подход". Журнал целочисленных последовательностей . 16. arXiv : 1301.2242 . Bibcode : 2013arXiv1301.2242K.Статья 13.5.2.
  12. ^ Джанг, Эрик; Гу, Шисян; Пул, Бен (апрель 2017 г.). Категориальная репараметризация с помощью Gumble-Softmax. Международная конференция по представлениям обучения (ICLR) 2017.
  13. ^ Балог, Матей; Трипуранени, Нилеш; Гахрамани, Зубин; Веллер, Адриан (17 июля 2017 г.). «Потерянные родственники трюка Гумбеля». Международная конференция по машинному обучению . PMLR: 371–379. arXiv : 1706.04161 .
Retrieved from "https://en.wikipedia.org/w/index.php?title=Gumbel_distribution&oldid=1249910021"