Распределение с тяжелым хвостом

Распределение вероятностей

В теории вероятностей распределения с тяжелыми хвостами — это распределения вероятностей , хвосты которых не ограничены экспоненциально: [1] то есть они имеют более тяжелые хвосты, чем экспоненциальное распределение . Во многих приложениях интерес представляет правый хвост распределения, но распределение может иметь тяжелый левый хвост, или оба хвоста могут быть тяжелыми.

Существует три важных подкласса распределений с тяжелыми хвостами: распределения с толстыми хвостами , распределения с длинными хвостами и субэкспоненциальные распределения . На практике все обычно используемые распределения с тяжелыми хвостами относятся к субэкспоненциальному классу, введенному Йозефом Тейгельсом . [2]

Все еще существуют некоторые разногласия относительно использования термина « тяжелый хвост» . Существуют два других используемых определения. Некоторые авторы используют этот термин для обозначения тех распределений, у которых не все моменты мощности конечны; а некоторые другие — для тех распределений, у которых нет конечной дисперсии . Определение, данное в этой статье, является наиболее общим в использовании и включает все распределения, охватываемые альтернативными определениями, а также такие распределения, как логнормальное , которые обладают всеми моментами мощности, но которые, как правило, считаются распределениями с тяжелым хвостом. (Иногда термин «тяжелый хвост» используется для любого распределения, которое имеет более тяжелые хвосты, чем нормальное распределение.)

Определения

Определение распределения с тяжелым хвостом

Говорят , что распределение случайной величины X с функцией распределения F имеет тяжелый (правый) хвост, если функция генерации моментов X , M X ( t ), бесконечна для всех t  > 0. [3]

Это означает

e t x d F ( x ) = for all  t > 0. {\displaystyle \int _{-\infty }^{\infty }e^{tx}\,dF(x)=\infty \quad {\mbox{for all }}t>0.} [4]


Это также записывается в терминах функции распределения хвоста

F ¯ ( x ) Pr [ X > x ] {\displaystyle {\overline {F}}(x)\equiv \Pr[X>x]\,}

как

lim x e t x F ¯ ( x ) = for all  t > 0. {\displaystyle \lim _{x\to \infty }e^{tx}{\overline {F}}(x)=\infty \quad {\mbox{for all }}t>0.\,}

Определение длиннохвостого распределения

Говорят, что распределение случайной величины X с функцией распределения F имеет длинный правый хвост [1], если для всех t  > 0,

lim x Pr [ X > x + t X > x ] = 1 , {\displaystyle \lim _{x\to \infty }\Pr[X>x+t\mid X>x]=1,\,}

или эквивалентно

F ¯ ( x + t ) F ¯ ( x ) as  x . {\displaystyle {\overline {F}}(x+t)\sim {\overline {F}}(x)\quad {\mbox{as }}x\to \infty .\,}

Это имеет интуитивно понятную интерпретацию для правохвостой длиннохвостой распределенной величины, что если длиннохвостая величина превышает некоторый высокий уровень, то вероятность того, что она превысит любой другой более высокий уровень, приближается к 1.

Все распределения с длинными хвостами имеют и тяжелые хвосты, но обратное утверждение неверно, и можно построить распределения с тяжелыми хвостами, которые не являются длинными хвостами.

Субэкспоненциальные распределения

Субэкспоненциальность определяется в терминах сверток распределений вероятностей . Для двух независимых, одинаково распределенных случайных величин с общей функцией распределения свертка с собой, записанная и называемая квадратом свертки, определяется с помощью интегрирования Лебега–Стилтьеса следующим образом: X 1 , X 2 {\displaystyle X_{1},X_{2}} F {\displaystyle F} F {\displaystyle F} F 2 {\displaystyle F^{*2}}

Pr [ X 1 + X 2 x ] = F 2 ( x ) = 0 x F ( x y ) d F ( y ) , {\displaystyle \Pr[X_{1}+X_{2}\leq x]=F^{*2}(x)=\int _{0}^{x}F(x-y)\,dF(y),}

а n -кратная свертка определяется индуктивно по правилу: F n {\displaystyle F^{*n}}

F n ( x ) = 0 x F ( x y ) d F n 1 ( y ) . {\displaystyle F^{*n}(x)=\int _{0}^{x}F(x-y)\,dF^{*n-1}(y).}

Функция распределения хвоста определяется как . F ¯ {\displaystyle {\overline {F}}} F ¯ ( x ) = 1 F ( x ) {\displaystyle {\overline {F}}(x)=1-F(x)}

Распределение на положительной полупрямой является субэкспоненциальным [1] [5] [2] , если F {\displaystyle F}

F 2 ¯ ( x ) 2 F ¯ ( x ) as  x . {\displaystyle {\overline {F^{*2}}}(x)\sim 2{\overline {F}}(x)\quad {\mbox{as }}x\to \infty .}

Это подразумевает [6] , что для любого , n 1 {\displaystyle n\geq 1}

F n ¯ ( x ) n F ¯ ( x ) as  x . {\displaystyle {\overline {F^{*n}}}(x)\sim n{\overline {F}}(x)\quad {\mbox{as }}x\to \infty .}

Вероятностная интерпретация [6] этого заключается в том, что для суммы независимых случайных величин с общим распределением , n {\displaystyle n} X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} F {\displaystyle F}

Pr [ X 1 + + X n > x ] Pr [ max ( X 1 , , X n ) > x ] as  x . {\displaystyle \Pr[X_{1}+\cdots +X_{n}>x]\sim \Pr[\max(X_{1},\ldots ,X_{n})>x]\quad {\text{as }}x\to \infty .}

Это часто называют принципом единого большого прыжка [7] или принципом катастрофы. [8]

Распределение на всей вещественной прямой является субэкспоненциальным, если распределение является. [9] Вот индикаторная функция положительной полупрямой. В качестве альтернативы, случайная величина, поддерживаемая на вещественной прямой, является субэкспоненциальной тогда и только тогда, когда является субэкспоненциальной. F {\displaystyle F} F I ( [ 0 , ) ) {\displaystyle FI([0,\infty ))} I ( [ 0 , ) ) {\displaystyle I([0,\infty ))} X {\displaystyle X} X + = max ( 0 , X ) {\displaystyle X^{+}=\max(0,X)}

Все субэкспоненциальные распределения являются длиннохвостыми, но можно построить примеры длиннохвостых распределений, которые не являются субэкспоненциальными.

Распространенные распределения с тяжелым хвостом

Все обычно используемые распределения с тяжелыми хвостами являются субэкспоненциальными. [6]

К односторонним относятся:

К числу двусторонних относятся:


Связь с распределениями с толстыми хвостами

Распределение с толстым хвостом — это распределение, для которого функция плотности вероятности при больших x стремится к нулю как степень . Поскольку такая степень всегда ограничена снизу функцией плотности вероятности экспоненциального распределения, распределения с толстым хвостом всегда имеют тяжелый хвост. Однако некоторые распределения имеют хвост, который стремится к нулю медленнее, чем экспоненциальная функция (что означает, что они имеют тяжелый хвост), но быстрее, чем степень (что означает, что они не имеют толстого хвоста). Примером является логнормальное распределение [ противоречивое ] . Многие другие распределения с тяжелым хвостом, такие как логлогистическое и распределение Парето , однако, также имеют толстый хвост. x a {\displaystyle x^{-a}}

Оценка индекса хвоста

Существуют параметрический [6] и непараметрический [14] подходы к проблеме оценки индекса хвоста. [ когда определяется как? ]

Для оценки индекса хвоста с использованием параметрического подхода некоторые авторы используют распределение GEV или распределение Парето ; они могут применять оценку максимального правдоподобия (MLE).

Оценка индекса хвоста Пиканда

При случайной последовательности независимых и одинаковых функций плотности , область максимального притяжения [15] обобщенной плотности экстремальных значений , где . Если и , то оценка индекса хвоста Пикандса равна [6] [15] ( X n , n 1 ) {\displaystyle (X_{n},n\geq 1)} F D ( H ( ξ ) ) {\displaystyle F\in D(H(\xi ))} H {\displaystyle H} ξ R {\displaystyle \xi \in \mathbb {R} } lim n k ( n ) = {\displaystyle \lim _{n\to \infty }k(n)=\infty } lim n k ( n ) n = 0 {\displaystyle \lim _{n\to \infty }{\frac {k(n)}{n}}=0}

ξ ( k ( n ) , n ) Pickands = 1 ln 2 ln ( X ( n k ( n ) + 1 , n ) X ( n 2 k ( n ) + 1 , n ) X ( n 2 k ( n ) + 1 , n ) X ( n 4 k ( n ) + 1 , n ) ) , {\displaystyle \xi _{(k(n),n)}^{\text{Pickands}}={\frac {1}{\ln 2}}\ln \left({\frac {X_{(n-k(n)+1,n)}-X_{(n-2k(n)+1,n)}}{X_{(n-2k(n)+1,n)}-X_{(n-4k(n)+1,n)}}}\right),}

где . Эта оценка сходится по вероятности к . X ( n k ( n ) + 1 , n ) = max ( X n k ( n ) + 1 , , X n ) {\displaystyle X_{(n-k(n)+1,n)}=\max \left(X_{n-k(n)+1},\ldots ,X_{n}\right)} ξ {\displaystyle \xi }

Оценка индекса хвоста Хилла

Пусть будет последовательностью независимых и одинаково распределенных случайных величин с функцией распределения , максимальной областью притяжения обобщенного распределения экстремальных значений , где . Путь выборки равен , где — размер выборки. Если — последовательность промежуточного порядка, т. е . , и , то оценка индекса хвоста Хилла равна [16] ( X t , t 1 ) {\displaystyle (X_{t},t\geq 1)} F D ( H ( ξ ) ) {\displaystyle F\in D(H(\xi ))} H {\displaystyle H} ξ R {\displaystyle \xi \in \mathbb {R} } X t : 1 t n {\displaystyle {X_{t}:1\leq t\leq n}} n {\displaystyle n} { k ( n ) } {\displaystyle \{k(n)\}} k ( n ) { 1 , , n 1 } , {\displaystyle k(n)\in \{1,\ldots ,n-1\},} k ( n ) {\displaystyle k(n)\to \infty } k ( n ) / n 0 {\displaystyle k(n)/n\to 0}

ξ ( k ( n ) , n ) Hill = ( 1 k ( n ) i = n k ( n ) + 1 n ln ( X ( i , n ) ) ln ( X ( n k ( n ) + 1 , n ) ) ) 1 , {\displaystyle \xi _{(k(n),n)}^{\text{Hill}}=\left({\frac {1}{k(n)}}\sum _{i=n-k(n)+1}^{n}\ln(X_{(i,n)})-\ln(X_{(n-k(n)+1,n)})\right)^{-1},}

где - статистика -го порядка . Эта оценка сходится по вероятности к , и является асимптотически нормальной при условии, что ограничена на основе свойства регулярной вариации более высокого порядка [17] . [18] Согласованность и асимптотическая нормальность распространяются на большой класс зависимых и неоднородных последовательностей, [19] [20] независимо от того, наблюдаются ли или вычисляются остаточные или отфильтрованные данные из большого класса моделей и оценок, включая неправильно указанные модели и модели с зависимыми ошибками. [21] [22] [23] Обратите внимание, что оценки хвостового индекса Пиканда и Хилла обычно используют логарифм порядковой статистики. [24] X ( i , n ) {\displaystyle X_{(i,n)}} i {\displaystyle i} X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} ξ {\displaystyle \xi } k ( n ) {\displaystyle k(n)\to \infty } X t {\displaystyle X_{t}}

Оценка отношения индекса хвоста

Оценщик отношения (RE-оценщик) индекса хвоста был введен Голди и Смитом. [25] Он построен аналогично оценщику Хилла, но использует неслучайный «параметр настройки».

Сравнение оценок типа Хилла и типа RE можно найти в работе Новака. [14]

Программное обеспечение

  • aest Архивировано 25.11.2020 в Wayback Machine , инструменте C для оценки индекса тяжелого хвоста. [26]

Оценка плотности с тяжелым хвостом

Непараметрические подходы к оценке функций плотности вероятности с тяжелым и сверхтяжелым хвостом были даны в работе Марковича. [27] Это подходы, основанные на переменной полосе пропускания и ядерных оценках с длинным хвостом; на предварительном преобразовании данных в новую случайную величину на конечных или бесконечных интервалах, что более удобно для оценки и последующего обратного преобразования полученной оценки плотности; и «подход склеивания», который обеспечивает определенную параметрическую модель для хвоста плотности и непараметрическую модель для аппроксимации моды плотности. Непараметрические оценки требуют соответствующего выбора параметров настройки (сглаживания), таких как полоса пропускания ядерных оценок и ширина бина гистограммы. Хорошо известными методами такого выбора, основанными на данных, являются перекрестная проверка и ее модификации, методы, основанные на минимизации среднеквадратической ошибки (MSE) и ее асимптотики и их верхних границ. [28] Метод расхождения, который использует известные непараметрические статистики, такие как Колмогорова-Смирнова, фон Мизеса и Андерсона-Дарлинга, в качестве метрики в пространстве функций распределения (dfs) и квантили последних статистик в качестве известной неопределенности или значения расхождения, можно найти в [27] Bootstrap — это еще один инструмент для поиска параметров сглаживания с использованием приближений неизвестной MSE с помощью различных схем выбора повторных выборок, см., например, [29]

Смотрите также

Ссылки

  1. ^ abc Asmussen, SR (2003). "Steady-State Properties of GI/G/1". Прикладная вероятность и очереди . Стохастическое моделирование и прикладная вероятность. Том 51. С.  266– 301. doi :10.1007/0-387-21525-5_10. ISBN 978-0-387-00211-8.
  2. ^ ab Teugels, Jozef L. (1975). "Класс субэкспоненциальных распределений". Annals of Probability . 3 (6). Университет Лувена . doi : 10.1214/aop/1176996225 . Получено 7 апреля 2019 г.
  3. ^ Рольски, Шмидли, Шмидт, Тейгельс, Стохастические процессы в страховании и финансах , 1999
  4. ^ С. Фосс, Д. Коршунов, С. Захари, Введение в распределения с тяжелыми хвостами и субэкспоненциальные распределения , Springer Science & Business Media, 21 мая 2013 г.
  5. ^ Чистяков, ВП (1964). "Теорема о суммах независимых положительных случайных величин и ее приложения к ветвящимся случайным процессам". ResearchGate . Получено 7 апреля 2019 г.
  6. ^ abcde Embrechts P.; Klueppelberg C.; Mikosch T. (1997). Моделирование экстремальных событий для страхования и финансов . Стохастическое моделирование и прикладная вероятность. Том 33. Берлин: Springer. doi :10.1007/978-3-642-33483-2. ISBN 978-3-642-08242-9.
  7. ^ Фосс, С.; Константопулос, Т.; Захари, С. (2007). "Дискретные и непрерывные во времени модулированные случайные блуждания с тяжелыми хвостами" (PDF) . Журнал теоретической вероятности . 20 (3): 581. arXiv : math/0509605 . CiteSeerX 10.1.1.210.1699 . doi :10.1007/s10959-007-0081-2. S2CID  3047753. 
  8. ^ Виерман, Адам (9 января 2014 г.). «Катастрофы, заговоры и субэкспоненциальные распределения (часть III)». Блог Rigor + Relevance . RSRG, Caltech . Получено 9 января 2014 г.
  9. ^ Виллекенс, Э. (1986). «Субэкспоненциальность на действительной линии». Технический отчет . КУ Левен.
  10. ^ Фальк, М., Хюслер, Дж. и Рейсс, Р. (2010). Законы малых чисел: экстремальные значения и редкие события . Springer. стр. 80. ISBN 978-3-0348-0008-2.{{cite book}}: CS1 maint: multiple names: authors list (link)
  11. ^ Alves, MIF, de Haan, L. & Neves, C. (10 марта 2006 г.). "Статистический вывод для распределений с тяжелыми и сверхтяжелыми хвостами" (PDF) . Архивировано из оригинала (PDF) 23 июня 2007 г. . Получено 1 ноября 2011 г. .{{cite web}}: CS1 maint: multiple names: authors list (link)
  12. ^ Джон П. Нолан (2009). "Стабильные распределения: модели для данных с тяжелыми хвостами" (PDF) . Архивировано из оригинала (PDF) 2011-07-17 . Получено 2009-02-21 .
  13. ^ Стивен Лихн (2009). "Skew Lognormal Cascade Distribution". Архивировано из оригинала 2014-04-07 . Получено 2009-06-12 .
  14. ^ ab Novak SY (2011). Методы экстремальных значений с приложениями к финансам . Лондон: CRC. ISBN 978-1-43983-574-6.
  15. ^ ab Pickands III, James (январь 1975 г.). «Статистический вывод с использованием статистик экстремального порядка». Анналы статистики . 3 (1): 119– 131. doi : 10.1214/aos/1176343003 . JSTOR  2958083.
  16. ^ Хилл Б. М. (1975) Простой общий подход к выводу о хвосте распределения. Ann. Stat., т. 3, 1163–1174.
  17. ^ Холл, П. (1982) О некоторых оценках показателя регулярной вариации. JR Stat. Soc. Ser. B., т. 44, 37–42.
  18. ^ Хойслер, Э. и Дж. Л. Тейгельс (1985) Об асимптотической нормальности оценки Хилла для показателя регулярной вариации. Ann. Stat., т. 13, 743–756.
  19. ^ Хсинг, Т. (1991) Об оценке индекса хвоста с использованием зависимых данных. Ann. Stat., т. 19, 1547–1569.
  20. ^ Хилл, Дж. (2010) Об оценке индекса хвоста для зависимых, неоднородных данных. Econometric Th., т. 26, 1398–1436.
  21. ^ Резник, С. и Старица, К. (1997). Асимптотическое поведение оценщика Хилла для авторегрессионных данных. Comm. Statist. Stochastic Models 13, 703–721.
  22. ^ Линг, С. и Пэн, Л. (2004). Оценка Хилла для индекса хвоста модели ARMA. J. Statist. Plann. Inference 123, 279–293.
  23. ^ Хилл, Дж. Б. (2015). Оценка индекса хвоста для отфильтрованного зависимого временного ряда. Stat. Sin. 25, 609–630.
  24. ^ Ли, Сейюн; Ким, Джозеф ХТ (2019). «Экспоненциальное обобщенное распределение Парето: свойства и приложения к теории экстремальных значений». Communications in Statistics - Theory and Methods . 48 (8): 2014–2038 . arXiv : 1708.01686 . doi : 10.1080/03610926.2018.1441418. S2CID  88514574.
  25. ^ Goldie CM, Smith RL (1987) Медленное изменение с остатком: теория и приложения. Quart. J. Math. Oxford, т. 38, 45–71.
  26. ^ Crovella, ME; Taqqu, MS (1999). «Оценка индекса тяжелого хвоста по свойствам масштабирования». Методология и вычисления в прикладной теории вероятностей . 1 : 55– 79. doi :10.1023/A:1010012224103. S2CID  8917289. Архивировано из оригинала 2007-02-06 . Получено 2015-09-03 .
  27. ^ ab Markovich NM (2007). Непараметрический анализ одномерных данных с тяжелым хвостом: исследования и практика . Chitester: Wiley. ISBN 978-0-470-72359-3.
  28. ^ Wand MP, Jones MC (1995). Ядерное сглаживание . Нью-Йорк: Chapman and Hall. ISBN 978-0412552700.
  29. ^ Холл П. (1992). Расширение Bootstrap и Edgeworth . Springer. ISBN 9780387945088.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Heavy-tailed_distribution&oldid=1236033057"