В статистике обобщенное распределение Парето (GPD) представляет собой семейство непрерывных распределений вероятностей . Оно часто используется для моделирования хвостов другого распределения. Оно задается тремя параметрами: местоположением , масштабом и формой . [2] [3] Иногда оно задается только масштабом и формой [4] , а иногда только параметром формы. В некоторых источниках параметр формы указывается как . [5]
Определение
Стандартная кумулятивная функция распределения (cdf) ВВП определяется как [6]
где поддержка для и для . Соответствующая функция плотности вероятности (pdf) равна
Характеристика
Соответствующее семейство распределений по масштабу местоположения получается путем замены аргумента z на и соответствующей корректировки поддержки.
Обе формулы получены путем обращения функции распределения.
В Matlab Statistics Toolbox вы можете легко использовать команду «gprnd» для генерации обобщенных случайных чисел Парето.
GPD как экспоненциальная гамма-смесь
Случайную величину GPD также можно выразить как экспоненциальную случайную величину с гамма-распределенным параметром скорости.
и
затем
Однако следует отметить, что поскольку параметры гамма-распределения должны быть больше нуля, мы получаем дополнительные ограничения: должны быть положительными.
В дополнение к этому смешанному (или составному) выражению обобщенное распределение Парето также может быть выражено в виде простого отношения. Конкретно, для и , мы имеем . Это следствие смеси после установки и учета того, что параметры скорости экспоненциального и гамма-распределения являются просто обратными мультипликативными константами.
На правой панели показана дисперсия как функция . Обратите внимание, что .
Обратите внимание, что роли параметра масштаба и параметра формы под раздельно интерпретируются, что может привести к надежной эффективной оценке для , чем с использованием [2]. Роли двух параметров связаны друг с другом под (по крайней мере, до второго центрального момента); см. формулу дисперсии , в которой участвуют оба параметра.
Оценка Хилла
Предположим, что есть наблюдения (не обязательно iid) из неизвестного распределения с тяжелым хвостом, такого, что его хвостовое распределение регулярно меняется с индексом хвоста (следовательно, соответствующий параметр формы равен ). Для определенности хвостовое распределение описывается как
В теории экстремальных значений особый интерес представляет оценка параметра формы , особенно когда он положителен (так называемое распределение с тяжелым хвостом).
Пусть будет их условной избыточной функцией распределения. Теорема Пикандса–Балкема–де Хаана (Пикандс, 1975; Балкема и де Хаан, 1974) утверждает, что для большого класса базовых функций распределения и больших хорошо аппроксимируется обобщенным распределением Парето (GPD), что побудило методы пика над порогом (POT) оценить : GPD играет ключевую роль в подходе POT.
Известным оценщиком, использующим методологию POT, является оценщик Хилла . Техническая формулировка оценщика Хилла выглядит следующим образом. Для запишите для -го наибольшего значения . Тогда, с этой записью, оценщик Хилла (см. страницу 190 Справочного материала 5 Эмбрехтса и др. [3]), основанный на статистике верхнего порядка, определяется как
На практике оценка Хилла используется следующим образом. Сначала вычисляется оценка для каждого целого числа , а затем строятся упорядоченные пары . Затем выбирается из набора оценок Хилла , которые примерно постоянны относительно : эти стабильные значения считаются разумными оценками для параметра формы . Если являются iid, то оценка Хилла является состоятельной оценкой для параметра формы [4].
Обратите внимание, что оценщик Хилла использует логарифмическое преобразование для наблюдений . ( Оценщик Пиканда также использовал логарифмическое преобразование, но несколько иным способом [5].)
^ Хоскинг, Дж. Р. М.; Уоллис, Дж. Р. (1987). «Оценка параметров и квантилей для обобщенного распределения Парето». Технометрика . 29 (3): 339– 349. doi :10.2307/1269343. JSTOR 1269343.
^ Дэвисон, AC (1984-09-30). "Моделирование превышений по высоким порогам с приложением". В de Oliveira, J. Tiago (ред.). Статистические экстремальные значения и приложения . Kluwer. стр. 462. ISBN9789027718044.
^ Эмбрехтс, Пол; Клюппельберг, Клаудия ; Микош, Томас (1997-01-01). Моделирование экстремальных событий для страхования и финансов. Springer. стр. 162. ISBN9783540609315.
^ Кастильо, Энрике и Али С. Хади. «Подгонка обобщенного распределения Парето к данным». Журнал Американской статистической ассоциации 92.440 (1997): 1609-1620.
Дальнейшее чтение
Пикандс, Джеймс (1975). "Статистический вывод с использованием статистик экстремального порядка" (PDF) . Annals of Statistics . 3 с : 119– 131. doi : 10.1214/aos/1176343003 .
Балкема, А.; Де Хаан, Лоренс (1974). «Остаточная продолжительность жизни в преклонном возрасте». Annals of Probability . 2 (5): 792– 804. doi : 10.1214/aop/1176996548 .
Lee, Seyoon; Kim, JHK (2018). «Экспоненциальное обобщенное распределение Парето: свойства и приложения к теории экстремальных значений». Communications in Statistics - Theory and Methods . 48 (8): 1– 25. arXiv : 1708.01686 . doi : 10.1080/03610926.2018.1441418. S2CID 88514574.
NL Johnson; S. Kotz; N. Balakrishnan (1994). Continuous Univariate Distributions Volume 1, second edition . New York: Wiley. ISBN978-0-471-58495-7.Глава 20, Раздел 12: Обобщенные распределения Парето.
Барри К. Арнольд (2011). "Глава 7: Парето и обобщенные распределения Парето". В Duangkamon Chotikapanich (ред.). Моделирование распределений и кривых Лоренца . Нью-Йорк: Springer. ISBN9780387727967.
Арнольд, BC; Лагуна, Л. (1977). Об обобщенных распределениях Парето с приложениями к данным о доходах . Эймс, Айова: Университет штата Айова, факультет экономики.