Эмпирическая функция распределения

Функция распределения, связанная с эмпирической мерой выборки

В статистике эмпирическая функция распределения (обычно также называемая эмпирической кумулятивной функцией распределения , eCDF ) — это функция распределения , связанная с эмпирической мерой выборки . [1] Эта кумулятивная функция распределения — это ступенчатая функция , которая подпрыгивает на 1/ n в каждой из n точек данных. Ее значение при любом указанном значении измеряемой переменной — это доля наблюдений измеряемой переменной, которые меньше или равны указанному значению.

Эмпирическая функция распределения является оценкой кумулятивной функции распределения, которая сгенерировала точки в выборке. Она сходится с вероятностью 1 к этому базовому распределению, согласно теореме Гливенко–Кантелли . Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к базовой кумулятивной функции распределения.

Определение

Пусть ( X 1 , …, X n )независимые, одинаково распределенные действительные случайные величины с общей кумулятивной функцией распределения F ( t ) . Тогда эмпирическая функция распределения определяется как [2]

Ф ^ н ( т ) = количество элементов в выборке т н = 1 н я = 1 н 1 Х я т , {\displaystyle {\widehat {F}}_{n}(t)={\frac {{\mbox{количество элементов в выборке}}\leq t}{n}}={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{X_{i}\leq t},}

где — индикатор события A. Для фиксированного t индикатор — это случайная величина Бернулли с параметром p = F ( t ) ; следовательно, — биномиальная случайная величина со средним значением nF ( t ) и дисперсией nF ( t )(1 − F ( t )) . Это означает, что — несмещенная оценка для F ( t ) . 1 А {\displaystyle \mathbf {1} _{A}} 1 Х я т {\displaystyle \mathbf {1} _{X_{i}\leq t}} н Ф ^ н ( т ) {\displaystyle n{\widehat {F}}_{n}(t)} Ф ^ н ( т ) {\displaystyle {\widehat {F}}_{n}(t)}

Однако в некоторых учебниках определение дается как

Ф ^ н ( т ) = 1 н + 1 я = 1 н 1 Х я т {\displaystyle {\widehat {F}}_{n}(t)={\frac {1}{n+1}}\sum _{i=1}^{n}\mathbf {1} _{X_{i}\leq t}} [3] [4]

Асимптотические свойства

Поскольку отношение ( n  + 1)/ n стремится к 1, когда n стремится к бесконечности, асимптотические свойства двух приведенных выше определений одинаковы.

По усиленному закону больших чисел оценка сходится к F ( t ) при n  → ∞ почти наверняка для каждого значения t : [2] Ф ^ н ( т ) {\displaystyle \scriptstyle {\widehat {F}}_{n}(t)}

Ф ^ н ( т )   как   Ф ( т ) ; {\displaystyle {\widehat {F}}_{n}(t)\ {\xrightarrow {\text{as}}}\ F(t);}

таким образом, оценка является последовательной . Это выражение утверждает поточечную сходимость эмпирической функции распределения к истинной кумулятивной функции распределения. Существует более сильный результат, называемый теоремой Гливенко–Кантелли , который утверждает, что сходимость на самом деле происходит равномерно по t : [5] Ф ^ н ( т ) {\displaystyle \scriptstyle {\widehat {F}}_{n}(t)}

Ф ^ н Ф Как дела т Р | Ф ^ н ( т ) Ф ( т ) |     0. {\displaystyle \|{\widehat {F}}_{n}-F\|_{\infty }\equiv \sup _{t\in \mathbb {R} }{\big |}{\widehat {F}}_{n}(t)-F(t){\big |}\ \xrightarrow {} \ 0.}

Норма sup в этом выражении называется статистикой Колмогорова–Смирнова для проверки соответствия между эмпирическим распределением и предполагаемой истинной кумулятивной функцией распределения F. Другие функции нормы могут быть разумно использованы здесь вместо нормы sup. Например, норма L 2 приводит к статистике Крамера–фон Мизеса . Ф ^ н ( т ) {\displaystyle \scriptstyle {\widehat {F}}_{n}(t)}

Асимптотическое распределение может быть далее охарактеризовано несколькими различными способами. Во-первых, центральная предельная теорема утверждает, что поточечно , имеет асимптотически нормальное распределение со стандартной скоростью сходимости: [2] Ф ^ н ( т ) {\displaystyle \scriptstyle {\widehat {F}}_{n}(t)} н {\displaystyle {\sqrt {n}}}

н ( Ф ^ н ( т ) Ф ( т ) )     г     Н ( 0 , Ф ( т ) ( 1 Ф ( т ) ) ) . {\displaystyle {\sqrt {n}}{\big (}{\widehat {F}}_{n}(t)-F(t){\big )}\ \ {\xrightarrow {d}}\ \ {\mathcal {N}}{\Big (}0,F(t){\big (}1-F(t){\big )}{\Big )}.}

Этот результат расширен теоремой Донскера , которая утверждает, что эмпирический процесс , рассматриваемый как функция, индексированная , сходится по распределению в пространстве Скорохода к гауссовскому процессу со средним значением ноль , где B — стандартный броуновский мост . [5] Ковариационная структура этого гауссовского процесса имеет вид н ( Ф ^ н Ф ) {\displaystyle \scriptstyle {\sqrt {n}}({\widehat {F}}_{n}-F)} т Р {\displaystyle \scriptstyle t\in \mathbb {R} } Д [ , + ] {\displaystyle \scriptstyle D[-\infty,+\infty]} Г Ф = Б Ф {\displaystyle \scriptstyle G_{F}=B\circ F}

Э [ Г Ф ( т 1 ) Г Ф ( т 2 ) ] = Ф ( т 1 т 2 ) Ф ( т 1 ) Ф ( т 2 ) . {\displaystyle \operatorname {E} [\,G_{F}(t_{1})G_{F}(t_{2})\,]=F(t_{1}\wedge t_{2})-F(t_{1})F(t_{2}).}

Равномерная скорость сходимости в теореме Донскера может быть количественно определена с помощью результата, известного как венгерское вложение : [6]

лим суп н н вн 2 н н ( Ф ^ н Ф ) Г Ф , н < , как {\displaystyle \limsup _{n\to \infty }{\frac {\sqrt {n}}{\ln ^{2}n}}{\big \|}{\sqrt {n}}({\widehat {F}}_{n}-F)-G_{F,n}{\big \|}_{\infty }<\infty ,\quad {\text{as}}}

В качестве альтернативы, скорость сходимости также может быть количественно определена в терминах асимптотического поведения sup-нормы этого выражения. Существует ряд результатов в этой области, например, неравенство Дворецкого–Кифера–Вольфовица дает ограничение на хвостовые вероятности : [6] н ( Ф ^ н Ф ) {\displaystyle \scriptstyle {\sqrt {n}}({\widehat {F}}_{n}-F)} н Ф ^ н Ф {\displaystyle \scriptstyle {\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }}

Пр ( н Ф ^ н Ф > з ) 2 е 2 з 2 . {\displaystyle \Pr \!{\Big (}{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }>z{\Big )}\leq 2e^{-2z^{2}}.}

Фактически, Колмогоров показал, что если кумулятивная функция распределения F непрерывна, то выражение сходится по распределению к , которое имеет распределение Колмогорова , не зависящее от вида F . н Ф ^ н Ф {\displaystyle \scriptstyle {\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }} Б {\displaystyle \scriptstyle \|B\|_{\infty }}

Другой результат, вытекающий из закона повторного логарифма , состоит в том, что [6]

лим суп н н Ф ^ н Ф 2 вн вн н 1 2 , как {\displaystyle \limsup _{n\to \infty }{\frac {{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }}{\sqrt {2\ln \ln n}}}\leq {\frac {1}{2}},\quad {\text{as}}}

и

лим инф н 2 н вн вн н Ф ^ н Ф = π 2 , как {\displaystyle \liminf _{n\to \infty }{\sqrt {2n\ln \ln n}}\|{\widehat {F}}_{n}-F\|_{\infty }={\frac {\pi }{2}},\quad {\text{as}}}

Доверительные интервалы

Эмпирические графики CDF, CDF и доверительных интервалов для различных размеров выборок нормального распределения
Эмпирические функции распределения, функции распределения распределения и доверительные интервалы для различных размеров выборки распределения Коши
Эмпирические графики CDF, CDF и доверительных интервалов для различных размеров выборки треугольного распределения

Согласно неравенству Дворецкого–Кифера–Вольфовица интервал, содержащий истинную функцию распределения вероятностей, с вероятностью определяется как Ф ( х ) {\displaystyle F(x)} 1 α {\displaystyle 1-\альфа}

Ф н ( х ) ε Ф ( х ) Ф н ( х ) + ε  где  ε = вн 2 α 2 н . {\displaystyle F_{n}(x)-\varepsilon \leq F(x)\leq F_{n}(x)+\varepsilon \;{\text{ где }}\varepsilon ={\sqrt {\frac {\ln {\frac {2}{\alpha }}}{2n}}}.}

В соответствии с указанными выше границами мы можем построить эмпирическую функцию распределения, функцию распределения и доверительные интервалы для различных распределений, используя любую из статистических реализаций.

Статистическая реализация

Неполный список программных реализаций функции эмпирического распределения включает:

  • В программном обеспечении R мы вычисляем эмпирическую кумулятивную функцию распределения, используя несколько методов построения графика, печати и вычислений с использованием такого объекта «ecdf».
  • В MATLAB мы можем использовать график эмпирической кумулятивной функции распределения (cdf)
  • jmp из SAS, график CDF создает график эмпирической кумулятивной функции распределения.
  • Minitab, создание эмпирической CDF
  • Mathwave, мы можем подогнать распределение вероятностей под наши данные
  • Dataplot, мы можем построить график эмпирической функции распределения
  • Scipy, мы можем использовать scipy.stats.ecdf
  • Statsmodels, мы можем использовать statsmodels.distributions.empirical_distribution.ECDF
  • Matplotlib, использующая функцию matplotlib.pyplot.ecdf (новая в версии 3.8.0) [7]
  • Сиборн, с использованием функции seaborn.ecdfplot
  • Plotly, используя функцию plotly.express.ecdf
  • Excel, мы можем построить график эмпирической функции распределения
  • ArviZ , используя функцию az.plot_ecdf

Смотрите также

Ссылки

  1. ^ Современное введение в вероятность и статистику: Понимание почему и как. Мишель Деккинг. Лондон: Springer. 2005. стр. 219. ISBN 978-1-85233-896-1. OCLC  262680588.{{cite book}}: CS1 maint: другие ( ссылка )
  2. ^ abc ван дер Ваарт, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 265. ИСБН  0-521-78450-6.
  3. ^ Коулз, С. (2001) Введение в статистическое моделирование экстремальных значений . Springer, стр. 36, Определение 2.4. ISBN 978-1-4471-3675-0 . 
  4. ^ Madsen, HO, Krenk, S., Lind, SC (2006) Методы структурной безопасности . Dover Publications. стр. 148-149. ISBN 0486445976 
  5. ^ Аб ван дер Ваарт, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 266. ИСБН 0-521-78450-6.
  6. ^ abc ван дер Ваарт, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 268. ИСБН 0-521-78450-6.
  7. ^ «Что нового в Matplotlib 3.8.0 (13 сентября 2023 г.) — Документация Matplotlib 3.8.3».

Дальнейшее чтение

  • Медиафайлы по теме Эмпирические функции распределения на Wikimedia Commons
Retrieved from "https://en.wikipedia.org/w/index.php?title=Empirical_distribution_function&oldid=1243992383"