Кумулятивная функция распределения

Вероятность того, что случайная величина X меньше или равна x
Кумулятивная функция распределения для экспоненциального распределения
Кумулятивная функция распределения для нормального распределения

В теории вероятностей и статистике кумулятивная функция распределения ( CDF ) действительной случайной величины , или просто функция распределения , оцененная при , представляет собой вероятность того, что значение будет меньше или равно . [1] Х {\displaystyle X} Х {\displaystyle X} х {\displaystyle x} Х {\displaystyle X} х {\displaystyle x}

Каждое распределение вероятностей, поддерживаемое действительными числами, дискретными или «смешанными», а также непрерывными , однозначно идентифицируется непрерывной справа монотонно возрастающей функцией ( функцией càdlàg ), удовлетворяющей и . Ф : Р [ 0 , 1 ] {\displaystyle F\двоеточие \mathbb {R} \rightarrow [0,1]} лим х Ф ( х ) = 0 {\displaystyle \lim _{x\rightarrow -\infty }F(x)=0} лим х Ф ( х ) = 1 {\displaystyle \lim _{x\rightarrow \infty }F(x)=1}

В случае скалярного непрерывного распределения это дает площадь под функцией плотности вероятности от отрицательной бесконечности до . Кумулятивные функции распределения также используются для задания распределения многомерных случайных величин . х {\displaystyle x}

Определение

Кумулятивная функция распределения действительной случайной величины — это функция, заданная формулой [2] : стр. 77  Х {\displaystyle X}

где правая часть представляет собой вероятность того, что случайная величина примет значение, меньшее или равное . Х {\displaystyle X} х {\displaystyle x}

Вероятность того, что находится в полузакрытом интервале , где , равна [2] : стр. 84  Х {\displaystyle X} ( а , б ] {\displaystyle (а,б]} а < б {\displaystyle а<б}

В определении выше знак «меньше или равно», «≤», является условностью, а не общепринятой (например, в венгерской литературе используется «<»), но это различие важно для дискретных распределений. Правильное использование таблиц биномиального и пуассоновского распределений зависит от этой условности. Более того, важные формулы, такие как формула обращения Поля Леви для характеристической функции, также опираются на формулировку «меньше или равно».

При обработке нескольких случайных величин и т. д. соответствующие буквы используются как нижние индексы, а при обработке только одной, нижний индекс обычно опускается. Принято использовать заглавную букву для кумулятивной функции распределения, в отличие от строчной буквы, используемой для функций плотности вероятности и функций массы вероятности . Это применимо при обсуждении общих распределений: некоторые конкретные распределения имеют свои собственные общепринятые обозначения, например, нормальное распределение использует и вместо и , соответственно. Х , И , {\displaystyle X,Y,\ldots } F {\displaystyle F} f {\displaystyle f} Φ {\displaystyle \Phi } ϕ {\displaystyle \phi } F {\displaystyle F} f {\displaystyle f}

Функция плотности вероятности непрерывной случайной величины может быть определена из кумулятивной функции распределения путем дифференцирования [3] с использованием основной теоремы исчисления ; т.е. задана , пока существует производная. F ( x ) {\displaystyle F(x)} f ( x ) = d F ( x ) d x {\displaystyle f(x)={\frac {dF(x)}{dx}}}

CDF непрерывной случайной величины может быть выражена как интеграл ее функции плотности вероятности следующим образом: [2] : стр. 86  X {\displaystyle X} f X {\displaystyle f_{X}} F X ( x ) = x f X ( t ) d t . {\displaystyle F_{X}(x)=\int _{-\infty }^{x}f_{X}(t)\,dt.}

В случае случайной величины , которая имеет распределение, имеющее дискретную составляющую при значении , X {\displaystyle X} b {\displaystyle b} P ( X = b ) = F X ( b ) lim x b F X ( x ) . {\displaystyle \operatorname {P} (X=b)=F_{X}(b)-\lim _{x\to b^{-}}F_{X}(x).}

Если непрерывна при , то она равна нулю и дискретная составляющая при отсутствует . F X {\displaystyle F_{X}} b {\displaystyle b} b {\displaystyle b}

Характеристики

Сверху вниз: кумулятивная функция распределения дискретного распределения вероятностей, непрерывного распределения вероятностей и распределения, имеющего как непрерывную, так и дискретную части.
Пример кумулятивной функции распределения со счетно бесконечным множеством точек разрыва.

Каждая кумулятивная функция распределения является неубывающей [2] : стр. 78  и непрерывна справа , [2] : стр. 79,  что делает ее функцией càdlàg . Кроме того, F X {\displaystyle F_{X}} lim x F X ( x ) = 0 , lim x + F X ( x ) = 1. {\displaystyle \lim _{x\to -\infty }F_{X}(x)=0,\quad \lim _{x\to +\infty }F_{X}(x)=1.}

Каждая функция с этими тремя свойствами является функцией распределения, т.е. для каждой такой функции можно определить случайную величину таким образом, что функция будет кумулятивной функцией распределения этой случайной величины.

Если — чисто дискретная случайная величина , то она достигает значений с вероятностью , а функция распределения будет разрывной в точках : X {\displaystyle X} x 1 , x 2 , {\displaystyle x_{1},x_{2},\ldots } p i = p ( x i ) {\displaystyle p_{i}=p(x_{i})} X {\displaystyle X} x i {\displaystyle x_{i}} F X ( x ) = P ( X x ) = x i x P ( X = x i ) = x i x p ( x i ) . {\displaystyle F_{X}(x)=\operatorname {P} (X\leq x)=\sum _{x_{i}\leq x}\operatorname {P} (X=x_{i})=\sum _{x_{i}\leq x}p(x_{i}).}

Если функция распределения действительной случайной величины непрерывна , то является непрерывной случайной величиной ; если же она абсолютно непрерывна , то существует интегрируемая по Лебегу функция такая, что для всех действительных чисел и . Функция равна производной от почти всюду и называется функцией плотности вероятности распределения . F X {\displaystyle F_{X}} X {\displaystyle X} X {\displaystyle X} F X {\displaystyle F_{X}} f X ( x ) {\displaystyle f_{X}(x)} F X ( b ) F X ( a ) = P ( a < X b ) = a b f X ( x ) d x {\displaystyle F_{X}(b)-F_{X}(a)=\operatorname {P} (a<X\leq b)=\int _{a}^{b}f_{X}(x)\,dx} a {\displaystyle a} b {\displaystyle b} f X {\displaystyle f_{X}} F X {\displaystyle F_{X}} X {\displaystyle X}

Если имеет конечную L1-норму , то есть математическое ожидание конечно, то математическое ожидание задается интегралом Римана–Стилтьеса X {\displaystyle X} | X | {\displaystyle |X|} E [ X ] = t d F X ( t ) {\displaystyle \mathbb {E} [X]=\int _{-\infty }^{\infty }t\,dF_{X}(t)}

График CDF с двумя красными прямоугольниками, иллюстрирующий два неравенства

и для любого , а также как показано на диаграмме (рассмотрите площади двух красных прямоугольников и их расширения вправо или влево до графика ). В частности, мы имеем Кроме того, (конечное) ожидаемое значение действительной случайной величины может быть определено на графике ее кумулятивной функции распределения, как показано на рисунке в определении ожидаемого значения для произвольных действительных случайных величин . x 0 {\displaystyle x\geq 0} x ( 1 F X ( x ) ) x t d F X ( t ) {\displaystyle x(1-F_{X}(x))\leq \int _{x}^{\infty }t\,dF_{X}(t)} x F X ( x ) x ( t ) d F X ( t ) {\displaystyle xF_{X}(-x)\leq \int _{-\infty }^{-x}(-t)\,dF_{X}(t)} F X {\displaystyle F_{X}} lim x x F X ( x ) = 0 , lim x + x ( 1 F X ( x ) ) = 0. {\displaystyle \lim _{x\to -\infty }xF_{X}(x)=0,\quad \lim _{x\to +\infty }x(1-F_{X}(x))=0.} X {\displaystyle X}

Примеры

В качестве примера предположим, что равномерно распределено на единичном интервале . X {\displaystyle X} [ 0 , 1 ] {\displaystyle [0,1]}

Тогда CDF определяется как X {\displaystyle X} F X ( x ) = { 0 :   x < 0 x :   0 x 1 1 :   x > 1 {\displaystyle F_{X}(x)={\begin{cases}0&:\ x<0\\x&:\ 0\leq x\leq 1\\1&:\ x>1\end{cases}}}

Предположим вместо этого, что принимает только дискретные значения 0 и 1 с равной вероятностью. X {\displaystyle X}

Тогда CDF определяется как X {\displaystyle X} F X ( x ) = { 0 :   x < 0 1 / 2 :   0 x < 1 1 :   x 1 {\displaystyle F_{X}(x)={\begin{cases}0&:\ x<0\\1/2&:\ 0\leq x<1\\1&:\ x\geq 1\end{cases}}}

Предположим , что экспоненциально распределено . Тогда CDF для задается как X {\displaystyle X} X {\displaystyle X} F X ( x ; λ ) = { 1 e λ x x 0 , 0 x < 0. {\displaystyle F_{X}(x;\lambda )={\begin{cases}1-e^{-\lambda x}&x\geq 0,\\0&x<0.\end{cases}}}

Здесь λ > 0 — параметр распределения, часто называемый параметром скорости.

Предположим , что распределено нормально . Тогда CDF для задается как X {\displaystyle X} X {\displaystyle X} F ( t ; μ , σ ) = 1 σ 2 π t exp ( ( x μ ) 2 2 σ 2 ) d x . {\displaystyle F(t;\mu ,\sigma )={\frac {1}{\sigma {\sqrt {2\pi }}}}\int _{-\infty }^{t}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)\,dx.}

Здесь параметр представляет собой среднее или математическое ожидание распределения, а — его стандартное отклонение. μ {\displaystyle \mu } σ {\displaystyle \sigma }

Таблица CDF стандартного нормального распределения часто используется в статистических приложениях, где ее называют стандартной нормальной таблицей , единичной нормальной таблицей или Z-таблицей .

Предположим , что распределено биномиально . Тогда CDF для задается как X {\displaystyle X} X {\displaystyle X} F ( k ; n , p ) = Pr ( X k ) = i = 0 k ( n i ) p i ( 1 p ) n i {\displaystyle F(k;n,p)=\Pr(X\leq k)=\sum _{i=0}^{\lfloor k\rfloor }{n \choose i}p^{i}(1-p)^{n-i}}

Здесь — вероятность успеха, а функция обозначает дискретное распределение вероятностей числа успехов в последовательности независимых экспериментов, а — «пол» под , т.е. наибольшее целое число, меньшее или равное . p {\displaystyle p} n {\displaystyle n} k {\displaystyle \lfloor k\rfloor } k {\displaystyle k} k {\displaystyle k}

Производные функции

Дополнительная кумулятивная функция распределения (хвостовое распределение)

Иногда полезно изучить противоположный вопрос и спросить, как часто случайная величина превышает определенный уровень. Это называетсядополнительная кумулятивная функция распределения (ccdf ) или простораспределение хвоста илипревышение и определяется как F ¯ X ( x ) = P ( X > x ) = 1 F X ( x ) . {\displaystyle {\bar {F}}_{X}(x)=\operatorname {P} (X>x)=1-F_{X}(x).}

Это имеет применение в статистическом тестировании гипотез , например, потому что одностороннее p-значение является вероятностью наблюдения тестовой статистики, по крайней мере, такой же экстремальной, как и наблюдаемая. Таким образом, при условии, что тестовая статистика , T , имеет непрерывное распределение, одностороннее p-значение просто задается ccdf: для наблюдаемого значения тестовой статистики t {\displaystyle t} p = P ( T t ) = P ( T > t ) = 1 F T ( t ) . {\displaystyle p=\operatorname {P} (T\geq t)=\operatorname {P} (T>t)=1-F_{T}(t).}

В анализе выживаемости функция называется функцией выживаемости и обозначается , тогда как в технике распространен термин функция надежности . F ¯ X ( x ) {\displaystyle {\bar {F}}_{X}(x)} S ( x ) {\displaystyle S(x)}

Характеристики
  • Для неотрицательной непрерывной случайной величины, имеющей математическое ожидание, неравенство Маркова утверждает, что [4] F ¯ X ( x ) E ( X ) x . {\displaystyle {\bar {F}}_{X}(x)\leq {\frac {\operatorname {E} (X)}{x}}.}
  • Как и фактически при условии, что конечно. Доказательство: [ требуется ссылка ] Предполагая, что имеет функцию плотности , для любого Тогда, при распознавании и перестановке членов, как и утверждалось. x , F ¯ X ( x ) 0 {\displaystyle x\to \infty ,{\bar {F}}_{X}(x)\to 0} F ¯ X ( x ) = o ( 1 / x ) {\displaystyle {\bar {F}}_{X}(x)=o(1/x)} E ( X ) {\displaystyle \operatorname {E} (X)}

    X {\displaystyle X} f X {\displaystyle f_{X}} c > 0 {\displaystyle c>0} E ( X ) = 0 x f X ( x ) d x 0 c x f X ( x ) d x + c c f X ( x ) d x {\displaystyle \operatorname {E} (X)=\int _{0}^{\infty }xf_{X}(x)\,dx\geq \int _{0}^{c}xf_{X}(x)\,dx+c\int _{c}^{\infty }f_{X}(x)\,dx} F ¯ X ( c ) = c f X ( x ) d x {\displaystyle {\bar {F}}_{X}(c)=\int _{c}^{\infty }f_{X}(x)\,dx} 0 c F ¯ X ( c ) E ( X ) 0 c x f X ( x ) d x 0  as  c {\displaystyle 0\leq c{\bar {F}}_{X}(c)\leq \operatorname {E} (X)-\int _{0}^{c}xf_{X}(x)\,dx\to 0{\text{ as }}c\to \infty }
  • Для случайной величины, имеющей математическое ожидание, и для неотрицательной случайной величины второй член равен 0. Если случайная величина может принимать только неотрицательные целые значения, это эквивалентно E ( X ) = 0 F ¯ X ( x ) d x 0 F X ( x ) d x {\displaystyle \operatorname {E} (X)=\int _{0}^{\infty }{\bar {F}}_{X}(x)\,dx-\int _{-\infty }^{0}F_{X}(x)\,dx}
    E ( X ) = n = 0 F ¯ X ( n ) . {\displaystyle \operatorname {E} (X)=\sum _{n=0}^{\infty }{\bar {F}}_{X}(n).}

Сложенное кумулятивное распределение

Пример сложенного кумулятивного распределения для функции нормального распределения с ожидаемым значением 0 и стандартным отклонением 1.

Хотя график кумулятивного распределения часто имеет S-образную форму, альтернативной иллюстрацией является сложенный график кумулятивного распределения или горный график , который сгибает верхнюю половину графика, [5] [6], то есть F {\displaystyle F}

F fold ( x ) = F ( x ) 1 { F ( x ) 0.5 } + ( 1 F ( x ) ) 1 { F ( x ) > 0.5 } {\displaystyle F_{\text{fold}}(x)=F(x)1_{\{F(x)\leq 0.5\}}+(1-F(x))1_{\{F(x)>0.5\}}}

где обозначает индикаторную функцию , а второе слагаемое — функцию выживших , таким образом, используя две шкалы, одну для восходящего и другую для нисходящего наклона. Эта форма иллюстрации подчеркивает медиану , дисперсию (в частности, среднее абсолютное отклонение от медианы [7] ) и асимметрию распределения или эмпирических результатов. 1 { A } {\displaystyle 1_{\{A\}}}

Обратная функция распределения (функция квантиля)

Если CDF F строго возрастает и непрерывна, то является единственным действительным числом, таким что . Это определяет обратную функцию распределения или функцию квантиля . F 1 ( p ) , p [ 0 , 1 ] , {\displaystyle F^{-1}(p),p\in [0,1],} x {\displaystyle x} F ( x ) = p {\displaystyle F(x)=p}

Некоторые распределения не имеют единственной обратной функции (например, если для всех , что приводит к константе). В этом случае можно использовать обобщенную обратную функцию распределения , которая определяется как f X ( x ) = 0 {\displaystyle f_{X}(x)=0} a < x < b {\displaystyle a<x<b} F X {\displaystyle F_{X}}

F 1 ( p ) = inf { x R : F ( x ) p } , p [ 0 , 1 ] . {\displaystyle F^{-1}(p)=\inf\{x\in \mathbb {R} :F(x)\geq p\},\quad \forall p\in [0,1].}
  • Пример 1: Медиана равна . F 1 ( 0.5 ) {\displaystyle F^{-1}(0.5)}
  • Пример 2: Положим . Затем вызовем 95-й процентиль. τ = F 1 ( 0.95 ) {\displaystyle \tau =F^{-1}(0.95)} τ {\displaystyle \tau }

Некоторые полезные свойства обратной функции распределения (которые также сохраняются в определении обобщенной обратной функции распределения):

  1. F 1 {\displaystyle F^{-1}} не убывает [8]
  2. F 1 ( F ( x ) ) x {\displaystyle F^{-1}(F(x))\leq x}
  3. F ( F 1 ( p ) ) p {\displaystyle F(F^{-1}(p))\geq p}
  4. F 1 ( p ) x {\displaystyle F^{-1}(p)\leq x} если и только если p F ( x ) {\displaystyle p\leq F(x)}
  5. Если имеет распределение, то распределяется как . Это используется при генерации случайных чисел с использованием метода выборки обратного преобразования . Y {\displaystyle Y} U [ 0 , 1 ] {\displaystyle U[0,1]} F 1 ( Y ) {\displaystyle F^{-1}(Y)} F {\displaystyle F}
  6. Если — набор независимых -распределенных случайных величин, определенных на одном и том же пространстве выборок, то существуют случайные величины, такие что распределены как и с вероятностью 1 для всех . [ необходима ссылка ] { X α } {\displaystyle \{X_{\alpha }\}} F {\displaystyle F} Y α {\displaystyle Y_{\alpha }} Y α {\displaystyle Y_{\alpha }} U [ 0 , 1 ] {\displaystyle U[0,1]} F 1 ( Y α ) = X α {\displaystyle F^{-1}(Y_{\alpha })=X_{\alpha }} α {\displaystyle \alpha }

Обратную функцию распределения можно использовать для перевода результатов, полученных для равномерного распределения, в другие распределения.

Эмпирическая функция распределения

Эмпирическая функция распределения является оценкой кумулятивной функции распределения, которая сгенерировала точки в выборке. Она сходится с вероятностью 1 к этому базовому распределению. Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к базовой кумулятивной функции распределения. [9]

Многомерный случай

Определение для двух случайных величин

При одновременной работе с более чем одной случайной величиной можно также определить совместную кумулятивную функцию распределения . Например, для пары случайных величин совместная функция распределения CDF задается как [2] : стр. 89  X , Y {\displaystyle X,Y} F X Y {\displaystyle F_{XY}}

где правая часть представляет собой вероятность того, что случайная величина примет значение, меньшее или равное , и что случайная величина примет значение, меньшее или равное . X {\displaystyle X} x {\displaystyle x} Y {\displaystyle Y} y {\displaystyle y}

Пример совместной кумулятивной функции распределения:

Для двух непрерывных переменных X и Y : Pr ( a < X < b  and  c < Y < d ) = a b c d f ( x , y ) d y d x ; {\displaystyle \Pr(a<X<b{\text{ and }}c<Y<d)=\int _{a}^{b}\int _{c}^{d}f(x,y)\,dy\,dx;}

Для двух дискретных случайных величин полезно составить таблицу вероятностей и рассмотреть кумулятивную вероятность для каждого потенциального диапазона X и Y , и вот пример: [10]

Задав совместную функцию распределения вероятностей в табличной форме, определите совместную кумулятивную функцию распределения.

У = 2У = 4У = 6У = 8
Х = 100.100.1
Х = 3000.20
Х = 50.3000,15
Х = 7000,150

Решение: используя заданную таблицу вероятностей для каждого потенциального диапазона X и Y , можно построить совместную кумулятивную функцию распределения в табличной форме:

У < 2Y ≤ 2Y ≤ 4Y ≤ 6Y ≤ 8
Х < 100000
Х ≤ 1000.10.10.2
Х ≤ 3000.10.30,4
Х ≤ 500.30,40,60,85
Х ≤ 700.30,40,751

Определение для более чем двух случайных величин

Для случайных величин совместная функция CDF определяется как N {\displaystyle N} X 1 , , X N {\displaystyle X_{1},\ldots ,X_{N}} F X 1 , , X N {\displaystyle F_{X_{1},\ldots ,X_{N}}}

Интерпретация случайных величин как случайного вектора дает более короткую запись: N {\displaystyle N} X = ( X 1 , , X N ) T {\displaystyle \mathbf {X} =(X_{1},\ldots ,X_{N})^{T}} F X ( x ) = P ( X 1 x 1 , , X N x N ) {\displaystyle F_{\mathbf {X} }(\mathbf {x} )=\operatorname {P} (X_{1}\leq x_{1},\ldots ,X_{N}\leq x_{N})}

Характеристики

Каждая многомерная CDF-функция:

  1. Монотонно не убывающая для каждой из своих переменных,
  2. Непрерывна справа по каждой из своих переменных,
  3. 0 F X 1 X n ( x 1 , , x n ) 1 , {\displaystyle 0\leq F_{X_{1}\ldots X_{n}}(x_{1},\ldots ,x_{n})\leq 1,}
  4. lim x 1 , , x n + F X 1 X n ( x 1 , , x n ) = 1  and  lim x i F X 1 X n ( x 1 , , x n ) = 0 , for all  i . {\displaystyle \lim _{x_{1},\ldots ,x_{n}\rightarrow +\infty }F_{X_{1}\ldots X_{n}}(x_{1},\ldots ,x_{n})=1{\text{ and }}\lim _{x_{i}\rightarrow -\infty }F_{X_{1}\ldots X_{n}}(x_{1},\ldots ,x_{n})=0,{\text{for all }}i.}

Не каждая функция, удовлетворяющая четырем вышеприведенным свойствам, является многомерной CDF, в отличие от случая с одним измерением. Например, пусть для или или и пусть в противном случае. Легко видеть, что вышеуказанные условия выполнены, и все же это не CDF, поскольку если бы она была, то, как объясняется ниже. F ( x , y ) = 0 {\displaystyle F(x,y)=0} x < 0 {\displaystyle x<0} x + y < 1 {\displaystyle x+y<1} y < 0 {\displaystyle y<0} F ( x , y ) = 1 {\displaystyle F(x,y)=1} F {\displaystyle F} P ( 1 3 < X 1 , 1 3 < Y 1 ) = 1 {\textstyle \operatorname {P} \left({\frac {1}{3}}<X\leq 1,{\frac {1}{3}}<Y\leq 1\right)=-1}

Вероятность того, что точка принадлежит гиперпрямоугольнику , аналогична одномерному случаю: [11] F X 1 , X 2 ( a , c ) + F X 1 , X 2 ( b , d ) F X 1 , X 2 ( a , d ) F X 1 , X 2 ( b , c ) = P ( a < X 1 b , c < X 2 d ) = . . . {\displaystyle F_{X_{1},X_{2}}(a,c)+F_{X_{1},X_{2}}(b,d)-F_{X_{1},X_{2}}(a,d)-F_{X_{1},X_{2}}(b,c)=\operatorname {P} (a<X_{1}\leq b,c<X_{2}\leq d)=\int ...}

Сложный случай

Сложная случайная величина

Обобщение кумулятивной функции распределения с действительных на комплексные случайные величины неочевидно, поскольку выражения вида не имеют смысла. Однако выражения вида имеют смысл. Поэтому мы определяем кумулятивное распределение комплексной случайной величины через совместное распределение их действительных и мнимых частей: P ( Z 1 + 2 i ) {\displaystyle P(Z\leq 1+2i)} P ( ( Z ) 1 , ( Z ) 3 ) {\displaystyle P(\Re {(Z)}\leq 1,\Im {(Z)}\leq 3)} F Z ( z ) = F ( Z ) , ( Z ) ( ( z ) , ( z ) ) = P ( ( Z ) ( z ) , ( Z ) ( z ) ) . {\displaystyle F_{Z}(z)=F_{\Re {(Z)},\Im {(Z)}}(\Re {(z)},\Im {(z)})=P(\Re {(Z)}\leq \Re {(z)},\Im {(Z)}\leq \Im {(z)}).}

Комплексный случайный вектор

Обобщение уравнения 4 дает определение для CDS комплексного случайного вектора . F Z ( z ) = F ( Z 1 ) , ( Z 1 ) , , ( Z n ) , ( Z n ) ( ( z 1 ) , ( z 1 ) , , ( z n ) , ( z n ) ) = P ( ( Z 1 ) ( z 1 ) , ( Z 1 ) ( z 1 ) , , ( Z n ) ( z n ) , ( Z n ) ( z n ) ) {\displaystyle F_{\mathbf {Z} }(\mathbf {z} )=F_{\Re {(Z_{1})},\Im {(Z_{1})},\ldots ,\Re {(Z_{n})},\Im {(Z_{n})}}(\Re {(z_{1})},\Im {(z_{1})},\ldots ,\Re {(z_{n})},\Im {(z_{n})})=\operatorname {P} (\Re {(Z_{1})}\leq \Re {(z_{1})},\Im {(Z_{1})}\leq \Im {(z_{1})},\ldots ,\Re {(Z_{n})}\leq \Re {(z_{n})},\Im {(Z_{n})}\leq \Im {(z_{n})})} Z = ( Z 1 , , Z N ) T {\displaystyle \mathbf {Z} =(Z_{1},\ldots ,Z_{N})^{T}}

Использование в статистическом анализе

Концепция кумулятивной функции распределения явно появляется в статистическом анализе двумя (похожими) способами. Кумулятивный частотный анализ — это анализ частоты появления значений явления, меньших контрольного значения. Эмпирическая функция распределения — это формальная прямая оценка кумулятивной функции распределения, для которой можно вывести простые статистические свойства и которая может лечь в основу различных статистических проверок гипотез . Такие проверки могут оценить, есть ли доказательства против того, что выборка данных возникла из заданного распределения, или доказательства против того, что две выборки данных произошли из одного и того же (неизвестного) распределения популяции.

Тесты Колмогорова–Смирнова и Койпера

Тест Колмогорова–Смирнова основан на кумулятивных функциях распределения и может использоваться для проверки того, различаются ли два эмпирических распределения или отличается ли эмпирическое распределение от идеального распределения. Тесно связанный тест Кейпера полезен, если область распределения циклична, как в случае дня недели. Например, тест Кейпера может использоваться для проверки того, меняется ли количество торнадо в течение года или меняются ли продажи продукта в зависимости от дня недели или дня месяца.

Смотрите также

Ссылки

  1. ^ Дейзенрот, Марк Питер; Фейсал, А. Альдо; Онг, Ченг Сун (2020). Математика для машинного обучения. Cambridge University Press. стр. 181. ISBN 9781108455145.
  2. ^ abcdef Park, Kun Il (2018). Основы вероятности и стохастических процессов с приложениями к коммуникациям . Springer. ISBN 978-3-319-68074-3.
  3. ^ Монтгомери, Дуглас С.; Рангер, Джордж С. (2003). Прикладная статистика и вероятность для инженеров (PDF) . John Wiley & Sons, Inc. стр. 104. ISBN 0-471-20454-4. Архивировано (PDF) из оригинала 2012-07-30.
  4. ^ Цвиллингер, Дэниел; Кокоска, Стивен (2010). CRC Standard Probability and Statistics Tables and Formulae . CRC Press. стр. 49. ISBN 978-1-58488-059-2.
  5. ^ Gentle, JE (2009). Вычислительная статистика. Springer . ISBN 978-0-387-98145-1. Получено 2010-08-06 .[ нужна страница ]
  6. ^ Монти, К. Л. (1995). «Сложенные эмпирические кривые функции распределения (горные графики)». Американский статистик . 49 (4): 342– 345. doi :10.2307/2684570. JSTOR  2684570.
  7. ^ Сюэ, Дж. Х.; Титтерингтон, Д. М. (2011). "P-кратная кумулятивная функция распределения и среднее абсолютное отклонение от p-квантиля" (PDF) . Statistics & Probability Letters . 81 (8): 1179– 1182. doi :10.1016/j.spl.2011.03.014.
  8. ^ Чан, Стэнли Х. (2021). Введение в вероятность для науки о данных. Michigan Publishing. стр. 18. ISBN 978-1-60785-746-4.
  9. ^ Гессе, К. (1990). «Скорости сходимости для эмпирической функции распределения и эмпирической характеристической функции широкого класса линейных процессов». Журнал многомерного анализа . 35 (2): 186– 202. doi :10.1016/0047-259X(90)90024-C.
  10. ^ "Совместная кумулятивная функция распределения (CDF)". math.info . Получено 2019-12-11 .
  11. ^ "Архивная копия" (PDF) . www.math.wustl.edu . Архивировано из оригинала (PDF) 22 февраля 2016 года . Получено 13 января 2022 года .{{cite web}}: CS1 maint: archived copy as title (link)
  • Медиафайлы по теме Кумулятивные функции распределения на Wikimedia Commons
Retrieved from "https://en.wikipedia.org/w/index.php?title=Cumulative_distribution_function&oldid=1264024612"