Распределение Конвея–Максвелла–Пуассона

Распределение вероятностей
Конвей–Максвелл–Пуассон
Функция массы вероятности
CMP ПМФ
Кумулятивная функция распределения
CMP CDF
Параметры λ > 0 , ν 0 {\displaystyle \lambda >0,\nu \geq 0}
Поддерживать х { 0 , 1 , 2 , } {\displaystyle x\in \{0,1,2,\точки \}}
ПМФ λ х ( х ! ) ν 1 З ( λ , ν ) {\displaystyle {\frac {\lambda ^{x}}{(x!)^{\nu }}}{\frac {1}{Z(\lambda,\nu)}}}
СДФ я = 0 х Пр ( Х = я ) {\displaystyle \sum _{i=0}^{x}\Pr(X=i)}
Иметь в виду дж = 0 дж λ дж ( дж ! ) ν З ( λ , ν ) {\displaystyle \sum _{j=0}^{\infty }{\frac {j\lambda ^{j}}{(j!)^{\nu }Z(\lambda,\nu)}}}
МедианаНет закрытой формы
РежимСм. текст
Дисперсия дж = 0 дж 2 λ дж ( дж ! ) ν З ( λ , ν ) иметь в виду 2 {\displaystyle \sum _{j=0}^{\infty }{\frac {j^{2}\lambda ^{j}}{(j!)^{\nu }Z(\lambda,\nu) }}-\operatorname {среднее} ^{2}}
АсимметрияНе указано
Избыточный эксцессНе указано
ЭнтропияНе указано
МГФ З ( е т λ , ν ) З ( λ , ν ) {\displaystyle {\frac {Z(e^{t}\lambda,\nu)}{Z(\lambda,\nu)}}}
CF З ( е я т λ , ν ) З ( λ , ν ) {\displaystyle {\frac {Z(e^{it}\lambda,\nu)}{Z(\lambda,\nu)}}}
ПГФ З ( т λ , ν ) З ( λ , ν ) {\displaystyle {\frac {Z(t\lambda,\nu)}{Z(\lambda,\nu)}}}

В теории вероятностей и статистике распределение Конвея –Максвелла–Пуассона (CMP или COM–Poisson) — это дискретное распределение вероятностей, названное в честь Ричарда В. Конвея , Уильяма Л. Максвелла и Симеона Дени Пуассона , которое обобщает распределение Пуассона , добавляя параметр для моделирования избыточной и недостаточной дисперсии . Оно является членом экспоненциального семейства , [1] имеет распределение Пуассона и геометрическое распределение как частные случаи и распределение Бернулли как предельный случай . [2]

Фон

Распределение CMP было первоначально предложено Конвеем и Максвеллом в 1962 году [3] как решение для обработки систем массового обслуживания с зависящими от состояния скоростями обслуживания. Распределение CMP было введено в статистическую литературу Боутрайтом и др. 2003 [4] и Шмуэли и др. (2005). [2] Первое подробное исследование вероятностных и статистических свойств распределения было опубликовано Шмуэли и др. (2005). [2] Некоторые теоретические вероятностные результаты распределения COM-Пуассона изучаются и рассматриваются Ли и др. (2019), [5], особенно характеристики распределения COM-Пуассона.

Функция массы вероятности и основные свойства

Распределение CMP определяется как распределение с функцией массы вероятности

П ( Х = х ) = ф ( х ; λ , ν ) = λ х ( х ! ) ν 1 З ( λ , ν ) . {\displaystyle P(X=x)=f(x;\lambda,\nu)={\frac {\lambda ^{x}}{(x!)^{\nu }}}{\frac {1} {Z(\лямбда,\nu)}}.}

где :

З ( λ , ν ) = дж = 0 λ дж ( дж ! ) ν . {\displaystyle Z(\lambda,\nu)=\sum _{j=0}^{\infty }{\frac {\lambda ^{j}}{(j!)^{\nu }}}.}

Функция служит константой нормализации , поэтому функция массы вероятности в сумме дает единицу. Обратите внимание, что не имеет замкнутой формы. З ( λ , ν ) {\displaystyle Z(\lambda,\nu)} З ( λ , ν ) {\displaystyle Z(\lambda,\nu)}

Область допустимых параметров — , и , . λ , ν > 0 {\displaystyle \lambda,\nu >0} 0 < λ < 1 {\displaystyle 0<\лямбда <1} ν = 0 {\displaystyle \nu =0}

Дополнительный параметр , который не появляется в распределении Пуассона, позволяет регулировать скорость распада. Эта скорость распада представляет собой нелинейное уменьшение отношений последовательных вероятностей, в частности ν {\displaystyle \nu}

П ( Х = х 1 ) П ( Х = х ) = х ν λ . {\displaystyle {\frac {P(X=x-1)}{P(X=x)}}={\frac {x^{\nu }}{\lambda }}.}

При , распределение CMP становится стандартным распределением Пуассона и при , распределение приближается к распределению Бернулли с параметром . Когда распределение CMP сводится к геометрическому распределению с вероятностью успеха, предоставляемой . [2] ν = 1 {\displaystyle \nu =1} ν {\displaystyle \nu \to \infty } λ / ( 1 + λ ) {\displaystyle \lambda /(1+\lambda)} ν = 0 {\displaystyle \nu =0} 1 λ {\displaystyle 1-\лямбда} λ < 1 {\displaystyle \лямбда <1}

Для распределения CMP моменты можно найти с помощью рекурсивной формулы [2]

Э [ Х г + 1 ] = { λ Э [ Х + 1 ] 1 ν если  г = 0 λ г г λ Э [ Х г ] + Э [ Х ] Э [ Х г ] если  г > 0. {\displaystyle \operatorname {E} [X^{r+1}]={\begin{cases}\lambda \,\operatorname {E} [X+1]^{1-\nu }&{\text{if }}r=0\\\lambda \,{\frac {d}{d\lambda }}\operatorname {E} [X^{r}]+\operatorname {E} [X]\operatorname {E} [X^{r}]&{\text{if }}r>0.\\\end{cases}}}

Кумулятивная функция распределения

Для общего случая не существует замкнутой формулы для кумулятивной функции распределения . Если — целое число, мы можем, однако, получить следующую формулу в терминах обобщенной гипергеометрической функции : [6] ν {\displaystyle \nu} Х С М П ( λ , ν ) {\displaystyle X\sim \mathrm {CMP} (\lambda,\nu)} ν 1 {\displaystyle \nu \geq 1}

Ф ( н ) = П ( Х н ) = 1 1 Ф ν 1 ( ; н + 2 , , н + 2 ; λ ) { ( н + 1 ) ! } ν 1 0 Ф ν 1 ( ; 1 , , 1 ; λ ) . {\displaystyle F(n)=P(X\leq n)=1-{\frac {_{1}F_{\nu -1}(;n+2,\ldots,n+2;\lambda )}{{\{(n+1)!\}^{\nu -1}}_{0}F_{\nu -1}(;1,\ldots,1;\lambda )}}.}

Нормирующая константа

Многие важные сводные статистики, такие как моменты и кумулянты распределения CMP, могут быть выражены через нормализующую константу . [2] [7] Действительно, функция генерации вероятности равна , а среднее значение и дисперсия определяются как З ( λ , ν ) {\displaystyle Z(\lambda,\nu)} Э с Х = З ( с λ , ν ) / З ( λ , ν ) {\displaystyle \operatorname {E} s^{X}=Z(s\lambda,\nu)/Z(\lambda,\nu)}

Э Х = λ г г λ { вн ( З ( λ , ν ) ) } , {\displaystyle \operatorname {E} X=\lambda {\frac {d}{d\lambda }}{\big \{}\ln(Z(\lambda ,\nu )){\big \}},}
вар ( Х ) = λ г г λ Э Х . {\displaystyle \operatorname {var} (X)=\lambda {\frac {d}{d\lambda }}\operatorname {E} X.}

Функция генерации кумулянта имеет вид

г ( т ) = вн ( Э [ е т Х ] ) = вн ( З ( λ е т , ν ) ) вн ( З ( λ , ν ) ) , {\displaystyle g(t)=\ln(\operatorname {E} [e^{tX}])=\ln(Z(\lambda e^{t},\nu)) -\ln(Z(\lambda ,\ну ))}

и кумулянты задаются как

к н = г ( н ) ( 0 ) = н т н вн ( З ( λ е т , ν ) ) | т = 0 , н 1. {\displaystyle \kappa _{n}=g^{(n)}(0)={\frac {\partial ^{n}}{\partial t^{n}}}\ln(Z(\lambda e^{t},\nu )){\bigg |}_{t=0},\quad n\geq 1.}

Хотя нормирующая константа в общем случае не имеет замкнутой формы, существуют некоторые заслуживающие внимания особые случаи: З ( λ , ν ) = я = 0 λ я ( я ! ) ν {\displaystyle Z(\lambda,\nu)=\sum _{i=0}^{\infty }{\frac {\lambda ^{i}}{(i!)^{\nu }}}}

  • З ( λ , 1 ) = е λ {\displaystyle Z(\lambda,1)=\mathrm {e} ^{\lambda }}
  • З ( λ , 0 ) = ( 1 λ ) 1 {\displaystyle Z(\lambda,0)=(1-\lambda)^{-1}}
  • лим ν З ( λ , ν ) = 1 + λ {\displaystyle \lim _ {\nu \rightarrow \infty } Z (\lambda,\nu)=1+\lambda }
  • З ( λ , 2 ) = я 0 ( 2 λ ) {\displaystyle Z(\lambda,2)=I_{0}(2{\sqrt {\lambda }})} , где — модифицированная функция Бесселя первого рода. [7] я 0 ( х ) = к = 0 1 ( к ! ) 2 ( х 2 ) 2 к {\displaystyle I_{0}(x)=\sum _{k=0}^{\infty }{\frac {1}{(k!)^{2}}}{\big (}{\frac {x}{2}}{\big )}^{2k}}
  • Для целого числа нормировочная константа может быть выражена [6] как обобщенная гипергеометрическая функция: . ν {\displaystyle \nu } Z ( λ , ν ) = 0 F ν 1 ( ; 1 , , 1 ; λ ) {\displaystyle Z(\lambda ,\nu )=_{0}F_{\nu -1}(;1,\ldots ,1;\lambda )}

Поскольку нормирующая константа в общем случае не имеет замкнутой формы, представляет интерес следующее асимптотическое разложение . Зафиксируем . Тогда, как , [8] ν > 0 {\displaystyle \nu >0} λ {\displaystyle \lambda \rightarrow \infty }

Z ( λ , ν ) = exp { ν λ 1 / ν } λ ( ν 1 ) / 2 ν ( 2 π ) ( ν 1 ) / 2 ν k = 0 c k ( ν λ 1 / ν ) k , {\displaystyle Z(\lambda ,\nu )={\frac {\exp \left\{\nu \lambda ^{1/\nu }\right\}}{\lambda ^{(\nu -1)/2\nu }(2\pi )^{(\nu -1)/2}{\sqrt {\nu }}}}\sum _{k=0}^{\infty }c_{k}{\big (}\nu \lambda ^{1/\nu }{\big )}^{-k},}

где однозначно определяются расширением c j {\displaystyle c_{j}}

( Γ ( t + 1 ) ) ν = ν ν ( t + 1 / 2 ) ( 2 π ) ( ν 1 ) / 2 j = 0 c j Γ ( ν t + ( 1 + ν ) / 2 + j ) . {\displaystyle \left(\Gamma (t+1)\right)^{-\nu }={\frac {\nu ^{\nu (t+1/2)}}{\left(2\pi \right)^{(\nu -1)/2}}}\sum _{j=0}^{\infty }{\frac {c_{j}}{\Gamma (\nu t+(1+\nu )/2+j)}}.}

В частности, , , . Дальнейшие коэффициенты приведены в. [8] c 0 = 1 {\displaystyle c_{0}=1} c 1 = ν 2 1 24 {\displaystyle c_{1}={\frac {\nu ^{2}-1}{24}}} c 2 = ν 2 1 1152 ( ν 2 + 23 ) {\displaystyle c_{2}={\frac {\nu ^{2}-1}{1152}}\left(\nu ^{2}+23\right)}

Для общих значений не существует замкнутых формул для среднего значения, дисперсии и моментов распределения CMP. Однако у нас есть следующая аккуратная формула. [7] Пусть обозначает падающий факториал . Пусть , . Тогда ν {\displaystyle \nu } ( j ) r = j ( j 1 ) ( j r + 1 ) {\displaystyle (j)_{r}=j(j-1)\cdots (j-r+1)} X C M P ( λ , ν ) {\displaystyle X\sim \mathrm {CMP} (\lambda ,\nu )} λ , ν > 0 {\displaystyle \lambda ,\nu >0}

E [ ( ( X ) r ) ν ] = λ r , {\displaystyle \operatorname {E} [((X)_{r})^{\nu }]=\lambda ^{r},}

для . r N {\displaystyle r\in \mathbb {N} }

Поскольку в общем случае для моментов и кумулянтов распределения CMP не существует замкнутых формул, представляют интерес следующие асимптотические формулы. Пусть , где . Обозначим асимметрию и эксцесс , где . Тогда, как , [8] X C M P ( λ , ν ) {\displaystyle X\sim \mathrm {CMP} (\lambda ,\nu )} ν > 0 {\displaystyle \nu >0} γ 1 = κ 3 σ 3 {\displaystyle \gamma _{1}={\frac {\kappa _{3}}{\sigma ^{3}}}} γ 2 = κ 4 σ 4 {\displaystyle \gamma _{2}={\frac {\kappa _{4}}{\sigma ^{4}}}} σ 2 = V a r ( X ) {\displaystyle \sigma ^{2}=\mathrm {Var} (X)} λ {\displaystyle \lambda \rightarrow \infty }

E X = λ 1 / ν ( 1 ν 1 2 ν λ 1 / ν ν 2 1 24 ν 2 λ 2 / ν ν 2 1 24 ν 3 λ 3 / ν + O ( λ 4 / ν ) ) , {\displaystyle \operatorname {E} X=\lambda ^{1/\nu }\left(1-{\frac {\nu -1}{2\nu }}\lambda ^{-1/\nu }-{\frac {\nu ^{2}-1}{24\nu ^{2}}}\lambda ^{-2/\nu }-{\frac {\nu ^{2}-1}{24\nu ^{3}}}\lambda ^{-3/\nu }+{\mathcal {O}}(\lambda ^{-4/\nu })\right),}
V a r ( X ) = λ 1 / ν ν ( 1 + ν 2 1 24 ν 2 λ 2 / ν + ν 2 1 12 ν 3 λ 3 / ν + O ( λ 4 / ν ) ) , {\displaystyle \mathrm {Var} (X)={\frac {\lambda ^{1/\nu }}{\nu }}{\bigg (}1+{\frac {\nu ^{2}-1}{24\nu ^{2}}}\lambda ^{-2/\nu }+{\frac {\nu ^{2}-1}{12\nu ^{3}}}\lambda ^{-3/\nu }+{\mathcal {O}}(\lambda ^{-4/\nu }){\bigg )},}
κ n = λ 1 / ν ν n 1 ( 1 + ( 1 ) n ( ν 2 1 ) 24 ν 2 λ 2 / ν + ( 2 ) n ( ν 2 1 ) 48 ν 3 λ 3 / ν + O ( λ 4 / ν ) ) , {\displaystyle \kappa _{n}={\frac {\lambda ^{1/\nu }}{\nu ^{n-1}}}{\bigg (}1+{\frac {(-1)^{n}(\nu ^{2}-1)}{24\nu ^{2}}}\lambda ^{-2/\nu }+{\frac {(-2)^{n}(\nu ^{2}-1)}{48\nu ^{3}}}\lambda ^{-3/\nu }+{\mathcal {O}}(\lambda ^{-4/\nu }){\bigg )},}
γ 1 = λ 1 / 2 ν ν ( 1 5 ( ν 2 1 ) 48 ν 2 λ 2 / ν 7 ( ν 2 1 ) 24 ν 3 λ 3 / ν + O ( λ 4 / ν ) ) , {\displaystyle \gamma _{1}={\frac {\lambda ^{-1/2\nu }}{\sqrt {\nu }}}{\bigg (}1-{\frac {5(\nu ^{2}-1)}{48\nu ^{2}}}\lambda ^{-2/\nu }-{\frac {7(\nu ^{2}-1)}{24\nu ^{3}}}\lambda ^{-3/\nu }+{\mathcal {O}}(\lambda ^{-4/\nu }){\bigg )},}
γ 2 = λ 1 / ν ν ( 1 ( ν 2 1 ) 24 ν 2 λ 2 / ν + ( ν 2 1 ) 6 ν 3 λ 3 / ν + O ( λ 4 / ν ) ) , {\displaystyle \gamma _{2}={\frac {\lambda ^{-1/\nu }}{\nu }}{\bigg (}1-{\frac {(\nu ^{2}-1)}{24\nu ^{2}}}\lambda ^{-2/\nu }+{\frac {(\nu ^{2}-1)}{6\nu ^{3}}}\lambda ^{-3/\nu }+{\mathcal {O}}(\lambda ^{-4/\nu }){\bigg )},}
E [ X n ] = λ n / ν ( 1 + n ( n ν ) 2 ν λ 1 / ν + a 2 λ 2 / ν + O ( λ 3 / ν ) ) , {\displaystyle \operatorname {E} [X^{n}]=\lambda ^{n/\nu }{\bigg (}1+{\frac {n(n-\nu )}{2\nu }}\lambda ^{-1/\nu }+a_{2}\lambda ^{-2/\nu }+{\mathcal {O}}(\lambda ^{-3/\nu }){\bigg )},}

где

a 2 = n ( ν 1 ) ( 6 n ν 2 3 n ν 15 n + 4 ν + 10 ) 24 ν 2 + 1 ν 2 { ( n 3 ) + 3 ( n 4 ) } . {\displaystyle a_{2}=-{\frac {n(\nu -1)(6n\nu ^{2}-3n\nu -15n+4\nu +10)}{24\nu ^{2}}}+{\frac {1}{\nu ^{2}}}{\bigg \{}{\binom {n}{3}}+3{\binom {n}{4}}{\bigg \}}.}

Асимптотический ряд для справедлив для всех , и . κ n {\displaystyle \kappa _{n}} n 2 {\displaystyle n\geq 2} κ 1 = E X {\displaystyle \kappa _{1}=\operatorname {E} X}

Моменты для случая целого числа ν {\displaystyle \nu }

Когда — целое число, можно получить явные формулы для моментов . Случай соответствует распределению Пуассона. Предположим теперь, что . Для , [7] ν {\displaystyle \nu } ν = 1 {\displaystyle \nu =1} ν = 2 {\displaystyle \nu =2} m N {\displaystyle m\in \mathbb {N} }

E [ ( X ) m ] = λ m / 2 I m ( 2 λ ) I 0 ( 2 λ ) , {\displaystyle \operatorname {E} [(X)_{m}]={\frac {\lambda ^{m/2}I_{m}(2{\sqrt {\lambda }})}{I_{0}(2{\sqrt {\lambda }})}},}

где — модифицированная функция Бесселя первого рода. I r ( x ) {\displaystyle I_{r}(x)}

Используя формулу соединения для моментов и факториальных моментов, получаем

E X m = k = 1 m { m k } λ k / 2 I k ( 2 λ ) I 0 ( 2 λ ) . {\displaystyle \operatorname {E} X^{m}=\sum _{k=1}^{m}\left\{{m \atop k}\right\}{\frac {\lambda ^{k/2}I_{k}(2{\sqrt {\lambda }})}{I_{0}(2{\sqrt {\lambda }})}}.}

В частности, среднее значение определяется выражением X {\displaystyle X}

E X = λ I 1 ( 2 λ ) I 0 ( 2 λ ) . {\displaystyle \operatorname {E} X={\frac {{\sqrt {\lambda }}I_{1}(2{\sqrt {\lambda }})}{I_{0}(2{\sqrt {\lambda }})}}.}

Кроме того, поскольку , дисперсия определяется выражением E X 2 = λ {\displaystyle \operatorname {E} X^{2}=\lambda }

V a r ( X ) = λ ( 1 I 1 ( 2 λ ) 2 I 0 ( 2 λ ) 2 ) . {\displaystyle \mathrm {Var} (X)=\lambda \left(1-{\frac {I_{1}(2{\sqrt {\lambda }})^{2}}{I_{0}(2{\sqrt {\lambda }})^{2}}}\right).}

Предположим теперь, что это целое число. Тогда [6] ν 1 {\displaystyle \nu \geq 1}

E [ ( X ) m ] = λ m ( m ! ) ν 1 0 F ν 1 ( ; m + 1 , , m + 1 ; λ ) 0 F ν 1 ( ; 1 , , 1 ; λ ) . {\displaystyle \operatorname {E} [(X)_{m}]={\frac {\lambda ^{m}}{(m!)^{\nu -1}}}{\frac {_{0}F_{\nu -1}(;m+1,\ldots ,m+1;\lambda )}{_{0}F_{\nu -1}(;1,\ldots ,1;\lambda )}}.}

В частности,

E [ X ] = λ 0 F ν 1 ( ; 2 , , 2 ; λ ) 0 F ν 1 ( ; 1 , , 1 ; λ ) , {\displaystyle \operatorname {E} [X]=\lambda {\frac {_{0}F_{\nu -1}(;2,\ldots ,2;\lambda )}{_{0}F_{\nu -1}(;1,\ldots ,1;\lambda )}},}

и

V a r ( X ) = λ 2 2 ν 1 0 F ν 1 ( ; 3 , , 3 ; λ ) 0 F ν 1 ( ; 1 , , 1 ; λ ) + E [ X ] ( E [ X ] ) 2 . {\displaystyle \mathrm {Var} (X)={\frac {\lambda ^{2}}{2^{\nu -1}}}{\frac {_{0}F_{\nu -1}(;3,\ldots ,3;\lambda )}{_{0}F_{\nu -1}(;1,\ldots ,1;\lambda )}}+\operatorname {E} [X]-(\operatorname {E} [X])^{2}.}

Медиана, мода и среднее отклонение

Пусть . Тогда мода равна , если не является целым числом. В противном случае моды равны и . [7] X C M P ( λ , ν ) {\displaystyle X\sim \mathrm {CMP} (\lambda ,\nu )} X {\displaystyle X} λ 1 / ν {\displaystyle \lfloor \lambda ^{1/\nu }\rfloor } λ 1 / ν < m {\displaystyle \lambda ^{1/\nu }<m} X {\displaystyle X} λ 1 / ν {\displaystyle \lambda ^{1/\nu }} λ 1 / ν 1 {\displaystyle \lambda ^{1/\nu }-1}

Среднее отклонение относительно среднего значения определяется по формуле [7] X ν {\displaystyle X^{\nu }} λ {\displaystyle \lambda }

E | X ν λ | = 2 Z ( λ , ν ) 1 λ λ 1 / ν + 1 λ 1 / ν ! . {\displaystyle \operatorname {E} |X^{\nu }-\lambda |=2Z(\lambda ,\nu )^{-1}{\frac {\lambda ^{\lfloor \lambda ^{1/\nu }\rfloor +1}}{\lfloor \lambda ^{1/\nu }\rfloor !}}.}

Явная формула для медианы неизвестна , но доступен следующий асимптотический результат. [ 7] Пусть будет медианой . Тогда X {\displaystyle X} m {\displaystyle m} X CMP ( λ , ν ) {\displaystyle X\sim {\mbox{CMP}}(\lambda ,\nu )}

m = λ 1 / ν + O ( λ 1 / 2 ν ) , {\displaystyle m=\lambda ^{1/\nu }+{\mathcal {O}}\left(\lambda ^{1/2\nu }\right),}

как . λ {\displaystyle \lambda \rightarrow \infty }

Характеристика Стайна

Пусть , и предположим, что таково, что и . Тогда X CMP ( λ , ν ) {\displaystyle X\sim {\mbox{CMP}}(\lambda ,\nu )} f : Z + R {\displaystyle f:\mathbb {Z} ^{+}\mapsto \mathbb {R} } E | f ( X + 1 ) | < {\displaystyle \operatorname {E} |f(X+1)|<\infty } E | X ν f ( X ) | < {\displaystyle \operatorname {E} |X^{\nu }f(X)|<\infty }

E [ λ f ( X + 1 ) X ν f ( X ) ] = 0. {\displaystyle \operatorname {E} [\lambda f(X+1)-X^{\nu }f(X)]=0.}

Наоборот, предположим теперь, что — действительная случайная величина, поддерживаемая на , такая, что для всех ограниченных . Тогда . [7] W {\displaystyle W} Z + {\displaystyle \mathbb {Z} ^{+}} E [ λ f ( W + 1 ) W ν f ( W ) ] = 0 {\displaystyle \operatorname {E} [\lambda f(W+1)-W^{\nu }f(W)]=0} f : Z + R {\displaystyle f:\mathbb {Z} ^{+}\mapsto \mathbb {R} } W CMP ( λ , ν ) {\displaystyle W\sim {\mbox{CMP}}(\lambda ,\nu )}

Использовать как ограничивающее распределение

Пусть имеем распределение Конвея–Максвелла–биномиальное с параметрами , и . Зафиксируем и . Тогда сходится по распределению к распределению как . [7] Этот результат обобщает классическое приближение Пуассона биномиального распределения. В более общем смысле распределение CMP возникает как предельное распределение биномиального распределения Конвея–Максвелла–Пуассона. [7] Помимо того факта, что COM-биномиальное распределение приближается к COM-Пуассону, Чжан и др. (2018) [9] иллюстрируют, что COM-отрицательное биномиальное распределение с функцией массы вероятности Y n {\displaystyle Y_{n}} n {\displaystyle n} p = λ / n ν {\displaystyle p=\lambda /n^{\nu }} ν {\displaystyle \nu } λ > 0 {\displaystyle \lambda >0} ν > 0 {\displaystyle \nu >0} Y n {\displaystyle Y_{n}} C M P ( λ , ν ) {\displaystyle \mathrm {CMP} (\lambda ,\nu )} n {\displaystyle n\rightarrow \infty }

P ( X = k ) = ( Γ ( r + k ) k ! Γ ( r ) ) ν p k ( 1 p ) r i = 0 ( Γ ( r + i ) i ! Γ ( r ) ) ν p i ( 1 p ) r = ( Γ ( r + k ) k ! Γ ( r ) ) ν p k ( 1 p ) r 1 C ( r , ν , p ) , ( k = 0 , 1 , 2 , ) , {\displaystyle \mathrm {P} (X=k)={\frac {{{({\frac {\Gamma (r+k)}{k!\Gamma (r)}})}^{\nu }}{p^{k}}{{(1-p)}^{r}}}{\sum \limits _{i=0}^{\infty }{{({\frac {\Gamma (r+i)}{i!\Gamma (r)}})}^{\nu }}{p^{i}}{{(1-p)}^{r}}}}={{\left({\frac {\Gamma (r+k)}{k!\Gamma (r)}}\right)}^{\nu }}{{p^{k}}{{(1-p)}^{r}}}{\frac {1}{C(r,\nu ,p)}},\quad (k=0,1,2,\ldots ),}

сходится к предельному распределению, которое является распределением COM-Пуассона, как . r + {\displaystyle {r\to +\infty }}

  • X CMP ( λ , 1 ) {\displaystyle X\sim \operatorname {CMP} (\lambda ,1)} , затем следует распределение Пуассона с параметром . X {\displaystyle X} λ {\displaystyle \lambda }
  • Предположим . Тогда если , то имеем , что следует геометрическому распределению с функцией массы вероятности , . λ < 1 {\displaystyle \lambda <1} X C M P ( λ , 0 ) {\displaystyle X\sim \mathrm {CMP} (\lambda ,0)} X {\displaystyle X} P ( X = k ) = λ k ( 1 λ ) {\displaystyle P(X=k)=\lambda ^{k}(1-\lambda )} k 0 {\displaystyle k\geq 0}
  • Последовательность случайных величин сходится по распределению к распределению Бернулли со средним значением . X ν C M P ( λ , ν ) {\displaystyle X_{\nu }\sim \mathrm {CMP} (\lambda ,\nu )} ν {\displaystyle \nu \rightarrow \infty } λ ( 1 + λ ) 1 {\displaystyle \lambda (1+\lambda )^{-1}}

Оценка параметров

Существует несколько методов оценки параметров распределения CMP по данным. Будут рассмотрены два метода: взвешенные наименьшие квадраты и максимальное правдоподобие. Метод взвешенных наименьших квадратов прост и эффективен, но неточен. С другой стороны, максимальное правдоподобие является точным, но более сложным и требует больших вычислительных затрат.

Взвешенные наименьшие квадраты

Взвешенные наименьшие квадраты обеспечивают простой и эффективный метод получения грубых оценок параметров распределения CMP и определения того, будет ли распределение подходящей моделью. После использования этого метода следует использовать альтернативный метод для вычисления более точных оценок параметров, если модель считается подходящей.

Этот метод использует соотношение последовательных вероятностей, как обсуждалось выше. При логарифмировании обеих сторон этого уравнения возникает следующее линейное соотношение

log p x 1 p x = log λ + ν log x {\displaystyle \log {\frac {p_{x-1}}{p_{x}}}=-\log \lambda +\nu \log x}

где обозначает . При оценке параметров вероятности можно заменить относительными частотами и . Чтобы определить , является ли распределение CMP подходящей моделью, эти значения следует нанести на график для всех соотношений без нулевых значений. Если данные кажутся линейными, то модель, скорее всего, хорошо подходит. p x {\displaystyle p_{x}} Pr ( X = x ) {\displaystyle \Pr(X=x)} x {\displaystyle x} x 1 {\displaystyle x-1} log x {\displaystyle \log x}

После определения пригодности модели параметры можно оценить, подобрав регрессию на . Однако базовое предположение о гомоскедастичности нарушается, поэтому необходимо использовать регрессию с взвешенными наименьшими квадратами . Обратная весовая матрица будет иметь дисперсии каждого отношения на диагонали с одношаговыми ковариациями на первой недиагональной, обе приведены ниже. log ( p ^ x 1 / p ^ x ) {\displaystyle \log({\hat {p}}_{x-1}/{\hat {p}}_{x})} log x {\displaystyle \log x}

var [ log p ^ x 1 p ^ x ] 1 n p x + 1 n p x 1 {\displaystyle \operatorname {var} \left[\log {\frac {{\hat {p}}_{x-1}}{{\hat {p}}_{x}}}\right]\approx {\frac {1}{np_{x}}}+{\frac {1}{np_{x-1}}}}
cov ( log p ^ x 1 p ^ x , log p ^ x p ^ x + 1 ) 1 n p x {\displaystyle {\text{cov}}\left(\log {\frac {{\hat {p}}_{x-1}}{{\hat {p}}_{x}}},\log {\frac {{\hat {p}}_{x}}{{\hat {p}}_{x+1}}}\right)\approx -{\frac {1}{np_{x}}}}

Максимальная вероятность

Функция правдоподобия CMP имеет вид

L ( λ , ν x 1 , , x n ) = λ S 1 exp ( ν S 2 ) Z n ( λ , ν ) {\displaystyle {\mathcal {L}}(\lambda ,\nu \mid x_{1},\dots ,x_{n})=\lambda ^{S_{1}}\exp(-\nu S_{2})Z^{-n}(\lambda ,\nu )}

где и . Максимизация правдоподобия дает следующие два уравнения S 1 = i = 1 n x i {\displaystyle S_{1}=\sum _{i=1}^{n}x_{i}} S 2 = i = 1 n log x i ! {\displaystyle S_{2}=\sum _{i=1}^{n}\log x_{i}!}

E [ X ] = X ¯ {\displaystyle \operatorname {E} [X]={\bar {X}}}
E [ log X ! ] = log X ! ¯ {\displaystyle \operatorname {E} [\log X!]={\overline {\log X!}}}

которые не имеют аналитического решения.

Вместо этого оценки максимального правдоподобия аппроксимируются численно методом Ньютона–Рафсона . В каждой итерации ожидания, дисперсии и ковариация и аппроксимируются с использованием оценок для и из предыдущей итерации в выражении X {\displaystyle X} log X ! {\displaystyle \log X!} λ {\displaystyle \lambda } ν {\displaystyle \nu }

E [ f ( x ) ] = j = 0 f ( j ) λ j ( j ! ) ν Z ( λ , ν ) . {\displaystyle \operatorname {E} [f(x)]=\sum _{j=0}^{\infty }f(j){\frac {\lambda ^{j}}{(j!)^{\nu }Z(\lambda ,\nu )}}.}

Это продолжается до тех пор, пока не произойдет сходимость и . λ ^ {\displaystyle {\hat {\lambda }}} ν ^ {\displaystyle {\hat {\nu }}}

Обобщенная линейная модель

Базовое распределение CMP, обсуждавшееся выше, также использовалось в качестве основы для обобщенной линейной модели (GLM) с использованием байесовской формулировки. Была разработана двухзвенная GLM на основе распределения CMP [10] , и эта модель использовалась для оценки данных о дорожно-транспортных происшествиях. [11] [12] Модель CMP GLM, разработанная Гвикемой и Коффелтом (2008), основана на переформулировке распределения CMP, приведенного выше, с заменой на . Тогда неотъемлемой частью является мода распределения. Полный байесовский подход к оценке использовался с выборкой MCMC , реализованной в WinBugs с неинформативными априорными значениями для параметров регрессии. [10] [11] Этот подход является вычислительно затратным, но он дает полные апостериорные распределения для параметров регрессии и позволяет включать экспертные знания посредством использования информативных априорных значений. λ {\displaystyle \lambda } μ = λ 1 / ν {\displaystyle \mu =\lambda ^{1/\nu }} μ {\displaystyle \mu }

Была разработана классическая формулировка GLM для регрессии CMP, которая обобщает регрессию Пуассона и логистическую регрессию . [13] Это использует преимущества свойств экспоненциального семейства распределения CMP для получения элегантной оценки модели (через максимальное правдоподобие ), вывода, диагностики и интерпретации. Этот подход требует значительно меньшего времени вычислений, чем байесовский подход, ценой того, что экспертные знания не могут быть включены в модель. [13] Кроме того, он дает стандартные ошибки для параметров регрессии (через матрицу информации Фишера) по сравнению с полными апостериорными распределениями, которые можно получить с помощью байесовой формулировки. Он также обеспечивает статистический тест для уровня дисперсии по сравнению с моделью Пуассона. Доступен код для подгонки регрессии CMP, тестирования на дисперсию и оценки соответствия. [14]

Две структуры GLM, разработанные для распределения CMP, значительно расширяют возможности этого распределения для задач анализа данных.

Ссылки

  1. ^ "Регрессия Конвея–Максвелла–Пуассона". Поддержка SAS . SAS Institute, Inc. Получено 2 марта 2015 г.
  2. ^ abcdef Шмуэли Г., Минка Т., Кадане Дж. Б., Борле С. и Боутрайт П. Б. «Полезное распределение для подгонки дискретных данных: возрождение распределения Конвея–Максвелла–Пуассона». Журнал Королевского статистического общества : Серия C (Прикладная статистика) 54.1 (2005): 127–142.[1]
  3. ^ Конвей, РВ; Максвелл, У. Л. (1962), «Модель очередей с зависящими от состояния скоростями обслуживания», Журнал промышленной инженерии , 12 : 132–136
  4. ^ Боутрайт, П., Борле, С. и Кадане, Дж. Б. «Модель совместного распределения количества и времени покупки». Журнал Американской статистической ассоциации 98 (2003): 564–572.
  5. ^ Ли Б., Чжан Х., Цзяо Х. «Некоторые характеристики и свойства случайных величин COM-Пуассона». Сообщения по статистике — теория и методы, (2019).[2]
  6. ^ abc Nadarajah, S. «Полезные формулировки моментов и CDF для распределения COM–Пуассона». Статистические документы 50 (2009): 617–622.
  7. ^ abcdefghij Дейли, Ф. и Гонт, Р. Э. «Распределение Конвея–Максвелла–Пуассона: теория распределения и аппроксимация». ALEA Latin American Journal of Probability and Mathematical Statistics 13 (2016): 635–658.
  8. ^ abc Gaunt, RE, Iyengar, S., Olde Daalhuis, AB и Simsek, B. "Асимптотическое разложение для нормализующей константы распределения Конвея–Максвелла–Пуассона". Опубликовано в Annals of the Institute of Statistical Mathematics (2017+) DOI 10.1007/s10463-017-0629-6
  9. ^ Чжан Х., Тан К., Ли Б. «COM-отрицательное биномиальное распределение: моделирование сверхдисперсии и сверхвысоких нулевых завышенных данных». Frontiers of Mathematics in China, 2018, 13(4): 967–998.[3]
  10. ^ ab Guikema, SD и JP Coffelt (2008) «Гибкая модель регрессии данных подсчета для анализа риска», Анализ риска , 28 (1), 213–223. doi :10.1111/j.1539-6924.2008.01014.x
  11. ^ ab Lord, D., SD Guikema и SR Geedipally (2008) «Применение обобщенной линейной модели Конвея–Максвелла–Пуассона для анализа аварий автотранспортных средств», Accident Analysis & Prevention , 40 (3), 1123–1134. doi :10.1016/j.aap.2007.12.003
  12. ^ Лорд, Д., С. Р. Джидипалли и С. Д. Гикема (2010) «Расширение применения моделей Конвея–Максвелла–Пуассона: анализ данных о дорожно-транспортных происшествиях, демонстрирующих недостаточную дисперсию», Анализ рисков , 30 (8), 1268–1276. doi :10.1111/j.1539-6924.2010.01417.x
  13. ^ ab Sellers, KS и Shmueli, G. (2010), «Гибкая регрессионная модель для подсчета данных», Annals of Applied Statistics , 4 (2), 943–961
  14. ^ Код для моделирования COM_Poisson, Джорджтаунский университет.
  • Дистрибутивный пакет Conway–Maxwell–Poisson для R (compoisson) Джеффри Данна, часть Comprehensive R Archive Network (CRAN)
  • Дистрибутивный пакет Конвея–Максвелла–Пуассона для R (compoisson) Тома Минки, сторонний пакет
Retrieved from "https://en.wikipedia.org/w/index.php?title=Conway–Maxwell–Poisson_distribution&oldid=1175105786"