Распределение CMP было первоначально предложено Конвеем и Максвеллом в 1962 году [3] как решение для обработки систем массового обслуживания с зависящими от состояния скоростями обслуживания. Распределение CMP было введено в статистическую литературу Боутрайтом и др. 2003 [4] и Шмуэли и др. (2005). [2] Первое подробное исследование вероятностных и статистических свойств распределения было опубликовано Шмуэли и др. (2005). [2] Некоторые теоретические вероятностные результаты распределения COM-Пуассона изучаются и рассматриваются Ли и др. (2019), [5], особенно характеристики распределения COM-Пуассона.
Функция служит константой нормализации , поэтому функция массы вероятности в сумме дает единицу. Обратите внимание, что не имеет замкнутой формы.
Область допустимых параметров — , и , .
Дополнительный параметр , который не появляется в распределении Пуассона, позволяет регулировать скорость распада. Эта скорость распада представляет собой нелинейное уменьшение отношений последовательных вероятностей, в частности
Многие важные сводные статистики, такие как моменты и кумулянты распределения CMP, могут быть выражены через нормализующую константу . [2] [7] Действительно, функция генерации вероятности равна , а среднее значение и дисперсия определяются как
Для целого числа нормировочная константа может быть выражена [6] как обобщенная гипергеометрическая функция: .
Поскольку нормирующая константа в общем случае не имеет замкнутой формы, представляет интерес следующее асимптотическое разложение . Зафиксируем . Тогда, как , [8]
где однозначно определяются расширением
В частности, , , . Дальнейшие коэффициенты приведены в. [8]
Моменты, кумулянты и связанные с ними результаты
Для общих значений не существует замкнутых формул для среднего значения, дисперсии и моментов распределения CMP. Однако у нас есть следующая аккуратная формула. [7] Пусть обозначает падающий факториал . Пусть , . Тогда
для .
Поскольку в общем случае для моментов и кумулянтов распределения CMP не существует замкнутых формул, представляют интерес следующие асимптотические формулы. Пусть , где . Обозначим асимметрию и эксцесс , где . Тогда, как , [8]
где
Асимптотический ряд для справедлив для всех , и .
Моменты для случая целого числа
Когда — целое число, можно получить явные формулы для моментов . Случай соответствует распределению Пуассона. Предположим теперь, что . Для , [7]
Используя формулу соединения для моментов и факториальных моментов, получаем
В частности, среднее значение определяется выражением
Кроме того, поскольку , дисперсия определяется выражением
Предположим теперь, что это целое число. Тогда [6]
В частности,
и
Медиана, мода и среднее отклонение
Пусть . Тогда мода равна , если не является целым числом. В противном случае моды равны и . [7]
Среднее отклонение относительно среднего значения определяется по формуле [7]
Явная формула для медианы неизвестна , но доступен следующий асимптотический результат. [ 7] Пусть будет медианой . Тогда
как .
Характеристика Стайна
Пусть , и предположим, что таково, что и . Тогда
Наоборот, предположим теперь, что — действительная случайная величина, поддерживаемая на , такая, что для всех ограниченных . Тогда . [7]
Использовать как ограничивающее распределение
Пусть имеем распределение Конвея–Максвелла–биномиальное с параметрами , и . Зафиксируем и . Тогда сходится по распределению к распределению как . [7] Этот результат обобщает классическое приближение Пуассона биномиального распределения. В более общем смысле распределение CMP возникает как предельное распределение биномиального распределения Конвея–Максвелла–Пуассона. [7] Помимо того факта, что COM-биномиальное распределение приближается к COM-Пуассону, Чжан и др. (2018) [9] иллюстрируют, что COM-отрицательное биномиальное распределение с функцией массы вероятности
сходится к предельному распределению, которое является распределением COM-Пуассона, как .
Связанные дистрибутивы
, затем следует распределение Пуассона с параметром .
Предположим . Тогда если , то имеем , что следует геометрическому распределению с функцией массы вероятности , .
Последовательность случайных величин сходится по распределению к распределению Бернулли со средним значением .
Оценка параметров
Существует несколько методов оценки параметров распределения CMP по данным. Будут рассмотрены два метода: взвешенные наименьшие квадраты и максимальное правдоподобие. Метод взвешенных наименьших квадратов прост и эффективен, но неточен. С другой стороны, максимальное правдоподобие является точным, но более сложным и требует больших вычислительных затрат.
Взвешенные наименьшие квадраты
Взвешенные наименьшие квадраты обеспечивают простой и эффективный метод получения грубых оценок параметров распределения CMP и определения того, будет ли распределение подходящей моделью. После использования этого метода следует использовать альтернативный метод для вычисления более точных оценок параметров, если модель считается подходящей.
Этот метод использует соотношение последовательных вероятностей, как обсуждалось выше. При логарифмировании обеих сторон этого уравнения возникает следующее линейное соотношение
где обозначает . При оценке параметров вероятности можно заменить относительными частотами и . Чтобы определить , является ли распределение CMP подходящей моделью, эти значения следует нанести на график для всех соотношений без нулевых значений. Если данные кажутся линейными, то модель, скорее всего, хорошо подходит.
После определения пригодности модели параметры можно оценить, подобрав регрессию на . Однако базовое предположение о гомоскедастичности нарушается, поэтому необходимо использовать регрессию с взвешенными наименьшими квадратами . Обратная весовая матрица будет иметь дисперсии каждого отношения на диагонали с одношаговыми ковариациями на первой недиагональной, обе приведены ниже.
где и . Максимизация правдоподобия дает следующие два уравнения
которые не имеют аналитического решения.
Вместо этого оценки максимального правдоподобия аппроксимируются численно методом Ньютона–Рафсона . В каждой итерации ожидания, дисперсии и ковариация и аппроксимируются с использованием оценок для и из предыдущей итерации в выражении
Это продолжается до тех пор, пока не произойдет сходимость и .
Обобщенная линейная модель
Базовое распределение CMP, обсуждавшееся выше, также использовалось в качестве основы для обобщенной линейной модели (GLM) с использованием байесовской формулировки. Была разработана двухзвенная GLM на основе распределения CMP [10]
, и эта модель использовалась для оценки данных о дорожно-транспортных происшествиях. [11] [12] Модель CMP GLM, разработанная Гвикемой и Коффелтом (2008), основана на переформулировке распределения CMP, приведенного выше, с заменой на . Тогда неотъемлемой частью является мода распределения. Полный байесовский подход к оценке использовался с выборкой MCMC , реализованной в WinBugs с неинформативными априорными значениями для параметров регрессии. [10] [11] Этот подход является вычислительно затратным, но он дает полные апостериорные распределения для параметров регрессии и позволяет включать экспертные знания посредством использования информативных априорных значений.
Была разработана классическая формулировка GLM для регрессии CMP, которая обобщает регрессию Пуассона и логистическую регрессию . [13] Это использует преимущества свойств экспоненциального семейства распределения CMP для получения элегантной оценки модели (через максимальное правдоподобие ), вывода, диагностики и интерпретации. Этот подход требует значительно меньшего времени вычислений, чем байесовский подход, ценой того, что экспертные знания не могут быть включены в модель. [13] Кроме того, он дает стандартные ошибки для параметров регрессии (через матрицу информации Фишера) по сравнению с полными апостериорными распределениями, которые можно получить с помощью байесовой формулировки. Он также обеспечивает статистический тест для уровня дисперсии по сравнению с моделью Пуассона. Доступен код для подгонки регрессии CMP, тестирования на дисперсию и оценки соответствия. [14]
Две структуры GLM, разработанные для распределения CMP, значительно расширяют возможности этого распределения для задач анализа данных.
Ссылки
^ "Регрессия Конвея–Максвелла–Пуассона". Поддержка SAS . SAS Institute, Inc. Получено 2 марта 2015 г.
^ abcdef Шмуэли Г., Минка Т., Кадане Дж. Б., Борле С. и Боутрайт П. Б. «Полезное распределение для подгонки дискретных данных: возрождение распределения Конвея–Максвелла–Пуассона». Журнал Королевского статистического общества : Серия C (Прикладная статистика) 54.1 (2005): 127–142.[1]
^ Конвей, РВ; Максвелл, У. Л. (1962), «Модель очередей с зависящими от состояния скоростями обслуживания», Журнал промышленной инженерии , 12 : 132–136
^ Ли Б., Чжан Х., Цзяо Х. «Некоторые характеристики и свойства случайных величин COM-Пуассона». Сообщения по статистике — теория и методы, (2019).[2]
^ abc Nadarajah, S. «Полезные формулировки моментов и CDF для распределения COM–Пуассона». Статистические документы 50 (2009): 617–622.
^ abcdefghij Дейли, Ф. и Гонт, Р. Э. «Распределение Конвея–Максвелла–Пуассона: теория распределения и аппроксимация». ALEA Latin American Journal of Probability and Mathematical Statistics 13 (2016): 635–658.
^ abc Gaunt, RE, Iyengar, S., Olde Daalhuis, AB и Simsek, B. "Асимптотическое разложение для нормализующей константы распределения Конвея–Максвелла–Пуассона". Опубликовано в Annals of the Institute of Statistical Mathematics (2017+) DOI 10.1007/s10463-017-0629-6
^ Чжан Х., Тан К., Ли Б. «COM-отрицательное биномиальное распределение: моделирование сверхдисперсии и сверхвысоких нулевых завышенных данных». Frontiers of Mathematics in China, 2018, 13(4): 967–998.[3]
^ ab Guikema, SD и JP Coffelt (2008) «Гибкая модель регрессии данных подсчета для анализа риска», Анализ риска , 28 (1), 213–223. doi :10.1111/j.1539-6924.2008.01014.x
^ ab Lord, D., SD Guikema и SR Geedipally (2008) «Применение обобщенной линейной модели Конвея–Максвелла–Пуассона для анализа аварий автотранспортных средств», Accident Analysis & Prevention , 40 (3), 1123–1134. doi :10.1016/j.aap.2007.12.003
^ Лорд, Д., С. Р. Джидипалли и С. Д. Гикема (2010) «Расширение применения моделей Конвея–Максвелла–Пуассона: анализ данных о дорожно-транспортных происшествиях, демонстрирующих недостаточную дисперсию», Анализ рисков , 30 (8), 1268–1276. doi :10.1111/j.1539-6924.2010.01417.x
^ ab Sellers, KS и Shmueli, G. (2010), «Гибкая регрессионная модель для подсчета данных», Annals of Applied Statistics , 4 (2), 943–961
^ Код для моделирования COM_Poisson, Джорджтаунский университет.
Внешние ссылки
Дистрибутивный пакет Conway–Maxwell–Poisson для R (compoisson) Джеффри Данна, часть Comprehensive R Archive Network (CRAN)
Дистрибутивный пакет Конвея–Максвелла–Пуассона для R (compoisson) Тома Минки, сторонний пакет