Статистическое распределение вероятностей для дискретных подсчетов событий
Эрмит
Функция массы вероятности
Горизонтальная ось — индекс k , количество вхождений. Функция определена только при целых значениях k . Соединительные линии — только ориентиры для глаза.
Кумулятивная функция распределения
Горизонтальная ось — это индекс k , количество вхождений. CDF разрывна в целых числах k и плоская везде, поскольку переменная, распределенная по Эрмиту, принимает только целые значения.
Распределение впервые появилось в статье «Применение математики к медицинским проблемам » [2] Андерсона Грея Маккендрика в 1926 году. В этой работе автор объясняет несколько математических методов, которые могут быть применены к медицинским исследованиям. В одном из этих методов он рассмотрел двумерное распределение Пуассона и показал, что распределение суммы двух коррелированных переменных Пуассона следует распределению, которое позже будет известно как распределение Эрмита.
В качестве практического применения Маккендрик рассмотрел распределение количества бактерий в лейкоцитах . Используя метод моментов, он подогнал данные к распределению Эрмита и нашел модель более удовлетворительной, чем подгонка к распределению Пуассона .
Распределение было официально введено и опубликовано CD Kemp и Adrienne W. Kemp в 1965 году в их работе Some Properties of 'Hermite' Distribution . Работа сосредоточена на свойствах этого распределения, например, на необходимом условии для параметров и их оценок максимального правдоподобия (MLE), анализе функции генерации вероятности (PGF) и на том, как ее можно выразить через коэффициенты (модифицированных) полиномов Эрмита . Примером, который они использовали в этой публикации, является распределение количества бактерий в лейкоцитах, которое использовало Маккендрика, но Кемп и Кемп оценивали модель с помощью метода максимального правдоподобия .
Эти же авторы опубликовали в 1966 году статью « Альтернативный вывод распределения Эрмита» . [5] В этой работе установлено, что распределение Эрмита можно получить формально, объединив распределение Пуассона с нормальным распределением .
В 1971 году YC Patel [6] провел сравнительное исследование различных процедур оценки распределения Эрмита в своей докторской диссертации. Оно включало максимальное правдоподобие, оценки моментов, оценки средней и нулевой частоты и метод четных точек.
В 1974 году Гупта и Джайн [7] провели исследование обобщенной формы распределения Эрмита.
Определение
Функция массы вероятности
Пусть X 1 и X 2 — две независимые переменные Пуассона с параметрами a 1 и a 2. Распределение вероятностей случайной величины Y = X 1 + 2 X 2 — это распределение Эрмита с параметрами a 1 и a 2 , а функция массы вероятности задается выражением [8]
где
п = 0, 1, 2, ...
а 1 , а 2 ≥ 0.
( n − 2 j )! и j ! являются факториалами чисел ( n − 2 j ) и j соответственно.
Когда случайная величина Y = X 1 + 2 X 2 распределена по закону Эрмита, где X 1 и X 2 — две независимые пуассоновские переменные с параметрами a 1 и a 2 , мы записываем
Характеристики
Функции генерации моментов и кумулянтов
Функция генерации моментов случайной величины X определяется как ожидаемое значение e t , как функция действительного параметра t . Для распределения Эрмита с параметрами X 1 и X 2 функция генерации моментов существует и равна
Кумулянтная производящая функция является логарифмом моментной производящей функции и равна [4]
Если рассмотреть коэффициент при ( it ) r r ! в разложении K ( t ), то получим r -кумулянт
Асимметрия — это третий момент , сосредоточенный вокруг среднего значения, деленного на степень стандартного отклонения 3/2 , и для распределения Эрмита равна [4]
Всегда , поэтому масса распределения сосредоточена слева.
Эксцесс
Эксцесс — это четвертый момент, сосредоточенный вокруг среднего значения, деленного на квадрат дисперсии , и для распределения Эрмита равен [4]
Избыточный эксцесс — это всего лишь поправка, делающая эксцесс нормального распределения равным нулю, и он выглядит следующим образом:
Всегда , или распределение имеет высокий острый пик около среднего значения и более толстые хвосты.
Характерная функция
В дискретном распределении характеристическая функция любой действительной случайной величины определяется как ожидаемое значение , где i — мнимая единица, а t ∈ R
Эта функция связана с функцией, генерирующей момент, через . Следовательно, для этого распределения характеристическая функция имеет вид [1]
Это распределение может иметь любое количество мод . Например, подобранное распределение для данных Маккендрика [2] имеет оценочные параметры , . Таким образом, первые пять оценочных вероятностей составляют 0,899, 0,012, 0,084, 0,001, 0,004.
Это распределение замкнуто относительно сложения или замкнуто относительно свертывания. [9] Подобно распределению Пуассона , распределение Эрмита обладает этим свойством. Если даны две случайные величины с эрмитовым распределением и , то Y = X 1 + X 2 следует распределению Эрмита, .
Это распределение допускает умеренную сверхдисперсию , поэтому его можно использовать, когда данные обладают этим свойством. [9] Случайная величина имеет сверхдисперсию, или она сверхдисперсна относительно распределения Пуассона, когда ее дисперсия больше ее ожидаемого значения. Распределение Эрмита допускает умеренную сверхдисперсию, поскольку коэффициент дисперсии всегда находится между 1 и 2,
Оценка параметров
Метод моментов
Среднее значение и дисперсия распределения Эрмита равны и , соответственно. Итак, у нас есть эти два уравнения,
Решая эти два уравнения, мы получаем оценки моментов и для a 1 и a 2 . [6]
Поскольку a 1 и a 2 оба положительны, оценки и допустимы (≥ 0) только в том случае, если .
Максимальная вероятность
При наличии выборки X 1 , ..., X m — независимых случайных величин, каждая из которых имеет распределение Эрмита, мы хотим оценить значение параметров и . Мы знаем, что среднее значение и дисперсия распределения равны и , соответственно. Используя эти два уравнения,
Мы можем параметризовать функцию вероятности с помощью μ и d
Уравнение правдоподобия не всегда имеет решение, как это показывает следующее предложение:
Предложение: [9] Пусть X 1 , ..., X m происходят из обобщенного распределения Эрмита с фиксированным n . Тогда MLE параметров равны и тогда и только тогда, когда , где обозначает эмпирический факториальный момент порядка 2.
Замечание 1: Условие эквивалентно , где - эмпирический индекс дисперсии
Замечание 2: Если условие не выполняется, то MLE параметров равны и , то есть данные аппроксимируются с использованием распределения Пуассона.
Нулевая частота и средние оценки
Обычным выбором для дискретных распределений является нулевая относительная частота набора данных, которая приравнивается к вероятности нуля при предполагаемом распределении. Наблюдая, что и . Следуя примеру YC Patel (1976) полученная система уравнений,
Видно, что для распределений с высокой вероятностью при 0 эффективность высока.
Для допустимых значений и мы должны иметь
Проверка предположения Пуассона
Когда распределение Эрмита используется для моделирования выборки данных, важно проверить, достаточно ли распределения Пуассона для соответствия данным. Следуя параметризованной функции массы вероятности, используемой для вычисления оценки максимального правдоподобия, важно подтвердить следующую гипотезу:
Где — логарифмическая функция правдоподобия. Поскольку d = 1 принадлежит границе области параметров, при нулевой гипотезе W не имеет асимптотического распределения, как ожидалось. Можно установить, что асимптотическое распределение W представляет собой смесь 50:50 константы 0 и . Верхние процентные точки α для этой смеси такие же, как и верхние процентные точки 2α для a ; например, для α = 0,01, 0,05 и 0,10 они равны 5,41189, 2,70554 и 1,64237.
«Оценка» или тест множителя Лагранжа
Статистика оценок такова: [9]
где m — количество наблюдений.
Асимптотическое распределение статистики теста оценки при нулевой гипотезе является распределением. Может быть удобно использовать знаковую версию теста оценки, то есть, следуя асимптотически стандартному нормальному распределению.
^ abc Кемп, CD; Кемп, AW (1965). «Некоторые свойства распределения «Эрмита»». Biometrika . 52 (3–4): 381–394. doi :10.1093/biomet/52.3-4.381.
^ ab McKendrick, AG (1926). «Применение математики к медицинским проблемам». Труды Эдинбургского математического общества . 44 : 98–130. doi : 10.1017/s0013091500034428 .
^ Хуэймин, Чжан; Юньсяо Лю; Бо Ли (2014). «Заметки о дискретной составной модели Пуассона с приложениями к теории риска». Страхование: Математика и экономика . 59 : 325–336. doi :10.1016/j.insmatheco.2014.09.012.
^ abcd Джонсон, Н. Л., Кемп, А. В. и Котц, С. (2005) Одномерные дискретные распределения, 3-е издание, Wiley, ISBN 978-0-471-27246-5 .
^ Кемп, Адриенна В.; Кемп CD (1966). «Альтернативный вывод распределения Эрмита». Biometrika . 53 (3–4): 627–628. doi :10.1093/biomet/53.3-4.627.
^ abc Patel, YC (1976). «Оценка даже точек и оценка моментов в распределении Эрмита». Биометрия . 32 (4): 865–873. doi :10.2307/2529270. JSTOR 2529270.
^ Гупта, РП; Джейн, ГЦ (1974). «Обобщенное распределение Эрмита и его свойства». Журнал SIAM по прикладной математике . 27 (2): 359–363. doi :10.1137/0127027. JSTOR 2100572.
^ ab Kotz, Samuel (1982–1989). Энциклопедия статистических наук . John Wiley. ISBN978-0471055525.
^ abcdefgh Puig, P. (2003). «Характеристика аддитивно замкнутых дискретных моделей с помощью свойств их оценок максимального правдоподобия с применением к обобщенным распределениям Эрмита». Журнал Американской статистической ассоциации . 98 (463): 687–692. doi :10.1198/016214503000000594. JSTOR 30045296. S2CID 120484966.