Часть серии статей о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
В статистике регрессия Пуассона — это обобщенная линейная модель регрессионного анализа, используемая для моделирования данных подсчета и таблиц сопряженности . [1] Регрессия Пуассона предполагает, что переменная отклика Y имеет распределение Пуассона , и предполагает, что логарифм ее ожидаемого значения может быть смоделирован линейной комбинацией неизвестных параметров . Модель регрессии Пуассона иногда называют логлинейной моделью , особенно при использовании для моделирования таблиц сопряженности.
Отрицательная биномиальная регрессия является популярным обобщением регрессии Пуассона, поскольку она ослабляет весьма ограничительное предположение о том, что дисперсия равна среднему значению, сделанное моделью Пуассона. Традиционная модель отрицательной биномиальной регрессии основана на смешанном распределении Пуассона-гамма. Эта модель популярна, поскольку она моделирует неоднородность Пуассона с помощью гамма-распределения.
Модели регрессии Пуассона представляют собой обобщенные линейные модели с логарифмом в качестве (канонической) функции связи и функцией распределения Пуассона в качестве предполагаемого распределения вероятностей отклика.
Если — вектор независимых переменных , то модель принимает вид
где и . Иногда это записывается более компактно как
где теперь — ( n + 1)-мерный вектор, состоящий из n независимых переменных, объединенных с числом 1. Здесь просто объединено с .
Таким образом, если задана модель регрессии Пуассона и входной вектор , то прогнозируемое среднее значение соответствующего распределения Пуассона определяется как
Если независимые наблюдения с соответствующими значениями переменных-предикторов, то можно оценить по максимальному правдоподобию . Оценки максимального правдоподобия не имеют замкнутого выражения и должны быть найдены численными методами. Поверхность вероятности для регрессии Пуассона максимального правдоподобия всегда вогнутая, что делает методы Ньютона-Рафсона или другие методы на основе градиента подходящими методами оценки.
Предположим, у нас есть модель с одним предиктором, то есть :
Предположим, мы вычисляем прогнозируемые значения в точках и :
Вычитаем первое из второго:
Предположим теперь, что . Получаем:
Таким образом, коэффициент модели следует интерпретировать как увеличение логарифма числа результирующей переменной при увеличении независимой переменной на 1.
Применяя правила логарифмов:
То есть, когда независимая переменная увеличивается на 1, результирующая переменная умножается на экспоненциальный коэффициент.
Показательный коэффициент также называется коэффициентом заболеваемости .
Часто объектом интереса является средний частичный эффект или средний предельный эффект , который интерпретируется как изменение результата для единичного изменения независимой переменной . Средний частичный эффект в модели Пуассона для непрерывной может быть показан как: [2]
Это можно оценить, используя оценки коэффициентов из модели Пуассона с наблюдаемыми значениями .
При заданном наборе параметров θ и входном векторе x среднее значение предсказанного распределения Пуассона , как указано выше, определяется как
и, таким образом, функция массы вероятности распределения Пуассона определяется выражением
Теперь предположим, что нам дан набор данных, состоящий из m векторов , вместе с набором m значений . Тогда для заданного набора параметров θ вероятность достижения этого конкретного набора данных определяется как
Методом максимального правдоподобия мы хотим найти набор параметров θ , который делает эту вероятность максимально возможной. Для этого уравнение сначала переписывается как функция правдоподобия в терминах θ :
Обратите внимание, что выражение в правой части фактически не изменилось. С формулой в таком виде обычно трудно работать; вместо этого используют логарифм правдоподобия :
Обратите внимание, что параметры θ появляются только в первых двух членах каждого члена в суммировании. Поэтому, учитывая, что мы заинтересованы только в поиске наилучшего значения для θ, мы можем опустить y i ! и просто написать
Чтобы найти максимум, нам нужно решить уравнение , которое не имеет решения в замкнутой форме. Однако отрицательное логарифмическое правдоподобие, , является выпуклой функцией, и поэтому для нахождения оптимального значения θ можно применить стандартные методы выпуклой оптимизации, такие как градиентный спуск .
Регрессия Пуассона может быть уместна, когда зависимая переменная является числом, например, таких событий , как поступление телефонного звонка в колл-центр. [3] События должны быть независимыми в том смысле, что поступление одного звонка не сделает другой более или менее вероятным, но вероятность событий за единицу времени понимается как связанная с ковариатами, такими как время суток.
Регрессия Пуассона также может быть подходящей для данных о скорости, где скорость — это количество событий, деленное на некоторую меру воздействия этой единицы (конкретная единица наблюдения). [4] Например, биологи могут подсчитать количество видов деревьев в лесу: событиями будут наблюдения за деревьями, воздействием — единица площади, а скоростью — количество видов на единицу площади. Демографы могут моделировать показатели смертности в географических областях как количество смертей, деленное на человеко-годы. В более общем смысле показатели событий можно рассчитать как события на единицу времени, что позволяет окну наблюдения варьироваться для каждой единицы. В этих примерах воздействие — это соответственно единица площади, человеко-годы и единица времени. В регрессии Пуассона это обрабатывается как смещение . Если скорость — это количество/воздействие, умножение обеих сторон уравнения на воздействие перемещает его в правую часть уравнения. Когда обе стороны уравнения затем регистрируются, окончательная модель содержит log(воздействие) как член, который добавляется к коэффициентам регрессии. Эта регистрируемая переменная, log(экспозиция), называется переменной смещения и входит в правую часть уравнения с оценкой параметра (для log(экспозиция)), ограниченной 1.
что подразумевает
Смещение в случае GLM в R можно осуществить с помощью offset()
функции:
glm ( y ~ offset ( log ( exposition )) + x , семейство = poisson ( link = log ) )
Характерной чертой распределения Пуассона является то, что его среднее значение равно его дисперсии. В определенных обстоятельствах будет обнаружено, что наблюдаемая дисперсия больше среднего; это известно как избыточная дисперсия и указывает на то, что модель не подходит. Распространенной причиной является пропуск соответствующих объясняющих переменных или зависимых наблюдений. В некоторых обстоятельствах проблема избыточной дисперсии может быть решена с помощью оценки квазиправдоподобия или отрицательного биномиального распределения . [5] [6]
Вер Хоеф и Бовенг описали разницу между квазипуассоновским (также называемым сверхдисперсией с квазиправдоподобием) и отрицательным биномиальным (эквивалентным гамма-пуассоновскому) распределением следующим образом: если E ( Y ) = μ , квазипуассоновская модель предполагает var( Y ) = θμ , в то время как гамма-пуассоновская модель предполагает var( Y ) = μ (1 + κμ ), где θ — параметр сверхдисперсии квазипуассоновского распределения, а κ — параметр формы отрицательного биномиального распределения . Для обеих моделей параметры оцениваются с использованием итеративно перевзвешенных наименьших квадратов . Для квазипуассоновского распределения веса равны μ / θ . Для отрицательного биномиального веса равны μ / (1 + κμ ). При большом μ и существенной экстрапуассоновской вариации отрицательные биномиальные веса ограничены 1 / κ . Вер Хоеф и Бовенг обсудили пример, в котором они выбирали между двумя вариантами, строя график зависимости среднеквадратических остатков от среднего значения. [7]
Другая распространенная проблема с регрессией Пуассона — избыточные нули: если работают два процесса, один из которых определяет, есть ли нулевые события или вообще какие-либо события, а процесс Пуассона определяет, сколько событий есть, нулей будет больше, чем предсказывает регрессия Пуассона. Примером может служить распределение сигарет, выкуриваемых в час членами группы, некоторые из которых не курят.
В этих случаях лучше могут работать другие обобщенные линейные модели, такие как отрицательная биномиальная модель или модель с нулевой инфляцией .
Напротив, недостаточная дисперсия может представлять проблему для оценки параметров. [8]
Регрессия Пуассона создает модели пропорциональных рисков, один из классов анализа выживаемости : см. модели пропорциональных рисков для описания моделей Кокса.
При оценке параметров регрессии Пуассона обычно пытаются найти значения θ , которые максимизируют вероятность выражения вида
где m — число примеров в наборе данных, а — функция массы вероятности распределения Пуассона со средним значением . Регуляризация может быть добавлена к этой задаче оптимизации путем максимизации [9]
для некоторой положительной константы . Этот метод, аналогичный гребневой регрессии , может уменьшить переобучение .