Регрессия Пуассона

Статистическая модель для подсчета данных

В статистике регрессия Пуассона — это обобщенная линейная модель регрессионного анализа, используемая для моделирования данных подсчета и таблиц сопряженности . [1] Регрессия Пуассона предполагает, что переменная отклика Y имеет распределение Пуассона , и предполагает, что логарифм ее ожидаемого значения может быть смоделирован линейной комбинацией неизвестных параметров . Модель регрессии Пуассона иногда называют логлинейной моделью , особенно при использовании для моделирования таблиц сопряженности.

Отрицательная биномиальная регрессия является популярным обобщением регрессии Пуассона, поскольку она ослабляет весьма ограничительное предположение о том, что дисперсия равна среднему значению, сделанное моделью Пуассона. Традиционная модель отрицательной биномиальной регрессии основана на смешанном распределении Пуассона-гамма. Эта модель популярна, поскольку она моделирует неоднородность Пуассона с помощью гамма-распределения.

Модели регрессии Пуассона представляют собой обобщенные линейные модели с логарифмом в качестве (канонической) функции связи и функцией распределения Пуассона в качестве предполагаемого распределения вероятностей отклика.

Регрессионные модели

Если — вектор независимых переменных , то модель принимает вид х Р н {\displaystyle \mathbf {x} \in \mathbb {R} ^{n}}

бревно ( E ( Y x ) ) = α + β x , {\displaystyle \log(\operatorname {E} (Y\mid \mathbf {x} ))=\alpha +\mathbf {\beta } '\mathbf {x} ,}

где и . Иногда это записывается более компактно как α R {\displaystyle \alpha \in \mathbb {R} } β R n {\displaystyle \mathbf {\beta } \in \mathbb {R} ^{n}}

log ( E ( Y x ) ) = θ x , {\displaystyle \log(\operatorname {E} (Y\mid \mathbf {x} ))={\boldsymbol {\theta }}'\mathbf {x} ,\,}

где теперь — ( n  + 1)-мерный вектор, состоящий из n независимых переменных, объединенных с числом 1. Здесь просто объединено с . x {\displaystyle \mathbf {x} } θ {\displaystyle \theta } β {\displaystyle \beta } α {\displaystyle \alpha }

Таким образом, если задана модель регрессии Пуассона и входной вектор , то прогнозируемое среднее значение соответствующего распределения Пуассона определяется как θ {\displaystyle \theta } x {\displaystyle \mathbf {x} }

E ( Y x ) = e θ x . {\displaystyle \operatorname {E} (Y\mid \mathbf {x} )=e^{{\boldsymbol {\theta }}'\mathbf {x} }.\,}

Если независимые наблюдения с соответствующими значениями переменных-предикторов, то можно оценить по максимальному правдоподобию . Оценки максимального правдоподобия не имеют замкнутого выражения и должны быть найдены численными методами. Поверхность вероятности для регрессии Пуассона максимального правдоподобия всегда вогнутая, что делает методы Ньютона-Рафсона или другие методы на основе градиента подходящими методами оценки. Y i {\displaystyle Y_{i}} x i {\displaystyle \mathbf {x} _{i}} θ {\displaystyle \theta }

Интерпретация коэффициентов

Предположим, у нас есть модель с одним предиктором, то есть : n = 1 {\displaystyle n=1}

log ( E ( Y x ) ) = α + β x {\displaystyle \log(\operatorname {E} (Y\mid \mathbf {x} ))=\alpha +\beta x}

Предположим, мы вычисляем прогнозируемые значения в точках и : ( Y 2 , x 2 ) {\displaystyle (Y_{2},x_{2})} ( Y 1 , x 1 ) {\displaystyle (Y_{1},x_{1})}

log ( E ( Y 2 x 2 ) ) = α + β x 2 {\displaystyle \log(\operatorname {E} (Y_{2}\mid x_{2}))=\alpha +\beta x_{2}}
log ( E ( Y 1 x 1 ) ) = α + β x 1 {\displaystyle \log(\operatorname {E} (Y_{1}\mid x_{1}))=\alpha +\beta x_{1}}

Вычитаем первое из второго:

log ( E ( Y 2 x 2 ) ) log ( E ( Y 1 x 1 ) ) = β ( x 2 x 1 ) {\displaystyle \log(\operatorname {E} (Y_{2}\mid x_{2}))-\log(\operatorname {E} (Y_{1}\mid x_{1}))=\beta (x_{2}-x_{1})}

Предположим теперь, что . Получаем: x 2 = x 1 + 1 {\displaystyle x_{2}=x_{1}+1}

log ( E ( Y 2 x 2 ) ) log ( E ( Y 1 x 1 ) ) = β {\displaystyle \log(\operatorname {E} (Y_{2}\mid x_{2}))-\log(\operatorname {E} (Y_{1}\mid x_{1}))=\beta }

Таким образом, коэффициент модели следует интерпретировать как увеличение логарифма числа результирующей переменной при увеличении независимой переменной на 1.

Применяя правила логарифмов:

log ( E ( Y 2 x 2 ) E ( Y 1 x 1 ) ) = β {\displaystyle \log \left({\dfrac {\operatorname {E} (Y_{2}\mid x_{2})}{\operatorname {E} (Y_{1}\mid x_{1})}}\right)=\beta }
E ( Y 2 x 2 ) E ( Y 1 x 1 ) = e β {\displaystyle {\dfrac {\operatorname {E} (Y_{2}\mid x_{2})}{\operatorname {E} (Y_{1}\mid x_{1})}}=e^{\beta }}
E ( Y 2 x 2 ) = e β E ( Y 1 x 1 ) {\displaystyle \operatorname {E} (Y_{2}\mid x_{2})=e^{\beta }\operatorname {E} (Y_{1}\mid x_{1})}

То есть, когда независимая переменная увеличивается на 1, результирующая переменная умножается на экспоненциальный коэффициент.

Показательный коэффициент также называется коэффициентом заболеваемости .

Средний частичный эффект

Часто объектом интереса является средний частичный эффект или средний предельный эффект , который интерпретируется как изменение результата для единичного изменения независимой переменной . Средний частичный эффект в модели Пуассона для непрерывной может быть показан как: [2] E ( Y | x ) x {\displaystyle {\frac {\partial E(Y|x)}{\partial x}}} Y {\displaystyle Y} x {\displaystyle x} x {\displaystyle x}

E ( Y | x ) x = exp ( θ x ) β {\displaystyle {\frac {\partial E(Y|x)}{\partial x}}=\exp(\theta '\mathbb {x} )\beta }

Это можно оценить, используя оценки коэффициентов из модели Пуассона с наблюдаемыми значениями . θ ^ = ( α ^ , β ^ ) {\displaystyle {\hat {\theta }}=({\hat {\alpha }},{\hat {\beta }})} x {\displaystyle \mathbb {x} }

Оценка параметров на основе максимального правдоподобия

При заданном наборе параметров θ и входном векторе x среднее значение предсказанного распределения Пуассона , как указано выше, определяется как

λ := E ( Y x ) = e θ x , {\displaystyle \lambda :=\operatorname {E} (Y\mid x)=e^{\theta 'x},\,}

и, таким образом, функция массы вероятности распределения Пуассона определяется выражением

p ( y x ; θ ) = λ y y ! e λ = e y θ x e e θ x y ! {\displaystyle p(y\mid x;\theta )={\frac {\lambda ^{y}}{y!}}e^{-\lambda }={\frac {e^{y\theta 'x}e^{-e^{\theta 'x}}}{y!}}}

Теперь предположим, что нам дан набор данных, состоящий из m векторов , вместе с набором m значений . Тогда для заданного набора параметров θ вероятность достижения этого конкретного набора данных определяется как x i R n + 1 , i = 1 , , m {\displaystyle x_{i}\in \mathbb {R} ^{n+1},\,i=1,\ldots ,m} y 1 , , y m N {\displaystyle y_{1},\ldots ,y_{m}\in \mathbb {N} }

p ( y 1 , , y m x 1 , , x m ; θ ) = i = 1 m e y i θ x i e e θ x i y i ! . {\displaystyle p(y_{1},\ldots ,y_{m}\mid x_{1},\ldots ,x_{m};\theta )=\prod _{i=1}^{m}{\frac {e^{y_{i}\theta 'x_{i}}e^{-e^{\theta 'x_{i}}}}{y_{i}!}}.}

Методом максимального правдоподобия мы хотим найти набор параметров θ , который делает эту вероятность максимально возможной. Для этого уравнение сначала переписывается как функция правдоподобия в терминах θ :

L ( θ X , Y ) = i = 1 m e y i θ x i e e θ x i y i ! . {\displaystyle L(\theta \mid X,Y)=\prod _{i=1}^{m}{\frac {e^{y_{i}\theta 'x_{i}}e^{-e^{\theta 'x_{i}}}}{y_{i}!}}.}

Обратите внимание, что выражение в правой части фактически не изменилось. С формулой в таком виде обычно трудно работать; вместо этого используют логарифм правдоподобия :

( θ X , Y ) = log L ( θ X , Y ) = i = 1 m ( y i θ x i e θ x i log ( y i ! ) ) . {\displaystyle \ell (\theta \mid X,Y)=\log L(\theta \mid X,Y)=\sum _{i=1}^{m}\left(y_{i}\theta 'x_{i}-e^{\theta 'x_{i}}-\log(y_{i}!)\right).}

Обратите внимание, что параметры θ появляются только в первых двух членах каждого члена в суммировании. Поэтому, учитывая, что мы заинтересованы только в поиске наилучшего значения для θ, мы можем опустить y i ! и просто написать

( θ X , Y ) = i = 1 m ( y i θ x i e θ x i ) . {\displaystyle \ell (\theta \mid X,Y)=\sum _{i=1}^{m}\left(y_{i}\theta 'x_{i}-e^{\theta 'x_{i}}\right).}

Чтобы найти максимум, нам нужно решить уравнение , которое не имеет решения в замкнутой форме. Однако отрицательное логарифмическое правдоподобие, , является выпуклой функцией, и поэтому для нахождения оптимального значения θ можно применить стандартные методы выпуклой оптимизации, такие как градиентный спуск . ( θ X , Y ) θ = 0 {\displaystyle {\frac {\partial \ell (\theta \mid X,Y)}{\partial \theta }}=0} ( θ X , Y ) {\displaystyle -\ell (\theta \mid X,Y)}

Регрессия Пуассона на практике

Регрессия Пуассона может быть уместна, когда зависимая переменная является числом, например, таких событий , как поступление телефонного звонка в колл-центр. [3] События должны быть независимыми в том смысле, что поступление одного звонка не сделает другой более или менее вероятным, но вероятность событий за единицу времени понимается как связанная с ковариатами, такими как время суток.

«Экспозиция» и смещение

Регрессия Пуассона также может быть подходящей для данных о скорости, где скорость — это количество событий, деленное на некоторую меру воздействия этой единицы (конкретная единица наблюдения). [4] Например, биологи могут подсчитать количество видов деревьев в лесу: событиями будут наблюдения за деревьями, воздействием — единица площади, а скоростью — количество видов на единицу площади. Демографы могут моделировать показатели смертности в географических областях как количество смертей, деленное на человеко-годы. В более общем смысле показатели событий можно рассчитать как события на единицу времени, что позволяет окну наблюдения варьироваться для каждой единицы. В этих примерах воздействие — это соответственно единица площади, человеко-годы и единица времени. В регрессии Пуассона это обрабатывается как смещение . Если скорость — это количество/воздействие, умножение обеих сторон уравнения на воздействие перемещает его в правую часть уравнения. Когда обе стороны уравнения затем регистрируются, окончательная модель содержит log(воздействие) как член, который добавляется к коэффициентам регрессии. Эта регистрируемая переменная, log(экспозиция), называется переменной смещения и входит в правую часть уравнения с оценкой параметра (для log(экспозиция)), ограниченной 1.

log ( E ( Y x ) ) = θ x {\displaystyle \log(\operatorname {E} (Y\mid x))=\theta 'x}

что подразумевает

log ( E ( Y x ) exposure ) = log ( E ( Y x ) ) log ( exposure ) = θ x log ( exposure ) {\displaystyle \log \left({\frac {\operatorname {E} (Y\mid x)}{\text{exposure}}}\right)=\log(\operatorname {E} (Y\mid x))-\log({\text{exposure}})=\theta 'x-\log({\text{exposure}})}

Смещение в случае GLM в R можно осуществить с помощью offset()функции:

glm ( y ~ offset ( log ( exposition )) + x , семейство = poisson ( link = log ) )      

Чрезмерная дисперсия и нулевая инфляция

Характерной чертой распределения Пуассона является то, что его среднее значение равно его дисперсии. В определенных обстоятельствах будет обнаружено, что наблюдаемая дисперсия больше среднего; это известно как избыточная дисперсия и указывает на то, что модель не подходит. Распространенной причиной является пропуск соответствующих объясняющих переменных или зависимых наблюдений. В некоторых обстоятельствах проблема избыточной дисперсии может быть решена с помощью оценки квазиправдоподобия или отрицательного биномиального распределения . [5] [6]

Вер Хоеф и Бовенг описали разницу между квазипуассоновским (также называемым сверхдисперсией с квазиправдоподобием) и отрицательным биномиальным (эквивалентным гамма-пуассоновскому) распределением следующим образом: если E ( Y ) = μ , квазипуассоновская модель предполагает var( Y ) = θμ , в то время как гамма-пуассоновская модель предполагает var( Y ) = μ (1 +  κμ ), где θ — параметр сверхдисперсии квазипуассоновского распределения, а κ — параметр формы отрицательного биномиального распределения . Для обеих моделей параметры оцениваются с использованием итеративно перевзвешенных наименьших квадратов . Для квазипуассоновского распределения веса равны μ / θ . Для отрицательного биномиального веса равны μ / (1 +  κμ ). При большом μ и существенной экстрапуассоновской вариации отрицательные биномиальные веса ограничены 1 / κ . Вер Хоеф и Бовенг обсудили пример, в котором они выбирали между двумя вариантами, строя график зависимости среднеквадратических остатков от среднего значения. [7]

Другая распространенная проблема с регрессией Пуассона — избыточные нули: если работают два процесса, один из которых определяет, есть ли нулевые события или вообще какие-либо события, а процесс Пуассона определяет, сколько событий есть, нулей будет больше, чем предсказывает регрессия Пуассона. Примером может служить распределение сигарет, выкуриваемых в час членами группы, некоторые из которых не курят.

В этих случаях лучше могут работать другие обобщенные линейные модели, такие как отрицательная биномиальная модель или модель с нулевой инфляцией .

Напротив, недостаточная дисперсия может представлять проблему для оценки параметров. [8]

Использование в анализе выживаемости

Регрессия Пуассона создает модели пропорциональных рисков, один из классов анализа выживаемости : см. модели пропорциональных рисков для описания моделей Кокса.

Расширения

Регуляризованная регрессия Пуассона

При оценке параметров регрессии Пуассона обычно пытаются найти значения θ , которые максимизируют вероятность выражения вида

i = 1 m log ( p ( y i ; e θ x i ) ) , {\displaystyle \sum _{i=1}^{m}\log(p(y_{i};e^{\theta 'x_{i}})),}

где m — число примеров в наборе данных, а — функция массы вероятности распределения Пуассона со средним значением . Регуляризация может быть добавлена ​​к этой задаче оптимизации путем максимизации [9] p ( y i ; e θ x i ) {\displaystyle p(y_{i};e^{\theta 'x_{i}})} e θ x i {\displaystyle e^{\theta 'x_{i}}}

i = 1 m log ( p ( y i ; e θ x i ) ) λ θ 2 2 , {\displaystyle \sum _{i=1}^{m}\log(p(y_{i};e^{\theta 'x_{i}}))-\lambda \left\|\theta \right\|_{2}^{2},}

для некоторой положительной константы . Этот метод, аналогичный гребневой регрессии , может уменьшить переобучение . λ {\displaystyle \lambda }

Смотрите также

Ссылки

  1. ^ Nelder, JA (1974). «Лог-линейные модели для таблиц сопряженности: обобщение классических наименьших квадратов». Журнал Королевского статистического общества, серия C (прикладная статистика) . 23 (3): стр. 323–329. doi :10.2307/2347125. JSTOR  2347125.
  2. ^ Вулдридж, Джеффри (2010). Эконометрический анализ перекрестных и панельных данных (2-е изд.). Кембридж, Массачусетс: The MIT Press. стр. 726.
  3. ^ Грин, Уильям Х. (2003). Эконометрический анализ (Пятое издание). Prentice-Hall. С. 740–752. ISBN 978-0130661890.
  4. ^ Фром, Эдвард Л. (1983). «Анализ показателей с использованием моделей регрессии Пуассона». Биометрия . 39 (3): стр. 665–674. doi :10.2307/2531094. JSTOR  2531094.
  5. ^ Paternoster R, Brame R (1997). «Множественные пути к преступности? Проверка эволюционных и общих теорий преступности». Криминология . 35 : 49–84 . doi :10.1111/j.1745-9125.1997.tb00870.x. eISSN  1745-9125. ISSN  0011-1384.
  6. ^ Берк Р., Макдональд Дж. (2008). «Сверхдисперсия и регрессия Пуассона». Журнал количественной криминологии . 24 (3): 269– 284. doi :10.1007/s10940-008-9048-4. S2CID  121273486.
  7. ^ Ver Hoef, JAY M.; Boveng, Peter L. (2007-01-01). «Квазипуассоновская регрессия против отрицательной биномиальной регрессии: как нам моделировать чрезмерно рассеянные данные подсчетов?». Ecology . 88 (11): 2766– 2772. Bibcode :2007Ecol...88.2766V. doi :10.1890/07-0043.1. PMID  18051645 . Получено 2016-09-01 .
  8. ^ Шварценеггер, Рафаэль; Куигли, Джон; Уоллс, Лесли (23 ноября 2021 г.). «Стоит ли выявление зависимости усилий? Исследование многомерной модели вероятности Пуассона-Гаммы». Труды Института инженеров-механиков, часть O: Журнал риска и надежности . 237 (5): 5. doi : 10.1177/1748006X211059417 .
  9. ^ Perperoglou, Aris (2011-09-08). "Подгонка данных о выживании с помощью регрессии Пуассона со штрафом". Статистические методы и приложения . 20 (4). Springer Nature: 451– 462. doi :10.1007/s10260-011-0172-1. ISSN  1618-2510. S2CID  10883925.

Дальнейшее чтение

  • Кэмерон, А.С.; Триведи, П.К. (1998). Регрессионный анализ данных подсчета . Cambridge University Press. ISBN 978-0-521-63201-0.
  • Кристенсен, Рональд (1997). Логлинейные модели и логистическая регрессия . Springer Texts in Statistics (Второе изд.). Нью-Йорк: Springer-Verlag. ISBN 978-0-387-98247-2. МР  1633357.
  • Гурьеру, Кристиан (2000). «Эконометрика дискретных положительных переменных: модель Пуассона». Эконометрика качественных зависимых переменных . Нью-Йорк: Cambridge University Press. стр.  270–83 . ISBN 978-0-521-58985-7.
  • Грин, Уильям Х. (2008). «Модели для подсчета и продолжительности событий». Эконометрический анализ (8-е изд.). Верхняя Сэддл-Ривер: Prentice Hall. стр. 906–944. ISBN 978-0-13-600383-0.[ мертвая ссылка ‍ ]
  • Hilbe, JM (2007). Отрицательная биномиальная регрессия . Cambridge University Press. ISBN 978-0-521-85772-7.
  • Джонс, Эндрю М.; и др. (2013). «Модели для подсчета данных». Прикладная экономика здравоохранения . Лондон: Routledge. С.  295–341 . ISBN 978-0-415-67682-3.
  • Майерс, Рэймонд Х.; и др. (2010). «Логистические и пуассоновские регрессионные модели». Обобщенные линейные модели с приложениями в инженерии и науках (второе изд.). Нью-Джерси: Wiley. стр.  176–183 . ISBN 978-0-470-45463-3.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Poisson_regression&oldid=1261295336"