В статистике обобщенная линейная смешанная модель ( GLMM ) является расширением обобщенной линейной модели (GLM), в которой линейный предиктор содержит случайные эффекты в дополнение к обычным фиксированным эффектам . [1] [2] [3] Они также наследуют от обобщенных линейных моделей идею расширения линейных смешанных моделей на ненормальные данные.
Обобщенные линейные смешанные модели предоставляют широкий спектр моделей для анализа сгруппированных данных, поскольку различия между группами могут быть смоделированы как случайный эффект. Эти модели полезны при анализе многих видов данных, включая продольные данные . [4]
Обобщенные линейные смешанные модели обычно определяются таким образом, что при условии случайных эффектов зависимая переменная распределяется в соответствии с экспоненциальным семейством , а ее ожидание связано с линейным предиктором через функцию связи :
Здесь и — это матрица дизайна фиксированных эффектов и фиксированные эффекты соответственно; и — это матрица дизайна случайных эффектов и случайные эффекты соответственно. Чтобы понять это очень краткое определение, вам сначала нужно будет понять определение обобщенной линейной модели и смешанной модели .
Обобщенные линейные смешанные модели являются частными случаями иерархических обобщенных линейных моделей, в которых случайные эффекты распределены нормально.
Полная вероятность [5]
не имеет общей замкнутой формы, а интегрирование по случайным эффектам обычно требует чрезвычайно больших вычислительных затрат. В дополнение к численному приближению этого интеграла (например, с помощью квадратуры Гаусса–Эрмита ), были предложены методы, мотивированные приближением Лапласа. [6] Например, метод штрафного квазиправдоподобия, который по сути включает в себя многократную подгонку (т. е. дважды итеративную) взвешенной нормальной смешанной модели с рабочей переменной, [7] реализуется различными коммерческими и открытыми статистическими программами.
Подгонка обобщенных линейных смешанных моделей с помощью максимального правдоподобия (как с помощью информационного критерия Акаике (AIC) ) включает интегрирование по случайным эффектам. В общем случае эти интегралы не могут быть выражены в аналитической форме . Были разработаны различные приближенные методы, но ни один из них не обладает хорошими свойствами для всех возможных моделей и наборов данных (например, негруппированные двоичные данные особенно проблематичны). По этой причине методы, включающие числовую квадратуру или цепь Маркова Монте-Карло, стали более распространенными, поскольку увеличение вычислительной мощности и прогресс в методах сделали их более практичными.
Критерий информации Акаике является общим критерием для выбора модели . Недавно были получены оценки критерия информации Акаике для обобщенных линейных смешанных моделей, основанных на определенных экспоненциальных распределениях семейства . [8]
lme4
[11] и glmm
. [12]fitglme
функцию для подгонки обобщенных линейных смешанных моделей.Statsmodels
поддерживает биномиальную и пуассоновскую реализации. [14]MixedModels.jl
предоставляет функцию GeneralizedLinearMixedModel
, которая подгоняет обобщенную линейную смешанную модель к предоставленным данным. [15]