Обобщенное оценочное уравнение

Процедура оценки коррелированных данных

В статистике обобщенное оценочное уравнение (GEE) используется для оценки параметров обобщенной линейной модели с возможной неизмеренной корреляцией между наблюдениями из разных временных точек. [1] [2]

Оценки коэффициента регрессии бета из GEE Лянга-Зегера последовательны , несмещены и асимптотически нормальны, даже когда рабочая корреляция указана неверно, при умеренных условиях регулярности. GEE более эффективна, чем обобщенные линейные модели (GLM) при наличии высокой автокорреляции. [1] Когда известна истинная рабочая корреляция, последовательность не требует предположения, что пропущенные данные отсутствуют совершенно случайно . [1] Стандартные ошибки Хубера-Уайта повышают эффективность GEE Лянга-Зегера при отсутствии последовательной автокорреляции , но могут устранить предельную интерпретацию. GEE оценивает средний отклик по популяции («эффекты, усредненные по популяции») со стандартными ошибками Лянга-Зегера , а у отдельных лиц — со стандартными ошибками Хубера-Уайта , также известными как оценки «надежной стандартной ошибки» или «дисперсии сэндвича». [3] GEE Хубера-Уайта использовалось с 1997 года, а GEE Лян-Зегера датируется 1980-ми годами на основе ограниченного обзора литературы. [4] Несколько независимых формулировок этих оценок стандартных ошибок вносят вклад в теорию GEE. Размещение независимых оценок стандартных ошибок под общим термином «GEE» может служить примером злоупотребления терминологией .

GEE относятся к классу методов регрессии, которые называются полупараметрическими , поскольку они полагаются на спецификацию только первых двух моментов . Они являются популярной альтернативой обобщенной линейной смешанной модели на основе правдоподобия , которая более подвержена риску потери согласованности при спецификации структуры дисперсии. [5] Компромисс между неправильной спецификацией структуры дисперсии и согласованными оценками коэффициентов регрессии заключается в потере эффективности, что приводит к завышенным значениям p теста Вальда в результате более высокой дисперсии стандартных ошибок, чем у наиболее оптимальных. [6] Они обычно используются в крупных эпидемиологических исследованиях, особенно в многоцентровых когортных исследованиях , поскольку они могут обрабатывать многие типы неизмеренных зависимостей между результатами.

Формулировка

Учитывая среднюю модель для субъекта и времени , которая зависит от параметров регрессии и структуры дисперсии, оценочное уравнение формируется с помощью: [7] μ я дж {\displaystyle \mu _{ij}} я {\displaystyle я} дж {\displaystyle j} β к {\displaystyle \beta _{k}} В я {\displaystyle V_{i}}

У ( β ) = я = 1 Н μ я β В я 1 { И я μ я ( β ) } {\displaystyle U(\beta )=\sum _{i=1}^{N}{\frac {\partial \mu _{i}}{\partial \beta }}V_{i}^{-1}\{Y_{i}-\mu _{i}(\beta )\}\,\!}

Параметры оцениваются путем решения и обычно получаются с помощью алгоритма Ньютона-Рафсона . Структура дисперсии выбирается для повышения эффективности оценок параметров. Гессиан решения GEE в пространстве параметров может использоваться для вычисления надежных оценок стандартной ошибки. Термин «структура дисперсии» относится к алгебраической форме ковариационной матрицы между результатами Y в выборке. Примерами спецификаций структуры дисперсии являются независимость, взаимозаменяемость, авторегрессия, стационарная m-зависимая и неструктурированная. Наиболее популярной формой вывода по параметрам регрессии GEE является тест Вальда с использованием наивных или надежных стандартных ошибок, хотя тест Score также действителен и предпочтителен, когда сложно получить оценки информации в соответствии с альтернативной гипотезой. Тест отношения правдоподобия недействителен в этой настройке, поскольку оценочные уравнения не обязательно являются уравнениями правдоподобия. Выбор модели может быть выполнен с помощью эквивалента GEE информационного критерия Акаике (AIC), квазиправдоподобия в соответствии с критерием модели независимости (QIC). [8] β к {\displaystyle \beta _{k}} У ( β ) = 0 {\displaystyle U(\бета)=0}

Связь с обобщенным методом моментов

Обобщенное оценочное уравнение является частным случаем обобщенного метода моментов (ОММ). [9] Эта связь сразу очевидна из требования, чтобы функция оценки удовлетворяла уравнению: Э [ У ( β ) ] = 1 Н я = 1 Н μ я β В я 1 { И я μ я ( β ) } = 0 {\displaystyle \mathbb {E} [U(\beta )]={1 \over {N}}\sum _{i=1}^{N}{\frac {\partial \mu _{i}}{\partial \beta }}V_{i}^{-1}\{Y_{i}-\mu _{i}(\beta )\}\,\!=0}

Вычисление

Программное обеспечение для решения обобщенных оценочных уравнений доступно в MATLAB , [10] SAS (proc genmod [11] ), SPSS ( процедура gee [12] ), Stata ( команда xtgee [13] ), R (пакеты glmtoolbox , [14] gee , [15] geepack [16] и multgee [17] ), Julia (пакет GEE.jl [18] ) и Python (пакет statsmodels [19] ).

Доступны сравнения между программными пакетами для анализа двоично-коррелированных данных [20] [21] и порядково-коррелированных данных [22] с помощью GEE.

Смотрите также

Ссылки

  1. ^ abc Kung-Yee Liang; Scott Zeger (1986). «Анализ продольных данных с использованием обобщенных линейных моделей». Biometrika . 73 (1): 13–22 . doi : 10.1093/biomet/73.1.13 .
  2. ^ Хардин, Джеймс; Хильбе, Джозеф (2003). Обобщенные оценочные уравнения . Лондон: Chapman and Hall/CRC. ISBN 978-1-58488-307-4.
  3. ^ Абади, Альберто; Атей, Сьюзан; Имбенс, Гвидо В; Вулдридж, Джеффри М (октябрь 2022 г.). «Когда следует корректировать стандартные ошибки для кластеризации?». The Quarterly Journal of Economics . 138 (1): 1– 35. arXiv : 1710.02926 . doi : 10.1093/qje/qjac038.
  4. ^ Вулф, Фредерик; Андерсон, Дженис; Харкнесс, Дебора; Беннетт, Роберт М.; Каро, Ксавье Дж.; Голденберг, Дон Л.; Рассел, И. Джон; Юнус, Мухаммад Б. (1997). «Проспективное, продольное, многоцентровое исследование использования услуг и затрат при фибромиалгии». Артрит и ревматизм . 40 (9): 1560– 1570. doi :10.1002/art.1780400904. PMID  9324009.
  5. ^ Фонг, Y; Рю, H; Уэйкфилд, J (2010 ) . «Байесовский вывод для обобщенных линейных смешанных моделей». Биостатистика . 11 (3): 397– 412. doi :10.1093/biostatistics/kxp053. PMC 2883299. PMID  19966070. 
  6. ^ О'Брайен, Лиам М.; Фицморис, Гарретт М.; Хортон, Николас Дж. (октябрь 2006 г.). «Оценка максимального правдоподобия маргинальных парных ассоциаций с множественными исходными предикторами». Biometrical Journal . 48 (5): 860– 875. doi :10.1002/bimj.200510227. ISSN  0323-3847. PMC 1764610 . PMID  17094349. 
  7. ^ Диггл, Питер Дж.; Патрик Хегерти; Кунг-Йи Лян; Скотт Л. Зегер (2002). Анализ продольных данных . Серия Oxford Statistical Science. ISBN 978-0-19-852484-7.
  8. ^ Pan, W. (2001), «Информационный критерий Акаике в обобщенных оценочных уравнениях», Biometrics , 57 (1): 120– 125, doi : 10.1111/j.0006-341X.2001.00120.x, PMID  11252586, S2CID  7862441.
  9. ^ Breitung, Jörg; Chaganty, N. Rao; Daniel, Rhian M.; Kenward, Michael G.; Lechner, Michael; Martus, Peter; Sabo, Roy T.; Wang, You-Gan; Zorn, Christopher (2010). «Обсуждение «Обобщенных оценочных уравнений: заметки о выборе рабочей корреляционной матрицы»". Методы информации в медицине . 49 (5): 426– 432. doi :10.1055/s-0038-1625133. S2CID  3213776.
  10. ^ Сара Дж. Рэтклифф; Джастин Шульц (2008). «GEEQBOX: набор инструментов MATLAB для обобщенных оценочных уравнений и квазинаименьших квадратов». Журнал статистического программного обеспечения . 25 (14): 1– 14.
  11. ^ "Процедура GENMOD". Институт SAS.
  12. ^ "IBM SPSS Advanced Statistics". Веб-сайт IBM SPSS. 5 апреля 2024 г.
  13. ^ "Реализация GEE компанией Stata" (PDF) . Веб-сайт Stata.
  14. ^ "glmtoolbox: Набор инструментов для анализа данных с использованием обобщенных линейных моделей". CRAN. 10 октября 2023 г.
  15. ^ "gee: решатель обобщенных оценочных уравнений". CRAN. 7 ноября 2019 г.
  16. ^ geepack: Пакет обобщенных оценочных уравнений, CRAN, 18 декабря 2020 г.{{citation}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  17. ^ multgee: GEE-решатель для коррелированных номинальных или порядковых полиномиальных ответов с использованием локальной параметризации отношений шансов, CRAN, 13 мая 2021 г.{{citation}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  18. ^ Шедден, Керби (23 июня 2022 г.). «Обобщенные оценочные уравнения в Julia». GitHub . Получено 24 июня 2022 г.
  19. ^ «Обобщенные оценочные уравнения — statsmodels».
  20. ^ Андреас Циглер; Ульрике Грёмпинг (1998). «Обобщенные оценочные уравнения: сравнение процедур, доступных в коммерческих статистических программных пакетах». Biometrical Journal . 40 (3): 245– 260. doi :10.1002/(sici)1521-4036(199807)40:3<245::aid-bimj245>3.0.co;2-n.
  21. ^ Николас Дж. Хортон; Стюарт Р. Липниц (1999). «Обзор программного обеспечения для подгонки обобщенных оценочных моделей регрессии уравнения». Американский статистик . 53 (2): 160–169 . CiteSeerX 10.1.1.22.9325 . doi :10.1080/00031305.1999.10474451. 
  22. ^ Назанин Нураи; Герт Моленбергс; Эдвин Р. ван ден Хойвел (2014). "GEE для продольных порядковых данных: сравнение R-geepack, R-multgee, R-repolr, SAS-GENMOD, SPSS-GENLIN" (PDF) . Вычислительная статистика и анализ данных . 77 : 70–83 . doi :10.1016/j.csda.2014.03.009. S2CID  15063953.

Дальнейшее чтение

  • Дополнительные темы I — Обобщенные оценочные уравнения (GEE)
Получено с "https://en.wikipedia.org/w/index.php?title=Обобщенное_оценочное_уравнение&oldid=1262770995"