Условная логистическая регрессия

Статистический метод

Условная логистическая регрессия — это расширение логистической регрессии , позволяющее учитывать стратификацию и сопоставление . Ее основная область применения — наблюдательные исследования и, в частности, эпидемиология . Она была разработана в 1978 году Норманом Бреслоу , Николасом Дэем , Кэтрин Халворсен , Россом Л. Прентисом и К. Сабай. [1] Это наиболее гибкая и общая процедура для сопоставленных данных.

Фон

Наблюдательные исследования используют стратификацию или сопоставление как способ контроля запутывающих факторов .

Логистическая регрессия может учитывать стратификацию, имея разный постоянный член для каждой страты. Давайте обозначим метку (например, статус случая) th-го наблюдения th-го слоя и значения соответствующих предикторов. Затем мы принимаем вероятность одного наблюдения как И я { 0 , 1 } {\displaystyle Y_{i\ell }\in \{0,1\}} {\displaystyle \ell } я {\displaystyle я} Х я Р п {\displaystyle X_{i\ell }\in \mathbb {R} ^{p}}

П ( И я = 1 | Х я ) = эксп ( α я + β Х я ) 1 + эксп ( α я + β Х я ) {\displaystyle \mathbb {P} (Y_{i\ell }=1|X_{i\ell })={\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i\ell })}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i\ell })}}}

где - постоянный член для th-го слоя. Параметры в этой модели можно оценить с помощью оценки максимального правдоподобия . α я {\displaystyle \альфа _{я}} я {\displaystyle я}

Например, рассмотрим оценку влияния физических упражнений на риск сердечно-сосудистых заболеваний. Если люди, которые больше занимаются спортом, моложе, имеют лучший доступ к здравоохранению или имеют другие отличия, которые улучшают их здоровье, то логистическая регрессия заболеваемости сердечно-сосудистыми заболеваниями по минутам, потраченным на занятия спортом, может переоценить влияние физических упражнений на здоровье. Чтобы решить эту проблему, мы можем сгруппировать людей на основе демографических характеристик, таких как возраст и почтовый индекс их домашнего проживания. Каждая страта представляет собой группу людей со схожими демографическими данными. Вектор содержит информацию об интересующей переменной (в данном случае о минутах, потраченных на занятия спортом) для человека в страте . Значение представляет собой влияние демографических данных на заболеваемость сердечно-сосудистыми заболеваниями , которое предполагается одинаковым для всех людей в страте. Вектор (который в этом примере является просто скаляром) представляет собой интересующую величину — влияние физических упражнений на сердечно-сосудистые заболевания. Мы также можем включить в контролирующие переменные контрольные переменные . {\displaystyle \ell } Х я {\displaystyle X_{i\ell }} я {\displaystyle я} {\displaystyle \ell } α я {\displaystyle \альфа _{я}} И я {\displaystyle Y_{i\ell }} β {\displaystyle {\boldsymbol {\beta }}} Х я {\displaystyle X_{i\ell }}

Мотивация

Логистическая регрессия, как описано выше, работает удовлетворительно, когда количество страт мало по сравнению с объемом данных. Если мы удерживаем количество страт фиксированным и увеличиваем объем данных, оценки параметров модели ( для каждого слоя и вектора ) сходятся к их истинным значениям. α я {\displaystyle \альфа _{я}} β {\displaystyle {\boldsymbol {\beta }}}

Однако патологическое поведение возникает, когда у нас много маленьких страт, поскольку количество параметров растет с объемом данных. Например, если каждая страта содержит две точки данных, то количество параметров в модели с точками данных равно , поэтому количество параметров имеет тот же порядок, что и количество точек данных. В этих условиях, когда мы увеличиваем объем данных, асимптотические результаты, на которых основана оценка максимального правдоподобия, недействительны, а полученные оценки смещены. Условная логистическая регрессия решает эту проблему. Фактически, можно показать, что безусловный анализ данных сопоставленных пар приводит к оценке отношения шансов , которая является квадратом правильного, условного. [2] Н {\displaystyle N} Н / 2 + п {\displaystyle N/2+p}

В дополнение к тестам, основанным на логистической регрессии, существовало несколько других тестов до условной логистической регрессии для сопоставленных данных, как показано в связанных тестах. Однако они не позволяли анализировать непрерывные предикторы с произвольным размером страты. Все эти процедуры также не обладают гибкостью условной логистической регрессии и, в частности, возможностью контролировать ковариаты.

Условная вероятность

Условная логистическая регрессия использует подход условного правдоподобия, который имеет дело с вышеуказанным патологическим поведением, обуславливая количество случаев в каждой страте. Это устраняет необходимость оценки параметров страт.

Когда слои представляют собой пары, где первое наблюдение является случаем, а второе — контролем, это можно увидеть следующим образом:

П ( И я 1 = 1 , И я 2 = 0 | Х я 1 , Х я 2 , И я 1 + И я 2 = 1 ) = П ( И я 1 = 1 | Х я 1 ) П ( И я 2 = 0 | Х я 2 ) П ( И я 1 = 1 | Х я 1 ) П ( И я 2 = 0 | Х я 2 ) + П ( И я 1 = 0 | Х я 1 ) П ( И я 2 = 1 | Х я 2 )   = эксп ( α я + β Х я 1 ) 1 + эксп ( α я + β Х я 1 ) × 1 1 + эксп ( α я + β Х я 2 ) эксп ( α я + β Х я 1 ) 1 + эксп ( α я + β Х я 1 ) × 1 1 + эксп ( α я + β Х я 2 ) + 1 1 + эксп ( α я + β Х я 1 ) × эксп ( α я + β Х я 2 ) 1 + эксп ( α я + β Х я 2 )   = эксп ( β Х я 1 ) эксп ( β Х я 1 ) + эксп ( β Х я 2 ) . {\displaystyle {\begin{aligned}&\mathbb {P} (Y_{i1}=1,Y_{i2}=0|X_{i1},X_{i2},Y_{i1}+Y_{i2}=1)\\&={\frac {\mathbb {P} (Y_{i1}=1|X_{i1})\mathbb {P} (Y_{i2}=0|X_{i2})}{\mathbb {P} (Y_{i1}=1|X_{i1})\mathbb {P} (Y_{i2}=0|X_{i2})+\mathbb {P} (Y_{i1}=0|X_{i1})\mathbb {P} (Y_{i2}=1|X_{i2})}}\\[6pt]\ &={\frac {{\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}}\times {\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}}}{{\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}}\times {\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}}+{\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}}\times {\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}}}}\\[6pt]\ &={\frac {\exp({\boldsymbol {\beta }}^{\top }X_{i1})}{\exp({\boldsymbol {\beta }}^{\top }X_{i1})+\exp({\boldsymbol {\beta }}^{\top }X_{i2})}}.\\[6pt]\end{aligned}}}

При аналогичных вычислениях условная вероятность страты размером , при этом первыми наблюдениями являются случаи, равна m {\displaystyle m} k {\displaystyle k}

P ( Y i j = 1  for  j k , Y i j = 0  for  k < j m | X i 1 , . . . , X i m , j = 1 m Y i j = k ) = exp ( j = 1 k β X i j ) J C k m exp ( j J β X i j ) , {\displaystyle \mathbb {P} (Y_{ij}=1{\text{ for }}j\leq k,Y_{ij}=0{\text{ for }}k<j\leq m|X_{i1},...,X_{im},\sum _{j=1}^{m}Y_{ij}=k)={\frac {\exp(\sum _{j=1}^{k}{\boldsymbol {\beta }}^{\top }X_{ij})}{\sum _{J\in {\mathcal {C}}_{k}^{m}}\exp(\sum _{j\in J}{\boldsymbol {\beta }}^{\top }X_{ij})}},}

где — множество всех подмножеств размера множества . C k m {\displaystyle {\mathcal {C}}_{k}^{m}} k {\displaystyle k} { 1 , . . . , m } {\displaystyle \{1,...,m\}}

Полное условное логарифмическое правдоподобие тогда просто сумма логарифмических правдоподобий для каждого слоя. Оценщик тогда определяется как , который максимизирует условное логарифмическое правдоподобие. β {\displaystyle \beta }

Выполнение

Условная логистическая регрессия доступна в R как функция clogitв survivalпакете. Она находится в survivalпакете, потому что логарифмическое правдоподобие условной логистической модели такое же, как логарифмическое правдоподобие модели Кокса с определенной структурой данных. [3]

Он также доступен в Python через statsmodelsпакет, начиная с версии 0.14. [4]

  • Тест парных разностей позволяет проверить связь между бинарным результатом и непрерывным предиктором, принимая во внимание сопряжение.
  • Тест Кохрана-Мантеля-Хензеля позволяет проверить связь между бинарным результатом и бинарным предиктором, принимая во внимание стратификацию с произвольным размером страт. Когда его условия применения проверены, он идентичен тесту условной логистической регрессии . [ 5]

Примечания

  1. ^ Breslow NE, Day NE, Halvorsen KT, Prentice RL, Sabai C (1978). «Оценка множественных функций относительного риска в сопоставленных исследованиях случай-контроль». Am J Epidemiol . 108 (4): 299– 307. doi :10.1093/oxfordjournals.aje.a112623. PMID  727199.
  2. ^ Бреслоу, NE; Дэй, NE (1980). Статистические методы в исследовании рака. Том 1 — Анализ исследований случай-контроль. Лион, Франция: IARC. С.  249–251 . Архивировано из оригинала 26.12.2016 . Получено 04.11.2016 .
  3. ^ Ламли, Томас. "R-документация. Условная логистическая регрессия" . Получено 3 ноября 2016 г.
  4. ^ "statsmodels.discrete.conditional_models.ConditionalLogit" . Получено 25 марта 2023 г. .
  5. ^ Day, NE, Byar, DP (1979). «Проверка гипотез в исследованиях случай-контроль — эквивалентность статистик Мантеля-Хензеля и тестов логарифмических оценок». Биометрия . 35 (3): 623– 630. doi :10.2307/2530253. JSTOR  2530253. PMID  497345.{{cite journal}}: CS1 maint: multiple names: authors list (link)
Retrieved from "https://en.wikipedia.org/w/index.php?title=Conditional_logistic_regression&oldid=1224436388"