Условная логистическая регрессия — это расширение логистической регрессии , позволяющее учитывать стратификацию и сопоставление . Ее основная область применения — наблюдательные исследования и, в частности, эпидемиология . Она была разработана в 1978 году Норманом Бреслоу , Николасом Дэем , Кэтрин Халворсен , Россом Л. Прентисом и К. Сабай. [1] Это наиболее гибкая и общая процедура для сопоставленных данных.
Наблюдательные исследования используют стратификацию или сопоставление как способ контроля запутывающих факторов .
Логистическая регрессия может учитывать стратификацию, имея разный постоянный член для каждой страты. Давайте обозначим метку (например, статус случая) th-го наблюдения th-го слоя и значения соответствующих предикторов. Затем мы принимаем вероятность одного наблюдения как
где - постоянный член для th-го слоя. Параметры в этой модели можно оценить с помощью оценки максимального правдоподобия .
Например, рассмотрим оценку влияния физических упражнений на риск сердечно-сосудистых заболеваний. Если люди, которые больше занимаются спортом, моложе, имеют лучший доступ к здравоохранению или имеют другие отличия, которые улучшают их здоровье, то логистическая регрессия заболеваемости сердечно-сосудистыми заболеваниями по минутам, потраченным на занятия спортом, может переоценить влияние физических упражнений на здоровье. Чтобы решить эту проблему, мы можем сгруппировать людей на основе демографических характеристик, таких как возраст и почтовый индекс их домашнего проживания. Каждая страта представляет собой группу людей со схожими демографическими данными. Вектор содержит информацию об интересующей переменной (в данном случае о минутах, потраченных на занятия спортом) для человека в страте . Значение представляет собой влияние демографических данных на заболеваемость сердечно-сосудистыми заболеваниями , которое предполагается одинаковым для всех людей в страте. Вектор (который в этом примере является просто скаляром) представляет собой интересующую величину — влияние физических упражнений на сердечно-сосудистые заболевания. Мы также можем включить в контролирующие переменные контрольные переменные .
Логистическая регрессия, как описано выше, работает удовлетворительно, когда количество страт мало по сравнению с объемом данных. Если мы удерживаем количество страт фиксированным и увеличиваем объем данных, оценки параметров модели ( для каждого слоя и вектора ) сходятся к их истинным значениям.
Однако патологическое поведение возникает, когда у нас много маленьких страт, поскольку количество параметров растет с объемом данных. Например, если каждая страта содержит две точки данных, то количество параметров в модели с точками данных равно , поэтому количество параметров имеет тот же порядок, что и количество точек данных. В этих условиях, когда мы увеличиваем объем данных, асимптотические результаты, на которых основана оценка максимального правдоподобия, недействительны, а полученные оценки смещены. Условная логистическая регрессия решает эту проблему. Фактически, можно показать, что безусловный анализ данных сопоставленных пар приводит к оценке отношения шансов , которая является квадратом правильного, условного. [2]
В дополнение к тестам, основанным на логистической регрессии, существовало несколько других тестов до условной логистической регрессии для сопоставленных данных, как показано в связанных тестах. Однако они не позволяли анализировать непрерывные предикторы с произвольным размером страты. Все эти процедуры также не обладают гибкостью условной логистической регрессии и, в частности, возможностью контролировать ковариаты.
Условная логистическая регрессия использует подход условного правдоподобия, который имеет дело с вышеуказанным патологическим поведением, обуславливая количество случаев в каждой страте. Это устраняет необходимость оценки параметров страт.
Когда слои представляют собой пары, где первое наблюдение является случаем, а второе — контролем, это можно увидеть следующим образом:
При аналогичных вычислениях условная вероятность страты размером , при этом первыми наблюдениями являются случаи, равна
где — множество всех подмножеств размера множества .
Полное условное логарифмическое правдоподобие тогда просто сумма логарифмических правдоподобий для каждого слоя. Оценщик тогда определяется как , который максимизирует условное логарифмическое правдоподобие.
Условная логистическая регрессия доступна в R как функция clogit
в survival
пакете. Она находится в survival
пакете, потому что логарифмическое правдоподобие условной логистической модели такое же, как логарифмическое правдоподобие модели Кокса с определенной структурой данных. [3]
Он также доступен в Python через statsmodels
пакет, начиная с версии 0.14. [4]
{{cite journal}}
: CS1 maint: multiple names: authors list (link)