Часть серии статей о |
Регрессионный анализ |
---|
Модели |
Оценка |
Background |
В статистике упорядоченная логит -модель (также упорядоченная логистическая регрессия или модель пропорциональных шансов ) является порядковой регрессионной моделью, то есть регрессионной моделью для порядковых зависимых переменных , впервые рассмотренной Питером МакКаллахом . [1] Например, если на один вопрос опроса нужно ответить выбором между «плохо», «удовлетворительно», «хорошо», «очень хорошо» и «отлично» , а цель анализа — увидеть, насколько хорошо этот ответ может быть предсказан ответами на другие вопросы, некоторые из которых могут быть количественными, то можно использовать упорядоченную логистическую регрессию. Ее можно рассматривать как расширение модели логистической регрессии , которая применяется к дихотомическим зависимым переменным, допуская более двух (упорядоченных) категорий ответов.
Модель применима только к данным, которые соответствуют предположению о пропорциональных шансах , смысл которого можно проиллюстрировать следующим образом. Предположим, что есть пять результатов: «плохо», «удовлетворительно», «хорошо», «очень хорошо» и «отлично». Мы предполагаем, что вероятности этих результатов задаются как p 1 ( x ), p 2 ( x ), p 3 ( x ), p 4 ( x ), p 5 ( x ), все из которых являются функциями некоторой независимой переменной(ых) x . Тогда для фиксированного значения x логарифмы шансов (а не логарифмы вероятностей) ответов определенными способами равны:
Предположение о пропорциональных шансах гласит, что числа, добавленные к каждому из этих логарифмов для получения следующего, одинаковы независимо от x . Другими словами, разница между логарифмом шансов иметь плохое или удовлетворительное здоровье минус логарифм шансов иметь плохое здоровье одинакова независимо от x ; аналогично, логарифм шансов иметь плохое, удовлетворительное или хорошее здоровье минус логарифм шансов иметь плохое или удовлетворительное здоровье одинакова независимо от x ; и т. д. [2]
Примерами категорий множественных ответов являются рейтинги облигаций, опросы общественного мнения с ответами от «полностью согласен» до «полностью не согласен», уровни государственных расходов на правительственные программы (высокие, средние или низкие), выбранный уровень страхового покрытия (отсутствие, частичное или полное) и статус занятости (не работаю, работаю неполный рабочий день или полностью занят). [3]
Упорядоченный логит может быть получен из модели скрытых переменных, подобной той, из которой может быть получена бинарная логистическая регрессия . Предположим, что базовый процесс, который нужно охарактеризовать, это
где — ненаблюдаемая зависимая переменная (возможно, точный уровень согласия с утверждением, предложенным опросчиком); — вектор независимых переменных; — ошибка , предположительно соответствующая стандартному логистическому распределению; и — вектор коэффициентов регрессии, которые мы хотим оценить. Далее предположим, что, хотя мы не можем наблюдать , вместо этого мы можем наблюдать только категории ответа
где параметры являются внешне навязанными конечными точками наблюдаемых категорий. Затем упорядоченный метод логита будет использовать наблюдения по y , которые являются формой цензурированных данных по y* , для подгонки вектора параметров .
Как обычно, оценка максимального правдоподобия или байесовский вывод являются наиболее распространенными способами подбора параметров для такой модели. [4] Оцененные параметры указывают направление и величину влияния каждой независимой переменной на вероятность попадания зависимой переменной в более высокую или более низкую категорию.
Упорядоченные логистические регрессии использовались во многих областях, таких как транспорт, [5] маркетинг [6] или управление стихийными бедствиями. [7]
В клинических исследованиях эффект, который может оказать лекарство на пациента, можно смоделировать с помощью порядковой регрессии. Независимые переменные могут включать использование или неиспользование лекарства, а также контрольные переменные, такие как демографические данные и данные из истории болезни. Зависимая переменная может быть ранжирована по следующему списку: полное излечение, улучшение симптомов, отсутствие изменений, ухудшение симптомов или смерть. [ необходима цитата ]
Другим примером применения являются элементы типа Лайкерта, обычно используемые в исследованиях опросов, где респонденты оценивают свое согласие по упорядоченной шкале (например, от «Категорически не согласен» до «Категорически согласен»). Упорядоченная пробит-модель обеспечивает соответствующее соответствие этим данным, сохраняя порядок вариантов ответа, не делая никаких предположений о расстояниях между вариантами. [8]