Пробит-модель

Статистическая регрессия, где зависимая переменная может принимать только два значения

В статистике пробит- модель — это тип регрессии , в которой зависимая переменная может принимать только два значения, например, женат или не женат. Слово является портманто, происходящим от probability + un it . [ 1 ] Целью модели является оценка вероятности того, что наблюдение с определенными характеристиками попадет в определенную категорию; более того, классификация наблюдений на основе их предсказанных вероятностей является типом модели бинарной классификации .

Пробит - модель — это популярная спецификация для модели бинарного отклика . Как таковая, она решает тот же набор проблем, что и логистическая регрессия , используя схожие методы. При рассмотрении в рамках обобщенной линейной модели пробит-модель использует функцию связи пробит . [2] Чаще всего она оценивается с использованием процедуры максимального правдоподобия , [3] такая оценка называется пробит-регрессией .

Концептуальная основа

Предположим, что переменная ответа Y является бинарной , то есть она может иметь только два возможных результата , которые мы обозначим как 1 и 0. Например, Y может представлять наличие/отсутствие определенного условия, успех/неудачу некоторого устройства, ответ да/нет в опросе и т. д. У нас также есть вектор регрессоров X , которые, как предполагается, влияют на результат Y. В частности, мы предполагаем, что модель принимает вид

P ( Y = 1 X ) = Φ ( X T β ) , {\displaystyle P(Y=1\mid X)=\Phi (X^{\operatorname {T} }\beta ),}

где Pвероятность , а — кумулятивная функция распределения ( CDF ) стандартного нормального распределения . Параметры β обычно оцениваются методом максимального правдоподобия . Φ {\displaystyle \Phi }

Можно мотивировать модель пробит как модель скрытой переменной . Предположим, что существует вспомогательная случайная величина

Y = X T β + ε , {\displaystyle Y^{\ast }=X^{T}\beta +\varepsilon ,}

где ε ~ N (0, 1). Тогда Y можно рассматривать как индикатор того, является ли эта скрытая переменная положительной:

Y = { 1 Y > 0 0 otherwise } = { 1 X T β + ε > 0 0 otherwise } {\displaystyle Y=\left.{\begin{cases}1&Y^{*}>0\\0&{\text{otherwise}}\end{cases}}\right\}=\left.{\begin{cases}1&X^{\operatorname {T} }\beta +\varepsilon >0\\0&{\text{otherwise}}\end{cases}}\right\}}

Использование стандартного нормального распределения не приводит к потере общности по сравнению с использованием нормального распределения с произвольным средним значением и стандартным отклонением, поскольку прибавление фиксированной величины к среднему значению можно компенсировать вычитанием той же величины из отсекаемого значения, а умножение стандартного отклонения на фиксированную величину можно компенсировать умножением весов на ту же величину.

Чтобы убедиться в эквивалентности двух моделей, обратите внимание, что

P ( Y = 1 X ) = P ( Y > 0 ) = P ( X T β + ε > 0 ) = P ( ε > X T β ) = P ( ε < X T β ) by symmetry of the normal distribution = Φ ( X T β ) {\displaystyle {\begin{aligned}P(Y=1\mid X)&=P(Y^{\ast }>0)\\&=P(X^{\operatorname {T} }\beta +\varepsilon >0)\\&=P(\varepsilon >-X^{\operatorname {T} }\beta )\\&=P(\varepsilon <X^{\operatorname {T} }\beta )&{\text{by symmetry of the normal distribution}}\\&=\Phi (X^{\operatorname {T} }\beta )\end{aligned}}}

Оценка модели

Оценка максимального правдоподобия

Предположим, что набор данных содержит n независимых статистических единиц, соответствующих приведенной выше модели. { y i , x i } i = 1 n {\displaystyle \{y_{i},x_{i}\}_{i=1}^{n}}

Для отдельного наблюдения, обусловленного вектором входных данных этого наблюдения, мы имеем:

P ( y i = 1 | x i ) = Φ ( x i T β ) {\displaystyle P(y_{i}=1|x_{i})=\Phi (x_{i}^{\operatorname {T} }\beta )}
P ( y i = 0 | x i ) = 1 Φ ( x i T β ) {\displaystyle P(y_{i}=0|x_{i})=1-\Phi (x_{i}^{\operatorname {T} }\beta )}

где — вектор входных данных, а — вектор коэффициентов. x i {\displaystyle x_{i}} K × 1 {\displaystyle K\times 1} β {\displaystyle \beta } K × 1 {\displaystyle K\times 1}

Тогда вероятность единичного наблюдения равна ( y i , x i ) {\displaystyle (y_{i},x_{i})}

L ( β ; y i , x i ) = Φ ( x i T β ) y i [ 1 Φ ( x i T β ) ] ( 1 y i ) {\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}^{\operatorname {T} }\beta )^{y_{i}}[1-\Phi (x_{i}^{\operatorname {T} }\beta )]^{(1-y_{i})}}

В самом деле, если , то , и если , то . y i = 1 {\displaystyle y_{i}=1} L ( β ; y i , x i ) = Φ ( x i T β ) {\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}^{\operatorname {T} }\beta )} y i = 0 {\displaystyle y_{i}=0} L ( β ; y i , x i ) = 1 Φ ( x i T β ) {\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=1-\Phi (x_{i}^{\operatorname {T} }\beta )}

Поскольку наблюдения независимы и одинаково распределены, то правдоподобие всей выборки, или совместное правдоподобие , будет равно произведению правдоподобий отдельных наблюдений:

L ( β ; Y , X ) = i = 1 n ( Φ ( x i T β ) y i [ 1 Φ ( x i T β ) ] ( 1 y i ) ) {\displaystyle {\mathcal {L}}(\beta ;Y,X)=\prod _{i=1}^{n}\left(\Phi (x_{i}^{\operatorname {T} }\beta )^{y_{i}}[1-\Phi (x_{i}^{\operatorname {T} }\beta )]^{(1-y_{i})}\right)}

Таким образом, совместная логарифмическая функция правдоподобия имеет вид

ln L ( β ; Y , X ) = i = 1 n ( y i ln Φ ( x i T β ) + ( 1 y i ) ln ( 1 Φ ( x i T β ) ) ) {\displaystyle \ln {\mathcal {L}}(\beta ;Y,X)=\sum _{i=1}^{n}{\bigg (}y_{i}\ln \Phi (x_{i}^{\operatorname {T} }\beta )+(1-y_{i})\ln \!{\big (}1-\Phi (x_{i}^{\operatorname {T} }\beta ){\big )}{\bigg )}}

Оценщик , который максимизирует эту функцию, будет последовательным , асимптотически нормальным и эффективным при условии, что существует и не является сингулярным. Можно показать, что эта функция логарифмического правдоподобия глобально вогнута в , и поэтому стандартные численные алгоритмы оптимизации быстро сойдутся к уникальному максимуму. β ^ {\displaystyle {\hat {\beta }}} E [ X X T ] {\displaystyle \operatorname {E} [XX^{\operatorname {T} }]} β {\displaystyle \beta }

Асимптотическое распределение для имеет вид β ^ {\displaystyle {\hat {\beta }}}

n ( β ^ β )   d   N ( 0 , Ω 1 ) , {\displaystyle {\sqrt {n}}({\hat {\beta }}-\beta )\ {\xrightarrow {d}}\ {\mathcal {N}}(0,\,\Omega ^{-1}),}

где

Ω = E [ φ 2 ( X T β ) Φ ( X T β ) ( 1 Φ ( X T β ) ) X X T ] , Ω ^ = 1 n i = 1 n φ 2 ( x i T β ^ ) Φ ( x i T β ^ ) ( 1 Φ ( x i T β ^ ) ) x i x i T , {\displaystyle \Omega =\operatorname {E} {\bigg [}{\frac {\varphi ^{2}(X^{\operatorname {T} }\beta )}{\Phi (X^{\operatorname {T} }\beta )(1-\Phi (X^{\operatorname {T} }\beta ))}}XX^{\operatorname {T} }{\bigg ]},\qquad {\hat {\Omega }}={\frac {1}{n}}\sum _{i=1}^{n}{\frac {\varphi ^{2}(x_{i}^{\operatorname {T} }{\hat {\beta }})}{\Phi (x_{i}^{\operatorname {T} }{\hat {\beta }})(1-\Phi (x_{i}^{\operatorname {T} }{\hat {\beta }}))}}x_{i}x_{i}^{\operatorname {T} },} [ необходима ссылка ]

и является функцией плотности вероятности ( PDF ) стандартного нормального распределения. φ = Φ {\displaystyle \varphi =\Phi '}

Также доступны полупараметрические и непараметрические методы максимального правдоподобия для пробит-типа и других связанных моделей. [4]

Метод минимального хи-квадрат Берксона

Этот метод можно применять только тогда, когда имеется много наблюдений переменной отклика , имеющих одно и то же значение вектора регрессоров (такую ​​ситуацию можно назвать «много наблюдений на ячейку»). Более конкретно, модель можно сформулировать следующим образом. y i {\displaystyle y_{i}} x i {\displaystyle x_{i}}

Предположим, что среди n наблюдений имеется только T различных значений регрессоров, что можно обозначить как . Пусть будет числом наблюдений с , а числом таких наблюдений с . Мы предполагаем, что действительно имеется «много» наблюдений на каждую «ячейку»: для каждого . { y i , x i } i = 1 n {\displaystyle \{y_{i},x_{i}\}_{i=1}^{n}} { x ( 1 ) , , x ( T ) } {\displaystyle \{x_{(1)},\ldots ,x_{(T)}\}} n t {\displaystyle n_{t}} x i = x ( t ) , {\displaystyle x_{i}=x_{(t)},} r t {\displaystyle r_{t}} y i = 1 {\displaystyle y_{i}=1} t , lim n n t / n = c t > 0 {\displaystyle t,\lim _{n\rightarrow \infty }n_{t}/n=c_{t}>0}

Обозначить

p ^ t = r t / n t {\displaystyle {\hat {p}}_{t}=r_{t}/n_{t}}
σ ^ t 2 = 1 n t p ^ t ( 1 p ^ t ) φ 2 ( Φ 1 ( p ^ t ) ) {\displaystyle {\hat {\sigma }}_{t}^{2}={\frac {1}{n_{t}}}{\frac {{\hat {p}}_{t}(1-{\hat {p}}_{t})}{\varphi ^{2}{\big (}\Phi ^{-1}({\hat {p}}_{t}){\big )}}}}

Тогда минимальная оценка хи-квадрат Берксона является обобщенной оценкой наименьших квадратов в регрессии на с весами : Φ 1 ( p ^ t ) {\displaystyle \Phi ^{-1}({\hat {p}}_{t})} x ( t ) {\displaystyle x_{(t)}} σ ^ t 2 {\displaystyle {\hat {\sigma }}_{t}^{-2}}

β ^ = ( t = 1 T σ ^ t 2 x ( t ) x ( t ) T ) 1 t = 1 T σ ^ t 2 x ( t ) Φ 1 ( p ^ t ) {\displaystyle {\hat {\beta }}={\Bigg (}\sum _{t=1}^{T}{\hat {\sigma }}_{t}^{-2}x_{(t)}x_{(t)}^{\operatorname {T} }{\Bigg )}^{-1}\sum _{t=1}^{T}{\hat {\sigma }}_{t}^{-2}x_{(t)}\Phi ^{-1}({\hat {p}}_{t})}

Можно показать, что эта оценка является последовательной (при n →∞ и фиксированном T ), асимптотически нормальной и эффективной. [ требуется ссылка ] Ее преимуществом является наличие замкнутой формулы для оценки. Однако проводить этот анализ имеет смысл только тогда, когда отдельные наблюдения недоступны, а доступны только их агрегированные подсчеты , , и (например, при анализе поведения избирателей). r t {\displaystyle r_{t}} n t {\displaystyle n_{t}} x ( t ) {\displaystyle x_{(t)}}

выборка Гиббса

Выборка Гиббса пробит-модели возможна, поскольку регрессионные модели обычно используют нормальные априорные распределения по весам, и это распределение сопряжено с нормальным распределением ошибок (и, следовательно, скрытых переменных Y * ). Модель можно описать как

β N ( b 0 , B 0 ) y i x i , β N ( x i T β , 1 ) y i = { 1 if  y i > 0 0 otherwise {\displaystyle {\begin{aligned}{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {b} _{0},\mathbf {B} _{0})\\[3pt]y_{i}^{\ast }\mid \mathbf {x} _{i},{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {x} _{i}^{\operatorname {T} }{\boldsymbol {\beta }},1)\\[3pt]y_{i}&={\begin{cases}1&{\text{if }}y_{i}^{\ast }>0\\0&{\text{otherwise}}\end{cases}}\end{aligned}}}

Отсюда можно определить необходимые полные условные плотности:

B = ( B 0 1 + X T X ) 1 β y N ( B ( B 0 1 b 0 + X T y ) , B ) y i y i = 0 , x i , β N ( x i T β , 1 ) [ y i < 0 ] y i y i = 1 , x i , β N ( x i T β , 1 ) [ y i 0 ] {\displaystyle {\begin{aligned}\mathbf {B} &=(\mathbf {B} _{0}^{-1}+\mathbf {X} ^{\operatorname {T} }\mathbf {X} )^{-1}\\[3pt]{\boldsymbol {\beta }}\mid \mathbf {y} ^{\ast }&\sim {\mathcal {N}}(\mathbf {B} (\mathbf {B} _{0}^{-1}\mathbf {b} _{0}+\mathbf {X} ^{\operatorname {T} }\mathbf {y} ^{\ast }),\mathbf {B} )\\[3pt]y_{i}^{\ast }\mid y_{i}=0,\mathbf {x} _{i},{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {x} _{i}^{\operatorname {T} }{\boldsymbol {\beta }},1)[y_{i}^{\ast }<0]\\[3pt]y_{i}^{\ast }\mid y_{i}=1,\mathbf {x} _{i},{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {x} _{i}^{\operatorname {T} }{\boldsymbol {\beta }},1)[y_{i}^{\ast }\geq 0]\end{aligned}}}

Результат для приведен в статье о байесовской линейной регрессии , хотя и указан с другими обозначениями. β {\displaystyle {\boldsymbol {\beta }}}

Единственная сложность в последних двух уравнениях. Обозначение — скобка Айверсона , иногда пишется или похоже. Оно указывает, что распределение должно быть усечено в пределах заданного диапазона и соответствующим образом перемасштабировано. В этом конкретном случае возникает усеченное нормальное распределение . Выборка из этого распределения зависит от того, насколько усечено. Если остается большая часть исходной массы, выборку можно легко сделать с помощью выборки отклонения — просто выберите число из неусеченного распределения и отклоните его, если оно выходит за пределы ограничения, налагаемого усечением. Однако, если выборка выполняется только из небольшой части исходной массы (например, если выборка выполняется из одного из хвостов нормального распределения — например, если около 3 или более, и требуется отрицательная выборка), то это будет неэффективно, и придется прибегнуть к другим алгоритмам выборки. Общую выборку из усеченной нормальной функции можно осуществить с помощью приближений к нормальной функции распределения и пробит-функции , а в R имеется функция для генерации усеченно-нормальных выборок. [ y i < 0 ] {\displaystyle [y_{i}^{\ast }<0]} I ( y i < 0 ) {\displaystyle {\mathcal {I}}(y_{i}^{\ast }<0)} x i T β {\displaystyle \mathbf {x} _{i}^{\operatorname {T} }{\boldsymbol {\beta }}} rtnorm()

Оценка модели

Пригодность предполагаемой бинарной модели можно оценить, подсчитав количество истинных наблюдений, равных 1, и количество, равное нулю, для которых модель назначает правильную предсказанную классификацию, рассматривая любую предполагаемую вероятность выше 1/2 (или ниже 1/2) как назначение предсказания 1 (или 0). Подробности см. в разделе Логистическая регрессия § Модель .

Производительность при неправильной спецификации

Рассмотрим формулировку модели скрытых переменных пробит-модели. Когда дисперсия условного значения не является постоянной, а зависит от , то возникает проблема гетероскедастичности . Например, предположим, что и , где — непрерывная положительная объясняющая переменная. При гетероскедастичности оценка пробит-модели для обычно несостоятельна, и большинство тестов на коэффициенты недействительны. Что еще более важно, оценка для также становится несостоятельной. Чтобы справиться с этой проблемой, исходную модель необходимо преобразовать в гомоскедастичную. Например, в том же примере можно переписать как , где . Следовательно, и запуск пробит-модели для генерирует состоятельную оценку для условной вероятности ε {\displaystyle \varepsilon } x {\displaystyle x} x {\displaystyle x} y = β 0 + B 1 x 1 + ε {\displaystyle y^{*}=\beta _{0}+B_{1}x_{1}+\varepsilon } ε x N ( 0 , x 1 2 ) {\displaystyle \varepsilon \mid x\sim N(0,x_{1}^{2})} x 1 {\displaystyle x_{1}} β {\displaystyle \beta } P ( y = 1 x ) {\displaystyle P(y=1\mid x)} 1 [ β 0 + β 1 x 1 + ε > 0 ] {\displaystyle 1[\beta _{0}+\beta _{1}x_{1}+\varepsilon >0]} 1 [ β 0 / x 1 + β 1 + ε / x 1 > 0 ] {\displaystyle 1[\beta _{0}/x_{1}+\beta _{1}+\varepsilon /x_{1}>0]} ε / x 1 x N ( 0 , 1 ) {\displaystyle \varepsilon /x_{1}\mid x\sim N(0,1)} P ( y = 1 x ) = Φ ( β 1 + β 0 / x 1 ) {\displaystyle P(y=1\mid x)=\Phi (\beta _{1}+\beta _{0}/x_{1})} ( 1 , 1 / x 1 ) {\displaystyle (1,1/x_{1})} P ( y = 1 x ) . {\displaystyle P(y=1\mid x).}

Когда предположение о том, что распределение нормальное, не выполняется, возникает проблема неверной спецификации функциональной формы : если модель по-прежнему оценивается как пробит-модель, оценки коэффициентов несостоятельны. Например, если следует логистическому распределению в истинной модели, но модель оценивается по пробиту, оценки будут в целом меньше истинного значения. Однако несостоятельность оценок коэффициентов практически не имеет значения, поскольку оценки для частичных эффектов, будут близки к оценкам, полученным с помощью истинной логит-модели. [5] ε {\displaystyle \varepsilon } β {\displaystyle \beta } ε {\displaystyle \varepsilon } P ( y = 1 x ) / x i {\displaystyle \partial P(y=1\mid x)/\partial x_{i'}}

Чтобы избежать проблемы неправильной спецификации распределения, можно принять общее предположение о распределении для погрешности, так что в модель можно включить много различных типов распределения. Стоимостью являются более тяжелые вычисления и более низкая точность при увеличении числа параметров. [6] В большинстве случаев на практике, когда форма распределения указана неправильно, оценки коэффициентов несостоятельны, но оценки условной вероятности и частичных эффектов по-прежнему очень хороши. [ необходима цитата ]

Можно также использовать полупараметрические или непараметрические подходы, например, с помощью методов локальной вероятности или непараметрических методов квазиправдоподобия, которые избегают предположений о параметрической форме для индексной функции и являются устойчивыми к выбору функции связи (например, пробит или логит). [4]

История

Модель пробит обычно приписывают Честеру Блиссу , который ввел термин «пробит» в 1934 году, [7] и Джону Гэддуму (1933), который систематизировал более ранние работы. [8] Однако базовая модель восходит к закону Вебера-Фехнера Густава Фехнера , опубликованному в Fechner (1860), и неоднократно переоткрывалась вплоть до 1930-х годов; см. Finney (1971, Глава 3.6) и Aitchison & Brown (1957, Глава 1.2). [8]

Быстрый метод вычисления оценок максимального правдоподобия для пробит-модели был предложен Рональдом Фишером в качестве приложения к работе Блисса в 1935 году. [9]

Смотрите также

Ссылки

  1. Oxford English Dictionary , 3-е изд. sv probit (статья от июня 2007 г.): Bliss, CI (1934). «Метод пробитов». Science . 79 (2037): 38– 39. Bibcode : 1934Sci....79...38B. doi : 10.1126/science.79.2037.38. PMID  17813446. Эти произвольные единицы вероятности были названы «пробитами».
  2. ^ Агрести, Алан (2015). Основы линейных и обобщенных линейных моделей . Нью-Йорк: Wiley. С.  183–186 . ISBN 978-1-118-73003-4.
  3. ^ Олдрич, Джон Х.; Нельсон, Форрест Д.; Адлер, Э. Скотт (1984). Линейная вероятность, логит- и пробит-модели. Sage. стр.  48–65 . ISBN 0-8039-2133-0.
  4. ^ ab Park, Byeong U.; Simar, Léopold; Zelenyuk, Valentin (2017). "Непараметрическая оценка динамических моделей дискретного выбора для данных временных рядов" (PDF) . Computational Statistics & Data Analysis . 108 : 97–120 . doi :10.1016/j.csda.2016.10.024.
  5. ^ Грин, WH (2003), Эконометрический анализ, Prentice Hall, Аппер Сэдл Ривер, Нью-Джерси.
  6. ^ Более подробную информацию см. в: Cappé, O., Moulines, E. и Ryden, T. (2005): «Вывод в скрытых марковских моделях», Springer-Verlag New York, Глава 2.
  7. ^ Блисс, CI (1934). «Метод пробитов». Science . 79 (2037): 38– 39. Bibcode :1934Sci....79...38B. doi :10.1126/science.79.2037.38. PMID  17813446.
  8. ^ ab Cramer 2002, стр. 7.
  9. ^ Фишер, РА (1935). «Дело о нулевых выживших в пробит-анализах». Annals of Applied Biology . 22 : 164– 165. doi :10.1111/j.1744-7348.1935.tb07713.x. Архивировано из оригинала 2014-04-30.
  • Эйтчисон, Джон; Браун, Джеймс Алан Калверт (1957). Логнормальное распределение: с особым акцентом на его применение в экономике. University Press. ISBN 978-0-521-04011-2.
  • Крамер, Дж. С. (2002). Истоки логистической регрессии (PDF) (Технический отчет). Том 119. Институт Тинбергена. С.  167–178 . doi :10.2139/ssrn.360300.
    • Опубликовано в: Cramer, JS (2004). "Ранние истоки модели логита". Исследования по истории и философии науки Часть C: Исследования по истории и философии биологических и биомедицинских наук . 35 (4): 613– 626. doi :10.1016/j.shpsc.2004.09.003.
  • Фехнер, Густав Теодор (1860). Elemente der Psychophysik [ Элементы психофизики ]. Том. группа 2. Лейпциг: Breitkopf und Härtel.
  • Финни, Дж. Д. (1971). Пробит-анализ .

Дальнейшее чтение

  • Альберт, Дж. Х.; Чиб, С. (1993). «Байесовский анализ бинарных и полихотомических данных отклика». Журнал Американской статистической ассоциации . 88 (422): 669– 679. doi :10.1080/01621459.1993.10476321. JSTOR  2290350.
  • Амемия, Такеши (1985). «Модели качественного реагирования». Advanced Econometrics . Oxford: Basil Blackwell. стр.  267–359 . ISBN 0-631-13345-3.
  • Гурьеру, Кристиан (2000). «Простая дихотомия». Эконометрика качественных зависимых переменных . Нью-Йорк: Cambridge University Press. С.  6–37 . ISBN 0-521-58985-1.
  • Ляо, Тим Фьютинг (1994). Интерпретация вероятностных моделей: логит, пробит и другие обобщенные линейные модели . Sage. ISBN 0-8039-4999-5.
  • МакКаллах, Питер ; Джон Нелдер (1989). Обобщенные линейные модели . Лондон: Chapman and Hall. ISBN 0-412-31760-5.
  • Медиа, связанные с моделью Probit на Wikimedia Commons
  • Лекция по эконометрике (тема: модель Probit) на YouTube от Марка Тома
Retrieved from "https://en.wikipedia.org/w/index.php?title=Probit_model&oldid=1244124090"