В статистике и, в частности, в регрессионном анализе , кредитное плечо является мерой того, насколько далеки значения независимых переменных наблюдения от значений других наблюдений. Точки с высоким кредитным плечом , если таковые имеются, являются выбросами по отношению к независимым переменным . То есть, точки с высоким кредитным плечом не имеют соседних точек в пространстве, где — число независимых переменных в регрессионной модели. Это делает подобранную модель, вероятно, близкой к наблюдению с высоким кредитным плечом. [1] Следовательно, точки с высоким кредитным плечом могут вызывать большие изменения в оценках параметров при их удалении, т. е. быть влиятельными точками . Хотя влиятельная точка обычно будет иметь высокое кредитное плечо, точка с высоким кредитным плечом не обязательно является влиятельной точкой. Кредитное плечо обычно определяется как диагональные элементы матрицы шляпы . [2]
Определение и толкование
Рассмотрим линейную регрессионную модель , . То есть, , где, — матрица дизайна , строки которой соответствуют наблюдениям, а столбцы — независимым или объясняющим переменным. Оценка рычага для независимого наблюдения задается как:
, диагональный элемент матрицы ортопроекции ( также известной как матрица шляпы) .
Таким образом, оценка левериджа может рассматриваться как «взвешенное» расстояние между средним значением 's (см. его связь с расстоянием Махаланобиса). Его также можно интерпретировать как степень, в которой измеренное (зависимое) значение (т. е. ) влияет на подобранное (прогнозируемое) значение (т. е. ): математически,
.
Следовательно, оценка рычага также известна как самочувствительность наблюдения или самовлияние. [3] Используя тот факт, что (т.е. прогноз является орто-проекцией на диапазонное пространство ) в приведенном выше выражении, мы получаем . Обратите внимание, что этот рычаг зависит от значений объясняющих переменных всех наблюдений, но не от каких-либо значений зависимых переменных .
Характеристики
Кредитное плечо — это число от 0 до 1, Доказательство: Обратите внимание, что — идемпотентная матрица ( ) и симметричная ( ). Таким образом, используя тот факт, что , мы имеем . Поскольку мы знаем, что , мы имеем .
Сумма плеч равна числу параметров в (включая отсекаемый отрезок). Доказательство: .
Определение выбросов в X с использованием рычагов
Большое кредитное плечо соответствует , которое является экстремальным. Общее правило заключается в том, чтобы определить, чье кредитное плечо более чем в 2 раза больше среднего кредитного плеча (см. свойство 2 выше). То есть, если , следует считать выбросом. Некоторые статистики предпочитают порог вместо .
Отношение к расстоянию Махаланобиса
Кредитное плечо тесно связано с расстоянием Махаланобиса (доказательство [4] ). В частности, для некоторой матрицы квадрат расстояния Махаланобиса (где — строка ) от вектора среднего значения длины , равен , где — предполагаемая ковариационная матрица ' s. Это связано с кредитным плечом матрицы шляпы после добавления к ней вектора-столбца из 1. Связь между ними следующая:
Эта взаимосвязь позволяет нам разложить леверидж на значимые компоненты, чтобы некоторые источники высокого левериджа можно было исследовать аналитически. [5]
Отношение к функциям влияния
В контексте регрессии мы объединяем функции рычага и влияния , чтобы вычислить степень, в которой изменятся оцененные коэффициенты, если мы удалим одну точку данных. Обозначая остатки регрессии как , можно сравнить оцененный коэффициент с оцененным коэффициентом с исключением одного, используя формулу [6] [7]
Young (2019) использует версию этой формулы после остаточного контроля. [8] Чтобы получить интуитивное представление об этой формуле, обратите внимание, что фиксирует потенциальную возможность наблюдения влиять на параметры регрессии и, следовательно, фиксирует фактическое влияние отклонений этих наблюдений от его подобранного значения на параметры регрессии. Затем формула делится на для учета того факта, что мы удаляем наблюдение, а не корректируем его значение, отражая тот факт, что удаление больше изменяет распределение ковариатов при применении к наблюдениям с высоким плечом (т. е. с выбросами значений ковариатов). Аналогичные формулы возникают при применении общих формул для функций статистического влияния в контексте регрессии. [9] [10]
Другими словами, оценка рычага наблюдения определяет степень шума в неверном прогнозе модели этого наблюдения, причем более высокий рычаг приводит к меньшему шуму. Это следует из того факта, что является идемпотентным и симметричным и , следовательно, .
Соответствующий стьюдентизированный остаток — остаток, скорректированный с учетом его оценочной остаточной дисперсии, специфичной для наблюдения, — затем равен
где — соответствующая оценка .
Частичное кредитное плечо
Частичный леверидж ( PL ) — это мера вклада отдельных независимых переменных в общий леверидж каждого наблюдения. То есть PL — это мера того, как изменяется переменная, добавляемая в регрессионную модель. Она вычисляется как:
где — индекс независимой переменной, — индекс наблюдения, а — остатки от регрессии по оставшимся независимым переменным. Обратите внимание, что частичное плечо — это плечо точки на графике частичной регрессии для переменной. Точки данных с большим частичным плечом для независимой переменной могут оказывать ненадлежащее влияние на выбор этой переменной в процедурах построения автоматической регрессионной модели.
Реализации программного обеспечения
Многие программы и статистические пакеты, такие как R , Python и т. д., включают в себя реализации Leverage.
^ Эверитт, Б.С. (2002). Кембриджский словарь статистики . Издательство Кембриджского университета. ISBN0-521-81099-X.
^ Джеймс, Гарет; Виттен, Даниэла; Хасти, Тревор; Тибширани, Роберт (2021). Введение в статистическое обучение: с приложениями в R (Второе изд.). Нью-Йорк, Нью-Йорк: Springer. стр. 112. ISBN978-1-0716-1418-1. Получено 29 октября 2024 г.
^ Кардинали, К. (июнь 2013 г.). «Усвоение данных: диагностика влияния наблюдения на систему усвоения данных» (PDF) .
^ Докажите связь между расстоянием Махаланобиса и кредитным плечом?
^ Ким, МГ (2004). «Источники высокого левериджа в модели линейной регрессии (Журнал прикладной математики и вычислений, том 16, 509–513)». arXiv : 2006.04024 [math.ST].
^ Миллер, Руперт Г. (сентябрь 1974 г.). «Несбалансированный складной нож». Annals of Statistics . 2 (5): 880– 891. doi : 10.1214/aos/1176342811 . ISSN 0090-5364.
^ Янг, Элвин (2019). «Ченнелинг Фишера: рандомизационные тесты и статистическая незначимость кажущихся значимыми экспериментальных результатов». The Quarterly Journal of Economics . 134 (2): 567. doi : 10.1093/qje/qjy029 .
^ Чаттерджи, Самприт; Хади, Али С. (август 1986 г.). «Влиятельные наблюдения, точки высокого рычага и выбросы в линейной регрессии». Статистическая наука . 1 (3): 379–393 . doi : 10.1214/ss/1177013622 . ISSN 0883-4237.
^ "регрессия - функции влияния и МНК". Перекрестная проверка . Получено 2020-12-06 .