Регрессия Тейла-Сена имеет несколько преимуществ по сравнению с обычной регрессией наименьших квадратов . Она нечувствительна к выбросам . Ее можно использовать для проверки значимости, даже если остатки не распределены нормально. [10] Она может быть значительно точнее, чем неробастная простая линейная регрессия (наименьшие квадраты) для перекошенных и гетероскедастичных данных, и хорошо конкурирует с наименьшими квадратами даже для нормально распределенных данных с точки зрения статистической мощности . [11] Ее называют «самым популярным непараметрическим методом оценки линейного тренда». [2] Существуют быстрые алгоритмы для эффективного вычисления параметров.
Определение
Согласно определению Тейла (1950), оценщик Тейла–Сена набора двумерных точек ( x i , y i ) представляет собой медиану m наклонов ( y j − y i )/( x j − x i ), определяемых всеми парами точек выборки. Сен (1968) расширил это определение, чтобы охватить случай, в котором две точки данных имеют одинаковую координату x . В определении Сена берется медиана наклонов, определенных только из пар точек, имеющих различные координаты x . [8]
После определения наклона m можно определить линию из точек выборки, установив y -отрезок b равным медиане значений y i − mx i . Тогда линия подгонки будет линией y = mx + b с коэффициентами m и b в форме наклона–отрезка . [12] Как заметил Сен, этот выбор наклона делает коэффициент ранговой корреляции тау Кендалла приблизительно равным нулю, когда он используется для сравнения значений x i с их связанными остатками y i − mx i − b . Интуитивно это предполагает, что то, насколько далеко проходит линия подгонки выше или ниже точки данных, не коррелирует с тем, находится ли эта точка на левой или правой стороне набора данных. Выбор b не влияет на коэффициент Кендалла, но приводит к тому, что медианный остаток становится приблизительно равным нулю; то есть линия подгонки проходит выше и ниже равного количества точек. [9]
Доверительный интервал для оценки наклона может быть определен как интервал, содержащий средние 95% наклонов линий, определенных парами точек [13], и может быть быстро оценен путем выборки пар точек и определения 95% интервала выбранных наклонов. Согласно моделированию, для определения точного доверительного интервала достаточно примерно 600 пар выборок. [11]
Вариации
Разновидность оценщика Тейла–Сена, повторная медианная регрессия Сигеля (1982), определяет для каждой точки выборки ( x i , y i ) медиану m i наклонов ( y j − y i )/( x j − x i ) линий, проходящих через эту точку, а затем определяет общую оценку как медиану этих медиан. Она может выдерживать большее количество выбросов, чем оценщик Тейла–Сена, но известные алгоритмы для ее эффективного вычисления более сложны и менее практичны. [14]
Другой вариант объединяет точки выборки по рангу их x -координат: точка с наименьшей координатой объединяется с первой точкой выше медианной координаты, вторая наименьшая точка объединяется со следующей точкой выше медианы и т. д. Затем он вычисляет медиану наклонов линий, определяемых этими парами точек, ускоряясь за счет проверки значительно меньшего количества пар, чем оценщик Тейла–Сена. [15]
Для сезонных данных может быть целесообразно сгладить сезонные колебания в данных, рассматривая только пары точек выборки, которые принадлежат к одному и тому же месяцу или одному и тому же сезону года, и находя медиану наклонов линий, определяемых этим более ограниченным набором пар. [17]
Оценка Тейла-Сена более надежна, чем оценка наименьших квадратов, поскольку она гораздо менее чувствительна к выбросам . Она имеет точку развала
Это означает, что он может допускать произвольное искажение до 29,3% входных точек данных без ухудшения точности. [12] Однако точка сбоя уменьшается для обобщений метода более высокой размерности. [20] Более высокая точка сбоя, 50%, сохраняется для другого надежного алгоритма подгонки линии, повторной медианной оценки Зигеля. [12]
Оценка Тейла–Сена является эквивариантной относительно каждого линейного преобразования ее переменной отклика, что означает, что сначала преобразование данных, а затем подгонка линии, или сначала подгонка линии, а затем ее преобразование тем же способом, оба дают один и тот же результат. [21] Однако она не является эквивариантной относительно аффинных преобразований как предикторных, так и переменных отклика. [20]
Алгоритмы
Медианный наклон набора из n точек выборки может быть точно вычислен путем вычисления всех O ( n 2 ) линий через пары точек, а затем применения линейного алгоритма поиска медианы . В качестве альтернативы, его можно оценить путем выборки пар точек. Эта задача эквивалентна, при проективной двойственности , задаче поиска точки пересечения в расположении линий , которая имеет медианную x -координату среди всех таких точек пересечения. [22]
Проблема выполнения выбора наклона точно, но более эффективно, чем квадратичный алгоритм грубой силы, была широко изучена в вычислительной геометрии . Известно несколько различных методов для вычисления оценки Тейла–Сена точно за время O ( n log n ) , либо детерминировано [3] , либо с использованием рандомизированных алгоритмов . [4] Повторная медианная оценка Зигеля также может быть построена за то же время. [23] В моделях вычислений, в которых входные координаты являются целыми числами и в которых побитовые операции над целыми числами занимают постоянное время, оценка Тейла–Сена может быть построена еще быстрее, за рандомизированное ожидаемое время . [24]
Оценку наклона с приблизительно медианным рангом, имеющую ту же точку разбиения, что и оценщик Тейла-Сена, можно поддерживать в модели потока данных (в которой точки выборки обрабатываются одна за другой алгоритмом, не имеющим достаточного постоянного хранилища для представления всего набора данных) с использованием алгоритма, основанного на ε-сетях . [25]
Реализации
В статистическом пакете R как оценщик Тейла–Сена, так и повторный медианный оценщик Зигеля доступны через библиотеку mblm. [26]
Бесплатное автономное приложение Visual Basic для оценки Тейла–Сена, KTRLine, было предоставлено Геологической службой США . [27]
Оценщик Тейла–Сена также был реализован на Python как часть библиотек SciPy и scikit-learn . [28]
Приложения
Оценка Тейла–Сена была применена в астрономии из-за ее способности обрабатывать цензурированные регрессионные модели . [29] В биофизике Фернандес и Леблан (2005) предлагают использовать ее для приложений дистанционного зондирования, таких как оценка площади листьев по данным отражательной способности, из-за ее «простоты в вычислениях, аналитических оценок доверительных интервалов, устойчивости к выбросам, проверяемых предположений относительно остатков и ... ограниченной априорной информации относительно ошибок измерений». [30] Для измерения сезонных данных об окружающей среде, таких как качество воды , был предложен сезонно скорректированный вариант оценки Тейла–Сена как предпочтительный по сравнению с оценкой наименьших квадратов из-за его высокой точности при наличии перекошенных данных. [17] В компьютерных науках метод Тейла–Сена использовался для оценки тенденций старения программного обеспечения . [31] В метеорологии и климатологии он использовался для оценки долгосрочных тенденций возникновения и скорости ветра. [32]
Смотрите также
Метод медианы-медианы [fr]
Разбавление регрессии , для другой проблемы, влияющей на предполагаемые наклоны тренда
Примечания
^ Гилберт (1987).
^ аб Эль-Шарави и Пигорш (2001).
^ аб Коул и др. (1989); Кац и Шарир (1993); Брённиманн и Шазель (1998).
^ аб Дилленкур, Маунт и Нетаньяху (1992); Матушек (1991); Бланк и Варенхольд (2006).
^ Массарт и др. (1997)
^ Сокаль и Рольф (1995); Дитэм (2011).
^ Гранато (2006)
^ ab Theil (1950); Сен (1968)
^ ab Сен (1968); Осборн (2008).
^ Helsel, Dennis R.; Hirsch, Robert M.; Ryberg, Karen R.; Archfield, Stacey A.; Gilroy, Edward J. (2020). Статистические методы в водных ресурсах. Методы и методы. Reston, VA: US Geological Survey. стр. 484. Получено 22.05.2020 .
^ ab Wilcox (2001).
^ abc Rousseeuw & Leroy (2003), стр. 67, 164.
^ Для определения доверительных интервалов пары точек должны быть выбраны с заменой ; это означает, что набор пар, используемых в этом расчете, включает пары, в которых обе точки совпадают друг с другом. Эти пары всегда находятся за пределами доверительного интервала, поскольку они не определяют четко определенного значения наклона, но использование их как части расчета приводит к тому, что доверительный интервал становится шире, чем он был бы без них.
^ Логан (2010), Раздел 8.2.7 Устойчивая регрессия; Матушек, Маунт и Нетаньяху (1998)
^ Сен (1968), Теорема 5.1, стр. 1384; Ван и Ю (2005).
↑ Сен (1968), Раздел 6; Уилкокс (1998).
^ ab Wilcox (2005).
↑ Сен (1968), стр. 1383.
^ Коул и др. (1989).
^ Матушек, Маунт и Нетаньяху (1998).
^ Чан и Пэтрашку (2010).
^ Багчи и др. (2007).
^ Логан (2010), с. 237; Ваннест, Дэвис и Паркер (2013)
^ Ваннест, Дэвис и Паркер (2013); Гранато (2006)
^ Сообщество SciPy (2015); Перссон и Мартинс (2016)
^ Акритас, Мерфи и ЛаВэлли (1995).
^ Фернандес и Леблан (2005).
^ Вайдьянатан и Триведи (2005).
^ Романич и др. (2014).
Ссылки
Акритас, Майкл Г.; Мерфи, Сьюзан А .; ЛаВэлли, Майкл П. (1995), «Оценка Тейла-Сена с дважды цензурированными данными и ее применение в астрономии», Журнал Американской статистической ассоциации , 90 (429): 170–177 , doi :10.1080/01621459.1995.10476499, JSTOR 2291140, MR 1325124.
Багчи, Амитабха; Чаудхари, Амитабх; Эппштейн, Дэвид ; Гудрич, Майкл Т. (2007), «Детерминированная выборка и подсчет диапазонов в геометрических потоках данных», ACM Transactions on Algorithms , 3 (2): Статья № 16, arXiv : cs/0307027 , doi :10.1145/1240233.1240239, MR 2335299, S2CID 123315817.
Биркс, Дэвид; Додж, Ядола (1993), «6.3 Оценка линии регрессии», Альтернативные методы регрессии, Wiley Series in Probability and Statistics, т. 282, Wiley-Interscience, стр. 113–118 , ISBN978-0-471-56881-0.
Бланк, Хенрик; Варенхольд, Ян (2006), «Выбор наклона случайным образом на месте», Международный симпозиум по алгоритмам и сложности, Lecture Notes in Computer Science, т. 3998, Берлин: Springer-Verlag, стр. 30–41 , doi :10.1007/11758471_6, ISBN978-3-540-34375-2, г-н 2263136.
Чан, Тимоти М.; Патрашку , Михай (2010), «Подсчет инверсий, подсчет ортогональных диапазонов в автономном режиме и связанные с этим проблемы», Труды двадцать первого ежегодного симпозиума ACM-SIAM по дискретным алгоритмам (SODA '10) , стр. 161–173 , doi :10.1137/1.9781611973075.15.
Коул, Ричард; Сэлоу, Джеффри С.; Штайгер, В. Л.; Семереди, Эндре (1989), «Оптимальный по времени алгоритм выбора наклона», SIAM Journal on Computing , 18 (4): 792– 810, doi :10.1137/0218055, MR 1004799.
Де Мут, Э. Джеймс (2006), Базовая статистика и фармацевтические статистические приложения, Биостатистика, т. 16 (2-е изд.), CRC Press, стр. 577, ISBN978-0-8493-3799-4.
Дилленкурт, Майкл Б.; Маунт, Дэвид М .; Нетаньяху, Натан С. (1992), «Рандомизированный алгоритм выбора наклона», Международный журнал вычислительной геометрии и приложений , 2 (1): 1– 27, doi :10.1142/S0218195992000020, MR 1159839.
Дитхэм, Кэлвин (2011), Выбор и использование статистики: руководство биолога (3-е изд.), John Wiley and Sons, стр. 230, ISBN978-1-4051-9839-4.
Эль-Шаарави, Абдель Х.; Пиегорш, Уолтер В. (2001), Энциклопедия энвайронметрики, том 1, John Wiley and Sons, стр. 19, ISBN978-0-471-89997-6.
Фернандес, Ричард; Леблан, Сильвен Г. (2005), «Параметрические (модифицированные наименьшие квадраты) и непараметрические (Тейла–Сена) линейные регрессии для прогнозирования биофизических параметров при наличии ошибок измерения», Дистанционное зондирование окружающей среды , 95 (3): 303– 316, Bibcode : 2005RSEnv..95..303F, doi : 10.1016/j.rse.2005.01.005.
Гилберт, Ричард О. (1987), «6.5 Непараметрическая оценка наклона Сена», Статистические методы мониторинга загрязнения окружающей среды, John Wiley and Sons, стр. 217–219 , ISBN978-0-471-28878-7.
Гранато, Грегори Э. (2006), «Глава A7: Надежная линия Кендалла–Тейла (KTRLine — версия 1.0) — программа Visual Basic для вычисления и построения графика надежных непараметрических оценок коэффициентов линейной регрессии между двумя непрерывными переменными», Гидрологический анализ и интерпретация , Методы и методы Геологической службы США, т. 4, Геологическая служба США.
Хирш, Роберт М .; Слэк, Джеймс Р.; Смит, Ричард А. (1982), «Методы анализа тенденций для ежемесячных данных о качестве воды», Water Resources Research , 18 (1): 107– 121, Bibcode : 1982WRR....18..107H, doi : 10.1029/WR018i001p00107.
Джэкел, Луис А. (1972), «Оценка коэффициентов регрессии путем минимизации дисперсии остатков», Annals of Mathematical Statistics , 43 (5): 1449–1458 , doi : 10.1214/aoms/1177692377 , MR 0348930.
Логан, Мюррей (2010), Биостатистическое проектирование и анализ с использованием R: практическое руководство , John Wiley & Sons, ISBN9781444362473
Massart, DL; Vandeginste, BGM; Buydens, LMC; De Jong, S.; Lewi, PJ; Smeyers-Verbeke, J. (1997), "12.1.5.1 Метод одиночной медианы", Handbook of Chemometrics and Qualimetrics: Часть A, Обработка данных в науке и технике, т. 20A, Elsevier, стр. 355–356 , ISBN978-0-444-89724-4.
Siegel, Andrew F. (1982), «Надежная регрессия с использованием повторных медиан», Biometrika , 69 (1): 242–244 , doi : 10.1093/biomet/69.1.242.
Сиверс, Джеральд Л. (1978), «Статистика взвешенных рангов для простой линейной регрессии», Журнал Американской статистической ассоциации , 73 (363): 628– 631, doi : 10.1080/01621459.1978.10480067, JSTOR 2286613.
Сокал, Роберт Р.; Рольф, Ф. Джеймс (1995), Биометрия: принципы и практика статистики в биологических исследованиях (3-е изд.), Macmillan, стр. 539, ISBN978-0-7167-2411-7.
Theil, H. (1950), "Рангово-инвариантный метод линейного и полиномиального регрессионного анализа. I, II, III", Nederl. Akad. Wetensch., Proc. , 53 : 386–392, 521–525, 1397–1412, MR 0036489.
Вайдьянатан, Кальянараман; Триведи, Кишор С. (2005), «Комплексная модель обновления программного обеспечения», Труды IEEE по надежным и безопасным вычислениям , 2 (2): 124– 137, doi :10.1109/TDSC.2005.15, S2CID 15105513.
Ваннест, Кимберли Дж.; Дэвис, Джон Л.; Паркер, Ричард И. (2013), Исследование отдельных случаев в школах: практические рекомендации для специалистов, работающих в школах, Routledge, стр. 55, ISBN9781136173622
Ван, Сюэцинь; Юй, Цицин (2005), «Непредвзятость оценки Тейла–Сена», Журнал непараметрической статистики , 17 (6): 685– 695, doi :10.1080/10485250500039452, MR 2165096, S2CID 121061001.
Уилкокс, Рэнд Р. (1998), «Заметка об оценке регрессии Тейла–Сена, когда регрессор является случайным, а ошибка является гетероскедастической», Biometrical Journal , 40 (3): 261– 268, doi :10.1002/(SICI)1521-4036(199807)40:3<261::AID-BIMJ261>3.0.CO;2-V.
Уилкокс, Рэнд Р. (2001), «Оценка Тейла–Сена», Основы современных статистических методов: существенное повышение мощности и точности, Springer-Verlag, стр. 207–210 , ISBN978-0-387-95157-7.
Уилкокс, Рэнд Р. (2005), «10.2 Оценщик Тейла–Сена», Введение в надежную оценку и проверку гипотез , Academic Press, стр. 423–427 , ISBN978-0-12-751542-7.