Оценка Тейла–Сена

Статистический метод подгонки линии

Оценка Тейла–Сена набора точек выборки с выбросами (черная линия) по сравнению с неробастной линией наименьших квадратов для того же набора (синяя). Пунктирная зеленая линия представляет собой истину, из которой были сгенерированы выборки.

В непараметрической статистике оценщик Тейла –Сена — это метод надежной подгонки линии к выборочным точкам на плоскости ( простая линейная регрессия ) путем выбора медианы наклонов всех линий через пары точек. Его также называют оценщиком наклона Сена , [1] [2] выбором наклона , [ 3] [4] методом единственной медианы , [5] методом надежной подгонки линии Кендалла , [6] и надежной линией Кендалла–Тейла . [7] Он назван в честь Анри Тейла и Пранаба К. Сена , которые опубликовали статьи по этому методу в 1950 и 1968 годах соответственно, [8] и в честь Мориса Кендалла из-за его связи с коэффициентом ранговой корреляции тау Кендалла . [9]

Регрессия Тейла-Сена имеет несколько преимуществ по сравнению с обычной регрессией наименьших квадратов . Она нечувствительна к выбросам . Ее можно использовать для проверки значимости, даже если остатки не распределены нормально. [10] Она может быть значительно точнее, чем неробастная простая линейная регрессия (наименьшие квадраты) для перекошенных и гетероскедастичных данных, и хорошо конкурирует с наименьшими квадратами даже для нормально распределенных данных с точки зрения статистической мощности . [11] Ее называют «самым популярным непараметрическим методом оценки линейного тренда». [2] Существуют быстрые алгоритмы для эффективного вычисления параметров.

Определение

Согласно определению Тейла (1950), оценщик Тейла–Сена набора двумерных точек ( x i , y i ) представляет собой медиану m наклонов ( y jy i )/( x jx i ), определяемых всеми парами точек выборки. Сен (1968) расширил это определение, чтобы охватить случай, в котором две точки данных имеют одинаковую координату x . В определении Сена берется медиана наклонов, определенных только из пар точек, имеющих различные координаты x . [8]

После определения наклона m можно определить линию из точек выборки, установив y -отрезок b равным медиане значений y imx i . Тогда линия подгонки будет линией y = mx + b с коэффициентами m и b в форме наклона–отрезка . [12] Как заметил Сен, этот выбор наклона делает коэффициент ранговой корреляции тау Кендалла приблизительно равным нулю, когда он используется для сравнения значений x i с их связанными остатками y imx ib . Интуитивно это предполагает, что то, насколько далеко проходит линия подгонки выше или ниже точки данных, не коррелирует с тем, находится ли эта точка на левой или правой стороне набора данных. Выбор b не влияет на коэффициент Кендалла, но приводит к тому, что медианный остаток становится приблизительно равным нулю; то есть линия подгонки проходит выше и ниже равного количества точек. [9]

Доверительный интервал для оценки наклона может быть определен как интервал, содержащий средние 95% наклонов линий, определенных парами точек [13], и может быть быстро оценен путем выборки пар точек и определения 95% интервала выбранных наклонов. Согласно моделированию, для определения точного доверительного интервала достаточно примерно 600 пар выборок. [11]

Вариации

Разновидность оценщика Тейла–Сена, повторная медианная регрессия Сигеля (1982), определяет для каждой точки выборки ( x i , y i ) медиану m i наклонов ( y jy i )/( x jx i ) линий, проходящих через эту точку, а затем определяет общую оценку как медиану этих медиан. Она может выдерживать большее количество выбросов, чем оценщик Тейла–Сена, но известные алгоритмы для ее эффективного вычисления более сложны и менее практичны. [14]

Другой вариант объединяет точки выборки по рангу их x -координат: точка с наименьшей координатой объединяется с первой точкой выше медианной координаты, вторая наименьшая точка объединяется со следующей точкой выше медианы и т. д. Затем он вычисляет медиану наклонов линий, определяемых этими парами точек, ускоряясь за счет проверки значительно меньшего количества пар, чем оценщик Тейла–Сена. [15]

Также были изучены вариации оценки Тейла–Сена, основанные на взвешенных медианах , исходя из того принципа, что пары образцов, чьи x -координаты различаются сильнее, с большей вероятностью будут иметь точный наклон и, следовательно, должны получить более высокий вес. [16]

Для сезонных данных может быть целесообразно сгладить сезонные колебания в данных, рассматривая только пары точек выборки, которые принадлежат к одному и тому же месяцу или одному и тому же сезону года, и находя медиану наклонов линий, определяемых этим более ограниченным набором пар. [17]

Статистические свойства

Оценка Тейла–Сена является несмещенной оценкой истинного наклона в простой линейной регрессии . [18] Для многих распределений ошибки отклика эта оценка имеет высокую асимптотическую эффективность относительно оценки наименьших квадратов . [19] Оценки с низкой эффективностью требуют больше независимых наблюдений для достижения той же выборочной дисперсии эффективных несмещенных оценок.

Оценка Тейла-Сена более надежна, чем оценка наименьших квадратов, поскольку она гораздо менее чувствительна к выбросам . Она имеет точку развала

1 1 2 29.3 % , {\displaystyle 1-{\frac {1}{\sqrt {2}}}\approx 29,3\%,}

Это означает, что он может допускать произвольное искажение до 29,3% входных точек данных без ухудшения точности. [12] Однако точка сбоя уменьшается для обобщений метода более высокой размерности. [20] Более высокая точка сбоя, 50%, сохраняется для другого надежного алгоритма подгонки линии, повторной медианной оценки Зигеля. [12]

Оценка Тейла–Сена является эквивариантной относительно каждого линейного преобразования ее переменной отклика, что означает, что сначала преобразование данных, а затем подгонка линии, или сначала подгонка линии, а затем ее преобразование тем же способом, оба дают один и тот же результат. [21] Однако она не является эквивариантной относительно аффинных преобразований как предикторных, так и переменных отклика. [20]

Алгоритмы

Медианный наклон набора из n точек выборки может быть точно вычислен путем вычисления всех O ( n 2 ) линий через пары точек, а затем применения линейного алгоритма поиска медианы . В качестве альтернативы, его можно оценить путем выборки пар точек. Эта задача эквивалентна, при проективной двойственности , задаче поиска точки пересечения в расположении линий , которая имеет медианную x -координату среди всех таких точек пересечения. [22]

Проблема выполнения выбора наклона точно, но более эффективно, чем квадратичный алгоритм грубой силы, была широко изучена в вычислительной геометрии . Известно несколько различных методов для вычисления оценки Тейла–Сена точно за время O ( n log n ) , либо детерминировано [3] , либо с использованием рандомизированных алгоритмов . [4] Повторная медианная оценка Зигеля также может быть построена за то же время. [23] В моделях вычислений, в которых входные координаты являются целыми числами и в которых побитовые операции над целыми числами занимают постоянное время, оценка Тейла–Сена может быть построена еще быстрее, за рандомизированное ожидаемое время . [24] О ( н бревно н ) {\displaystyle O(n{\sqrt {\log n}})}

Оценку наклона с приблизительно медианным рангом, имеющую ту же точку разбиения, что и оценщик Тейла-Сена, можно поддерживать в модели потока данных (в которой точки выборки обрабатываются одна за другой алгоритмом, не имеющим достаточного постоянного хранилища для представления всего набора данных) с использованием алгоритма, основанного на ε-сетях . [25]

Реализации

В статистическом пакете R как оценщик Тейла–Сена, так и повторный медианный оценщик Зигеля доступны через библиотеку mblm. [26] Бесплатное автономное приложение Visual Basic для оценки Тейла–Сена, KTRLine, было предоставлено Геологической службой США . [27] Оценщик Тейла–Сена также был реализован на Python как часть библиотек SciPy и scikit-learn . [28]

Приложения

Оценка Тейла–Сена была применена в астрономии из-за ее способности обрабатывать цензурированные регрессионные модели . [29] В биофизике Фернандес и Леблан (2005) предлагают использовать ее для приложений дистанционного зондирования, таких как оценка площади листьев по данным отражательной способности, из-за ее «простоты в вычислениях, аналитических оценок доверительных интервалов, устойчивости к выбросам, проверяемых предположений относительно остатков и ... ограниченной априорной информации относительно ошибок измерений». [30] Для измерения сезонных данных об окружающей среде, таких как качество воды , был предложен сезонно скорректированный вариант оценки Тейла–Сена как предпочтительный по сравнению с оценкой наименьших квадратов из-за его высокой точности при наличии перекошенных данных. [17] В компьютерных науках метод Тейла–Сена использовался для оценки тенденций старения программного обеспечения . [31] В метеорологии и климатологии он использовался для оценки долгосрочных тенденций возникновения и скорости ветра. [32]

Смотрите также

  • Метод медианы-медианы  [fr]
  • Разбавление регрессии , для другой проблемы, влияющей на предполагаемые наклоны тренда

Примечания

  1. ^ Гилберт (1987).
  2. ^ аб Эль-Шарави и Пигорш (2001).
  3. ^ аб Коул и др. (1989); Кац и Шарир (1993); Брённиманн и Шазель (1998).
  4. ^ аб Дилленкур, Маунт и Нетаньяху (1992); Матушек (1991); Бланк и Варенхольд (2006).
  5. ^ Массарт и др. (1997)
  6. ^ Сокаль и Рольф (1995); Дитэм (2011).
  7. ^ Гранато (2006)
  8. ^ ab Theil (1950); Сен (1968)
  9. ^ ab Сен (1968); Осборн (2008).
  10. ^ Helsel, Dennis R.; Hirsch, Robert M.; Ryberg, Karen R.; Archfield, Stacey A.; Gilroy, Edward J. (2020). Статистические методы в водных ресурсах. Методы и методы. Reston, VA: US Geological Survey. стр. 484. Получено 22.05.2020 .
  11. ^ ab Wilcox (2001).
  12. ^ abc Rousseeuw & Leroy (2003), стр. 67, 164.
  13. ^ Для определения доверительных интервалов пары точек должны быть выбраны с заменой ; это означает, что набор пар, используемых в этом расчете, включает пары, в которых обе точки совпадают друг с другом. Эти пары всегда находятся за пределами доверительного интервала, поскольку они не определяют четко определенного значения наклона, но использование их как части расчета приводит к тому, что доверительный интервал становится шире, чем он был бы без них.
  14. ^ Логан (2010), Раздел 8.2.7 Устойчивая регрессия; Матушек, Маунт и Нетаньяху (1998)
  15. ^ Де Мут (2006).
  16. ^ Йекель (1972); Шольц (1978); Сиверс (1978); Биркес и Додж (1993).
  17. ^ ab Hirsch, Slack & Smith (1982).
  18. ^ Сен (1968), Теорема 5.1, стр. 1384; Ван и Ю (2005).
  19. Сен (1968), Раздел 6; Уилкокс (1998).
  20. ^ ab Wilcox (2005).
  21. Сен (1968), стр. 1383.
  22. ^ Коул и др. (1989).
  23. ^ Матушек, Маунт и Нетаньяху (1998).
  24. ^ Чан и Пэтрашку (2010).
  25. ^ Багчи и др. (2007).
  26. ^ Логан (2010), с. 237; Ваннест, Дэвис и Паркер (2013)
  27. ^ Ваннест, Дэвис и Паркер (2013); Гранато (2006)
  28. ^ Сообщество SciPy (2015); Перссон и Мартинс (2016)
  29. ^ Акритас, Мерфи и ЛаВэлли (1995).
  30. ^ Фернандес и Леблан (2005).
  31. ^ Вайдьянатан и Триведи (2005).
  32. ^ Романич и др. (2014).

Ссылки

  • Акритас, Майкл Г.; Мерфи, Сьюзан А .; ЛаВэлли, Майкл П. (1995), «Оценка Тейла-Сена с дважды цензурированными данными и ее применение в астрономии», Журнал Американской статистической ассоциации , 90 (429): 170–177 , doi :10.1080/01621459.1995.10476499, JSTOR  2291140, MR  1325124.
  • Багчи, Амитабха; Чаудхари, Амитабх; Эппштейн, Дэвид ; Гудрич, Майкл Т. (2007), «Детерминированная выборка и подсчет диапазонов в геометрических потоках данных», ACM Transactions on Algorithms , 3 (2): Статья № 16, arXiv : cs/0307027 , doi :10.1145/1240233.1240239, MR  2335299, S2CID  123315817.
  • Биркс, Дэвид; Додж, Ядола (1993), «6.3 Оценка линии регрессии», Альтернативные методы регрессии, Wiley Series in Probability and Statistics, т. 282, Wiley-Interscience, стр.  113–118 , ISBN 978-0-471-56881-0.
  • Бланк, Хенрик; Варенхольд, Ян (2006), «Выбор наклона случайным образом на месте», Международный симпозиум по алгоритмам и сложности, Lecture Notes in Computer Science, т. 3998, Берлин: Springer-Verlag, стр.  30–41 , doi :10.1007/11758471_6, ISBN 978-3-540-34375-2, г-н  2263136.
  • Брённиманн, Эрве; Шазель, Бернар (1998), «Оптимальный выбор наклона с помощью разрезов», Computational Geometry Theory and Applications , 10 (1): 23– 29, doi :10.1016/S0925-7721(97)00025-4, MR  1614381.
  • Чан, Тимоти М.; Патрашку , Михай (2010), «Подсчет инверсий, подсчет ортогональных диапазонов в автономном режиме и связанные с этим проблемы», Труды двадцать первого ежегодного симпозиума ACM-SIAM по дискретным алгоритмам (SODA '10) , стр.  161–173 , doi :10.1137/1.9781611973075.15.
  • Коул, Ричард; Сэлоу, Джеффри С.; Штайгер, В. Л.; Семереди, Эндре (1989), «Оптимальный по времени алгоритм выбора наклона», SIAM Journal on Computing , 18 (4): 792– 810, doi :10.1137/0218055, MR  1004799.
  • Де Мут, Э. Джеймс (2006), Базовая статистика и фармацевтические статистические приложения, Биостатистика, т. 16 (2-е изд.), CRC Press, стр. 577, ISBN 978-0-8493-3799-4.
  • Дилленкурт, Майкл Б.; Маунт, Дэвид М .; Нетаньяху, Натан С. (1992), «Рандомизированный алгоритм выбора наклона», Международный журнал вычислительной геометрии и приложений , 2 (1): 1– 27, doi :10.1142/S0218195992000020, MR  1159839.
  • Дитхэм, Кэлвин (2011), Выбор и использование статистики: руководство биолога (3-е изд.), John Wiley and Sons, стр. 230, ISBN 978-1-4051-9839-4.
  • Эль-Шаарави, Абдель Х.; Пиегорш, Уолтер В. (2001), Энциклопедия энвайронметрики, том 1, John Wiley and Sons, стр. 19, ISBN 978-0-471-89997-6.
  • Фернандес, Ричард; Леблан, Сильвен Г. (2005), «Параметрические (модифицированные наименьшие квадраты) и непараметрические (Тейла–Сена) линейные регрессии для прогнозирования биофизических параметров при наличии ошибок измерения», Дистанционное зондирование окружающей среды , 95 (3): 303– 316, Bibcode : 2005RSEnv..95..303F, doi : 10.1016/j.rse.2005.01.005.
  • Гилберт, Ричард О. (1987), «6.5 Непараметрическая оценка наклона Сена», Статистические методы мониторинга загрязнения окружающей среды, John Wiley and Sons, стр.  217–219 , ISBN 978-0-471-28878-7.
  • Гранато, Грегори Э. (2006), «Глава A7: Надежная линия Кендалла–Тейла (KTRLine — версия 1.0) — программа Visual Basic для вычисления и построения графика надежных непараметрических оценок коэффициентов линейной регрессии между двумя непрерывными переменными», Гидрологический анализ и интерпретация , Методы и методы Геологической службы США, т. 4, Геологическая служба США.
  • Хирш, Роберт М .; Слэк, Джеймс Р.; Смит, Ричард А. (1982), «Методы анализа тенденций для ежемесячных данных о качестве воды», Water Resources Research , 18 (1): 107– 121, Bibcode : 1982WRR....18..107H, doi : 10.1029/WR018i001p00107.
  • Джэкел, Луис А. (1972), «Оценка коэффициентов регрессии путем минимизации дисперсии остатков», Annals of Mathematical Statistics , 43 (5): 1449–1458 , doi : 10.1214/aoms/1177692377 , MR  0348930.
  • Katz, Matthew J.; Sharir, Micha (1993), «Оптимальный выбор наклона с помощью расширителей», Information Processing Letters , 47 (3): 115– 122, doi : 10.1016/0020-0190(93)90234-Z , MR  1237287.
  • Логан, Мюррей (2010), Биостатистическое проектирование и анализ с использованием R: практическое руководство , John Wiley & Sons, ISBN 9781444362473
  • Massart, DL; Vandeginste, BGM; Buydens, LMC; De Jong, S.; Lewi, PJ; Smeyers-Verbeke, J. (1997), "12.1.5.1 Метод одиночной медианы", Handbook of Chemometrics and Qualimetrics: Часть A, Обработка данных в науке и технике, т. 20A, Elsevier, стр.  355–356 , ISBN 978-0-444-89724-4.
  • Матушек, Иржи (1991), «Рандомизированный оптимальный алгоритм выбора уклона», Information Processing Letters , 39 (4): 183–187 , doi : 10.1016/0020-0190(91)90177-J, MR  1130747.
  • Матоушек, Йиржи ; Маунт, Дэвид М.; Нетаньяху , Натан С. (1998), «Эффективные рандомизированные алгоритмы для повторной оценки медианной линии», Algorithmica , 20 (2): 136–150 , doi :10.1007/PL00009190, MR  1484533, S2CID  17362967.
  • Осборн, Джейсон В. (2008), Лучшие практики в количественных методах, Sage Publications, Inc., стр. 273, ISBN 9781412940658.
  • Перссон, Магнус Вильгельм; Мартинс, Луис Фелипе (2016), Освоение анализа данных Python, Packt Publishing, стр. 177, ISBN 9781783553303
  • Романич, Джордже; Чурич, Младен; Йовичич, Илия; Ломпар, Милош (2014), «Долгосрочные тенденции ветра Кошава в период 1949–2010 гг.», Международный журнал климатологии , 35 (2): 288–302 , Бибкод : 2015IJCli..35..288R, doi : 10.1002/joc.3981, S2CID  129402302.
  • Руссью, Питер Дж .; Лерой, Анник М. (2003), Надежная регрессия и обнаружение выбросов , Wiley Series in Probability and Mathematical Statistics, т. 516, Wiley, стр. 67, ISBN 978-0-471-48855-2.
  • Шольц, Фридрих-Вильгельм (1978), «Оценки взвешенной медианной регрессии», The Annals of Statistics , 6 (3): 603–609 , doi : 10.1214/aos/1176344204 , JSTOR  2958563, MR  0468054.
  • Сообщество SciPy (2015), "scipy.stats.mstats.theilslopes", Справочное руководство SciPy v0.15.1
  • Сен, Пранаб Кумар (1968), «Оценки коэффициента регрессии на основе тау Кендалла», Журнал Американской статистической ассоциации , 63 (324): 1379– 1389, doi :10.2307/2285891, JSTOR  2285891, MR  0258201.
  • Siegel, Andrew F. (1982), «Надежная регрессия с использованием повторных медиан», Biometrika , 69 (1): 242–244 , doi : 10.1093/biomet/69.1.242.
  • Сиверс, Джеральд Л. (1978), «Статистика взвешенных рангов для простой линейной регрессии», Журнал Американской статистической ассоциации , 73 (363): 628– 631, doi : 10.1080/01621459.1978.10480067, JSTOR  2286613.
  • Сокал, Роберт Р.; Рольф, Ф. Джеймс (1995), Биометрия: принципы и практика статистики в биологических исследованиях (3-е изд.), Macmillan, стр. 539, ISBN 978-0-7167-2411-7.
  • Theil, H. (1950), "Рангово-инвариантный метод линейного и полиномиального регрессионного анализа. I, II, III", Nederl. Akad. Wetensch., Proc. , 53 : 386–392, 521–525, 1397–1412, MR  0036489.
  • Вайдьянатан, Кальянараман; Триведи, Кишор С. (2005), «Комплексная модель обновления программного обеспечения», Труды IEEE по надежным и безопасным вычислениям , 2 (2): 124– 137, doi :10.1109/TDSC.2005.15, S2CID  15105513.
  • Ваннест, Кимберли Дж.; Дэвис, Джон Л.; Паркер, Ричард И. (2013), Исследование отдельных случаев в школах: практические рекомендации для специалистов, работающих в школах, Routledge, стр. 55, ISBN 9781136173622
  • Ван, Сюэцинь; Юй, Цицин (2005), «Непредвзятость оценки Тейла–Сена», Журнал непараметрической статистики , 17 (6): 685– 695, doi :10.1080/10485250500039452, MR  2165096, S2CID  121061001.
  • Уилкокс, Рэнд Р. (1998), «Заметка об оценке регрессии Тейла–Сена, когда регрессор является случайным, а ошибка является гетероскедастической», Biometrical Journal , 40 (3): 261– 268, doi :10.1002/(SICI)1521-4036(199807)40:3<261::AID-BIMJ261>3.0.CO;2-V.
  • Уилкокс, Рэнд Р. (2001), «Оценка Тейла–Сена», Основы современных статистических методов: существенное повышение мощности и точности, Springer-Verlag, стр.  207–210 , ISBN 978-0-387-95157-7.
  • Уилкокс, Рэнд Р. (2005), «10.2 Оценщик Тейла–Сена», Введение в надежную оценку и проверку гипотез , Academic Press, стр.  423–427 , ISBN 978-0-12-751542-7.
Взято с "https://en.wikipedia.org/w/index.php?title=Theil–Sen_estimator&oldid=1234828493"