Непараметрическая статистика

Тип статистического анализа

Непараметрическая статистика — это тип статистического анализа, который делает минимальные предположения о базовом распределении изучаемых данных. Часто эти модели являются бесконечномерными, а не конечномерными, как в параметрической статистике . [1] Непараметрическая статистика может использоваться для описательной статистики или статистического вывода . Непараметрические тесты часто используются, когда предположения параметрических тестов явно нарушаются. [2]

Определения

Термин «непараметрическая статистика» был неточно определен, среди прочего, следующими двумя способами:

Первое значение непараметрического подразумевает методы, которые не опираются на данные, принадлежащие какому-либо конкретному параметрическому семейству вероятностных распределений. К ним относятся, среди прочего:

  • Методы , не зависящие от распределения , которые не полагаются на предположения о том, что данные взяты из заданного параметрического семейства распределений вероятностей .
  • Статистика определяется как функция выборки, без зависимости от параметра .

Примером является порядковая статистика , которая основана на порядковом ранжировании наблюдений.

Нижеследующее обсуждение взято из книги Кендалла «Продвинутая теория статистики» . [3]

Статистические гипотезы касаются поведения наблюдаемых случайных величин... Например, гипотеза (a) о том, что нормальное распределение имеет заданное среднее значение и дисперсию, является статистической; таковой является и гипотеза (b) о том, что оно имеет заданное среднее значение, но не указанную дисперсию; таковой является и гипотеза (c) о том, что распределение имеет нормальную форму, при этом и среднее значение, и дисперсия не указаны; наконец, таковой является и гипотеза (d) о том, что два неуказанных непрерывных распределения идентичны.

Можно заметить, что в примерах (a) и (b) распределение, лежащее в основе наблюдений, принималось в определенной форме (нормальным), а гипотеза была целиком связана со значением одного или обоих его параметров. Такая гипотеза, по понятным причинам, называется параметрической .

Гипотеза (c) имела иную природу, поскольку в формулировке гипотезы не указаны значения параметров; мы могли бы обоснованно назвать такую ​​гипотезу непараметрической . Гипотеза (d) также является непараметрической, но, кроме того, она даже не определяет основную форму распределения и теперь может быть обоснованно названа свободной от распределения . Несмотря на эти различия, статистическая литература теперь обычно применяет ярлык «непараметрический» к процедурам тестирования, которые мы только что назвали «свободными от распределения», тем самым теряя полезную классификацию.

Второе значение непараметрического подразумевает методы, которые не предполагают, что структура модели фиксирована. Обычно модель увеличивается в размерах, чтобы приспособиться к сложности данных. В этих методах отдельные переменные обычно считаются принадлежащими параметрическим распределениям, а также делаются предположения о типах ассоциаций между переменными. Эти методы включают, среди прочего:

  • непараметрическая регрессия , представляющая собой моделирование, при котором структура взаимосвязи между переменными рассматривается непараметрически, но при этом могут существовать параметрические предположения о распределении остатков модели.
  • непараметрические иерархические байесовские модели , такие как модели, основанные на процессе Дирихле , которые позволяют увеличивать число скрытых переменных по мере необходимости для соответствия данным, но в которых отдельные переменные по-прежнему следуют параметрическим распределениям, и даже процесс, контролирующий скорость роста скрытых переменных, следует параметрическому распределению.

Применение и назначение

Непараметрические методы широко используются для изучения совокупностей, имеющих ранжированный порядок (например, обзоры фильмов, получающие от одной до пяти «звезд»). Использование непараметрических методов может быть необходимо, когда данные имеют ранжирование , но не имеют четкой числовой интерпретации, например, при оценке предпочтений . С точки зрения уровней измерения непараметрические методы приводят к порядковым данным .

Поскольку непараметрические методы делают меньше предположений, их применимость гораздо более общая, чем у соответствующих параметрических методов. В частности, их можно применять в ситуациях, когда о рассматриваемом приложении известно меньше. Кроме того, из-за опоры на меньшее количество предположений непараметрические методы более надежны .

Непараметрические методы иногда считаются более простыми в использовании и более надежными, чем параметрические методы, даже когда предположения параметрических методов обоснованы. Это связано с их более общей природой, что может сделать их менее восприимчивыми к неправильному использованию и непониманию. Непараметрические методы можно считать консервативным выбором, поскольку они будут работать, даже если их предположения не выполняются, тогда как параметрические методы могут давать вводящие в заблуждение результаты, когда их предположения нарушаются.

Более широкая применимость и повышенная надежность непараметрических тестов обходятся дорого: в случаях, когда предположения параметрического теста выполняются, непараметрические тесты имеют меньшую статистическую мощность . Другими словами, для выводов с той же степенью уверенности может потребоваться больший размер выборки.

Непараметрические модели

Непараметрические модели отличаются от параметрических тем, что структура модели не задается априори , а определяется на основе данных. Термин «непараметрический» не означает, что такие модели полностью лишены параметров, но что количество и характер параметров являются гибкими и не фиксируются заранее.

Методы

Непараметрические (или свободные от распределения ) статистические методы вывода — это математические процедуры для проверки статистических гипотез, которые, в отличие от параметрической статистики , не делают никаких предположений о распределении вероятностей оцениваемых переменных. Наиболее часто используемые тесты включают

История

Ранние непараметрические статистики включают медиану (13 век или ранее, использовалась для оценки Эдвардом Райтом , 1599; см. Медиана § История ) и тест знаков Джона Арбетнота ( 1710) при анализе соотношения полов у людей при рождении (см. тест знаков § История ). [5] [6]

Смотрите также

Примечания

  1. ^ "All of Nonparametric Statistics". Springer Texts in Statistics . 2006. doi :10.1007/0-387-30623-4. ISBN 978-0-387-25145-5.
  2. ^ Пирс, Дж.; Деррик, Б. (2019). «Предварительное тестирование: дьявол статистики?». Переосмысление: международный журнал бакалаврских исследований . 12 (2). doi : 10.31273/reinvention.v12i2.339 .
  3. ^ Стюарт А., Орд Дж. К., Арнольд С. (1999), Расширенная теория статистики Кендалла: Том 2А — Классический вывод и линейная модель , шестое издание, §20.2–20.3 ( Арнольд ).
  4. ^ Adikaram, KKLB; Hussein, MA; Effenberger, M.; Becker, T. (16 ноября 2015 г.). «Универсальная линейная идентификация соответствия: метод, независимый от данных, выбросов и модели распределения шума и свободный от подстановки пропущенных или удаленных данных». PLOS ONE . 10 (11): e0141486. ​​Bibcode : 2015PLoSO..1041486A. doi : 10.1371/journal.pone.0141486 . ​​ISSN  1932-6203. PMC 4646355. PMID  26571035 . 
  5. ^ Conover, WJ (1999), «Глава 3.4: Тест знаков», Practical Nonparametric Statistics (Третье изд.), Wiley, стр.  157–176 , ISBN 0-471-16068-7
  6. ^ Спрент, П. (1989), Прикладные непараметрические статистические методы (второе издание), Chapman & Hall, ISBN 0-412-44980-3

Общие ссылки

  • Багдонавичус, В., Круопис, Й., Никулин, М.С. (2011). «Непараметрические тесты для полных данных», ISTE & WILEY: Лондон и Хобокен. ISBN 978-1-84821-269-5 . 
  • Кордер, Г. В.; Форман, Д. И. (2014). Непараметрическая статистика: пошаговый подход . Wiley. ISBN 978-1-118-84031-3.
  • Гиббонс, Джин Дикинсон ; Чакраборти, Субхабрата (2003). Непараметрический статистический вывод , 4-е изд. CRC Press. ISBN 0-8247-4052-1 . 
  • Хеттманспергер, Т. П.; МакКин, Дж. В. (1998). Надежные непараметрические статистические методы . Библиотека статистики Кендалла. Том 5. Лондон: Эдвард Арнольд . ISBN 0-340-54937-8. МР  1604954.также ISBN 0-471-19479-4 . 
  • Холландер М., Вулф Д.А., Чикен Э. (2014). Непараметрические статистические методы , John Wiley & Sons.
  • Шескин, Дэвид Дж. (2003) Справочник по параметрическим и непараметрическим статистическим процедурам . CRC Press. ISBN 1-58488-440-1 
  • Вассерман, Ларри (2007). Все о непараметрической статистике , Springer. ISBN 0-387-25145-6 . 
Взято с "https://en.wikipedia.org/w/index.php?title=Непараметрическая_статистика&oldid=1267583137"