Неправильное использование p-значений

Неверная интерпретация статистической значимости

Неправильное использование p -значений распространено в научных исследованиях и научном образовании . p -значения часто используются или интерпретируются неправильно; [1] Американская статистическая ассоциация утверждает, что p -значения могут указывать на то, насколько несовместимы данные с указанной статистической моделью. [2] Согласно подходу проверки гипотез Неймана–Пирсона к статистическим выводам, данные, полученные путем сравнения p -значения с уровнем значимости , дадут один из двух результатов: либо нулевая гипотеза отвергается (что, однако, не доказывает, что нулевая гипотеза ложна ), либо нулевая гипотеза не может быть отвергнута на этом уровне значимости (что, однако, не доказывает, что нулевая гипотеза верна ). Согласно подходу фишеровского статистического тестирования к статистическим выводам, низкое p -значение означает, что либо нулевая гипотеза верна и произошло крайне маловероятное событие , либо нулевая гипотеза ложна.

Разъяснения по поводуп-ценности

Следующий список проясняет некоторые вопросы, которые обычно неправильно понимаются относительно p -значений: [2] [3] [4]

  1. Значение p не является вероятностью того, что нулевая гипотеза верна, или вероятностью того, что альтернативная гипотеза ложна. [2] Значение p может указывать на степень совместимости между набором данных и конкретным гипотетическим объяснением (таким как нулевая гипотеза). В частности, значение p может быть принято как вероятность получения эффекта, который по крайней мере столь же экстремальн, как и наблюдаемый эффект, при условии, что нулевая гипотеза верна. Это не следует путать с вероятностью того, что нулевая гипотеза верна при условии наблюдаемого эффекта (см. Ошибка прокурора ). Фактически, частотная статистика не приписывает вероятности гипотезам.
  2. Значение p не является вероятностью того, что наблюдаемые эффекты были получены исключительно случайным образом. [2] Значение p вычисляется при условии, что определенная модель, обычно нулевая гипотеза, верна. Это означает, что значение p является утверждением об отношении данных к этой гипотезе. [2]
  3. Уровень значимости 0,05 — это просто условность. [3] [5] Уровень значимости 0,05 (альфа-уровень) часто используется как граница между статистически значимым и статистически незначимым значением p . Однако это не означает, что в целом есть научная причина рассматривать результаты по разные стороны любого порога как качественно различные. [3] [6]
  4. Значение p не указывает на размер или важность наблюдаемого эффекта. [2] Небольшое значение p может наблюдаться для эффекта, который не является значимым или важным. Фактически, чем больше размер выборки, тем меньше минимальный эффект, необходимый для получения статистически значимого значения p (см. размер эффекта ).

Проблемы 1 и 2 можно проиллюстрировать по аналогии с ошибкой прокурора в их общем базовом формате таблицы сопряженности 2×2, где удобный поворот внимания пользователя на 90° заменяет предполагаемое пространство выборки на недопустимое пространство выборки. [7] : 18–19  Эти неправильные использования p -значений, таким образом, аналогичны ошибке вероятностного преобразования условного предложения и, в свою очередь, ошибке категориальной логики недопустимого преобразования. [7] : 12-13 

Представление вероятностей гипотез

Частотный подход отвергает обоснованность представления вероятностей гипотез: гипотезы бывают истинными или ложными, а не чем-то, что может быть представлено с вероятностью. [8]

Байесовская статистика активно моделирует вероятность гипотез. P -значение само по себе не позволяет рассуждать о вероятностях гипотез, что требует множественных гипотез или ряда гипотез с априорным распределением вероятностей между ними, в этом случае можно использовать байесовскую статистику. Там используется функция правдоподобия для всех возможных значений априорной вероятности вместо p -значения для одной нулевой гипотезы. P -значение описывает свойство данных по сравнению с определенной нулевой гипотезой; оно не является свойством самой гипотезы. По той же причине p -значения не дают вероятности того, что данные были получены исключительно случайным образом. [2]

Проблема множественных сравнений

Проблема множественных сравнений возникает, когда рассматривается набор статистических выводов одновременно [9] или выводится подмножество параметров, выбранных на основе наблюдаемых значений. [10] Это также известно как эффект поиска в другом месте . Ошибки в выводе, включая доверительные интервалы , которые не включают соответствующие им параметры популяции, или проверки гипотез , которые неправильно отвергают нулевую гипотезу , с большей вероятностью возникают, когда рассматривается набор в целом. Было разработано несколько статистических методов, чтобы предотвратить это, позволяя напрямую сравнивать уровни значимости для одиночных и множественных сравнений. Эти методы обычно требуют более высокого порога значимости для отдельных сравнений, чтобы компенсировать количество сделанных выводов. [ необходима цитата ]

Веб -комикс xkcd высмеивает недопонимание p -значений, изображая ученых, расследующих утверждение, что употребление в пищу мармеладных бобов вызывает акне . [11] [12] [13] [14] После того, как ученые не смогли найти значимую ( p < 0,05) корреляцию между употреблением в пищу мармеладных бобов и акне, они исследуют 20 различных цветов мармеладных бобов по отдельности, без поправки на множественные сравнения. Они находят один цвет (зеленый), номинально связанный с акне ( p < 0,05). Затем результаты сообщаются газетой как указывающие на то, что зеленые мармеладные бобы связаны с акне на уровне достоверности 95% — как если бы зеленый был единственным протестированным цветом. Фактически, если провести 20 независимых тестов на уровне значимости 0,05 и все нулевые гипотезы верны, существует 64,2% вероятность получения по крайней мере одного ложноположительного результата, а ожидаемое количество ложноположительных результатов равно 1 (т. е. 0,05 × 20).

В общем, семейный коэффициент ошибок (FWER) — вероятность получения хотя бы одного ложноположительного результата — увеличивается с числом проведенных тестов. FWER, когда все нулевые гипотезы верны для m независимых тестов, каждый из которых проведен на уровне значимости α, составляет: [13]

ФВЕР = 1 ( 1 α ) м {\displaystyle {\text{FWER}}=1-(1-\альфа)^{м}}

Смотрите также

Ссылки

  1. ^ Виджен Б., Яссери Т. (март 2016 г.). «P-значения: неправильно понятые и неправильно используемые». Frontiers in Physics . 4 (6): 6. arXiv : 1601.06805 . Bibcode :2016FrP.....4....6V. doi : 10.3389/fphy.2016.00006 .
  2. ^ abcdefg Вассерштейн Р. Л., Лазар Н. А. (2016). «Заявление ASA о p-значениях: контекст, процесс и цель» (PDF) . The American Statistician . 70 (2): 129–133. doi : 10.1080/00031305.2016.1154108 . S2CID  124084622.
  3. ^ abc Sterne JA, Davey Smith G (январь 2001 г.). «Просеивание доказательств — что не так с тестами значимости?». BMJ . 322 (7280): 226–31. doi :10.1136/bmj.322.7280.226. PMC 1119478 . PMID  11159626. 
  4. ^ Шервиш М.Дж. (1996). « Значения P : чем они являются и чем они не являются». Американский статистик . 50 (3): 203–206. doi :10.2307/2684655. JSTOR  2684655.
  5. ^ Рафи З., Гренланд С. (сентябрь 2020 г.). «Семантические и когнитивные инструменты для помощи статистической науке: замените уверенность и значимость на совместимость и неожиданность». BMC Medical Research Methodology . 20 (1): 244. arXiv : 1909.08579 . doi : 10.1186 /s12874-020-01105-9 . PMC 7528258. PMID  32998683. 
  6. ^ Амрайн В., Корнер-Нивергельт Ф., Рот Т. (2017). "p > 0,05: пороги значимости и кризис невоспроизводимых исследований". PeerJ . 5 : e3544. doi : 10.7717/peerj.3544 . PMC 5502092. PMID  28698825 . 
  7. ^ ab Suss, Richard A. (4 октября 2023 г.). «Заблуждение прокурора, представленное как подмена пространства образцов». Препринты OSF . doi :10.31219/osf.io/cs248.
  8. ^ Шапут, Брижит; Жирар, Жан-Клод; Анри, Мишель (2011). «Частотный подход: моделирование и имитация в статистике и преподавании теории вероятностей». Преподавание статистики в школьной математике — проблемы преподавания и подготовки учителей . Новая серия исследований ICMI. Том 14. С. 85–95. doi :10.1007/978-94-007-1131-0_12. ISBN 978-94-007-1130-3.
  9. ^ Миллер РГ (1981). Одновременный статистический вывод (2-е изд.). Нью-Йорк: Springer Verlag . ISBN 978-0-387-90548-8.
  10. ^ Benjamini Y (декабрь 2010 г.). «Одновременный и выборочный вывод: текущие успехи и будущие проблемы». Биометрический журнал. Biometrische Zeitschrift . 52 (6): 708–21. doi :10.1002/bimj.200900299. PMID  21154895.
  11. Munroe R (6 апреля 2011 г.). «Значительный». xkcd . Получено 22.02.2016 .
  12. ^ Colquhoun D (ноябрь 2014 г.). «Исследование частоты ложных открытий и неправильной интерпретации p-значений». Royal Society Open Science . 1 (3): 140216. arXiv : 1407.5296 . Bibcode :2014RSOS....140216C. doi :10.1098/rsos.140216. PMC 4448847 . PMID  26064558. 
  13. ^ ab Reinhart A (2015). Статистика сделана неправильно: ужасно полное руководство. No Starch Press . стр. 47–48. ISBN 978-1-59327-620-1.
  14. ^ Barsalou M (2 июня 2014 г.). "Проверка гипотез и значения p". Блог Minitab . Получено 22.02.2016 .

Дальнейшее чтение

  • Вассерштейн, Рональд Л.; Ширм, Аллен Л.; Лазар, Николь А. (2019-03-20). «Переход к миру за пределами "p < 0,05"». Американский статистик . 73 (sup1): 1–19. doi : 10.1080/00031305.2019.1583913 . ISSN  0003-1305.
  • Виджен Б., Яссери Т. (март 2016 г.). «P-значения: неправильно понятые и неправильно используемые». Frontiers in Physics . 4 (6): 6. arXiv : 1601.06805 . Bibcode : 2016FrP.....4....6V. doi : 10.3389/fphy.2016.00006 .
  • Иоаннидис, Джон ПА (29 марта 2019 г.). «Чему мы (не) научились из миллионов научных статей с P-значениями?». The American Statistician . 73 (sup1): 20–25. doi : 10.1080/00031305.2018.1447512 . ISSN  0003-1305.
  • Moran JL, Solomon PJ (июнь 2004 г.). «Прощание с P-значениями?» (PDF) . Критическая терапия и реанимация . 6 (2): 130–7. PMID  16566700.
  • Lew MJ (июль 2012 г.). «Плохая статистическая практика в фармакологии (и других основных биомедицинских дисциплинах): вы, вероятно, не знаете P». British Journal of Pharmacology . 166 (5): 1559–67. doi :10.1111/j.1476-5381.2012.01931.x. PMC  3419900. PMID  22394284 .
  • Nuzzo R (февраль 2014 г.). «Научный метод: статистические ошибки». Nature . 506 (7487): 150–2. Bibcode :2014Natur.506..150N. doi : 10.1038/506150a . PMID  24522584.
Взято с "https://en.wikipedia.org/w/index.php?title=Неправильное_использование_p-значений&oldid=1215555110"