Проблема разветвления путей

Ошибка в статистической проверке гипотез

Сад разветвляющихся тропинок — это проблема частотной проверки гипотез, посредством которой исследователи могут непреднамеренно производить ложные положительные результаты для проверяемой гипотезы, оставляя себе слишком много степеней свободы. В отличие от рыболовных экспедиций, таких как выемка данных , где публикуются только ожидаемые или, по-видимому, значимые результаты, это позволяет добиться аналогичного эффекта даже при проведении только одного эксперимента, посредством ряда выборов относительно того, как реализовать методы и анализы, которые сами по себе информируются данными по мере их наблюдения и обработки. [1]

История

Исследование разветвляющегося дерева решений при анализе данных в какой-то момент было сгруппировано с проблемой множественных сравнений как пример плохого статистического метода. Однако Гельман и Локен продемонстрировали [2] , что это может происходить неявно исследователями, знакомыми с передовыми методами, которые делают только одно сравнение и оценивают свои данные только один раз.

Заблуждение заключается в том, что анализ считается свободным от множественных сравнений, несмотря на то, что было достаточно степеней свободы в выборе метода, после просмотра некоторых или всех данных, чтобы произвести ложные положительные результаты с аналогичным обоснованием. Степени свободы могут включать выбор основных эффектов или взаимодействий, методов исключения данных, объединения различных исследований и метода анализа данных.

Анализ мультивселенной

Анализ мультивселенной — это подход, который признает множество аналитических путей, доступных при анализе данных. Концепция вдохновлена ​​метафорическим «садом расходящихся путей», который представляет множество потенциальных анализов, которые могут быть проведены на одном наборе данных. В анализе мультивселенной исследователи систематически изменяют свой аналитический выбор, чтобы исследовать ряд возможных результатов из одних и тех же необработанных данных. [3] [4] [5] Это включает в себя изменение переменных, таких как критерии включения/исключения данных, преобразования переменных, обработка выбросов, статистические модели и проверки гипотез, чтобы создать спектр результатов, которые могли бы быть получены при различных аналитических решениях.

Основные преимущества анализа мультивселенной включают в себя:

  • Прозрачность. Это делает аналитический процесс более прозрачным, открыто обсуждая влияние различных аналитических выборов на результаты.
  • Надежность. Изучая, как выводы различаются в различных аналитических сценариях, исследователи могут оценить надежность своих результатов. Если вывод выполняется в ходе многих правдоподобных анализов, он считается более надежным и менее вероятным, что является результатом произвольного принятия решений.
  • Определение последовательных решений. Это помогает определить, какие аналитические решения сильнее всего влияют на результаты, направляя исследователей к более обоснованному методологическому выбору в будущих исследованиях.

Этот подход ценен в областях, где результаты исследований чувствительны к методам анализа данных, таких как психология, [4] нейронаука, [5] экономика и социальные науки. Анализ мультивселенной направлен на смягчение проблем, связанных с воспроизводимостью и воспроизводимостью, путем выявления того, как различные аналитические выборы могут приводить к различным выводам из одного и того же набора данных. Таким образом, он поощряет более тонкое понимание анализа данных, способствуя целостности и достоверности научных исследований.

Концепции, тесно связанные с анализом мультивселенной, — это анализ кривой спецификации [6] и оценка вибрации эффектов. [7]

Смотрите также

Ссылки

  1. ^ "Сад расходящихся троп". FORRT - Framework for Open and Reproducible Research Training . Получено 29.01.2025 .
  2. ^ Гельман, Эндрю; Локен, Эрик (14 ноября 2013 г.). «Сад расходящихся тропинок: почему множественные сравнения могут быть проблемой, даже когда нет «рыболовной экспедиции» или «p-хакинга», а исследовательская гипотеза была выдвинута заранее» (PDF) .
  3. ^ Стиген, Сара; Тюрлинкс, Фрэнсис; Гельман, Эндрю; Ванпаемель, Вольф (2016). «Повышение прозрачности посредством анализа мультивселенной». Перспективы психологической науки . 11 (5): 702– 712. doi :10.1177/1745691616658637. ISSN  1745-6916.
  4. ^ ab Хардер, Дженна А. (2020). «Мультивселенная методов: расширение анализа мультивселенной для принятия решений по сбору данных». Перспективы психологической науки . 15 (5): 1158– 1177. doi : 10.1177/1745691620917678. ISSN  1745-6916.
  5. ^ ab Clayson, Peter E. (2024-03-01). «За пределами отдельных парадигм, конвейеров и результатов: Охватывая анализ мультивселенной в психофизиологии». Международный журнал психофизиологии . 197 : 112311. doi : 10.1016/j.ijpsycho.2024.112311 . ISSN  0167-8760.
  6. ^ Симонсон, Ури; Симмонс, Джозеф П.; Нельсон, Лейф Д. (2020). «Анализ кривой спецификации». Nature Human Behaviour . 4 (11): 1208– 1214. doi :10.1038/s41562-020-0912-z. ISSN  2397-3374.
  7. ^ Patel, Chirag J.; Burford, Belinda; Ioannidis, John PA (2015). «Оценка вибрации эффектов, обусловленных спецификацией модели, может продемонстрировать нестабильность наблюдаемых ассоциаций». Journal of Clinical Epidemiology . 68 (9): 1046– 1058. doi :10.1016/j.jclinepi.2015.05.029. ISSN  0895-4356. PMC 4555355 . PMID  26279400. 


Retrieved from "https://en.wikipedia.org/w/index.php?title=Forking_paths_problem&oldid=1272561389"