Сад разветвляющихся тропинок — это проблема частотной проверки гипотез, посредством которой исследователи могут непреднамеренно производить ложные положительные результаты для проверяемой гипотезы, оставляя себе слишком много степеней свободы. В отличие от рыболовных экспедиций, таких как выемка данных , где публикуются только ожидаемые или, по-видимому, значимые результаты, это позволяет добиться аналогичного эффекта даже при проведении только одного эксперимента, посредством ряда выборов относительно того, как реализовать методы и анализы, которые сами по себе информируются данными по мере их наблюдения и обработки. [1]
Исследование разветвляющегося дерева решений при анализе данных в какой-то момент было сгруппировано с проблемой множественных сравнений как пример плохого статистического метода. Однако Гельман и Локен продемонстрировали [2] , что это может происходить неявно исследователями, знакомыми с передовыми методами, которые делают только одно сравнение и оценивают свои данные только один раз.
Заблуждение заключается в том, что анализ считается свободным от множественных сравнений, несмотря на то, что было достаточно степеней свободы в выборе метода, после просмотра некоторых или всех данных, чтобы произвести ложные положительные результаты с аналогичным обоснованием. Степени свободы могут включать выбор основных эффектов или взаимодействий, методов исключения данных, объединения различных исследований и метода анализа данных.
Анализ мультивселенной — это подход, который признает множество аналитических путей, доступных при анализе данных. Концепция вдохновлена метафорическим «садом расходящихся путей», который представляет множество потенциальных анализов, которые могут быть проведены на одном наборе данных. В анализе мультивселенной исследователи систематически изменяют свой аналитический выбор, чтобы исследовать ряд возможных результатов из одних и тех же необработанных данных. [3] [4] [5] Это включает в себя изменение переменных, таких как критерии включения/исключения данных, преобразования переменных, обработка выбросов, статистические модели и проверки гипотез, чтобы создать спектр результатов, которые могли бы быть получены при различных аналитических решениях.
Основные преимущества анализа мультивселенной включают в себя:
Этот подход ценен в областях, где результаты исследований чувствительны к методам анализа данных, таких как психология, [4] нейронаука, [5] экономика и социальные науки. Анализ мультивселенной направлен на смягчение проблем, связанных с воспроизводимостью и воспроизводимостью, путем выявления того, как различные аналитические выборы могут приводить к различным выводам из одного и того же набора данных. Таким образом, он поощряет более тонкое понимание анализа данных, способствуя целостности и достоверности научных исследований.
Концепции, тесно связанные с анализом мультивселенной, — это анализ кривой спецификации [6] и оценка вибрации эффектов. [7]