Кризис репликации [a] — это продолжающийся методологический кризис, при котором результаты многих научных исследований трудно или невозможно воспроизвести . Поскольку воспроизводимость эмпирических результатов является неотъемлемой частью научного метода , [2] такие неудачи подрывают достоверность теорий, построенных на них, и потенциально ставят под сомнение существенные части научного знания.
Кризис репликации часто обсуждается в связи с психологией и медициной , где были предприняты значительные усилия для повторного исследования классических результатов, чтобы определить, являются ли они надежными, и если они не являются таковыми, то причины неудачи. [3] [4] Данные убедительно указывают на то, что другие естественные и социальные науки также затронуты. [5]
Термин «кризис репликации» был придуман в начале 2010-х годов [6] как часть растущего осознания проблемы. Рассмотрение причин и средств привело к появлению новой научной дисциплины, метанауки [ 7] , которая использует методы эмпирического исследования для изучения практики эмпирического исследования. [8]
Соображения о воспроизводимости можно разделить на две категории. Воспроизводимость в узком смысле относится к повторному изучению и подтверждению анализа заданного набора данных. Репликация относится к повторению эксперимента или исследования для получения новых, независимых данных с целью достижения тех же или похожих выводов.
Репликацию называют «краеугольным камнем науки». [9] [10] Ученый-эколог Стефан Шмидт начал обзор 2009 года с такого описания репликации:
Репликация является одним из центральных вопросов в любой эмпирической науке. Подтверждение результатов или гипотез процедурой повторения лежит в основе любой научной концепции. Эксперимент по репликации, демонстрирующий, что те же результаты могут быть получены в любом другом месте любым другим исследователем, рассматривается как операционализация объективности. Это доказательство того, что эксперимент отражает знание, которое можно отделить от конкретных обстоятельств (таких как время, место или люди), при которых оно было получено. [11]
Однако существует ограниченный консенсус относительно того, как определять репликацию и потенциально связанные с ней концепции. [12] [13] [11] Было выявлено несколько типов репликации:
Воспроизводимость также можно отличить от репликации , как относящейся к воспроизведению тех же результатов с использованием того же набора данных. Воспроизводимость этого типа является причиной того, что многие исследователи делают свои данные доступными для тестирования другими. [15]
Кризис репликации не обязательно означает, что эти области ненаучны. [16] [17] [18] Скорее, этот процесс является частью научного процесса, в котором старые идеи или те, которые не выдерживают тщательного изучения, отсекаются, [19] [20] хотя этот процесс отсекания не всегда эффективен. [21] [22]
Гипотеза обычно считается подтвержденной, когда результаты соответствуют прогнозируемой модели, и эта модель результатов оказывается статистически значимой . Результаты считаются значимыми, когда относительная частота наблюдаемой модели падает ниже произвольно выбранного значения (т. е. уровня значимости ) при предположении, что нулевая гипотеза верна. Это обычно отвечает на вопрос о том, насколько маловероятными были бы результаты, если бы на уровне статистической популяции не существовало никакой разницы . Если вероятность, связанная с тестовой статистикой, превышает выбранное критическое значение , результаты считаются статистически значимыми. [23] Соответствующая вероятность превышения критического значения обозначается как p < 0,05, где p (обычно называемое « p -значением ») — это уровень вероятности. Это должно привести к тому, что 5% поддерживаемых гипотез окажутся ложноположительными (неверная гипотеза ошибочно признана верной), при условии, что исследования соответствуют всем статистическим предположениям. В некоторых областях используются меньшие p-значения, такие как p < 0,01 (вероятность ложноположительного результата 1%) или p < 0,001 (вероятность ложноположительного результата 0,1%). Но меньшая вероятность ложноположительного результата часто требует больших размеров выборки или большей вероятности ложноотрицательного результата (верная гипотеза ошибочно считается неверной) . Хотя тестирование p -значения является наиболее часто используемым методом, это не единственный метод.
This section may contain an excessive amount of intricate detail that may interest only a particular audience. (July 2024) |
Некоторые термины, обычно используемые при обсуждении кризиса репликации, имеют технически точные значения, которые представлены здесь. [1]
В наиболее распространенном случае проверки нулевой гипотезы есть две гипотезы: нулевая гипотеза и альтернативная гипотеза . Нулевая гипотеза обычно имеет вид «X и Y статистически независимы ». Например, нулевая гипотеза может быть такой: «прием препарата X не изменяет годовой показатель выздоровления от болезни Y», а альтернативная гипотеза заключается в том, что он изменяет.
Поскольку проверка полной статистической независимости затруднена, полная нулевая гипотеза часто сводится к упрощенной нулевой гипотезе «размер эффекта равен 0», где « размер эффекта » — это действительное число, которое равно 0, если полная нулевая гипотеза верна, и чем больше размер эффекта, тем больше нулевая гипотеза ложна. [24] Например, если X является бинарным, то размер эффекта может быть определен как изменение ожидания Y при изменении X: Обратите внимание, что размер эффекта, как определено выше, может быть равен нулю, даже если X и Y не являются независимыми, например, когда . Поскольку разные определения «размера эффекта» охватывают разные способы зависимости X и Y, существует много разных определений размера эффекта.
На практике размеры эффекта нельзя наблюдать напрямую, а необходимо измерять статистическими оценщиками . Например, приведенное выше определение размера эффекта часто измеряется оценщиком Коэна . Один и тот же размер эффекта может иметь несколько оценщиков, поскольку они имеют компромиссы между эффективностью , смещением , дисперсией и т. д. Это еще больше увеличивает количество возможных статистических величин, которые можно вычислить на одном наборе данных. Когда оценщик размера эффекта используется для статистического тестирования, он называется тестовой статистикой .
Проверка нулевой гипотезы — это процедура принятия решения, которая принимает некоторые данные и выводит либо , либо . Если выводится , это обычно указывается как «существует статистически значимый эффект» или «нулевая гипотеза отвергается».
Часто статистический тест представляет собой (односторонний) пороговый тест , который структурирован следующим образом:
Двусторонний пороговый тест аналогичен, но с двумя порогами, так что он выдает результат, если либо
Существует 4 возможных результата проверки нулевой гипотезы: ложноотрицательный, истинноотрицательный, ложноположительный, истинноположительный. Ложноотрицательный означает, что это правда, но результат проверки ; истинноотрицательный означает, что это правда, и результат проверки , и т. д.
Вероятность отклонения | Вероятность не отвергнуть | |
---|---|---|
Если это правда | α | 1-альфа |
Если это правда | 1-β (мощность) | β |
Уровень значимости , уровень ложноположительных результатов или уровень альфа — это вероятность того, что альтернатива окажется истинной, когда верна нулевая гипотеза.Например, если тест представляет собой односторонний пороговый тест, тоозначает«данные взяты из».
Статистическая мощность , истинно положительный показатель, это вероятность обнаружения альтернативы как истинной, когда альтернативная гипотеза истинна:гдетакже называется ложноотрицательным показателем. Например, когда тест является односторонним пороговым тестом, тогда.
При наличии статистического теста и набора данных соответствующее p-значение представляет собой вероятность того, что статистика теста по крайней мере столь же экстремальна, при условии . Например, для одностороннего порогового теста, если нулевая гипотеза верна, то p-значение распределено равномерно на . В противном случае оно обычно достигает пика при и примерно экспоненциально, хотя точная форма распределения p-значения зависит от того, какова альтернативная гипотеза. [25] [26]
Поскольку p-значение распределено равномерно при условии нулевой гипотезы, можно построить статистический тест с любым уровнем значимости , просто вычислив p-значение, а затем вывести , если . Обычно это обозначается как «нулевая гипотеза отвергается на уровне значимости », или « », например, «курение коррелирует с раком (p < 0,001)».
Начало кризиса репликации можно проследить по ряду событий в начале 2010-х годов. Философ науки и социальный эпистемолог Фелипе Ромеро выделил четыре события, которые можно считать предшественниками текущего кризиса: [27]
Эта серия событий породила большой скептицизм относительно обоснованности существующих исследований в свете широко распространенных методологических недостатков и неудач в воспроизведении результатов. Это привело к тому, что видные ученые объявили о «кризисе доверия» в психологии и других областях, [42] и последующая ситуация стала известна как «кризис репликации».
Хотя начало кризиса репликации можно проследить до начала 2010-х годов, некоторые авторы указывают, что опасения по поводу воспроизводимости и исследовательских практик в социальных науках были выражены гораздо раньше. Ромеро отмечает, что авторы выражали обеспокоенность по поводу отсутствия прямых репликаций в психологических исследованиях в конце 1960-х и начале 1970-х годов. [43] [44] Он также пишет, что некоторые исследования в 1990-х годах уже сообщали о том, что редакторы журналов и рецензенты, как правило, предвзяты против публикации исследований репликации. [45] [46]
В социальных науках блог Data Colada (три автора которого ввели термин « p-hacking » в статье 2014 года) считается одним из тех, кто способствовал началу кризиса репликации. [47] [48] [49]
Профессор Университета Вирджинии и когнитивный психолог Барбара А. Спеллман написала, что многие критические замечания в отношении исследовательских практик и опасения по поводу воспроизводимости исследований не новы. [50] Она сообщает, что между концом 1950-х и 1990-ми годами ученые уже выражали обеспокоенность по поводу возможного кризиса репликации, [51] подозрительно высокого уровня положительных результатов, [52] сомнительных исследовательских практик (QRP), [53] последствий предвзятости публикаций, [54] проблем со статистической мощностью, [55] [56] и плохих стандартов отчетности. [51]
Спеллман также определяет причины, по которым повторение этих критических замечаний и опасений в последние годы привело к полномасштабному кризису и проблемам статус-кво. Во-первых, технологические усовершенствования облегчили проведение и распространение исследований по репликации и анализ больших массивов литературы для системных проблем. Во-вторых, растущий размер и разнообразие исследовательского сообщества сделали работу признанных членов более легко поддающейся проверке другими членами сообщества, незнакомыми с ними. По словам Спеллмана, эти факторы в сочетании с все более ограниченными ресурсами и несогласованными стимулами для выполнения научной работы привели к кризису в психологии и других областях. [50]
По словам Эндрю Гельмана , [57] работы Пола Миля , Якоба Коэна , Тверски и Канемана в 1960-70-х годах были ранними предупреждениями о кризисе репликации. Обсуждая истоки проблемы, сам Канеман отметил исторические прецеденты в неудачах репликации подсознательного восприятия и снижения диссонанса . [58]
Начиная с 1962 года [55] неоднократно указывалось , что большинство психологических исследований имеют низкую мощность (истинно положительный процент), но низкая мощность сохранялась на протяжении 50 лет, что указывает на структурную и постоянную проблему в психологических исследованиях. [59] [60]
Несколько факторов объединились, чтобы поставить психологию в центр обсуждения. [61] [62] Некоторые области психологии, которые когда-то считались надежными, такие как социальное прайминг и истощение эго , [63] подверглись более пристальному вниманию из-за неудачных попыток воспроизведения. [64] Большая часть внимания была сосредоточена на социальной психологии , [65] хотя другие области психологии, такие как клиническая психология , [66] [67] [68] психология развития , [69] [70] [71] и образовательные исследования также были вовлечены. [72] [73] [74] [75] [76]
В августе 2015 года было опубликовано первое открытое эмпирическое исследование воспроизводимости в психологии под названием The Reproducibility Project: Psychology . Координируемое психологом Брайаном Носеком , исследователи переделали 100 исследований в области психологической науки из трех высокорейтинговых журналов по психологии ( Journal of Personality and Social Psychology , Journal of Experimental Psychology: Learning, Memory, and Cognition и Psychological Science ). 97 из исходных исследований имели значимые эффекты, но из этих 97 только 36% повторений дали значимые результаты ( p- значение ниже 0,05). [12] Средний размер эффекта в повторениях был примерно в два раза меньше величины эффектов, о которых сообщалось в исходных исследованиях. В той же статье изучались показатели воспроизводимости и размеры эффектов по журналам и дисциплинам. Показатели повторения исследований составили 23% для Journal of Personality and Social Psychology , 48% для Journal of Experimental Psychology: Learning, Memory, and Cognition и 38% для Psychological Science . Исследования в области когнитивной психологии имели более высокий уровень повторения (50%), чем исследования в области социальной психологии (25%). [77]
Из 64% нерепликаций только 25% опровергли исходный результат (статистически значимо). Остальные 49% были неубедительными, не поддерживая и не опровергая исходный результат. Это связано с тем, что многие репликации были недостаточно мощными, с выборкой в 2,5 раза меньше исходной. [78]
Исследование, опубликованное в 2018 году в журнале Nature Human Behaviour, воспроизвело 21 статью по социальным и поведенческим наукам из журналов Nature and Science и обнаружило , что только около 62% смогли успешно воспроизвести оригинальные результаты. [79] [80]
Аналогичным образом, в исследовании, проведенном под эгидой Центра открытой науки , группа из 186 исследователей из 60 различных лабораторий (представляющих 36 различных национальностей с шести различных континентов) провела репликации 28 классических и современных открытий в психологии. [81] [82] Исследование было сосредоточено не только на том, были ли воспроизведены результаты оригинальных статей, но и на том, в какой степени результаты варьировались в зависимости от изменений в выборках и контекстах. В целом, 50% из 28 результатов не удалось воспроизвести, несмотря на огромные размеры выборки. Но если результат воспроизвелся, то он воспроизвелся в большинстве выборок. Если результат не был воспроизведен, то он не смог воспроизвестись с небольшими изменениями в разных выборках и контекстах. Эти доказательства не согласуются с предлагаемым объяснением, что неудачи в воспроизведении в психологии, вероятно, связаны с изменениями в выборке между оригинальным и повторным исследованием. [82]
Результаты исследования 2022 года показывают, что многие более ранние исследования фенотипа мозга ( «исследования ассоциаций на уровне мозга» (BWAS)) дали неверные выводы, поскольку для воспроизведения таких исследований требуются образцы от тысяч людей из-за малых размеров эффекта . [83] [84]
Из 49 медицинских исследований с 1990 по 2003 год с более чем 1000 ссылок, 92% обнаружили, что изученные методы лечения были эффективными. Из этих исследований 16% были опровергнуты последующими исследованиями, 16% обнаружили более сильные эффекты, чем последующие исследования, 44% были воспроизведены, а 24% остались в значительной степени неоспоренными. [85] Анализ 2011 года, проведенный исследователями фармацевтической компании Bayer, показал, что, самое большее, четверть внутренних результатов Bayer повторяли исходные результаты. [86] Но анализ результатов Bayer показал, что результаты, которые действительно повторялись, часто могли быть успешно использованы для клинических приложений. [87]
В статье 2012 года C. Glenn Begley , консультант по биотехнологиям, работающий в Amgen , и Lee Ellis, медицинский исследователь из Техасского университета, обнаружили, что только 11% из 53 доклинических исследований рака имели репликации, которые могли бы подтвердить выводы из первоначальных исследований. [38] В конце 2021 года The Reproducibility Project: Cancer Biology изучил 53 лучших статьи о раке, опубликованных в период с 2010 по 2012 год, и показал, что среди исследований, которые предоставили достаточно информации для повторного проведения, размеры эффекта были в среднем на 85% меньше, чем первоначальные результаты. [88] [89] Опрос исследователей рака показал, что половина из них не смогла воспроизвести опубликованный результат. [90] В другом отчете подсчитано, что почти половина рандомизированных контролируемых испытаний содержала некорректные данные (на основе анализа анонимных данных индивидуальных участников (IPD) из более чем 150 испытаний). [91]
В области диетологии для большинства пищевых ингредиентов были исследования, которые показали, что ингредиент влияет на риск возникновения рака. В частности, из случайной выборки из 50 ингредиентов из кулинарной книги, 80% имели статьи, сообщающие об их риске возникновения рака. Статистическая значимость снижалась для метаанализов. [92]
Экономика отстает от других социальных наук и психологии в своих попытках оценить показатели репликации и увеличить количество исследований, которые пытаются ее повторить. [13] Исследование 2016 года в журнале Science воспроизвело 18 экспериментальных исследований, опубликованных в двух ведущих экономических журналах, The American Economic Review и The Quarterly Journal of Economics , в период с 2011 по 2014 год. Было обнаружено, что около 39% не смогли воспроизвести первоначальные результаты. [93] [94] [95] Около 20% исследований, опубликованных в The American Economic Review, противоречат другим исследованиям, несмотря на то, что они опираются на те же или похожие наборы данных. [96] Исследование эмпирических результатов в Strategic Management Journal показало, что около 30% из 27 повторно проверенных статей показали статистически незначимые результаты для ранее значимых результатов, тогда как около 4% показали статистически значимые результаты для ранее незначимых результатов. [97]
Исследование, проведенное в 2019 году в журнале Scientific Data, с уверенностью в 95% оценило, что из 1989 статей по водным ресурсам и управлению ими, опубликованных в 2017 году, результаты исследований могут быть воспроизведены только для 0,6–6,8%, в основном потому, что статьи не содержали достаточной информации для воспроизведения. [98]
Опрос журнала Nature 2016 года , в котором приняли участие 1576 исследователей, ответивших на краткий онлайн-опрос по воспроизводимости, показал, что более 70% исследователей пытались и не смогли воспроизвести результаты экспериментов других ученых (включая 87% химиков , 77% биологов , 69% физиков и инженеров , 67% исследователей-медиков , 64% ученых, изучающих Землю и окружающую среду , и 62% всех остальных), и более половины не смогли воспроизвести свои собственные эксперименты. Но менее 20% связывались с другими исследователями, неспособными воспроизвести их работу. Опрос показал, что менее 31% исследователей считают, что неспособность воспроизвести результаты означает, что исходный результат, вероятно, неверен, хотя 52% согласны с тем, что существует значительный кризис репликации. Большинство исследователей заявили, что по-прежнему доверяют опубликованной литературе. [5] [99] В 2010 году Фанелли (2010) [100] обнаружил, что 91,5% исследований в области психиатрии/психологии подтвердили эффекты, которые они искали, и пришел к выводу, что вероятность этого (положительный результат) была примерно в пять раз выше, чем в таких областях, как астрономия или науки о Земле . Фанелли утверждал, что это происходит потому, что исследователи в «более мягких» науках имеют меньше ограничений для своих сознательных и бессознательных предубеждений.
Ранний анализ рецензирования слепых результатов , на которое меньше влияет предвзятость публикации, показал, что 61% исследований слепых результатов в области биомедицины и психологии привели к нулевым результатам , в отличие от предполагаемых 5–20% в более ранних исследованиях. [101]
В 2021 году исследование, проведенное Калифорнийским университетом в Сан-Диего, показало, что статьи, которые невозможно воспроизвести, с большей вероятностью будут цитироваться. [102] Невоспроизводимые публикации часто цитируются больше даже после публикации исследования по репликации. [103]
Существует множество предполагаемых причин кризиса репликации.
Кризис репликации может быть вызван «генерацией новых данных и научных публикаций с беспрецедентной скоростью», что приводит к «отчаянному желанию опубликовать или погибнуть» и несоблюдению надлежащей научной практики. [104]
Предсказания о надвигающемся кризисе в механизме контроля качества науки можно проследить на протяжении нескольких десятилетий. Дерек де Солла Прайс , считающийся отцом наукометрии , количественного изучения науки, предсказал в 1963 году, что наука может достичь «старости» в результате своего собственного экспоненциального роста. [105] Некоторая современная литература, кажется, подтверждает это пророчество о «переполнении», сетуя на упадок как внимания, так и качества. [106] [107]
Историк Филип Мировски утверждает, что снижение качества науки может быть связано с ее коммерциализацией, особенно вызванной решением крупных корпораций, ориентированным на получение прибыли, передавать свои исследования на аутсорсинг университетам и контрактным исследовательским организациям . [108]
Теория социальных систем , изложенная в работе немецкого социолога Никласа Лумана , вдохновляет на аналогичный диагноз. Эта теория утверждает, что каждая система, такая как экономика, наука, религия и СМИ, общается, используя свой собственный код: истина и ложь для науки, прибыль и убыток для экономики, новости и не-новости для СМИ и т. д. [109] [110] По мнению некоторых социологов, медиатизация науки , [111] товаризация, [108] и политизация, [111] [112] в результате структурной связи между системами, привели к путанице исходных системных кодов.
Основной причиной низкой воспроизводимости является смещение публикаций, вытекающее из того факта, что статистически незначимые результаты и, казалось бы, неоригинальные репликации публикуются редко. Только очень небольшая часть академических журналов по психологии и нейронаукам явно приветствовала подачу исследований по репликации в их цели и области применения или в инструкциях для авторов. [113] [114] Это не поощряет сообщения об исследованиях по репликации или даже попытки их проведения. Среди 1576 исследователей, опрошенных Nature в 2016 году, только меньшинство когда-либо пытались опубликовать репликацию, а несколько респондентов, опубликовавших неудачные репликации, отметили, что редакторы и рецензенты требовали, чтобы они преуменьшали сравнения с оригинальными исследованиями. [5] [99] Анализ 4270 эмпирических исследований в 18 деловых журналах с 1970 по 1991 год показал, что менее 10% статей по бухгалтерскому учету, экономике и финансам и 5% статей по менеджменту и маркетингу были исследованиями по репликации. [93] [115] Предвзятость публикации усиливается давлением, связанным с необходимостью публикации , и предвзятостью подтверждения автором [b], и является неотъемлемой опасностью в этой области, требующей определенной степени скептицизма со стороны читателей. [41]
Ошибка публикации приводит к тому, что психолог Роберт Розенталь называет « эффектом картотечного ящика ». Эффект картотечного ящика заключается в том, что вследствие ошибки публикации значительное количество отрицательных результатов [c] не публикуется. По словам философа науки Фелипе Ромеро, это приводит к появлению «вводящей в заблуждение литературы и предвзятых метааналитических исследований» [27] , и когда ошибка публикации учитывается вместе с тем фактом, что большинство проверенных гипотез могут быть ложными априори , вполне вероятно, что значительная часть результатов исследований может быть ложноположительными, как показал метаученый Джон Иоаннидис. [1] В свою очередь, высокая доля ложноположительных результатов в опубликованной литературе может объяснить, почему многие результаты невоспроизводимы. [27]
Другим предубеждением публикации является то, что исследования, которые не отвергают нулевую гипотезу, рассматриваются асимметрично. Например, они, скорее всего, будут отклонены как трудные для интерпретации или имеющие ошибку типа II. Исследования, которые отвергают нулевую гипотезу, вряд ли будут отклонены по этим причинам. [117]
В популярных СМИ есть еще один элемент предвзятости публикации: желание сделать исследования доступными для общественности привело к чрезмерному упрощению и преувеличению результатов, создавая нереалистичные ожидания и усиливая влияние нерепликаций. Напротив, нулевые результаты и неудачи в репликации, как правило, остаются незамеченными. Это объяснение может быть применимо к кризису репликации властных поз . [118]
Даже высокоимпактные журналы имеют значительную долю математических ошибок в использовании статистики. Например, 11% статистических результатов, опубликованных в Nature и BMJ в 2001 году, являются «несоответствующими», что означает, что сообщенное p-значение математически отличается от того, каким оно должно быть, если бы оно было правильно рассчитано на основе сообщенной тестовой статистики. Эти ошибки, вероятно, были вызваны ошибками набора текста, округления и транскрипции. [119]
Среди 157 статей по нейронауке, опубликованных в пяти ведущих журналах, в которых делается попытка показать, что два экспериментальных эффекта различны, 78 ошибочно проверяли вместо этого, является ли один эффект значимым, а другой — нет, а 79 правильно проверяли, является ли их разница значительно отличной от 0. [120]
Последствия для воспроизводимости публикационной предвзятости усугубляются культурой академической среды «публикуйся или погибни». Как объяснил метаученый Даниэле Фанелли, культура «публикуйся или погибни» — это социологический аспект академической среды, в которой ученые работают в среде с очень высоким давлением, требующим публикации их работ в признанных журналах. Это является следствием того, что академическая рабочая среда является гиперконкурентной, а библиометрические параметры (например, количество публикаций) все чаще используются для оценки научной карьеры. [121] По словам Фанелли, это подталкивает ученых к использованию ряда стратегий, направленных на то, чтобы сделать результаты «публикуемыми». В контексте публикационной предвзятости это может означать принятие поведения, направленного на то, чтобы сделать результаты положительными или статистически значимыми, часто за счет их достоверности (см. QRP, раздел 4.3). [121]
По словам основателя Центра открытой науки Брайана Носека и его коллег, культура «публикуйся или погибни» создала ситуацию, в которой цели и ценности отдельных ученых (например, возможность публикации) не совпадают с общими целями науки (например, стремлением к научной истине). Это наносит ущерб обоснованности опубликованных результатов. [122]
Философ Брайан Д. Эрп и психолог Джим А. К. Эверетт утверждают, что, хотя воспроизведение отвечает наилучшим интересам ученых и исследователей как группы, особенности академической психологической культуры препятствуют воспроизведению отдельными исследователями. Они утверждают, что выполнение воспроизведений может быть трудоемким и отнимать ресурсы у проектов, которые отражают оригинальное мышление исследователя. Их сложнее публиковать, в основном потому, что они неоригинальны, и даже когда их можно опубликовать, они вряд ли будут рассматриваться как значительный вклад в эту область. Повторения «приносят меньше признания и вознаграждения, включая грантовые деньги, своим авторам». [123]
В своей книге 1971 года «Научное знание и его социальные проблемы » философ и историк науки Джером Р. Равец предсказал, что наука — в своем развитии от «малой» науки, состоящей из изолированных сообществ исследователей, к «большой» науке или «техно-науке» — будет страдать от серьезных проблем во внутренней системе контроля качества. Он признал, что структура стимулов для современных ученых может стать дисфункциональной, создавая извращенные стимулы для публикации любых результатов, какими бы сомнительными они ни были. По мнению Равеца, качество в науке поддерживается только тогда, когда есть сообщество ученых, связанных набором общих норм и стандартов, которые готовы и способны нести ответственность друг перед другом.
Определенные издательские практики также затрудняют проведение репликаций и мониторинг серьезности кризиса воспроизводимости, поскольку статьи часто поставляются с недостаточным описанием для того, чтобы другие ученые могли воспроизвести исследование. Проект «Воспроизводимость: биология рака» показал, что из 193 экспериментов из 53 лучших статей о раке, опубликованных в период с 2010 по 2012 год, только 50 экспериментов из 23 статей имеют авторов, которые предоставили достаточно информации для исследователей, чтобы повторить исследования, иногда с изменениями. Ни в одной из 193 рассмотренных статей экспериментальные протоколы не были полностью описаны, а для воспроизведения 70% экспериментов требовалось запрашивать ключевые реагенты. [88] [89] Вышеупомянутое исследование эмпирических результатов в Strategic Management Journal показало, что 70% из 88 статей не могли быть воспроизведены из-за отсутствия достаточной информации для данных или процедур. [93] [97] В области водных ресурсов и управления большинство из 1987 статей, опубликованных в 2017 году, не поддавались воспроизведению из-за отсутствия доступной информации, размещенной в Интернете. [98] В исследованиях потенциалов, связанных с событиями , только две трети информации, необходимой для воспроизведения исследования, были представлены в выборке из 150 исследований, что подчеркивает наличие существенных пробелов в отчетности. [124]
Согласно тезису Дюгема-Куайна , научные результаты интерпретируются как содержательной теорией, так и теорией инструментов. Например, астрономические наблюдения зависят как от теории астрономических объектов, так и от теории телескопов. Большое количество невоспроизводимых исследований может накопиться, если есть предвзятость следующего рода: столкнувшись с нулевым результатом, ученый предпочитает рассматривать данные как говорящие о недостаточности инструмента; столкнувшись с ненулевым результатом, ученый предпочитает считать инструмент хорошим и рассматривать данные как говорящие о содержательной теории. [125]
Смальдино и МакЭлрит [60] предложили простую модель культурной эволюции научной практики. Каждая лаборатория случайным образом решает проводить новые исследования или репликационные исследования с различными фиксированными уровнями ложноположительных результатов, истинноположительных результатов, репликационной скорости и производительности (ее «черт»). Лаборатория может использовать больше «усилий», делая кривую ROC более выпуклой, но снижая производительность. Лаборатория накапливает баллы за время своего существования, которые увеличиваются с публикациями и уменьшаются, когда другая лаборатория не может воспроизвести ее результаты. Через регулярные промежутки времени случайная лаборатория «умирает», а другая «воспроизводит» дочернюю лабораторию с аналогичными чертами, как у ее родителя. Лаборатории с более высокими баллами с большей вероятностью будут воспроизводиться. При определенных настройках параметров популяция лабораторий сходится к максимальной производительности даже ценой очень высоких ложноположительных показателей.
Сомнительные исследовательские практики (СИП) — это преднамеренное поведение, которое извлекает выгоду из серой зоны приемлемого научного поведения или эксплуатирует степени свободы исследователя (СИС), что может способствовать невоспроизводимости результатов за счет увеличения вероятности ложноположительных результатов. [126] [127] [41] СИСИС замечены в формулировании гипотез , разработке экспериментов , сборе и анализе данных и отчетности об исследованиях . [127] Но во многих аналитических исследованиях с участием нескольких исследователей или исследовательских групп, анализирующих одни и те же данные, аналитики получают разные и иногда противоречивые результаты, даже без стимулов сообщать статистически значимые результаты. [128] Это происходит потому, что дизайн исследования и анализ данных влекут за собой многочисленные решения, которые недостаточно ограничены передовыми методами и статистическими методологиями в данной области. В результате СИСИС может привести к ситуациям, когда некоторые неудачные попытки повторения используют другой, но правдоподобный дизайн исследования или статистический анализ; такие исследования не обязательно подрывают предыдущие выводы. [129] Анализ мультивселенной , метод, который делает выводы на основе всех возможных конвейеров обработки данных, обеспечивает решение проблемы аналитической гибкости. [130]
Вместо этого оценка многих статистических моделей (известная как выемка данных [127] [131] [40] [d] ), выборочное сообщение только статистически значимых результатов [126] [127] [131] [40] [e] и HARKing (выдвижение гипотез после того, как результаты известны) являются примерами сомнительных исследовательских практик. [127] [131] [40] [f] В медицине невоспроизводимые исследования имеют шесть общих черт: исследователи не осведомлены об экспериментальных и контрольных группах; неспособность повторить эксперименты; отсутствие положительного и отрицательного контроля ; неспособность сообщить все данные; ненадлежащее использование статистических тестов; и использование реагентов, которые не были надлежащим образом проверены. [133]
QRP не включают в себя более явные нарушения научной целостности, такие как фальсификация данных. [126] [127] Мошеннические исследования случаются, как в случае научного мошенничества социального психолога Дидерика Стапеля , [134] [14] когнитивного психолога Марка Хаузера и социального психолога Лоуренса Санны, [14] но это, по-видимому, нечасто. [14]
По словам профессора IU Эрнеста О'Бойла и психолога Мартина Гётца, около 50% исследователей, опрошенных в ходе различных исследований, признались в участии в HARKing. [135] В опросе 2000 психологов, проведенном ученым-бихевиористом Лесли К. Джоном и его коллегами, около 94% психологов признались, что использовали по крайней мере один QRP. Более конкретно, 63% признались, что не сообщили обо всех зависимых мерах исследования, 28% сообщили обо всех условиях исследования и 46% выборочно сообщили об исследованиях, которые дали желаемую картину результатов. Кроме того, 56% признались, что собрали больше данных после проверки уже собранных данных, а 16% прекратили сбор данных, поскольку желаемый результат был уже виден. [40] По оценке исследователя биотехнологий Дж. Лесли Глика в 1992 году, от 10% до 20% исследований и разработок включали либо QRP, либо прямое мошенничество. [136] Методология, используемая для оценки QRP, была оспорена, и более поздние исследования показали более низкие показатели распространенности в среднем. [137]
Метаанализ 2009 года показал, что 2% ученых из разных областей признались в фальсификации исследований по крайней мере один раз, а 14% признались, что знали кого-то, кто это сделал. Согласно одному исследованию, о таком неправомерном поведении чаще сообщали медицинские исследователи, чем другие. [138]
По словам профессора университета Дикина Тома Стэнли и его коллег, одной из вероятных причин, по которой исследования не воспроизводятся, является низкая статистическая мощность . Это происходит по трем причинам. Во-первых, исследование репликации с низкой мощностью вряд ли будет успешным, поскольку по определению у него низкая вероятность обнаружить истинный эффект. Во-вторых, если исходное исследование имеет низкую мощность, оно даст смещенные оценки размера эффекта . При проведении априорного анализа мощности для исследования репликации это приведет к недооценке необходимого размера выборки. В-третьих, если исходное исследование имеет низкую мощность, вероятность статистически значимого вывода, отражающего истинный эффект, после исследования довольно низкая. Поэтому вполне вероятно, что попытка репликации исходного исследования потерпит неудачу. [15]
Математически вероятность повторения предыдущей публикации, которая отвергла нулевую гипотезу в пользу альтернативы, предполагает , что значимость меньше мощности. Таким образом, низкая мощность подразумевает низкую вероятность повторения, независимо от того, как была разработана предыдущая публикация, и независимо от того, какая гипотеза действительно верна. [78]
Стэнли и коллеги оценили среднюю статистическую мощность психологической литературы, проанализировав данные из 200 метаанализов . Они обнаружили, что в среднем исследования психологии имеют от 33,1% до 36,4% статистической мощности. Эти значения довольно низкие по сравнению с 80%, которые считаются адекватной статистической мощностью для эксперимента. Среди 200 метаанализов медиана исследований с адекватной статистической мощностью составляла от 7,7% до 9,1%, что подразумевает, что положительный результат будет воспроизводиться с вероятностью менее 10%, независимо от того, был ли положительный результат истинно положительным или ложноположительным. [15]
Статистическая мощность исследований нейронауки довольно низкая. Оценочная статистическая мощность исследований фМРТ составляет от .08 до .31, [139] , а оценка статистических мощностей исследований потенциалов, связанных с событиями , составляет .72‒.98 для больших размеров эффекта, .35‒.73 для средних эффектов и .10‒.18 для малых эффектов. [124]
В исследовании, опубликованном в журнале Nature , психолог Кэтрин Баттон и коллеги провели похожее исследование с 49 метаанализами в области нейронауки, оценив медианную статистическую мощность в 21%. [140] Метаученый Джон Иоаннидис и коллеги вычислили оценку средней мощности для эмпирических экономических исследований, найдя медианную мощность в 18% на основе литературы, опирающейся на 6700 исследований. [141] В свете этих результатов вполне вероятно, что основной причиной широко распространенных неудач в воспроизведении в нескольких научных областях может быть очень низкая статистическая мощность в среднем.
Тот же статистический тест с тем же уровнем значимости будет иметь меньшую статистическую мощность, если размер эффекта мал в соответствии с альтернативной гипотезой. Сложные наследуемые признаки обычно коррелируют с большим количеством генов, каждый из которых имеет небольшой размер эффекта, поэтому высокая мощность требует большого размера выборки. В частности, многие результаты из литературы о генах-кандидатах страдали от малых размеров эффекта и малых размеров выборки и не воспроизводились. Больше данных из исследований ассоциаций по всему геному (GWAS) приближаются к решению этой проблемы. [142] [143] В качестве числового примера, большинство генов, связанных с риском шизофрении, имеют низкий размер эффекта (генотипический относительный риск, GRR). Статистическое исследование с 1000 случаев и 1000 контролей имеет мощность 0,03% для гена с GRR = 1,15, что уже велико для шизофрении. Напротив, самый большой на сегодняшний день GWAS имеет для него мощность ~100%. [144]
Даже когда исследование повторяется, повторение обычно имеет меньший размер эффекта. Недостаточно мощные исследования имеют большую погрешность размера эффекта. [145]
В исследованиях, которые статистически оценивают фактор регрессии, например , в , когда набор данных большой, шум имеет тенденцию вызывать недооценку фактора регрессии, но когда набор данных небольшой, шум имеет тенденцию вызывать переоценку фактора регрессии. [146]
Метаанализ имеет свои собственные методологические проблемы и споры, что приводит к отказу от метааналитического метода исследователями, чья теория оспаривается метаанализом. [117]
Розенталь предложил «безопасное число» (FSN) [54] , чтобы избежать предвзятости публикации в отношении нулевых результатов. Оно определяется следующим образом: предположим, что нулевая гипотеза верна; сколько публикаций потребуется, чтобы сделать текущий результат неотличимым от нулевой гипотезы?
Розенталь считает, что определенные размеры эффекта достаточно велики, так что даже если есть общая предвзятость публикации против нулевых результатов («проблема ящика с файлами»), количество неопубликованных нулевых результатов будет невыносимо большим, чтобы перекрыть размер эффекта. Таким образом, размер эффекта должен быть статистически значимым даже после учета неопубликованных нулевых результатов.
Одно из возражений против FSN заключается в том, что он рассчитывается так, как будто неопубликованные результаты являются несмещенными выборками из нулевой гипотезы. Но если проблема ящика для файлов верна, то неопубликованные результаты будут иметь размеры эффекта, сосредоточенные вокруг 0. Таким образом, для замены размера эффекта потребуется меньше неопубликованных нулевых результатов, и поэтому FSN является завышенной оценкой. [117]
Другая проблема метаанализа заключается в том, что плохие исследования «заразны» в том смысле, что одно плохое исследование может привести к переоценке статистической значимости всего метаанализа. [78]
Различные статистические методы могут быть применены, чтобы заставить p-значение казаться меньше, чем оно есть на самом деле. Это не обязательно должно быть злонамеренным, так как умеренно гибкий анализ данных, рутинный в исследованиях, может увеличить частоту ложноположительных результатов до более чем 60%. [41]
Например, если собрать некоторые данные, применить к ним несколько различных тестов значимости и опубликовать только тот, который имеет p-значение меньше 0,05, то общее p-значение для «по крайней мере один тест значимости достигает p < 0,05» может быть намного больше 0,05, поскольку даже если бы нулевая гипотеза была верна, вероятность того, что один из многих тестов значимости является экстремальным, сама по себе не является экстремальной.
Обычно статистическое исследование состоит из нескольких этапов, с несколькими вариантами выбора на каждом этапе, например, во время сбора данных, отбрасывания выбросов, выбора тестовой статистики, выбора одностороннего или двустороннего теста и т. д. Эти варианты выбора в « саду расходящихся путей » множатся, создавая множество «степеней свободы исследователя». Эффект похож на проблему ящика с файлами, поскольку неиспользованные пути не публикуются. [147]
Рассмотрим простую иллюстрацию. Предположим, что нулевая гипотеза верна, и у нас есть 20 возможных тестов значимости для применения к набору данных. Также предположим, что результаты тестов значимости независимы. По определению «значимости» каждый тест имеет вероятность 0,05 пройти с уровнем значимости 0,05. Вероятность того, что по крайней мере 1 из 20 является значимым, составляет, по предположению независимости, . [148]
Другая возможность — проблема множественных сравнений . В 2009 году дважды отмечалось, что исследования фМРТ дали подозрительное количество положительных результатов с большими размерами эффекта, больше, чем можно было бы ожидать, поскольку исследования имеют низкую мощность (в одном примере [149] было всего 13 субъектов). Было отмечено, что более половины исследований проверяли корреляцию между явлением и отдельными вокселями фМРТ и сообщали только о вокселях, превышающих выбранные пороговые значения. [150]
Необязательная остановка — это практика, при которой данные собираются до тех пор, пока не будет достигнут некоторый критерий остановки. Хотя это допустимая процедура, ее легко использовать неправильно. Проблема в том, что p-значение необязательно остановленного статистического теста больше, чем кажется. Интуитивно это происходит потому, что p-значение должно быть суммой всех событий, по крайней мере, столь же редких, как и наблюдаемое. При необязательной остановке есть еще более редкие события, которые трудно учесть, то есть не срабатывание необязательного правила остановки и сбор еще большего количества данных перед остановкой. Пренебрежение этими событиями приводит к слишком низкому p-значению. Фактически, если нулевая гипотеза верна, можно достичь любого уровня значимости, если разрешить продолжать собирать данные и остановиться, когда будет получено желаемое p-значение (рассчитанное так, как если бы вы всегда планировали собрать именно столько данных). [151] Для конкретного примера проверки на честную монету см. p -value#optional stops .
Более кратко, правильный расчет p-значения требует учета контрфактуальностей, то есть того, что экспериментатор мог бы сделать в ответ на данные, которые могли бы быть. Учет того, что могло бы быть, сложен даже для честных исследователей. [151] Одним из преимуществ предварительной регистрации является учет всех контрфактуальностей, что позволяет правильно рассчитать p-значение. [152]
Проблема преждевременной остановки не ограничивается только неправомерными действиями исследователя. Часто возникает давление с целью преждевременной остановки, если стоимость сбора данных высока. Некоторые комиссии по этике животных даже требуют преждевременной остановки, если исследование получает значимый результат на полпути. [148]
Такие практики широко распространены в психологии. В опросе 2012 года 56% психологов признались в преждевременном прекращении, 46% — в сообщении только тех анализов, которые «работали», и 38% — в исключении постфактум , то есть в удалении некоторых данных после того , как анализ уже был выполнен, перед повторным анализом оставшихся данных (часто на основе «удаления выбросов»). [40]
Как также сообщают Стэнли и коллеги, еще одной причиной, по которой исследования могут не воспроизводиться, является высокая гетерогенность воспроизводимых эффектов. В метаанализе «гетерогенность» относится к дисперсии в результатах исследований, которая возникает из-за отсутствия единого истинного размера эффекта. Вместо этого результаты в таких случаях лучше рассматривать как распределение истинных эффектов. [15] Статистическая гетерогенность рассчитывается с использованием статистики I-квадрат, [153] определяемой как «доля (или процент) наблюдаемой вариации среди сообщенных размеров эффекта, которая не может быть объяснена рассчитанными стандартными ошибками, связанными с этими сообщенными размерами эффекта». [15] Эта вариация может быть вызвана различиями в экспериментальных методах, популяциях, когортах и статистических методах между исследованиями репликации. Гетерогенность представляет собой проблему для исследований, пытающихся воспроизвести ранее найденные размеры эффекта . Когда гетерогенность высока, последующие репликации имеют высокую вероятность обнаружения размера эффекта, радикально отличающегося от размера исходного исследования. [g]
Важно отметить, что значительные уровни гетерогенности также обнаруживаются в прямых/точных репликациях исследования. Стэнли и коллеги обсуждают это, сообщая об исследовании количественного поведенческого ученого Ричарда Кляйна и коллег, в котором авторы попытались воспроизвести 15 психологических эффектов в 36 различных местах в Европе и США. В исследовании Кляйн и коллеги обнаружили значительные уровни гетерогенности в 8 из 16 эффектов (I-квадрат = 23% к 91%). Важно отметить, что хотя места репликации намеренно различались по различным характеристикам, такие различия могли объяснять очень небольшую гетерогенность. По словам Стэнли и коллег, это предполагает, что гетерогенность могла быть подлинной характеристикой изучаемых явлений. Например, на явления могли влиять так называемые «скрытые модераторы» — соответствующие факторы, которые ранее не считались важными для создания определенного эффекта.
В своем анализе 200 метаанализов психологических эффектов Стэнли и коллеги обнаружили медианный процент гетерогенности I-квадрат = 74%. По мнению авторов, этот уровень гетерогенности можно считать «огромным». Он в три раза больше, чем случайная дисперсия выборки размеров эффекта, измеренная в их исследовании. Если рассматривать его вдоль ошибки выборки , гетерогенность дает стандартное отклонение от одного исследования к другому, даже большее, чем медианный размер эффекта 200 исследованных ими метаанализов. [h] Авторы приходят к выводу, что если репликация определяется последующим исследованием, обнаруживающим достаточно схожий размер эффекта с оригиналом, успех репликации маловероятен, даже если репликации имеют очень большие размеры выборки. Важно, что это происходит даже если репликации являются прямыми или точными, поскольку гетерогенность тем не менее остается относительно высокой в этих случаях.
В экономике кризис репликации может также усугубляться, поскольку эконометрические результаты являются хрупкими: [154] использование различных, но правдоподобных процедур оценки или методов предварительной обработки данных может привести к противоречивым результатам. [155] [156] [157]
Профессор Нью-Йоркского университета Джей Ван Бавел и его коллеги утверждают, что еще одной причиной, по которой результаты трудно воспроизвести, является чувствительность к контексту определенных психологических эффектов. С этой точки зрения, неудачи в воспроизведении могут быть объяснены контекстуальными различиями между исходным экспериментом и воспроизведением, часто называемыми «скрытыми модераторами ». [158] Ван Бавел и его коллеги проверили влияние контекстной чувствительности, повторно проанализировав данные широко цитируемого проекта Reproducibility Project, реализованного Open Science Collaboration. [12] Они перекодировали эффекты в соответствии с их чувствительностью к контекстным факторам, а затем проверили связь между контекстной чувствительностью и успешностью воспроизведения в различных регрессионных моделях .
Было обнаружено, что контекстная чувствительность отрицательно коррелирует с успешностью репликации, так что более высокие оценки контекстной чувствительности были связаны с более низкой вероятностью воспроизведения эффекта. [i] Важно, что контекстная чувствительность значительно коррелирует с успешностью репликации даже при корректировке с учетом других факторов, считающихся важными для воспроизведения результатов (например, размер эффекта и размер выборки оригинала, статистическая мощность репликации, методологическое сходство между оригиналом и репликацией). [j] В свете результатов авторы пришли к выводу, что попытка воспроизведения в другое время, месте или с другой выборкой может значительно изменить результаты эксперимента. Таким образом, контекстная чувствительность может быть причиной того, что определенные эффекты не воспроизводятся в психологии. [158]
В рамках байесовской вероятности, по теореме Байеса , отклонение нулевой гипотезы на уровне значимости 5% не означает, что апостериорная вероятность для альтернативной гипотезы составляет 95%, и апостериорная вероятность также отличается от вероятности репликации. [159] [151] Рассмотрим упрощенный случай, когда есть только две гипотезы. Пусть априорная вероятность нулевой гипотезы будет , а альтернативы . Для данного статистического исследования пусть его ложноположительный уровень (уровень значимости) будет , а истинноположительный уровень (мощность) будет . Для иллюстративных целей пусть уровень значимости будет 0,05, а мощность будет 0,45 (недостаточная мощность).
Теперь, по теореме Байеса, при условии, что результаты статистического исследования верны, апостериорная вероятность того, что это действительно так, не равна , а
и вероятность воспроизведения статистического исследования равна , что также отличается от . В частности, для фиксированного уровня значимости вероятность воспроизведения увеличивается с мощностью, а априорная вероятность для . Если априорная вероятность для мала, то для воспроизведения потребуется высокая мощность.
Например, если априорная вероятность нулевой гипотезы равна , а исследование показало положительный результат, то апостериорная вероятность равна , а вероятность репликации равна .
Некоторые утверждают, что проверка нулевой гипотезы сама по себе нецелесообразна, особенно в «мягких науках», таких как социальная психология. [160] [161]
Как неоднократно отмечали статистики, [162] в сложных системах, таких как социальная психология, «нулевая гипотеза всегда ложна» или «все коррелирует». Если так, то если нулевая гипотеза не отвергается, это не показывает, что нулевая гипотеза верна, а просто то, что она была ложноотрицательной, как правило, из-за низкой мощности. [163] Низкая мощность особенно распространена в предметных областях, где размеры эффектов невелики, а получение данных обходится дорого, таких как социальная психология. [160] [164]
Более того, когда нулевая гипотеза отвергается, это может не быть доказательством существенной альтернативной гипотезы. В гуманитарных науках многие гипотезы могут предсказать корреляцию между двумя переменными. Таким образом, доказательство против нулевой гипотезы «нет корреляции» не является доказательством одной из многих альтернативных гипотез, которые одинаково хорошо предсказывают «есть корреляция». Фишер разработал NHST для агрономии, где отклонение нулевой гипотезы обычно является хорошим доказательством альтернативной гипотезы, поскольку их не так много. Отклонение гипотезы «удобрение не помогает» является доказательством «удобрение помогает». Но в психологии существует много альтернативных гипотез для каждой нулевой гипотезы. [164] [165]
В частности, когда статистические исследования экстрасенсорного восприятия отвергают нулевую гипотезу при крайне низком значении p (как в случае с Дэрилом Бемом ), это не подразумевает альтернативную гипотезу «ЭСВ существует». Гораздо более вероятно, что в экспериментальной установке был небольшой (не-ЭСВ) сигнал, который был точно измерен. [166]
Пол Мил отметил, что статистическая проверка гипотез используется по-разному в «мягкой» психологии (личностной, социальной и т. д.) и физике. В физике теория делает количественный прогноз и проверяется путем проверки того, попадает ли прогноз в статистически измеренный интервал. В мягкой психологии теория делает направленный прогноз и проверяется путем проверки того, отклоняется ли нулевая гипотеза в правильном направлении. Следовательно, улучшенная экспериментальная техника делает теории более склонными к фальсификации в физике, но менее склонными к фальсификации в мягкой психологии, поскольку нулевая гипотеза всегда ложна, поскольку любые две переменные коррелируют с «грубым фактором» около 0,30. Чистый эффект представляет собой накопление теорий, которые остаются нефальсифицированными , но без эмпирических доказательств предпочтения одной из них другим. [23] [165]
По мнению философа Александра Берда , возможной причиной низких показателей воспроизводимости в некоторых научных областях является то, что большинство проверенных гипотез априори ложны . [167] С этой точки зрения низкие показатели воспроизводимости могут соответствовать качественной науке. Соответственно, ожидание того, что большинство результатов должны воспроизводиться, было бы ошибочным и, по мнению Берда, формой ошибки базовой ставки. Аргумент Берда работает следующим образом. Предполагая идеальную ситуацию проверки значимости, при которой вероятность неправильного отклонения нулевой гипотезы составляет 5% (т. е. ошибка типа I ), а вероятность правильного отклонения нулевой гипотезы составляет 80% (т. е. мощность ), в контексте, где большая доля проверенных гипотез ложна, можно предположить, что количество ложных положительных результатов будет высоким по сравнению с количеством истинно положительных результатов. [167] Например, в ситуации, когда только 10% проверенных гипотез на самом деле верны, можно подсчитать, что до 36% результатов будут ложными положительными. [к]
Утверждение о том, что ложность большинства проверенных гипотез может объяснить низкие показатели воспроизводимости, становится еще более актуальным, если учесть, что средняя мощность статистических тестов в некоторых областях может быть намного ниже 80%. Например, доля ложноположительных результатов увеличивается до значения от 55,2% до 57,6% при расчете с оценками средней мощности от 34,1% до 36,4% для психологических исследований, как это было предоставлено Стэнли и коллегами в их анализе 200 метаанализов в этой области. [15] Высокая доля ложноположительных результатов затем привела бы к тому, что многие результаты исследований оказались бы невоспроизводимыми.
Берд отмечает, что утверждение о том, что большинство проверенных гипотез являются ложными априори в определенных научных областях, может быть правдоподобным, учитывая такие факторы, как сложность изучаемых явлений, тот факт, что теории редко бывают бесспорными, «выводное расстояние» между теориями и гипотезами и легкость, с которой могут быть созданы гипотезы. В этом отношении Берд приводит в качестве примеров такие области, как клиническая медицина, генетическая и молекулярная эпидемиология и социальная психология. Эта ситуация радикально отличается в областях, где теории имеют выдающуюся эмпирическую основу и гипотезы могут быть легко выведены из теорий (например, экспериментальная физика). [167]
Когда в литературе эффекты ошибочно указываются как значимые, неспособность обнаружить это путем репликации приведет к канонизации таких ложных фактов. [168]
Исследование 2021 года показало, что статьи в ведущих журналах по общим интересам, психологии и экономике с результатами, которые не удалось воспроизвести, как правило, цитируются больше с течением времени, чем воспроизводимые исследовательские статьи, вероятно, потому, что эти результаты удивительны или интересны. На эту тенденцию не влияет публикация неудачных воспроизведений, после чего только 12% статей, цитирующих оригинальное исследование, будут упоминать неудачное воспроизведение. [169] [170] Кроме того, эксперты могут предсказать, какие исследования будут воспроизводимы, что привело авторов исследования 2021 года Марту Серра-Гарсия и Ури Гнизи к выводу, что эксперты применяют более низкие стандарты к интересным результатам при принятии решения об их публикации. [170]
В научном сообществе высказывались опасения, что широкая общественность может считать науку менее заслуживающей доверия из-за неудачных репликаций. [171] Исследования, подтверждающие эту обеспокоенность, немногочисленны, но общенациональный репрезентативный опрос в Германии показал, что более 75% немцев не слышали о неудачных репликациях в науке. [172] Исследование также показало, что большинство немцев положительно воспринимают попытки репликации: только 18% считают, что невоспроизводимость показывает, что науке нельзя доверять, в то время как 65% считают, что исследования репликации показывают, что наука применяет контроль качества, и 80% согласны с тем, что ошибки и исправления являются частью науки. [172]
С привлечением внимания к кризису репликации психологии психолог Принстонского университета Сьюзан Фиске вызвала споры, выступая против критиков психологии за то, что она назвала издевательством и подрывом науки. [173] [174] [175] [176] Она назвала этих неопознанных «противников» такими именами, как «методологический террорист» и «самозванная полиция данных», заявив, что критика психологии должна выражаться только в частном порядке или путем обращения в журналы. [173] Статистик и политолог Колумбийского университета Эндрю Гельман ответил Фиске, заявив, что она обнаружила, что готова терпеть «мертвую парадигму» ошибочной статистики и отказывалась отзывать публикации, даже когда указывались на ошибки. [173] Он добавил, что ее пребывание на посту редактора было ужасным, и что ряд опубликованных ею статей, которые она редактировала, были признаны основанными на крайне слабых статистических данных; В одной из опубликованных работ самого Фиске была обнаружена серьезная статистическая ошибка и «невозможные» выводы. [173]
Некоторые исследователи в области психологии указывают, что кризис репликации является основой для «революции доверия», где изменения в стандартах, по которым оценивается психологическая наука, могут включать подчеркивание прозрачности и открытости, предварительную регистрацию исследовательских проектов и репликацию исследований с более высокими стандартами доказательств для повышения силы научных заявлений. [177] Такие изменения могут снизить производительность отдельных исследователей, но этого эффекта можно избежать путем обмена данными и более тесного сотрудничества. [177] Революция доверия может быть полезна для исследовательской среды. [178]
Сосредоточение внимания на кризисе репликации привело к возобновлению усилий в психологии по повторной проверке важных результатов. [41] [179] Специальный выпуск журнала Social Psychology за 2013 год был посвящен исследованиям репликации. [13]
Были предложены стандартизация, а также (требование) прозрачности используемых статистических и экспериментальных методов. [180] Тщательное документирование экспериментальной установки считается решающим для воспроизводимости экспериментов, и различные переменные могут не быть документированы и стандартизированы, например, рацион животных в исследованиях на животных. [181]
В статье Джона Иоаннидиса 2016 года подробно рассматривается тема «Почему большинство клинических исследований бесполезны». [182] Иоаннидис описывает то, что он считает некоторыми из проблем, и призывает к реформе, характеризуя определенные моменты, чтобы медицинские исследования снова стали полезными; одним из примеров, который он приводит, является необходимость того, чтобы медицина была ориентирована на пациента (например, в форме Института исследований результатов, ориентированных на пациента ) вместо текущей практики, когда в основном заботятся о «потребностях врачей, исследователей или спонсоров».
Метанаука — это использование научной методологии для изучения самой науки. Она стремится повысить качество научных исследований, одновременно сокращая отходы. Она также известна как «исследование исследований» и «наука науки», поскольку использует методы исследования для изучения того, как проводятся исследования и где можно внести улучшения. Метанаука касается всех областей исследований и была названа «взглядом на науку с высоты птичьего полета». [183] По словам Иоаннидиса, «Наука — это лучшее, что случилось с людьми... но мы можем сделать ее лучше». [184]
Продолжается проведение мета-исследований для выявления корней кризиса и их устранения. Методы устранения кризиса включают предварительную регистрацию научных исследований и клинических испытаний , а также создание организаций, таких как CONSORT и EQUATOR Network , которые выпускают руководящие принципы по методологии и отчетности. Продолжаются усилия по реформированию системы академических стимулов, улучшению процесса рецензирования , сокращению неправильного использования статистики , борьбе с предвзятостью в научной литературе и повышению общего качества и эффективности научного процесса.
Некоторые авторы утверждают, что недостаточная коммуникация экспериментальных методов является основным фактором кризиса воспроизводимости и что лучшее представление экспериментального дизайна и статистического анализа улучшило бы ситуацию. Эти авторы склонны выступать как за широкое культурное изменение в научном сообществе того, как рассматриваются статистические данные, так и за более принудительный нажим со стороны научных журналов и финансирующих организаций. [185] Однако были высказаны опасения относительно возможности неправильного применения стандартов прозрачности и воспроизводимости как к качественным, так и к количественным исследованиям. [186]
Журналы по бизнесу и менеджменту, которые ввели редакционную политику в отношении доступности данных, репликации и прозрачности, включают Strategic Management Journal , Journal of International Business Studies и Management and Organization Review . [93]
В ответ на опасения в психологии по поводу предвзятости публикаций и подтасовки данных более 140 психологических журналов приняли слепое к результатам рецензирование. При таком подходе исследования принимаются не на основе их результатов и после завершения исследований, а до их проведения и на основе методологической строгости их экспериментальных проектов и теоретических обоснований их методов статистического анализа до сбора или анализа данных. [187] Ранний анализ этой процедуры показал, что 61% слепых к результатам исследований привели к нулевым результатам , в отличие от предполагаемых 5–20% в более ранних исследованиях. [101] Кроме того, в психологии стало гораздо более распространенным крупномасштабное сотрудничество между исследователями, работающими в нескольких лабораториях в разных странах, которые регулярно делают свои данные открытыми для оценки разными исследователями. [188]
Научные публикации начали использовать отчеты о предварительной регистрации для решения кризиса репликации. [189] [190] Формат зарегистрированного отчета требует, чтобы авторы представляли описание методов исследования и анализов до сбора данных. После того, как метод и план анализа проверены путем рецензирования, публикация результатов временно гарантируется на основе того, следуют ли авторы предлагаемому протоколу. Одна из целей зарегистрированных отчетов — обойти предвзятость публикации в сторону значимых результатов, которая может привести к внедрению сомнительных исследовательских практик. Другая цель — поощрять публикацию исследований со строгими методами.
Журнал Psychological Science поощряет предварительную регистрацию исследований и сообщение о размерах эффекта и доверительных интервалах. [191] Главный редактор также отметил, что редакция будет запрашивать повторные исследования с неожиданными результатами, полученными в ходе обследований с использованием небольших выборок, прежде чем разрешить публикацию рукописей.
Было высказано предположение, что необходим «простой способ проверки того, как часто повторялись исследования и подтверждаются ли первоначальные результаты». [169] Категоризации и рейтинги воспроизводимости на уровне исследования или результатов, а также добавление ссылок и рейтинг сторонних подтверждений могут проводиться рецензентами, научным журналом или читателями в сочетании с новыми цифровыми платформами или инструментами.
Многие публикации требуют p -значения p < 0,05 для утверждения статистической значимости . Статья «Переопределите статистическую значимость» [192], подписанная большим количеством ученых и математиков, предлагает, чтобы в «областях, где порог определения статистической значимости для новых открытий составляет p < 0,05, мы предлагаем изменить на p < 0,005. Этот простой шаг немедленно улучшил бы воспроизводимость научных исследований во многих областях». Их обоснование заключается в том, что «главной причиной невоспроизводимости (является то, что) статистические стандарты доказательств для утверждения новых открытий во многих областях науки просто слишком низки. Связывание «статистически значимых» результатов с p < 0,05 приводит к высокому уровню ложноположительных результатов даже при отсутствии других экспериментальных, процедурных и отчетных проблем». [192]
Этот призыв впоследствии подвергся критике со стороны другой большой группы, которая утверждала, что «переопределение» порога не решит текущие проблемы, а приведет к появлению новых, и что в конечном итоге все пороги должны быть обоснованы в каждом конкретном случае, а не следовать общим соглашениям. [193] Последующее исследование 2022 года изучило практическое воздействие этих конкурирующих рекомендаций. Несмотря на высокие показатели цитирования обоих предложений, исследователи обнаружили ограниченную реализацию либо порога p < 0,005, либо подхода к обоснованию в каждом конкретном случае на практике. Это выявило то, что авторы назвали «порочным кругом», в котором ученые отвергают рекомендации, потому что они не являются стандартной практикой, в то время как рекомендации не становятся стандартной практикой, потому что немногие ученые их принимают. [194]
Хотя статистики единодушны в том, что использование « p < 0,05» в качестве стандарта значимости дает более слабые доказательства, чем обычно считается, нет единого мнения о том, что с этим следует делать. Некоторые выступают за то, чтобы байесовские методы заменили p -значения. Этого не произошло в широких масштабах, отчасти потому, что это сложно, а отчасти потому, что многие пользователи не доверяют спецификации априорных распределений при отсутствии жестких данных. Упрощенная версия байесовского аргумента, основанная на проверке точечной нулевой гипотезы, была предложена фармакологом Дэвидом Колкухоуном . [195] [196] Логические проблемы индуктивного вывода обсуждались в «Проблеме с p-значениями» (2016). [197]
Опасность опоры на p -значения возникает отчасти потому, что даже наблюдение p = 0,001 не обязательно является сильным доказательством против нулевой гипотезы. [196] Несмотря на то, что отношение правдоподобия в пользу альтернативной гипотезы по сравнению с нулевой близко к 100, если бы гипотеза была неправдоподобной, с априорной вероятностью реального эффекта 0,1, даже наблюдение p = 0,001 имело бы ложноположительный риск в 8 процентов. Оно все равно не достигло бы уровня 5 процентов.
Было рекомендовано не использовать термины «значимый» и «незначимый». [196] p -значения и доверительные интервалы по-прежнему следует указывать, но они должны сопровождаться указанием риска ложного положительного результата. Было высказано предположение, что лучший способ сделать это — рассчитать априорную вероятность, в которую необходимо верить, чтобы достичь ложного положительного риска определенного уровня, например 5%. Расчеты можно выполнить с помощью различного компьютерного программного обеспечения. [196] [198] Этот обратный байесовский подход, предложенный физиком Робертом Мэтьюзом в 2001 году, [199] является одним из способов избежать проблемы, заключающейся в том, что априорная вероятность редко известна.
Для улучшения качества репликаций часто требуются большие размеры выборки , чем те, которые использовались в оригинальном исследовании. [200] Большие размеры выборки необходимы, поскольку оценки размеров эффекта в опубликованных работах часто преувеличены из-за смещения публикации и большой изменчивости выборки, связанной с малыми размерами выборки в оригинальном исследовании. [201] [202] [203] Кроме того, использование порогов значимости обычно приводит к завышенным эффектам, поскольку, особенно при малых размерах выборки, только самые большие эффекты станут значимыми. [161]
Одной из распространенных статистических проблем является переобучение , то есть когда исследователи подгоняют регрессионную модель по большому количеству переменных, но небольшому количеству точек данных. Например, типичное исследование фМРТ эмоций, личности и социального познания имеет менее 100 субъектов, но у каждого субъекта есть 10 000 вокселей. Исследование подгоняло бы разреженную линейную регрессионную модель, которая использует воксели для прогнозирования интересующей переменной, такой как самооценка стресса. Но затем исследование сообщало бы о p-значении модели на тех же данных, к которым она была подобрана. Стандартный подход в статистике, где данные разделяются на обучающий и проверочный наборы , встречает сопротивление, поскольку приобретение испытуемых обходится дорого. [150] [204]
Одним из возможных решений является перекрестная проверка , которая позволяет проводить проверку модели, а также использовать весь набор данных для подгонки модели. [205]
В июле 2016 года Нидерландская организация научных исследований выделила €3 млн на исследования по репликации. Финансирование предназначено для репликации на основе повторного анализа существующих данных и репликации путем сбора и анализа новых данных. Финансирование доступно в областях социальных наук, исследований в области здравоохранения и инноваций в области здравоохранения. [206]
В 2013 году Фонд Лоры и Джона Арнольда профинансировал запуск Центра открытой науки , выделив грант в размере 5,25 млн долларов. К 2017 году он предоставил дополнительно 10 млн долларов финансирования. [207] Он также профинансировал запуск Центра мета-исследований инноваций в Стэнфорде в Стэнфордском университете, которым руководят Иоаннидис и ученый-медик Стивен Гудман для изучения путей улучшения научных исследований. [207] Он также профинансировал инициативу AllTrials , частично возглавляемую ученым-медиком Беном Голдакром . [207]
На основе курсовых работ по экспериментальным методам в Массачусетском технологическом институте, Стэнфорде и Вашингтонском университете было высказано предположение, что курсы по методам в психологии и других областях должны делать акцент на попытках воспроизведения, а не на оригинальных исследованиях. [208] [209] [210] Такой подход поможет студентам изучить научную методологию и предоставит многочисленные независимые репликации значимых научных результатов, которые проверят воспроизводимость научных результатов. Некоторые рекомендовали, чтобы аспиранты были обязаны публиковать высококачественную попытку воспроизведения по теме, связанной с их докторским исследованием, до окончания учебы. [211]
Возникла обеспокоенность тем, что попытки репликации растут. [212] [213] [214] В результате это может привести к потере исследовательской траты. [215] В свою очередь, это привело к необходимости систематического отслеживания попыток репликации. В результате было создано несколько баз данных (например, [216] [217] ). Базы данных создали базу данных репликации, которая включает психологию и логопедию, среди других дисциплин, для продвижения теоретически обоснованных исследований и оптимизации использования академических и институциональных ресурсов, одновременно способствуя доверию к науке. [218]
Некоторые учреждения требуют от студентов бакалавриата представить выпускную работу, которая представляет собой оригинальное исследование. Дэниел Кинтана, психолог из Университета Осло в Норвегии, рекомендовал поощрять студентов проводить исследования по репликации в дипломных проектах, а также знакомить их с открытой наукой . [219]
Исследователи продемонстрировали способ полуавтоматического тестирования на воспроизводимость: утверждения об экспериментальных результатах были извлечены из несемантических статей об экспрессии генов в 2022 году и впоследствии воспроизведены с помощью робота-ученого « Ева ». [220] [221] Проблемы этого подхода включают в себя то, что он может быть неосуществим для многих областей исследований и что достаточные экспериментальные данные могут не быть извлечены из некоторых или многих статей, даже если они доступны.
Психолог Дэниел Канеман утверждал, что в психологии первоначальные авторы должны быть вовлечены в процесс воспроизведения, поскольку опубликованные методы часто слишком расплывчаты. [222] [223] Другие, такие как психолог Эндрю Уилсон, не согласны, утверждая, что первоначальные авторы должны подробно описывать методы. [222] Исследование показателей репликации в психологии в 2012 году показало более высокие показатели успешности воспроизведения в исследованиях по репликации, когда имелось совпадение авторов с первоначальными авторами исследования [224] (91,7% успешных показателей репликации в исследованиях с совпадением авторов по сравнению с 64,6% успешных показателей репликации без совпадения авторов).
Кризис репликации привел к формированию и развитию различных крупномасштабных и совместных сообществ для объединения своих ресурсов для решения одного вопроса в разных культурах, странах и дисциплинах. [225] Основное внимание уделяется репликации, чтобы гарантировать, что эффект распространяется за пределы конкретной культуры, и исследовать, является ли эффект воспроизводимым и подлинным. [226] Это позволяет проводить междисциплинарные внутренние обзоры, использовать множественные точки зрения, использовать единые протоколы в разных лабораториях и привлекать более крупные и разнообразные выборки. [226] Исследователи могут сотрудничать, координируя сбор данных или финансировать сбор данных исследователями, которые могут не иметь доступа к средствам, что позволяет увеличить размеры выборки и повысить надежность выводов.
Психолог Маркус Р. Мунафо и эпидемиолог Джордж Дейви Смит утверждают в статье, опубликованной в Nature , что исследования должны подчеркивать триангуляцию , а не просто репликацию, чтобы защититься от ошибочных идей. Они утверждают, что,
Одна лишь репликация поможет нам лишь до определенной степени (и) может даже ухудшить ситуацию... [Триангуляция] — это стратегическое использование нескольких подходов для решения одного вопроса. У каждого подхода есть свои собственные не связанные между собой предположения, сильные и слабые стороны. Результаты, которые согласуются между различными методологиями, с меньшей вероятностью будут артефактами . ... Возможно, одной из причин, по которой репликация привлекла столько внимания, является часто повторяемая идея о том, что фальсификация лежит в основе научного предприятия. Эта идея была популяризирована максимой Карла Поппера 1950-х годов о том, что теории никогда не могут быть доказаны, а только фальсифицированы. Однако чрезмерный акцент на повторении экспериментов может дать необоснованное чувство уверенности в выводах, которые опираются на один подход. ... философы науки продвинулись дальше со времен Поппера. Более точное описание того, как на самом деле работают ученые, включает то, что эпистемолог Питер Липтон назвал в 1991 году «выводом к наилучшему объяснению». [227]
Доминирующей научной и статистической моделью причинно-следственной связи является линейная модель. [228] Линейная модель предполагает, что ментальные переменные являются стабильными свойствами, которые независимы друг от друга. Другими словами, эти переменные не должны влиять друг на друга. Вместо этого модель предполагает, что переменные будут иметь независимое, линейное влияние на наблюдаемые результаты. [228]
Социологи Себастьян Валлот и Дамиан Келти-Стивен утверждают, что линейная модель не всегда подходит. [228] Альтернативой является сложная системная модель, которая предполагает, что ментальные переменные взаимозависимы. Эти переменные не считаются стабильными, скорее они будут взаимодействовать и адаптироваться к каждому конкретному контексту. [228] Они утверждают, что сложная системная модель часто более подходит в психологии, и что использование линейной модели, когда сложная системная модель более подходит, приведет к неудачным репликациям. [228]
...психология может надеяться на повторения в тех самых измерениях и в тех самых условиях, где растущий объем психологических доказательств явно препятствует прогнозированию повторения. Неудачи в повторении могут быть просто заложены в потенциально неполной, но широкомасштабной неспособности человеческого поведения соответствовать стандарту независимости [ce] ... [228]
Репликация имеет основополагающее значение для научного прогресса, чтобы подтвердить оригинальные результаты. Однако одной репликации недостаточно для разрешения кризиса репликации. Усилия по репликации должны быть направлены не только на поддержку или сомнение в оригинальных результатах, но и на замену их пересмотренными, более сильными теориями с большей объяснительной силой. Поэтому этот подход включает в себя сокращение существующих теорий, сравнение всех альтернативных теорий и повышение продуктивности и вовлеченности в построение теорий. [229] [230] Однако одной репликации недостаточно, важно оценить степень обобщения результатов в географических, исторических и социальных контекстах, что важно для нескольких научных областей, особенно для практиков и политиков, чтобы проводить анализы с целью принятия важных стратегических решений. Воспроизводимые и воспроизводимые результаты были лучшим предиктором обобщаемости за пределами исторических и географических контекстов, указывая на то, что для социальных наук результаты из определенного периода времени и места могут осмысленно определять то, что универсально присутствует у людей. [231]
Открытые данные, программное обеспечение с открытым исходным кодом и оборудование с открытым исходным кодом — все это имеет решающее значение для обеспечения воспроизводимости в смысле проверки исходного анализа данных. Использование фирменного программного обеспечения, отсутствие публикации программного обеспечения для анализа и отсутствие открытых данных препятствует воспроизведению исследований. Если программное обеспечение, используемое в исследовании, не является программным обеспечением с открытым исходным кодом, воспроизведение результатов с различными программными и аппаратными конфигурациями невозможно. [232] У ЦЕРНа есть как проекты Open Data, так и проекты CERN Analysis Preservation для хранения данных, всей соответствующей информации, а также всего программного обеспечения и инструментов, необходимых для сохранения анализа в крупных экспериментах LHC . Помимо всего программного обеспечения и данных, сохраненные активы анализа включают метаданные, которые позволяют понять рабочий процесс анализа, связанное программное обеспечение, систематические неопределенности, статистические процедуры и значимые способы поиска анализа, а также ссылки на публикации и резервные материалы. [233] Программное обеспечение ЦЕРНа имеет открытый исходный код и доступно для использования за пределами физики элементарных частиц , и есть некоторые рекомендации для других областей по общим подходам и стратегиям, используемым для открытой науки в современной физике элементарных частиц. [234]
Онлайн-репозитории, где данные, протоколы и результаты могут храниться и оцениваться общественностью, стремятся улучшить целостность и воспроизводимость исследований. Примерами таких репозиториев являются Open Science Framework , Registry of Research Data Repositories и Psychfiledrawer.org. Такие сайты, как Open Science Framework, предлагают значки за использование открытых научных практик в целях стимулирования ученых. Однако существуют опасения, что те, кто с наибольшей вероятностью предоставит свои данные и код для анализа, — это исследователи, которые, скорее всего, являются наиболее искушенными. [235] Иоаннидис предположил, что «может возникнуть парадокс, что самые дотошные и искушенные, а также подкованные в методах и осторожные исследователи могут стать более восприимчивыми к критике и репутационным атакам со стороны реанализаторов, которые охотятся за ошибками, независимо от того, насколько незначительны эти ошибки». [235]
Ненадлежащая практика поиска в больших файлах информации с целью подтверждения предвзятой гипотезы или убеждения без адекватного дизайна, который контролирует возможные помехи или альтернативные гипотезы. Data dredging может включать выбор частей большого набора данных, которые следует сохранить, чтобы получить конкретные желаемые результаты.
Использование значений p в течение почти столетия [с 1925 г.] для определения статистической значимости экспериментальных результатов способствовало возникновению иллюзии определенности и [ кризису] воспроизводимости во многих научных областях . Растет решимость реформировать статистический анализ... Некоторые [исследователи] предлагают изменить статистические методы, тогда как другие отказались бы от порогового значения для определения «значимых» результатов.