Часть серии статей о |
Практики, основанные на фактических данных |
---|
Иерархия доказательств , включающая уровни доказательств ( LOE ), то есть уровни доказательств ( EL ), является эвристикой, используемой для ранжирования относительной силы результатов, полученных в ходе экспериментальных исследований, особенно медицинских исследований . Существует общее согласие относительно относительной силы крупномасштабных эпидемиологических исследований . Было предложено более 80 различных иерархий для оценки медицинских доказательств . [1] Дизайн исследования (например, отчет о случае отдельного пациента или слепое рандомизированное контролируемое исследование ) и измеряемые конечные точки (например, выживаемость или качество жизни ) влияют на силу доказательств. В клинических исследованиях наилучшие доказательства эффективности лечения в основном получаются из метаанализов рандомизированных контролируемых исследований (РКИ). [2] [3] Систематические обзоры завершенных высококачественных рандомизированных контролируемых исследований, например, опубликованных Cochrane Collaboration , ранжируются так же, как и систематический обзор завершенных высококачественных наблюдательных исследований в отношении изучения побочных эффектов. [4] Иерархии доказательств часто применяются в практике, основанной на доказательствах , и являются неотъемлемой частью доказательной медицины (EBM).
В 2014 году Джейкоб Стегенга определил иерархию доказательств как «ранжирование видов методов в соответствии с потенциалом того, что этот метод может пострадать от систематической ошибки». На вершине иерархии находится метод с наибольшей свободой от системной ошибки или наилучшей внутренней валидностью относительно предполагаемой эффективности тестируемого медицинского вмешательства. [5] : 313 В 1997 году Гринхалх предположил, что это «относительный вес, который имеют различные типы первичного исследования при принятии решений о клинических вмешательствах». [6]
Национальный институт рака определяет уровни доказательств как « систему ранжирования, используемую для описания силы результатов, измеренных в ходе клинического испытания или научного исследования. Дизайн исследования ... и измеренные конечные точки... влияют на силу доказательств» [7] .
Было предложено большое количество иерархий доказательств. Аналогичные протоколы для оценки качества исследований все еще находятся в стадии разработки. До сих пор имеющиеся протоколы уделяют относительно мало внимания тому, относится ли исследование результатов к эффективности (результат лечения, проведенного в идеальных условиях) или к результативности (результат лечения, проведенного в обычных, ожидаемых условиях). [ необходима цитата ]
Подход GRADE (оценка, разработка и анализ рекомендаций) — это метод оценки достоверности доказательств (также известный как качество доказательств или уверенность в оценках эффекта) и силы рекомендаций. [10] GRADE возник в 2000 году как совместная работа методистов, разработчиков руководств, биостатистиков, клиницистов, ученых в области общественного здравоохранения и других заинтересованных лиц. [ необходима ссылка ]
Более 100 организаций (включая Всемирную организацию здравоохранения , Национальный институт здравоохранения и совершенствования медицинской помощи Великобритании (NICE), Канадскую целевую группу по профилактической медицинской помощи, Министерство здравоохранения Колумбии и другие) одобрили и/или используют GRADE для оценки качества доказательств и силы рекомендаций по оказанию медицинской помощи. (См. примеры клинических практических рекомендаций с использованием GRADE в Интернете). [11] [12]
GRADES оценивает качество доказательств следующим образом: [13] [14]
Высокий | Существует большая уверенность в том, что истинный эффект близок к предполагаемому эффекту. |
Умеренный | Существует умеренная уверенность в предполагаемом эффекте: истинный эффект, вероятно, будет близок к предполагаемому эффекту, но есть вероятность, что он существенно отличается. |
Низкий | Достоверность предполагаемого эффекта ограничена: истинный эффект может существенно отличаться от предполагаемого эффекта. |
Очень низкий | Достоверность предполагаемого эффекта крайне мала: истинный эффект, скорее всего, будет существенно отличаться от предполагаемого. |
В 1995 году Гайатт и Сакетт опубликовали первую такую иерархию. [15]
Гринхалх расположил различные типы первичного обучения в следующем порядке: [6]
Протокол, предложенный Сондерсом и др., распределяет исследовательские отчеты по шести категориям на основе дизайна исследования, теоретической базы, доказательств возможного вреда и общего признания. Для классификации по этому протоколу должны быть описательные публикации, включая руководство или аналогичное описание вмешательства. Этот протокол не учитывает природу какой-либо группы сравнения, влияние смешивающих переменных, природу статистического анализа или ряд других критериев. Вмешательства оцениваются как принадлежащие к Категории 1, хорошо поддержанные, эффективные методы лечения, если есть два или более рандомизированных контролируемых исследования результатов, сравнивающих целевое лечение с соответствующим альтернативным лечением и показывающих значительное преимущество целевого лечения. Вмешательства относятся к Категории 2, поддержанное и, вероятно, эффективное лечение, на основе положительных результатов нерандомизированных дизайнов с некоторой формой контроля, который может включать группу без лечения. Категория 3, поддерживаемое и приемлемое лечение, включает вмешательства, поддерживаемые одним контролируемым или неконтролируемым исследованием, или серией исследований с одним субъектом, или работой с другой популяцией, чем та, которая представляет интерес. Категория 4, многообещающее и приемлемое лечение, включает вмешательства, которые не имеют поддержки, кроме общего признания и клинической анекдотической литературы; однако любые доказательства возможного вреда исключают методы лечения из этой категории. Категория 5, инновационное и новое лечение, включает вмешательства, которые не считаются вредными, но широко не используются или не обсуждаются в литературе. Категория 6, касающаяся лечения, представляет собой классификацию методов лечения, которые могут причинить вред, а также имеют неизвестные или ненадлежащие теоретические основы. [16]
Протокол оценки качества исследований был предложен в отчете Центра обзоров и распространения, подготовленном Ханом и др., и предназначен в качестве общего метода оценки как медицинских, так и психосоциальных вмешательств. Хотя этот протокол настоятельно рекомендовал использование рандомизированных дизайнов, он отметил, что такие дизайны были полезны только в том случае, если они соответствовали строгим критериям, таким как истинная рандомизация и сокрытие назначенной группы лечения от клиента и от других, включая лиц, оценивающих результаты. Протокол Хана и др. подчеркивал необходимость проводить сравнения на основе «намерения лечить», чтобы избежать проблем, связанных с большим отсевом в одной группе. Протокол Хана и др. также представил строгие критерии для нерандомизированных исследований, включая сопоставление групп по потенциальным искажающим переменным и адекватные описания групп и методов лечения на каждом этапе, а также сокрытие выбора лечения от лиц, оценивающих результаты. Этот протокол не предоставлял классификации уровней доказательств, но включал или исключал методы лечения из классификации как основанные на доказательствах в зависимости от того, соответствовало ли исследование заявленным стандартам. [17]
Протокол оценки был разработан Национальным реестром доказательных практик и программ США (NREPP). Оценка по этому протоколу происходит только в том случае, если вмешательство уже имело один или несколько положительных результатов с вероятностью менее .05, если они были опубликованы в рецензируемом журнале или отчете об оценке, и если была предоставлена документация, такая как учебные материалы. Оценка NREPP, которая присваивает рейтинги качества от 0 до 4 определенным критериям, проверяет надежность и обоснованность мер результата, используемых в исследовании, доказательства точности вмешательства (предсказуемое использование лечения одним и тем же способом каждый раз), уровни пропущенных данных и выбывания, потенциальные искажающие переменные и уместность статистической обработки, включая размер выборки. [18]
Термин был впервые использован в отчете 1979 года «Канадской целевой группы по периодическим медицинским осмотрам» (CTF) для «оценки эффективности вмешательства в соответствии с качеством полученных доказательств». [19] : 1195 Целевая группа использовала три уровня, подразделяя уровень II:
CTF оценила свои рекомендации по 5-балльной шкале A–E: A: хороший уровень доказательств для рекомендации рассмотреть состояние, B: удовлетворительный уровень доказательств для рекомендации рассмотреть состояние, C: плохой уровень доказательств для рекомендации рассмотреть состояние, D: удовлетворительный уровень доказательств для рекомендации исключить состояние и E: хороший уровень доказательств для рекомендации исключить состояние из рассмотрения. [19] : 1195 CTF обновила свой отчет в 1984 году, [20] в 1986 году [21] и 1987 году. [22]
В 1988 году Целевая группа профилактических служб США (USPSTF) выпустила свои руководящие принципы, основанные на CTF, используя те же три уровня, дополнительно подразделив уровень II. [23]
За прошедшие годы было описано гораздо больше систем оценок. [24]
В сентябре 2000 года Оксфордский (Великобритания) Центр доказательной медицины (CEBM) опубликовал свои руководящие принципы «Уровней» доказательств относительно утверждений о прогнозе, диагностике, преимуществах лечения, вреде лечения и скрининге. Они касались не только терапии и профилактики, но и диагностических тестов, прогностических маркеров или вреда. Первоначальные уровни CEBM были впервые выпущены для Evidence-Based On Call, чтобы сделать процесс поиска доказательств осуществимым, а его результаты — явными. Согласно публикации 2009 года [25] [26], они следующие:
В 2011 году международная группа переработала уровни Oxford CEBM, чтобы сделать их более понятными и учесть последние разработки в схемах ранжирования доказательств. Уровни использовались пациентами, врачами, а также для разработки клинических руководств, включая рекомендации по оптимальному использованию фототерапии и местной терапии при псориазе [27] и руководств по использованию системы стадирования BCLC для диагностики и мониторинга гепатоцеллюлярной карциномы в Канаде. [28]
В 2007 году система оценок Всемирного фонда исследований рака описала 4 уровня: убедительные, вероятные, возможные и недостаточные доказательства. [29] Все исследования глобального бремени болезней использовали ее для оценки эпидемиологических доказательств, подтверждающих причинно-следственные связи. [30]
В 1995 году Уилсон и др. [31], в 1996 году Хадорн и др. [32] и в 1996 году Аткинс и др. [33] описали и защитили различные типы систем оценок.
В 2011 году систематический обзор критической литературы выявил три вида критики: процедурные аспекты EBM (особенно от Картрайта, Уоррелла и Хоуика), [34] большая, чем ожидалось, погрешность EBM (Иоанидис и другие), и EBM как неполная философия науки (Эшкрофт и другие). [35] [ необходимо разъяснение ] Роулинс [36] и Блюм отмечают, что EBM ограничивает способность результатов исследований информировать об уходе за отдельными пациентами, и что для понимания причин заболеваний необходимы как популяционные, так и лабораторные исследования. Иерархия доказательств EBM не учитывает исследования безопасности и эффективности медицинских вмешательств. РКИ должны быть разработаны «для выяснения внутригрупповой изменчивости, что может быть сделано только в том случае, если иерархия доказательств будет заменена сетью, которая учитывает связь между эпидемиологическими и лабораторными исследованиями» [37]
Иерархия доказательств, полученных в результате разработки дизайна исследования, была поставлена под сомнение, поскольку руководства «не смогли должным образом определить ключевые термины, оценить достоинства некоторых нерандомизированных контролируемых испытаний и использовать полный список ограничений дизайна исследования» [38] .
Стегенга критиковал конкретно то, что метаанализы помещаются на вершину таких иерархий. [39] Предположение о том, что РКИ должны обязательно находиться на вершине таких иерархий, критиковалось Уорраллом [40] и Картрайтом. [41]
В 2005 году Росс Апшер заявил, что ДМ претендует на роль нормативного руководства по улучшению врачебной практики, но не является философской доктриной . [42]
Боргерсон в 2009 году написал, что обоснования уровней иерархии не являются абсолютными и не оправдывают их эпистемически , но что «медицинские исследователи должны уделять больше внимания социальным механизмам для управления всепроникающими предубеждениями». [43] Ла Каз отметил, что фундаментальная наука находится на нижних уровнях EBM, хотя она «играет роль в определении экспериментов, а также в анализе и интерпретации данных». [44]
Конкато заявил в 2004 году, что он предоставил РКИ слишком много полномочий и что не на все вопросы исследования можно ответить с помощью РКИ, либо из-за практических, либо из-за этических проблем. Даже когда имеются доказательства из высококачественных РКИ, доказательства из других типов исследований могут быть все еще актуальны. [45] Стегенга высказал мнение, что схемы оценки доказательств неоправданно ограничительны и менее информативны, чем другие схемы, доступные в настоящее время. [5]
В своей докторской диссертации 2015 года, посвященной изучению различных иерархий доказательств в медицине, Кристофер Дж. Блант приходит к выводу, что хотя скромные интерпретации, такие как предлагаемые моделью Ла Каза, условные иерархии, такие как GRADE, и эвристические подходы, защищаемые Хоуиком и др., выдерживают предыдущую философскую критику, он утверждает, что скромные интерпретации настолько слабы, что бесполезны для клинической практики. Например, «GRADE и подобные условные модели опускают клинически значимую информацию, такую как информация о вариациях эффектов лечения и причинах различных ответов на терапию; и что эвристические подходы не имеют необходимой эмпирической поддержки». Блант далее приходит к выводу, что «иерархии являются плохой основой для применения доказательств в клинической практике», поскольку основные предположения, лежащие в основе иерархий доказательств, что «информация о средних эффектах лечения, подкрепленная высококачественными доказательствами, может оправдать сильные рекомендации», несостоятельны, и, следовательно, доказательства из отдельных исследований следует оценивать изолированно. [46]
В статье использованы материалы из Словаря терминов, связанных с раком, Национального института рака США .