Дизайн повторных измерений — это дизайн исследования , который включает в себя множественные измерения одной и той же переменной, проводимые на одних и тех же или подобранных субъектах либо в разных условиях, либо в течение двух или более периодов времени. [1] Например, повторные измерения собираются в продольном исследовании , в котором оцениваются изменения с течением времени.
Рандомизированные , контролируемые, перекрестные эксперименты особенно важны в здравоохранении. В рандомизированном клиническом испытании субъектам случайным образом назначаются виды лечения. Когда такое испытание представляет собой дизайн с повторными измерениями, субъектам случайным образом назначается последовательность видов лечения. Перекрестное клиническое испытание представляет собой дизайн с повторными измерениями, в котором каждому пациенту случайным образом назначается последовательность видов лечения, включая по крайней мере два вида лечения (из которых один может быть стандартным лечением или плацебо ): Таким образом, каждый пациент переходит с одного вида лечения на другой.
Почти все перекрестные проекты имеют «баланс», что означает, что все субъекты должны получить одинаковое количество процедур и что все субъекты участвуют в течение одинакового количества периодов. В большинстве перекрестных испытаний каждый субъект получает все процедуры.
Однако многие планы повторных измерений не являются кроссоверными: например, продольное исследование последовательных эффектов повторных вмешательств не обязательно должно использовать какой-либо « кроссовер » (Vonesh & Chinchilli; Jones & Kenward).
Использует
Ограниченное количество участников — дизайн с повторными измерениями снижает дисперсию оценок эффектов лечения, что позволяет делать статистические выводы с меньшим количеством участников. [2]
Эффективность — Повторные измерения позволяют проводить множество экспериментов быстрее, поскольку для завершения всего эксперимента требуется обучить меньшее количество групп. Например, эксперименты, в которых каждое условие занимает всего несколько минут, тогда как обучение для выполнения задач занимает столько же, если не больше времени.
Лонгитюдный анализ. Методы повторных измерений позволяют исследователям отслеживать, как участники меняются с течением времени, как в долгосрочной, так и в краткосрочной перспективе.
Эффекты заказа
Эффекты порядка могут возникать, когда участник эксперимента может выполнить задачу, а затем выполнить ее снова. Примерами эффектов порядка являются улучшение или ухудшение производительности, что может быть связано с эффектами обучения, скукой или усталостью. Влияние эффектов порядка может быть меньше в долгосрочных лонгитюдных исследованиях или путем уравновешивания с использованием кроссоверного дизайна .
Уравновешивание
В этой технике две группы выполняют одни и те же задания или испытывают одни и те же условия, но в обратном порядке. При двух заданиях или условиях формируются четыре группы.
Уравновешивание
Задача/Условие
Задача/Условие
Замечания
Группа А
1
2
Группа А сначала выполняет Задание/Условие 1, затем Задание/Условие 2.
Группа Б
2
1
Группа B сначала выполняет Задание/Условие 2, затем Задание/Условие 1.
Противовесные попытки учесть два важных источника систематических вариаций в этом типе дизайна: практика и эффекты скуки. Оба могут в противном случае привести к разным результатам участников из-за знакомства с лечением или усталости от него.
Ограничения
Невозможно, чтобы каждый участник находился во всех условиях эксперимента (например, временные ограничения, место проведения эксперимента и т. д.). Тяжелобольные субъекты, как правило, выбывают из лонгитюдных исследований, что потенциально искажает результаты. В этих случаях предпочтительны модели со смешанными эффектами, поскольку они могут работать с пропущенными значениями.
Средняя регрессия может влиять на условия со значительными повторениями. Созревание может влиять на исследования, которые простираются во времени. События вне эксперимента могут изменить ответ между повторениями.
Повторные измерения ANOVA
Этот рисунок является примером дизайна с повторными измерениями, который можно проанализировать с помощью rANOVA (ANOVA с повторными измерениями). Независимая переменная — это время (уровни: Время 1, Время 2, Время 3, Время 4), когда кто-то выполнил измерение, а зависимая переменная — это оценка измерения счастья. Примеры оценок счастья участников приведены для 3 участников для каждого времени или уровня независимой переменной.
Дисперсионный анализ с повторными измерениями (rANOVA) — это широко используемый статистический подход к планам с повторными измерениями. [3] При таких планах фактор повторных измерений (качественная независимая переменная) является внутрисубъектным фактором, в то время как зависимая количественная переменная, по которой измеряется каждый участник, является зависимой переменной.
Разделение ошибки
Одним из самых больших преимуществ rANOVA, как и в случае с повторными измерениями в целом, является возможность разбить изменчивость из-за индивидуальных различий. Рассмотрим общую структуру F-статистики :
F = Обработка MS / Ошибка MS = ( Обработка SS / Обработка df ) / ( Ошибка SS / Ошибка df )
В межсубъектном плане присутствует элемент дисперсии, обусловленный индивидуальными различиями, который сочетается с условиями лечения и ошибки:
SS Total = SS Treatment + SS Error
df Всего = n − 1
В дизайне с повторными измерениями можно разделить вариабельность субъекта от условий лечения и ошибки. В таком случае вариабельность можно разбить на вариабельность между видами лечения (или эффекты внутри субъектов, исключая индивидуальные различия) и вариабельность внутри видов лечения. Изменчивость внутри видов лечения можно далее разделить на вариабельность между субъектами (индивидуальные различия) и ошибку (исключая индивидуальные различия): [4]
SS Total = SS Treatment (исключая индивидуальные различия) + SS Subjects + SS Error
df Всего = df Лечение (внутри субъектов) + df между субъектами + df ошибка = ( k − 1) + ( s − 1) + (( k - 1 )( s − 1)) = ks -1= n-1, где k — количество временных уровней, а s — количество субъектов.
Что касается общей структуры F-статистики, то очевидно, что при разделении межсубъектной изменчивости F-значение увеличится, поскольку сумма квадратов ошибки будет меньше, что приведет к меньшему MSError. Примечательно, что разделение изменчивости уменьшает степени свободы от F-теста, поэтому межсубъектная изменчивость должна быть достаточно значительной, чтобы компенсировать потерю степеней свободы. Если межсубъектная изменчивость мала, этот процесс может фактически уменьшить F-значение. [4]
Предположения
Как и в случае со всеми статистическими анализами, для обоснования использования этого теста должны быть выполнены определенные предположения. Нарушения могут умеренно или сильно влиять на результаты и часто приводить к инфляции ошибки типа 1. В rANOVA применяются стандартные одномерные и многомерные предположения. [5] Одномерные предположения:
Нормальность — для каждого уровня внутрисубъектного фактора зависимая переменная должна иметь нормальное распределение .
Сферичность — оценки разницы, вычисленные между двумя уровнями внутрисубъектного фактора, должны иметь одинаковую дисперсию для сравнения любых двух уровней. (Это предположение применимо только в том случае, если имеется более 2 уровней независимой переменной.)
Случайность — случаи должны быть получены из случайной выборки, а оценки разных участников должны быть независимы друг от друга.
rANOVA также требует, чтобы были выполнены определенные многомерные предположения, поскольку многомерный тест проводится на основе оценок разницы. Эти предположения включают:
Многомерная нормальность — показатели разницы распределены в популяции многомерно нормально.
Случайность — отдельные случаи должны быть получены из случайной выборки, а оценки различий для каждого участника не зависят от оценок другого участника.
F-тест
Как и в других тестах дисперсионного анализа, rANOVA использует статистику F для определения значимости. В зависимости от количества внутрисубъектных факторов и нарушений предположений необходимо выбрать наиболее подходящий из трех тестов: [5]
Стандартный одномерный ANOVA F-тест — этот тест обычно используется, если заданы только два уровня внутрисубъектного фактора (т. е. временная точка 1 и временная точка 2). Этот тест не рекомендуется, если задано более 2 уровней внутрисубъектного фактора, поскольку в таких случаях обычно нарушается предположение о сферичности.
Альтернативный одномерный тест [6] — Эти тесты учитывают нарушения предположения о сферичности и могут использоваться, когда внутрисубъектный фактор превышает 2 уровня. Статистика F такая же, как в стандартном одномерном ANOVA F-тесте, но связана с более точным p-значением. Эта коррекция выполняется путем корректировки степеней свободы вниз для определения критического значения F. Обычно используются две коррекции: поправка Гринхауза–Гайссера и поправка Хьюна–Фельдта. Поправка Гринхауза–Гайссера более консервативна, но решает распространенную проблему увеличения изменчивости с течением времени в дизайне с повторными измерениями. [7] Поправка Хьюна–Фельдта менее консервативна, но не решает проблемы увеличения изменчивости. Было предложено использовать более низкое значение Хьюна–Фельдта при меньших отклонениях от сферичности, в то время как Гринхауза–Гайссера следует использовать при больших отклонениях.
Многомерный тест. Этот тест не предполагает сферичности, но также является весьма консервативным.
Размер эффекта
Одной из наиболее часто сообщаемых статистик размера эффекта для rANOVA является частичный эта-квадрат (η p 2 ). Также часто используется многомерный η 2 , когда предположение о сферичности было нарушено, и сообщается статистика многомерного теста. Третья сообщаемая статистика размера эффекта - это обобщенный η 2 , который сопоставим с η p 2 в однофакторном повторном ANOVA. Было показано, что он является лучшей оценкой размера эффекта с другими внутрисубъектными тестами. [8] [9]
Предостережения
rANOVA не всегда является лучшим статистическим анализом для проектов с повторными измерениями. rANOVA уязвим к эффектам от пропущенных значений, подстановки, неэквивалентных временных точек между субъектами и нарушениям сферичности. [3] Эти проблемы могут привести к смещению выборки и завышенным показателям ошибок типа I. [10] В таких случаях может быть лучше рассмотреть использование линейной смешанной модели . [11]
^ Краска; Мари (2010), «Планирование повторных измерений», Энциклопедия дизайна исследований , Калифорния, США: SAGE Publications, Inc., doi : 10.4135/9781412961288.n378, ISBN978-1-4129-6127-1, S2CID 149337088
^ Баррет, Джулия Р. (2013). «Твердые частицы и сердечно-сосудистые заболевания: исследователи обращают внимание на микрососудистые изменения». Перспективы охраны окружающей среды . 121 (9): a282. doi :10.1289/ehp.121-A282. PMC 3764084. PMID 24004855 .
^ ab Gueorguieva; Krystal (2004). «Move Over ANOVA». Arch Gen Psychiatry . 61 (3): 310–7 . doi :10.1001/archpsyc.61.3.310. PMID 14993119.
^ ab Howell, David C. (2010). Статистические методы в психологии (7-е изд.). Belmont, CA: Thomson Wadsworth. ISBN978-0-495-59784-1.
^ ab Salkind, Samuel B. Green, Neil J. (2011). Использование SPSS для Windows и Macintosh: анализ и понимание данных (6-е изд.). Бостон: Prentice Hall. ISBN978-0-205-02040-9.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Васи; Тайер (1987). «Продолжающаяся проблема ложных положительных результатов в ANOVA с повторными измерениями в психофизиологии: многомерное решение». Психофизиология . 24 (4): 479– 486. doi :10.1111/j.1469-8986.1987.tb00324.x. PMID 3615759.
^ Парк (1993). «Сравнение подхода обобщенного оценочного уравнения с подходом максимального правдоподобия для повторных измерений». Stat Med . 12 (18): 1723– 1732. doi :10.1002/sim.4780121807. PMID 8248664.
^ Bakeman (2005). "Рекомендуемые статистики размера эффекта для дизайнов с повторными измерениями". Методы исследования поведения . 37 (3): 379–384 . doi : 10.3758/bf03192707 . PMID 16405133.
^ Олейник; Альгина (2003). «Обобщенные эта и омега квадратные статистики: меры размера эффекта для некоторых общих исследовательских проектов». Психологические методы . 8 (4): 434– 447. doi :10.1037/1082-989x.8.4.434. PMID 14664681. S2CID 6931663.
^ Мюллер; Бартон (1989). «Приблизительная мощность для повторных измерений ANOVA без сферичности». Журнал Американской статистической ассоциации . 84 (406): 549–555 . doi :10.1080/01621459.1989.10478802.
^ Крюгер; Тиан (2004). «Сравнение общей линейной смешанной модели и дисперсионного анализа с повторными измерениями с использованием набора данных с несколькими пропущенными точками данных». Biological Research for Nursing . 6 (2): 151– 157. doi :10.1177/1099800404267682. PMID 15388912. S2CID 23173349.
Вонеш, Эдвард Ф. и Чинчилли, Вернон Г. (1997). Линейные и нелинейные модели для анализа повторных измерений . Лондон: Chapman and Hall.
Исследование продольных данных
Давидян, Мари ; Дэвид М. Гилтинан (1995). Нелинейные модели для данных повторных измерений . Монографии Чапмана и Холла/CRC по статистике и прикладной вероятности. ISBN978-0-412-98341-2.
Фицморис, Гарретт; Давидиан, Мари; Вербеке, Герт; Моленбергс, Герт, ред. (2008). Продольный анализ данных . Бока-Ратон, Флорида: Чепмен и Холл / CRC. ISBN978-1-58488-658-7.
Ким, Кевин и Тимм, Нил (2007).«Ограниченная MGLM и модель кривой роста» (глава 7)». Одномерные и многомерные общие линейные модели: теория и приложения с SAS (с 1 CD-ROM для Windows и UNIX) . Статистика: учебники и монографии (второе издание). Бока-Ратон, Флорида: Chapman & Hall/CRC. ISBN978-1-58488-634-1.
Колло, Тыну и фон Розен, Дитрих (2005). "«Многомерные линейные модели» (глава 4), особенно «Модель кривой роста и ее расширения» (глава 4.1)». Расширенная многомерная статистика с матрицами . Математика и ее приложения. Т. 579. Нью-Йорк: Springer. ISBN978-1-4020-3418-3.
Кширсагар, Анант М. и Смит, Уильям Бойс (1995). Кривые роста . Статистика: Учебники и монографии. Т. 145. Нью-Йорк: Marcel Dekker, Inc. ISBN0-8247-9341-2.
Pan, Jian-Xin & Fang, Kai-Tai (2002). Модели кривых роста и статистическая диагностика . Springer Series in Statistics. Нью-Йорк: Springer-Verlag. ISBN0-387-95053-2.
Себер, GAF и Wild, CJ (1989). "«Модели роста (Глава 7)»". Нелинейная регрессия . Ряд Wiley в Вероятности и математической статистике: Вероятность и математическая статистика. Нью-Йорк: John Wiley & Sons, Inc. стр. 325–367 . ISBN0-471-61760-1.
Тимм, Нил Х. (2002).«Общая модель MANOVA (GMANOVA)» (глава 3.6.d)». Прикладной многомерный анализ . Springer Texts in Statistics. Нью-Йорк: Springer-Verlag. ISBN0-387-95347-7.
Вонеш, Эдвард Ф. и Чинчилли, Вернон Г. (1997). Линейные и нелинейные модели для анализа повторных измерений . Лондон: Chapman and Hall.(Комплексное рассмотрение теории и практики)
Conaway, M. (1999, 11 октября). Повторные измерения дизайна. Получено 18 февраля 2008 г. с http://biostat.mc.vanderbilt.edu/twiki/pub/Main/ClinStat/repmeas.PDF
Minke, A. (1997, январь). Проведение анализа повторных измерений: соображения экспериментального дизайна. Получено 18 февраля 2008 г. с Ericae.net: http://ericae.net/ft/tamu/Rm.htm
Шонесси, Дж. Дж. (2006). Методы исследования в психологии. Нью-Йорк: McGraw-Hill.
Внешние ссылки
Примеры всех моделей ANOVA и ANCOVA с тремя факторами лечения, включая рандомизированный блок, разделенный график, повторные измерения и латинские квадраты, а также их анализ в R (Университет Саутгемптона)