В статистике ожидаемые средние квадраты (EMS) — это ожидаемые значения определенных статистик, возникающих при разбиении сумм квадратов в дисперсионном анализе (ANOVA). Их можно использовать для определения того, какая статистика должна появиться в знаменателе в F-тесте для проверки нулевой гипотезы об отсутствии определенного эффекта.
Определение
Когда общая скорректированная сумма квадратов в ANOVA разбивается на несколько компонентов, каждый из которых приписывается эффекту определенной предикторной переменной, каждая из сумм квадратов в этом разбиении является случайной величиной, которая имеет ожидаемое значение . Это ожидаемое значение, деленное на соответствующее число степеней свободы, является ожидаемым средним квадратом для этой предикторной переменной.
Пример
Следующий пример взят из книги Дональда Хедекера и Роберта Д. Гиббонса «Анализ продольных данных» . [1]
Каждое из s видов лечения (одно из которых может быть плацебо) назначается выборке из (заглавных) N случайно выбранных пациентов, у которых в каждый из (строчных) n указанных моментов времени наблюдаются определенные измерения, для (таким образом, количество пациентов, получающих различные виды лечения, может различаться), и Мы предполагаем, что наборы пациентов, получающих различные виды лечения, не пересекаются, поэтому пациенты вложены в виды лечения и не пересекаются с видами лечения. Мы имеем
где
- = большое среднее, (фиксированное)
- = эффект лечения , (фиксированный)
- = эффект времени , (фиксированный)
- = эффект взаимодействия лечения и времени , (фиксированный)
- = индивидуальный эффект различия для пациента, вложенного в лечение , (случайный)
- = ошибка для пациента, находящегося на лечении в момент времени . (случайная)
- = дисперсия случайного эффекта пациентов, включенных в лечение,
- = дисперсия ошибки.
Общая скорректированная сумма квадратов равна
Таблица ANOVA ниже разделяет сумму квадратов (где ):
источник изменчивости | степени свободы | сумма квадратов | средний квадрат | ожидаемый средний квадрат |
---|
уход | | | | |
время | | | | |
лечение × время | | | | |
пациенты в рамках лечения | | | | |
ошибка | | | | |
Использование в F-тестах
Нулевая гипотеза, представляющая интерес, заключается в том, что нет никакой разницы между эффектами различных видов лечения, а значит, нет никакой разницы между средними величинами видов лечения. Это можно выразить, сказав (с обозначениями, используемыми в таблице выше). Согласно этой нулевой гипотезе, ожидаемый средний квадрат для эффектов видов лечения равен
Числитель в F-статистике для проверки этой гипотезы — это среднеквадратичное значение из-за различий между вариантами лечения, т. е. оно равно Знаменатель, однако, не равен Причина в том, что случайная величина ниже, хотя при нулевой гипотезе она имеет F-распределение , не является наблюдаемой — она не является статистикой — поскольку ее значение зависит от ненаблюдаемых параметров и
Вместо этого в качестве тестовой статистики используется следующая случайная величина, которая не определена в терминах :
Примечания и ссылки
- ^ Дональд Хедекер, Роберт Д. Гиббонс. Анализ продольных данных. Wiley Interscience. 2006. С. 21–24.