В 1925 году Рональд Фишер упоминает двухфакторный ANOVA в своей знаменитой книге «Статистические методы для научных работников» (главы 7 и 8). В 1934 году Фрэнк Йейтс опубликовал процедуры для несбалансированного случая. [1] С тех пор была создана обширная литература. Тема была рассмотрена в 1993 году Ясунори Фудзикоши. [2] В 2005 году Эндрю Гельман предложил другой подход ANOVA, рассматриваемый как многоуровневая модель . [3]
Набор данных
Давайте представим набор данных , для которого зависимая переменная может находиться под влиянием двух факторов , которые являются потенциальными источниками вариации. Первый фактор имеет уровни ( ) , а второй имеет уровни ( ) . Каждая комбинация определяет обработку , для общего количества обработок. Мы представляем число повторов для обработки как , и пусть будет индексом повтора в этой обработке ( ) .
По этим данным можно построить таблицу сопряженности , где и , а общее количество повторений равно .
Экспериментальный план сбалансирован , если каждое лечение имеет одинаковое количество повторений, . В таком случае план также называется ортогональным , что позволяет полностью различать эффекты обоих факторов. Следовательно, мы можем записать , и .
Модель
При наблюдении вариации среди всех точек данных, например, с помощью гистограммы , « вероятность может быть использована для описания такой вариации». [4] Давайте, следовательно, обозначим случайную величину , наблюдаемое значение которой является -й мерой для обработки . Двухфакторный ANOVA моделирует все эти переменные как изменяющиеся независимо и нормально вокруг среднего значения, , с постоянной дисперсией, ( гомоскедастичность ):
.
В частности, среднее значение переменной отклика моделируется как линейная комбинация объясняющих переменных:
,
где — общее среднее, — аддитивный главный эффект уровня от первого фактора ( i -я строка в таблице сопряженности), — аддитивный главный эффект уровня от второго фактора ( j -й столбец в таблице сопряженности) и — неаддитивный эффект взаимодействия обработки для образцов от обоих факторов (ячейка в строке i и столбце j в таблице сопряженности).
Другой эквивалентный способ описания двухфакторного ANOVA — это упоминание того, что помимо вариации, объясняемой факторами, остается некоторый статистический шум . Это количество необъяснимой вариации обрабатывается путем введения одной случайной величины на точку данных, называемой ошибкой . Эти случайные величины рассматриваются как отклонения от средних значений и считаются независимыми и нормально распределенными:
.
Предположения
Согласно Гельману и Хиллу , предположения дисперсионного анализа и, в более общем плане, общей линейной модели , следующие (в порядке убывания важности): [5]
точки данных имеют отношение к исследуемому научному вопросу;
среднее значение переменной отклика аддитивно (если не через член взаимодействия) и линейно зависит от факторов;
ошибки независимы;
ошибки имеют одинаковую дисперсию;
Ошибки распределены нормально.
Оценка параметров
Для обеспечения идентифицируемости параметров можно добавить следующие ограничения «суммы с нулем»:
Проверка значимости члена взаимодействия может быть затруднена из-за потенциально большого числа степеней свободы . [6]
Пример
В следующем гипотетическом примере показана урожайность 15 растений, подвергавшихся воздействию двух различных условий окружающей среды и трех различных удобрений.
^ Йейтс, Фрэнк (март 1934 г.). «Анализ множественных классификаций с неравными числами в разных классах». Журнал Американской статистической ассоциации . 29 (185): 51– 66. doi :10.1080/01621459.1934.10502686. JSTOR 2278459.
^ Фудзикоши, Ясунори (1993). «Двухфакторные модели ANOVA с несбалансированными данными». Дискретная математика . 116 (1): 315–334 . doi : 10.1016/0012-365X(93)90410-U .
^ Гельман, Эндрю (февраль 2005 г.). «Дисперсионный анализ? почему он важнее, чем когда-либо». Анналы статистики . 33 (1): 1– 53. arXiv : math/0504499 . doi :10.1214/009053604000001048. S2CID 125025956.
^ Касс, Роберт Э. (1 февраля 2011 г.). «Статистический вывод: общая картина». Статистическая наука . 26 (1): 1– 9. arXiv : 1106.2895 . doi : 10.1214/10-sts337. PMC 3153074. PMID 21841892.
^ Yi-An Ko; et al. (сентябрь 2013 г.). «Новые тесты отношения правдоподобия для скрининга взаимодействий ген-ген и ген-окружающая среда с несбалансированными данными повторных измерений». Genetic Epidemiology . 37 (6): 581– 591. doi :10.1002/gepi.21744. PMC 4009698 . PMID 23798480.
^ Меклин, Кристофер (20 октября 2020 г.). «Глава 7: ANOVA с взаимодействием». STA 265 Notes (Methods of Statistics and Data Science) . Получено 6 декабря 2024 г. – через bookdown.org.
^ Мур, Кен; Мауэрс, Рон; Харбур, МЛ; Меррик, Лора; Махама, Энтони Ассиби (2023). «Глава 8: Дисперсионный анализ (ANOVA)». В Suza, WP; Lamkey, KR (ред.). Количественные методы селекции растений . Iowa State University Digital Press . Получено 6 декабря 2024 г.