Двусторонний дисперсионный анализ

Статистический тест, проверяющий влияние двух категориальных переменных на одну непрерывную переменную

В статистике двухфакторный дисперсионный анализ ( ANOVA ) является расширением однофакторного ANOVA , который изучает влияние двух различных категориальных независимых переменных на одну непрерывную зависимую переменную . Двухфакторный ANOVA направлен не только на оценку основного эффекта каждой независимой переменной, но и на то, есть ли между ними какое-либо взаимодействие .

История

В 1925 году Рональд Фишер упоминает двухфакторный ANOVA в своей знаменитой книге «Статистические методы для научных работников» (главы 7 и 8). В 1934 году Фрэнк Йейтс опубликовал процедуры для несбалансированного случая. [1] С тех пор была создана обширная литература. Тема была рассмотрена в 1993 году Ясунори Фудзикоши. [2] В 2005 году Эндрю Гельман предложил другой подход ANOVA, рассматриваемый как многоуровневая модель . [3]

Набор данных

Давайте представим набор данных , для которого зависимая переменная может находиться под влиянием двух факторов , которые являются потенциальными источниками вариации. Первый фактор имеет уровни ( ) , а второй имеет уровни ( ) . Каждая комбинация определяет обработку , для общего количества обработок. Мы представляем число повторов для обработки как , и пусть будет индексом повтора в этой обработке ( ) . я {\displaystyle Я} я { 1 , , я } {\displaystyle i\in \{1,\ldots ,I\}} Дж. {\displaystyle J} дж { 1 , , Дж. } {\displaystyle j\in \{1,\ldots ,J\}} ( я , дж ) {\displaystyle (я,j)} я × Дж. {\displaystyle I\times J} ( я , дж ) {\displaystyle (я,j)} н я дж {\displaystyle n_{ij}} к {\displaystyle к} к { 1 , , н я дж } {\displaystyle k\in \{1,\ldots ,n_{ij}\}}

По этим данным можно построить таблицу сопряженности , где и , а общее количество повторений равно . н я + = дж = 1 Дж. н я дж {\displaystyle n_{i+}=\sum _{j=1}^{J}n_{ij}} н + дж = я = 1 я н я дж {\displaystyle n_{+j}=\sum _{i=1}^{I}n_{ij}} н = я , дж н я дж = я н я + = дж н + дж {\ displaystyle n = \ sum _ {i, j} n_ {ij} = \ sum _ {i} n_ {i +} = \ sum _ {j} n_ {+ j}}

Экспериментальный план сбалансирован , если каждое лечение имеет одинаковое количество повторений, . В таком случае план также называется ортогональным , что позволяет полностью различать эффекты обоих факторов. Следовательно, мы можем записать , и . К {\displaystyle К} я , дж н я дж = К {\displaystyle \forall i,j\;n_{ij}=K} я , дж н я дж = н я + н + дж н {\displaystyle \forall i,j\;n_{ij}={\frac {n_{i+}\cdot n_{+j}}{n}}}

Модель

При наблюдении вариации среди всех точек данных, например, с помощью гистограммы , « вероятность может быть использована для описания такой вариации». [4] Давайте, следовательно, обозначим случайную величину , наблюдаемое значение которой является -й мерой для обработки . Двухфакторный ANOVA моделирует все эти переменные как изменяющиеся независимо и нормально вокруг среднего значения, , с постоянной дисперсией, ( гомоскедастичность ): н {\displaystyle n} И я дж к {\displaystyle Y_{ijk}} у я дж к {\displaystyle y_{ijk}} к {\displaystyle к} ( я , дж ) {\displaystyle (я,j)} μ я дж {\displaystyle \mu _{ij}} σ 2 {\displaystyle \сигма ^{2}}

И я дж к | μ я дж , σ 2 я . я . г . Н ( μ я дж , σ 2 ) {\displaystyle Y_{ijk}\,|\,\mu _{ij},\sigma ^{2}\;{\overset {\mathrm {iid} {\sim }}\;{\mathcal {N} }(\mu _{ij},\sigma ^{2})} .

В частности, среднее значение переменной отклика моделируется как линейная комбинация объясняющих переменных:

μ я дж = μ + α я + β дж + γ я дж {\displaystyle \mu _{ij} = \mu +\alpha _{i}+\beta _{j}+\gamma _{ij}} ,

где — общее среднее, — аддитивный главный эффект уровня от первого фактора ( i -я строка в таблице сопряженности), — аддитивный главный эффект уровня от второго фактора ( j -й столбец в таблице сопряженности) и — неаддитивный эффект взаимодействия обработки для образцов от обоих факторов (ячейка в строке i и столбце j в таблице сопряженности). μ {\displaystyle \мю} α я {\displaystyle \альфа _{я}} я {\displaystyle я} β дж {\displaystyle \beta _{j}} дж {\displaystyle j} γ я дж {\displaystyle \gamma _{ij}} ( i , j ) {\displaystyle (i,j)} k = 1 , . . . , n i j {\displaystyle k=1,...,n_{ij}}

Другой эквивалентный способ описания двухфакторного ANOVA — это упоминание того, что помимо вариации, объясняемой факторами, остается некоторый статистический шум . Это количество необъяснимой вариации обрабатывается путем введения одной случайной величины на точку данных, называемой ошибкой . Эти случайные величины рассматриваются как отклонения от средних значений и считаются независимыми и нормально распределенными: ϵ i j k {\displaystyle \epsilon _{ijk}} n {\displaystyle n}

Y i j k = μ i j + ϵ i j k  with  ϵ i j k i . i . d . N ( 0 , σ 2 ) {\displaystyle Y_{ijk}=\mu _{ij}+\epsilon _{ijk}{\text{ with }}\epsilon _{ijk}{\overset {\mathrm {i.i.d.} }{\sim }}{\mathcal {N}}(0,\sigma ^{2})} .

Предположения

Согласно Гельману и Хиллу , предположения дисперсионного анализа и, в более общем плане, общей линейной модели , следующие (в порядке убывания важности): [5]

  1. точки данных имеют отношение к исследуемому научному вопросу;
  2. среднее значение переменной отклика аддитивно (если не через член взаимодействия) и линейно зависит от факторов;
  3. ошибки независимы;
  4. ошибки имеют одинаковую дисперсию;
  5. Ошибки распределены нормально.

Оценка параметров

Для обеспечения идентифицируемости параметров можно добавить следующие ограничения «суммы с нулем»:

i α i = j β j = i γ i j = j γ i j = 0 {\displaystyle \sum _{i}\alpha _{i}=\sum _{j}\beta _{j}=\sum _{i}\gamma _{ij}=\sum _{j}\gamma _{ij}=0}

Проверка гипотез

В классическом подходе проверка нулевых гипотез (о том, что факторы не оказывают никакого влияния) достигается посредством их значимости , что требует вычисления сумм квадратов .

Проверка значимости члена взаимодействия может быть затруднена из-за потенциально большого числа степеней свободы . [6]

Пример

В следующем гипотетическом примере показана урожайность 15 растений, подвергавшихся воздействию двух различных условий окружающей среды и трех различных удобрений.

Дополнительный CO2Повышенная влажность
Никаких удобрений.7, 2, 17, 6
Нитрат11, 610, 7, 3
Фосфат5, 3, 411, 4

Рассчитывается пять сумм квадратов:

ФакторРасчетСумма σ 2 {\displaystyle \sigma ^{2}}
Индивидуальный 7 2 + 2 2 + 1 2 + 7 2 + 6 2 + 11 2 + 6 2 + 10 2 + 7 2 + 3 2 + 5 2 + 3 2 + 4 2 + 11 2 + 4 2 {\displaystyle 7^{2}+2^{2}+1^{2}+7^{2}+6^{2}+11^{2}+6^{2}+10^{2}+7^{2}+3^{2}+5^{2}+3^{2}+4^{2}+11^{2}+4^{2}} 64115
Удобрение × Окружающая среда ( 7 + 2 + 1 ) 2 3 + ( 7 + 6 ) 2 2 + ( 11 + 6 ) 2 2 + ( 10 + 7 + 3 ) 2 3 + ( 5 + 3 + 4 ) 2 3 + ( 11 + 4 ) 2 2 {\displaystyle {\frac {(7+2+1)^{2}}{3}}+{\frac {(7+6)^{2}}{2}}+{\frac {(11+6)^{2}}{2}}+{\frac {(10+7+3)^{2}}{3}}+{\frac {(5+3+4)^{2}}{3}}+{\frac {(11+4)^{2}}{2}}} 556.16676
Удобрение ( 7 + 2 + 1 + 7 + 6 ) 2 5 + ( 11 + 6 + 10 + 7 + 3 ) 2 5 + ( 5 + 3 + 4 + 11 + 4 ) 2 5 {\displaystyle {\frac {(7+2+1+7+6)^{2}}{5}}+{\frac {(11+6+10+7+3)^{2}}{5}}+{\frac {(5+3+4+11+4)^{2}}{5}}} 525.43
Среда ( 7 + 2 + 1 + 11 + 6 + 5 + 3 + 4 ) 2 8 + ( 7 + 6 + 10 + 7 + 3 + 11 + 4 ) 2 7 {\displaystyle {\frac {(7+2+1+11+6+5+3+4)^{2}}{8}}+{\frac {(7+6+10+7+3+11+4)^{2}}{7}}} 519.26792
Композитный ( 7 + 2 + 1 + 11 + 6 + 5 + 3 + 4 + 7 + 6 + 10 + 7 + 3 + 11 + 4 ) 2 15 {\displaystyle {\frac {(7+2+1+11+6+5+3+4+7+6+10+7+3+11+4)^{2}}{15}}} 504.61

Наконец, можно рассчитать суммы квадратов отклонений, необходимые для дисперсионного анализа .

ФакторСумма σ 2 {\displaystyle \sigma ^{2}} ОбщийСредаУдобрениеУдобрение × Окружающая средаОстаточный
Индивидуальный6411511
Удобрение × Окружающая среда556.166761−1
Удобрение525.431−1
Среда519.267921−1
Композитный504.61−1−1−11
Квадратичные отклонения136.414.66820.816.09984.833
Степени свободы141229

Смотрите также

Примечания

  1. ^ Йейтс, Фрэнк (март 1934 г.). «Анализ множественных классификаций с неравными числами в разных классах». Журнал Американской статистической ассоциации . 29 (185): 51–66. doi :10.1080/01621459.1934.10502686. JSTOR  2278459.
  2. ^ Фудзикоши, Ясунори (1993). «Двухфакторные модели ANOVA с несбалансированными данными». Дискретная математика . 116 (1): 315–334. doi : 10.1016/0012-365X(93)90410-U .
  3. ^ Гельман, Эндрю (февраль 2005 г.). «Дисперсионный анализ? почему он важнее, чем когда-либо». Анналы статистики . 33 (1): 1–53. arXiv : math/0504499 . doi :10.1214/009053604000001048. S2CID  125025956.
  4. ^ Касс, Роберт Э. (1 февраля 2011 г.). «Статистический вывод: общая картина». Статистическая наука . 26 (1): 1–9. arXiv : 1106.2895 . doi : 10.1214/10-sts337. PMC 3153074. PMID  21841892. 
  5. ^ Гельман, Эндрю; Хилл, Дженнифер (18 декабря 2006 г.). Анализ данных с использованием регрессии и многоуровневых/иерархических моделей. Cambridge University Press . стр. 45–46. ISBN 978-0521867061.
  6. ^ Yi-An Ko; et al. (сентябрь 2013 г.). «Новые тесты отношения правдоподобия для скрининга взаимодействий ген-ген и ген-окружающая среда с несбалансированными данными повторных измерений». Genetic Epidemiology . 37 (6): 581–591. doi :10.1002/gepi.21744. PMC 4009698 . PMID  23798480. 

Ссылки

Retrieved from "https://en.wikipedia.org/w/index.php?title=Two-way_analysis_of_variance&oldid=1177245564"