Распределение вероятностей
В статистике распределение Беренса–Фишера , названное в честь Рональда Фишера и Уолтера Беренса , представляет собой параметризованное семейство распределений вероятностей, возникающих из решения проблемы Беренса–Фишера, впервые предложенной Беренсом, а несколько лет спустя Фишером. Проблема Беренса–Фишера заключается в статистическом выводе относительно разницы между средними значениями двух нормально распределенных совокупностей , когда отношение их дисперсий неизвестно (и, в частности, неизвестно, равны ли их дисперсии). [1]
Определение Распределение Беренса–Фишера — это распределение случайной величины вида
Т 2 потому что θ − Т 1 грех θ {\displaystyle T_{2}\cos \theta -T_{1}\sin \theta \,} где T 1 и T 2 — независимые случайные величины , каждая из которых имеет распределение Стьюдента с соответствующими степенями свободы ν 1 = n 1 − 1 и ν 2 = n 2 − 1, а θ — константа. Таким образом, семейство распределений Беренса–Фишера параметризуется ν 1 , ν 2 и θ .
Вывод Предположим, что известно, что дисперсии двух популяций равны, и из двух популяций взяты выборки размером n 1 и n 2 :
Х 1 , 1 , … , Х 1 , н 1 ∼ я . я . г . Н ( μ 1 , σ 2 ) , Х 2 , 1 , … , Х 2 , н 2 ∼ я . я . г . Н ( μ 2 , σ 2 ) . {\displaystyle {\begin{align}X_{1,1},\ldots ,X_{1,n_{1}}&\sim \operatorname {iid} N(\mu _{1},\sigma ^{2}),\\[6pt]X_{2,1},\ldots ,X_{2,n_{2}}&\sim \operatorname {iid} N(\mu _{2},\sigma ^{2}).\end{align}}} где "iid" — независимые и одинаково распределенные случайные величины , а N обозначает нормальное распределение . Два выборочных средних значения :
Х ¯ 1 = ( Х 1 , 1 + ⋯ + Х 1 , н 1 ) / н 1 Х ¯ 2 = ( Х 2 , 1 + ⋯ + Х 2 , н 2 ) / н 2 {\displaystyle {\begin{align}{\bar {X}}_{1}&=(X_{1,1}+\cdots +X_{1,n_{1}})/n_{1}\\[6pt]{\bar {X}}_{2}&=(X_{2,1}+\cdots +X_{2,n_{2}})/n_{2}\end{align}}} Обычная « объединенная » несмещенная оценка общей дисперсии σ 2 тогда равна
С п о о л е г 2 = ∑ к = 1 н 1 ( Х 1 , к − Х ¯ 1 ) 2 + ∑ к = 1 н 2 ( Х 2 , к − Х ¯ 2 ) 2 н 1 + н 2 − 2 = ( н 1 − 1 ) С 1 2 + ( н 2 − 1 ) С 2 2 н 1 + н 2 − 2 {\displaystyle S_{\mathrm {pooled} }^{2}={\frac {\sum _{k=1}^{n_{1}}(X_{1,k}-{\bar {X}}_{1})^{2}+\sum _{k=1}^{n_{2}}(X_{2,k}-{\bar {X}}_{2})^{2}}{n_{1}+n_{2}-2}}={\frac {(n_{1}-1)S_{1}^{2}+(n_{2}-1)S_{2}^{2}}{n_{1}+n_{2}-2}}} где S 1 2 и S 2 2 — обычные несмещенные ( скорректированные по Бесселю ) оценки двух дисперсий популяции.
При этих предположениях ключевая величина
( μ 2 − μ 1 ) − ( X ¯ 2 − X ¯ 1 ) S p o o l e d 2 n 1 + S p o o l e d 2 n 2 {\displaystyle {\frac {(\mu _{2}-\mu _{1})-({\bar {X}}_{2}-{\bar {X}}_{1})}{\displaystyle {\sqrt {{\frac {S_{\mathrm {pooled} }^{2}}{n_{1}}}+{\frac {S_{\mathrm {pooled} }^{2}}{n_{2}}}}}}}} имеет t-распределение с n 1 + n 2 − 2 степенями свободы . Соответственно, можно найти доверительный интервал для μ 2 − μ 1, конечные точки которого
X ¯ 2 − X 1 ¯ ± A ⋅ S p o o l e d 1 n 1 + 1 n 2 , {\displaystyle {\bar {X}}_{2}-{\bar {X_{1}}}\pm A\cdot S_{\mathrm {pooled} }{\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}},} где A — соответствующий квантиль t-распределения.
Однако в задаче Беренса–Фишера не известно, равны ли две дисперсии совокупности, и неизвестно их отношение. Фишер считал [ требуется ссылка ] основной величиной
( μ 2 − μ 1 ) − ( X ¯ 2 − X ¯ 1 ) S 1 2 n 1 + S 2 2 n 2 . {\displaystyle {\frac {(\mu _{2}-\mu _{1})-({\bar {X}}_{2}-{\bar {X}}_{1})}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}.} Это можно записать как
T 2 cos θ − T 1 sin θ , {\displaystyle T_{2}\cos \theta -T_{1}\sin \theta ,\,} где
T i = μ i − X ¯ i S i / n i for i = 1 , 2 {\displaystyle T_{i}={\frac {\mu _{i}-{\bar {X}}_{i}}{S_{i}/{\sqrt {n_{i}}}}}{\text{ for }}i=1,2\,} являются обычными одновыборочными t-статистиками и
tan θ = S 1 / n 1 S 2 / n 2 {\displaystyle \tan \theta ={\frac {S_{1}/{\sqrt {n_{1}}}}{S_{2}/{\sqrt {n_{2}}}}}} и θ принимается в первом квадранте. Алгебраические детали следующие:
( μ 2 − μ 1 ) − ( X ¯ 2 − X ¯ 1 ) S 1 2 n 1 + S 2 2 n 2 = μ 2 − X ¯ 2 S 1 2 n 1 + S 2 2 n 2 − μ 1 − X ¯ 1 S 1 2 n 1 + S 2 2 n 2 = μ 2 − X ¯ 2 S 2 / n 2 ⏟ This is T 2 ⋅ ( S 2 / n 2 S 1 2 n 1 + S 2 2 n 2 ) ⏟ This is cos θ − μ 1 − X ¯ 1 S 1 / n 1 ⏟ This is T 1 ⋅ ( S 1 / n 1 S 1 2 n 1 + S 2 2 n 2 ) ⏟ This is sin θ . ( 1 ) {\displaystyle {\begin{aligned}{\frac {(\mu _{2}-\mu _{1})-({\bar {X}}_{2}-{\bar {X}}_{1})}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}&={\frac {\mu _{2}-{\bar {X}}_{2}}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}-{\frac {\mu _{1}-{\bar {X}}_{1}}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}\\[10pt]&=\underbrace {\frac {\mu _{2}-{\bar {X}}_{2}}{S_{2}/{\sqrt {n_{2}}}}} _{{\text{This is }}T_{2}}\cdot \underbrace {\left({\frac {S_{2}/{\sqrt {n_{2}}}}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}\right)} _{{\text{This is }}\cos \theta }-\underbrace {\frac {\mu _{1}-{\bar {X}}_{1}}{S_{1}/{\sqrt {n_{1}}}}} _{{\text{This is }}T_{1}}\cdot \underbrace {\left({\frac {S_{1}/{\sqrt {n_{1}}}}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}\right)} _{{\text{This is }}\sin \theta }.\qquad \qquad \qquad (1)\end{aligned}}} Тот факт, что сумма квадратов выражений в скобках выше равна 1, означает, что они представляют собой квадрат косинуса и квадрат синуса некоторого угла.
Распределение Берена–Фишера на самом деле является условным распределением величины (1) выше, учитывая значения величин, обозначенных как cos θ и sin θ . По сути, условия Фишера основаны на вспомогательной информации .
Затем Фишер нашел « доверительный интервал», конечные точки которого
X ¯ 2 − X ¯ 1 ± A S 1 2 n 1 + S 2 2 n 2 {\displaystyle {\bar {X}}_{2}-{\bar {X}}_{1}\pm A{\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}} где A — соответствующая процентная точка распределения Беренса–Фишера. Фишер утверждал [ требуется ссылка ] , что вероятность того, что μ 2 − μ 1 находится в этом интервале, учитывая данные (в конечном счете X s), является вероятностью того, что случайная величина, распределенная по Беренсу–Фишеру, находится между − A и A .
Фидуциарные интервалы против доверительных интервалов Бартлетт [ требуется цитата ] показал, что этот «доверительный интервал» не является доверительным интервалом, поскольку он не имеет постоянной скорости покрытия. Фишер не считал это убедительным возражением против использования доверительного интервала. [ требуется цитата ]
Дальнейшее чтение Кендалл, Морис Г., Стюарт, Алан (1973) Продвинутая теория статистики, том 2: Вывод и взаимосвязь, 3-е издание , Гриффин. ISBN 0-85264-215-6 (глава 21)
Ссылки ^ Ким, Сок-Хо; Коэн, Аллан С. (декабрь 1998 г.). «О проблеме Беренса-Фишера: обзор». Журнал образовательной и поведенческой статистики . 23 (4): 356–377 . doi :10.3102/10769986023004356. ISSN 1076-9986. S2CID 85462934.