Достаточная статистика

Статистический принцип

В статистике достаточность — это свойство статистики , вычисляемое на выборочном наборе данных по отношению к параметрической модели набора данных. Достаточная статистика содержит всю информацию, которую набор данных предоставляет о параметрах модели. Она тесно связана с концепциями вспомогательной статистики , которая не содержит никакой информации о параметрах модели, и полной статистики , которая содержит только информацию о параметрах и никакой вспомогательной информации.

Связанное понятие — это понятие линейной достаточности , которое слабее, чем достаточность , но может применяться в некоторых случаях, когда нет достаточной статистики, хотя оно ограничено линейными оценщиками. [1] Структурная функция Колмогорова имеет дело с отдельными конечными данными; связанное с ней понятие — алгоритмическая достаточная статистика.

Эта концепция была предложена сэром Рональдом Фишером в 1920 году. [2] Стивен Стиглер в 1973 году отметил, что концепция достаточности вышла из употребления в описательной статистике из-за сильной зависимости от предположения о форме распределения (см. теорему Питмана–Купмана–Дармуа ниже), но осталась очень важной в теоретической работе. [3]

Фон

Грубо говоря, если задан набор независимых одинаково распределенных данных, обусловленных неизвестным параметром , достаточная статистика — это функция , значение которой содержит всю информацию, необходимую для вычисления любой оценки параметра (например, оценки максимального правдоподобия ). В силу теоремы о факторизации (см. ниже) для достаточной статистики плотность вероятности можно записать как . Из этой факторизации легко увидеть, что оценка максимального правдоподобия будет взаимодействовать с только через . Обычно достаточная статистика — это простая функция данных, например, сумма всех точек данных. Х {\displaystyle \mathbf {X} } θ {\displaystyle \тета} Т ( Х ) {\displaystyle T(\mathbf {X} )} Т ( Х ) {\displaystyle T(\mathbf {X} )} ф Х ( х ; θ ) = час ( х ) г ( θ , Т ( х ) ) {\displaystyle f_{\mathbf {X} }(x;\theta )=h(x)\,g(\theta ,T(x))} θ {\displaystyle \тета} Х {\displaystyle \mathbf {X} } Т ( Х ) {\displaystyle T(\mathbf {X} )}

В более общем смысле «неизвестный параметр» может представлять собой вектор неизвестных величин или может представлять собой все, что неизвестно или не полностью определено в модели. В таком случае достаточная статистика может быть набором функций, называемым совместно достаточной статистикой . Обычно существует столько же функций, сколько и параметров. Например, для гауссовского распределения с неизвестным средним значением и дисперсией совместно достаточная статистика, из которой можно оценить оценки максимального правдоподобия обоих параметров, состоит из двух функций: суммы всех точек данных и суммы всех квадратов точек данных (или, что эквивалентно, выборочного среднего значения и выборочной дисперсии ).

Другими словами, совместное распределение вероятностей данных условно независимо от параметра, учитывая значение достаточной статистики для параметра . Как статистика, так и базовый параметр могут быть векторами.

Математическое определение

Статистика t  =  T ( X ) достаточна для базового параметра θ именно в том случае, если условное распределение вероятностей данных X , заданное статистикой t  =  T ( X ), не зависит от параметра θ . [4]

В качестве альтернативы можно сказать, что статистика  T ( X ) достаточна для θ , если для всех априорных распределений по θ взаимная информация между θ и T(X) равна взаимной информации между θ и X. [5] Другими словами, неравенство обработки данных становится равенством:

я ( θ ; Т ( Х ) ) = я ( θ ; Х ) {\displaystyle I{\bigl (}\theta ;T(X){\bigr )}=I(\theta ;X)}

Пример

Например, выборочное среднее достаточно для среднего ( μ ) нормального распределения с известной дисперсией. Как только выборочное среднее известно, из самой выборки нельзя получить никакой дополнительной информации о μ . С другой стороны, для произвольного распределения медианы недостаточно для среднего: даже если медиана выборки известна, знание самой выборки предоставит дополнительную информацию о среднем значении совокупности. Например, если наблюдения, которые меньше медианы, лишь немного меньше, но наблюдения, превышающие медиану, превосходят ее на большую величину, то это будет иметь отношение к выводу о среднем значении совокупности.

Теорема факторизации Фишера-Неймана

Теорема факторизации Фишера или критерий факторизации дает удобную характеристику достаточной статистики. Если функция плотности вероятности равна ƒ θ ( x ), то T достаточно для θ тогда и только тогда, когда можно найти неотрицательные функции g и h , такие, что

f ( x ; θ ) = h ( x ) g ( θ , T ( x ) ) , {\displaystyle f(x;\theta )=h(x)\,g(\theta ,T(x)),}

т. е. плотность ƒ может быть разложена на множители таким образом, что один множитель, h , не зависит от θ , а другой множитель, который зависит от θ , зависит от x только через T ( x ). Общее доказательство этого было дано Халмошем и Сэвиджем [6] , и теорему иногда называют теоремой о факторизации Халмоша–Сэвиджа. [7] Приведенные ниже доказательства рассматривают особые случаи, но можно дать альтернативное общее доказательство в том же духе. [8] Во многих простых случаях функция плотности вероятности полностью определяется и , и (см. Примеры). θ {\displaystyle \theta } T ( x ) {\displaystyle T(x)} h ( x ) = 1 {\displaystyle h(x)=1}

Легко видеть, что если F ( t ) является функцией один к одному, а T является достаточной статистикой, то F ( T ) является достаточной статистикой. В частности, мы можем умножить достаточную статистику на ненулевую константу и получить другую достаточную статистику.

Интерпретация принципа правдоподобия

Следствием теоремы является то, что при использовании вывода на основе правдоподобия два набора данных, дающие одно и то же значение для достаточной статистики T ( X ), всегда будут давать одни и те же выводы о θ . По критерию факторизации зависимость правдоподобия от θ существует только в сочетании с T ( X ). Поскольку это одно и то же в обоих случаях, зависимость от θ также будет одинаковой, что приведет к идентичным выводам.

Доказательство

Согласно Хоггу и Крейгу. [9] Пусть , обозначает случайную выборку из распределения, имеющего плотность распределения f ( xθ ) для ι  <  θ  <  δ . Пусть Y 1  =  u 1 ( X 1X 2 , ...,  X n ) будет статистикой, плотность распределения которой равна g 1 ( y 1θ ). Мы хотим доказать, что Y 1  =  u 1 ( X 1 , X 2 , ...,  X n ) является достаточной статистикой для θ тогда и только тогда, когда для некоторой функции H , X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\ldots ,X_{n}}

i = 1 n f ( x i ; θ ) = g 1 [ u 1 ( x 1 , x 2 , , x n ) ; θ ] H ( x 1 , x 2 , , x n ) . {\displaystyle \prod _{i=1}^{n}f(x_{i};\theta )=g_{1}\left[u_{1}(x_{1},x_{2},\dots ,x_{n});\theta \right]H(x_{1},x_{2},\dots ,x_{n}).}

Во-первых, предположим, что

i = 1 n f ( x i ; θ ) = g 1 [ u 1 ( x 1 , x 2 , , x n ) ; θ ] H ( x 1 , x 2 , , x n ) . {\displaystyle \prod _{i=1}^{n}f(x_{i};\theta )=g_{1}\left[u_{1}(x_{1},x_{2},\dots ,x_{n});\theta \right]H(x_{1},x_{2},\dots ,x_{n}).}

Сделаем преобразование y i  =  u i ( x 1x 2 , ...,  x n ), для i  = 1, ...,  n , имея обратные функции x i  =  w i ( y 1y 2 , ...,  y n ), для i  = 1, ...,  n , и якобиан . Таким образом, J = [ w i / y j ] {\displaystyle J=\left[w_{i}/y_{j}\right]}

i = 1 n f [ w i ( y 1 , y 2 , , y n ) ; θ ] = | J | g 1 ( y 1 ; θ ) H [ w 1 ( y 1 , y 2 , , y n ) , , w n ( y 1 , y 2 , , y n ) ] . {\displaystyle \prod _{i=1}^{n}f\left[w_{i}(y_{1},y_{2},\dots ,y_{n});\theta \right]=|J|g_{1}(y_{1};\theta )H\left[w_{1}(y_{1},y_{2},\dots ,y_{n}),\dots ,w_{n}(y_{1},y_{2},\dots ,y_{n})\right].}

Левый член — это совместная функция плотности распределения g ( y 1 , y 2 , ..., y n ; θ) функции Y 1 = u 1 ( X 1 , ..., X n ), ..., Y n = u n ( X 1 , ..., X n ). В правом члене — это функция плотности распределения , так что — это частное от деления и ; то есть это условная функция плотности распределения данного . g 1 ( y 1 ; θ ) {\displaystyle g_{1}(y_{1};\theta )} Y 1 {\displaystyle Y_{1}} H [ w 1 , , w n ] | J | {\displaystyle H[w_{1},\dots ,w_{n}]|J|} g ( y 1 , , y n ; θ ) {\displaystyle g(y_{1},\dots ,y_{n};\theta )} g 1 ( y 1 ; θ ) {\displaystyle g_{1}(y_{1};\theta )} h ( y 2 , , y n y 1 ; θ ) {\displaystyle h(y_{2},\dots ,y_{n}\mid y_{1};\theta )} Y 2 , , Y n {\displaystyle Y_{2},\dots ,Y_{n}} Y 1 = y 1 {\displaystyle Y_{1}=y_{1}}

Но , и таким образом , было дано не зависеть от . Поскольку не было введено в преобразование и , соответственно , не в якобиан , следует , что не зависит от и что является достаточной статистикой для . H ( x 1 , x 2 , , x n ) {\displaystyle H(x_{1},x_{2},\dots ,x_{n})} H [ w 1 ( y 1 , , y n ) , , w n ( y 1 , , y n ) ) ] {\displaystyle H\left[w_{1}(y_{1},\dots ,y_{n}),\dots ,w_{n}(y_{1},\dots ,y_{n}))\right]} θ {\displaystyle \theta } θ {\displaystyle \theta } J {\displaystyle J} h ( y 2 , , y n y 1 ; θ ) {\displaystyle h(y_{2},\dots ,y_{n}\mid y_{1};\theta )} θ {\displaystyle \theta } Y 1 {\displaystyle Y_{1}} θ {\displaystyle \theta }

Обратное доказывается следующим образом:

g ( y 1 , , y n ; θ ) = g 1 ( y 1 ; θ ) h ( y 2 , , y n y 1 ) , {\displaystyle g(y_{1},\dots ,y_{n};\theta )=g_{1}(y_{1};\theta )h(y_{2},\dots ,y_{n}\mid y_{1}),}

где не зависит от , поскольку зависят только от , которые независимы от при условии , достаточная статистика по гипотезе. Теперь разделим оба члена на абсолютное значение неисчезающего якобиана и заменим функциями в . Это дает h ( y 2 , , y n y 1 ) {\displaystyle h(y_{2},\dots ,y_{n}\mid y_{1})} θ {\displaystyle \theta } Y 2 . . . Y n {\displaystyle Y_{2}...Y_{n}} X 1 . . . X n {\displaystyle X_{1}...X_{n}} Θ {\displaystyle \Theta } Y 1 {\displaystyle Y_{1}} J {\displaystyle J} y 1 , , y n {\displaystyle y_{1},\dots ,y_{n}} u 1 ( x 1 , , x n ) , , u n ( x 1 , , x n ) {\displaystyle u_{1}(x_{1},\dots ,x_{n}),\dots ,u_{n}(x_{1},\dots ,x_{n})} x 1 , , x n {\displaystyle x_{1},\dots ,x_{n}}

g [ u 1 ( x 1 , , x n ) , , u n ( x 1 , , x n ) ; θ ] | J | = g 1 [ u 1 ( x 1 , , x n ) ; θ ] h ( u 2 , , u n u 1 ) | J | {\displaystyle {\frac {g\left[u_{1}(x_{1},\dots ,x_{n}),\dots ,u_{n}(x_{1},\dots ,x_{n});\theta \right]}{|J^{*}|}}=g_{1}\left[u_{1}(x_{1},\dots ,x_{n});\theta \right]{\frac {h(u_{2},\dots ,u_{n}\mid u_{1})}{|J^{*}|}}}

где есть якобиан с заменой на их значение в терминах . Левый член обязательно является совместной функцией PDF . Поскольку , и, таким образом , , не зависит от , то J {\displaystyle J^{*}} y 1 , , y n {\displaystyle y_{1},\dots ,y_{n}} x 1 , , x n {\displaystyle x_{1},\dots ,x_{n}} f ( x 1 ; θ ) f ( x n ; θ ) {\displaystyle f(x_{1};\theta )\cdots f(x_{n};\theta )} X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} h ( y 2 , , y n y 1 ) {\displaystyle h(y_{2},\dots ,y_{n}\mid y_{1})} h ( u 2 , , u n u 1 ) {\displaystyle h(u_{2},\dots ,u_{n}\mid u_{1})} θ {\displaystyle \theta }

H ( x 1 , , x n ) = h ( u 2 , , u n u 1 ) | J | {\displaystyle H(x_{1},\dots ,x_{n})={\frac {h(u_{2},\dots ,u_{n}\mid u_{1})}{|J^{*}|}}}

— это функция, которая не зависит от . θ {\displaystyle \theta }

Еще одно доказательство

Более простое и наглядное доказательство состоит в следующем, хотя оно применимо только в дискретном случае.

Мы используем сокращенную запись для обозначения совместной плотности вероятности через . Поскольку является функцией , то имеем , пока и ноль в противном случае. Следовательно: ( X , T ( X ) ) {\displaystyle (X,T(X))} f θ ( x , t ) {\displaystyle f_{\theta }(x,t)} T {\displaystyle T} X {\displaystyle X} f θ ( x , t ) = f θ ( x ) {\displaystyle f_{\theta }(x,t)=f_{\theta }(x)} t = T ( x ) {\displaystyle t=T(x)}

f θ ( x ) = f θ ( x , t ) = f θ ( x t ) f θ ( t ) = f ( x t ) f θ ( t ) {\displaystyle {\begin{aligned}f_{\theta }(x)&=f_{\theta }(x,t)\\[5pt]&=f_{\theta }(x\mid t)f_{\theta }(t)\\[5pt]&=f(x\mid t)f_{\theta }(t)\end{aligned}}}

причем последнее равенство верно по определению достаточной статистики. Таким образом, при и . f θ ( x ) = a ( x ) b θ ( t ) {\displaystyle f_{\theta }(x)=a(x)b_{\theta }(t)} a ( x ) = f X t ( x ) {\displaystyle a(x)=f_{X\mid t}(x)} b θ ( t ) = f θ ( t ) {\displaystyle b_{\theta }(t)=f_{\theta }(t)}

Наоборот, если , то мы имеем f θ ( x ) = a ( x ) b θ ( t ) {\displaystyle f_{\theta }(x)=a(x)b_{\theta }(t)}

f θ ( t ) = x : T ( x ) = t f θ ( x , t ) = x : T ( x ) = t f θ ( x ) = x : T ( x ) = t a ( x ) b θ ( t ) = ( x : T ( x ) = t a ( x ) ) b θ ( t ) . {\displaystyle {\begin{aligned}f_{\theta }(t)&=\sum _{x:T(x)=t}f_{\theta }(x,t)\\[5pt]&=\sum _{x:T(x)=t}f_{\theta }(x)\\[5pt]&=\sum _{x:T(x)=t}a(x)b_{\theta }(t)\\[5pt]&=\left(\sum _{x:T(x)=t}a(x)\right)b_{\theta }(t).\end{aligned}}}

Первое равенство следует из определения функции плотности распределения для нескольких переменных , второе — из замечания выше, третье — из предположения, а четвертое — потому что суммирование еще не закончено . t {\displaystyle t}

Пусть обозначает условную плотность вероятности данного . Тогда мы можем вывести явное выражение для этого: f X t ( x ) {\displaystyle f_{X\mid t}(x)} X {\displaystyle X} T ( X ) {\displaystyle T(X)}

f X t ( x ) = f θ ( x , t ) f θ ( t ) = f θ ( x ) f θ ( t ) = a ( x ) b θ ( t ) ( x : T ( x ) = t a ( x ) ) b θ ( t ) = a ( x ) x : T ( x ) = t a ( x ) . {\displaystyle {\begin{aligned}f_{X\mid t}(x)&={\frac {f_{\theta }(x,t)}{f_{\theta }(t)}}\\[5pt]&={\frac {f_{\theta }(x)}{f_{\theta }(t)}}\\[5pt]&={\frac {a(x)b_{\theta }(t)}{\left(\sum _{x:T(x)=t}a(x)\right)b_{\theta }(t)}}\\[5pt]&={\frac {a(x)}{\sum _{x:T(x)=t}a(x)}}.\end{aligned}}}

С первым равенством по определению условной плотности вероятности, вторым по замечанию выше, третьим по доказанному выше равенству и четвертым по упрощению. Это выражение не зависит от и, таким образом, является достаточной статистикой. [10] θ {\displaystyle \theta } T {\displaystyle T}

Минимальная достаточность

Достаточная статистика является минимально достаточной , если ее можно представить как функцию любой другой достаточной статистики. Другими словами, S ( X ) является минимально достаточной тогда и только тогда, когда [11]

  1. S ( X ) достаточно, и
  2. если T ( X ) достаточно, то существует функция f такая, что S ( X ) = f ( T ( X )).

Интуитивно понятно, что минимально достаточная статистика наиболее эффективно охватывает всю возможную информацию о параметре θ .

Полезная характеристика минимальной достаточности заключается в том, что при наличии плотности f θ S ( X ) является минимально достаточной тогда и только тогда, когда [ необходима цитата ]

f θ ( x ) f θ ( y ) {\displaystyle {\frac {f_{\theta }(x)}{f_{\theta }(y)}}} не зависит от θ  : S ( x ) = S ( y ) {\displaystyle \Longleftrightarrow }

Это следует из теоремы Фишера о факторизации, изложенной выше.

Случай, когда нет минимальной достаточной статистики, был показан Бахадуром в 1954 году. [12] Однако при мягких условиях минимальная достаточная статистика всегда существует. В частности, в евклидовом пространстве эти условия всегда выполняются, если случайные величины (связанные с ) все дискретны или все непрерывны. P θ {\displaystyle P_{\theta }}

Если существует минимальная достаточная статистика, а это обычно так, то каждая полная достаточная статистика обязательно является минимально достаточной [13] (обратите внимание, что это утверждение не исключает патологический случай, в котором существует полная достаточная статистика, но нет минимальной достаточной статистики). Хотя трудно найти случаи, в которых минимальная достаточная статистика не существует, не так уж трудно найти случаи, в которых нет полной статистики.

Набор отношений правдоподобия для является минимальной достаточной статистикой, если пространство параметров дискретно . { L ( X θ i ) L ( X θ 0 ) } {\displaystyle \left\{{\frac {L(X\mid \theta _{i})}{L(X\mid \theta _{0})}}\right\}} i = 1 , . . . , k {\displaystyle i=1,...,k} { θ 0 , . . . , θ k } {\displaystyle \left\{\theta _{0},...,\theta _{k}\right\}}

Примеры

Распределение Бернулли

Если X 1 , ....,  X n — независимые случайные величины , распределенные по закону Бернулли, с ожидаемым значением p , то сумма T ( X ) =  X 1  + ... +  X n является достаточной статистикой для p (здесь «успех» соответствует X i  = 1, а «неудача» — X i  = 0; таким образом, T — общее число успехов).

Это видно из рассмотрения совместного распределения вероятностей:

Pr { X = x } = Pr { X 1 = x 1 , X 2 = x 2 , , X n = x n } . {\displaystyle \Pr\{X=x\}=\Pr\{X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{n}=x_{n}\}.}

Поскольку наблюдения независимы, это можно записать как

p x 1 ( 1 p ) 1 x 1 p x 2 ( 1 p ) 1 x 2 p x n ( 1 p ) 1 x n {\displaystyle p^{x_{1}}(1-p)^{1-x_{1}}p^{x_{2}}(1-p)^{1-x_{2}}\cdots p^{x_{n}}(1-p)^{1-x_{n}}}

и, собирая степени p и 1 −  p , получаем

p x i ( 1 p ) n x i = p T ( x ) ( 1 p ) n T ( x ) {\displaystyle p^{\sum x_{i}}(1-p)^{n-\sum x_{i}}=p^{T(x)}(1-p)^{n-T(x)}}

что удовлетворяет критерию факторизации, причем h ( x ) = 1 является просто константой.

Обратите внимание на важную особенность: неизвестный параметр p взаимодействует с данными x только через статистику T ( x ) = Σ  x i .

В качестве конкретного приложения это дает процедуру различения честной монеты от нечестной .

Равномерное распределение

Если X 1 , ...., X n независимы и равномерно распределены на интервале [0, θ ], то T ( X ) = max( X 1 , ..., X n ) достаточно для θ — максимум выборки является достаточной статистикой для максимума популяции.

Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности X   ( X 1 ,..., X n ). Поскольку наблюдения независимы , pdf можно записать как произведение индивидуальных плотностей

f θ ( x 1 , , x n ) = 1 θ 1 { 0 x 1 θ } 1 θ 1 { 0 x n θ } = 1 θ n 1 { 0 min { x i } } 1 { max { x i } θ } {\displaystyle {\begin{aligned}f_{\theta }(x_{1},\ldots ,x_{n})&={\frac {1}{\theta }}\mathbf {1} _{\{0\leq x_{1}\leq \theta \}}\cdots {\frac {1}{\theta }}\mathbf {1} _{\{0\leq x_{n}\leq \theta \}}\\[5pt]&={\frac {1}{\theta ^{n}}}\mathbf {1} _{\{0\leq \min\{x_{i}\}\}}\mathbf {1} _{\{\max\{x_{i}\}\leq \theta \}}\end{aligned}}}

где 1 { ... }индикаторная функция . Таким образом, плотность принимает форму, требуемую теоремой о факторизации Фишера–Неймана, где h ( x ) =  1 {min{ x i }≥0} , а остальная часть выражения является функцией только θ и T ( x ) = max{ x i }.

Фактически, несмещенная оценка с минимальной дисперсией (MVUE) для θ имеет вид

n + 1 n T ( X ) . {\displaystyle {\frac {n+1}{n}}T(X).}

Это выборочный максимум, масштабированный для коррекции смещения , и является MVUE по теореме Лемана–Шеффе . Немасштабированный выборочный максимум T ( X ) является оценкой максимального правдоподобия для θ .

Равномерное распределение (с двумя параметрами)

Если независимы и равномерно распределены на интервале (где и — неизвестные параметры), то — двумерная достаточная статистика для . X 1 , . . . , X n {\displaystyle X_{1},...,X_{n}} [ α , β ] {\displaystyle [\alpha ,\beta ]} α {\displaystyle \alpha } β {\displaystyle \beta } T ( X 1 n ) = ( min 1 i n X i , max 1 i n X i ) {\displaystyle T(X_{1}^{n})=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right)} ( α , β ) {\displaystyle (\alpha \,,\,\beta )}

Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т.е. X 1 n = ( X 1 , , X n ) {\displaystyle X_{1}^{n}=(X_{1},\ldots ,X_{n})}

f X 1 n ( x 1 n ) = i = 1 n ( 1 β α ) 1 { α x i β } = ( 1 β α ) n 1 { α x i β , i = 1 , , n } = ( 1 β α ) n 1 { α min 1 i n X i } 1 { max 1 i n X i β } . {\displaystyle {\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}\left({1 \over \beta -\alpha }\right)\mathbf {1} _{\{\alpha \leq x_{i}\leq \beta \}}=\left({1 \over \beta -\alpha }\right)^{n}\mathbf {1} _{\{\alpha \leq x_{i}\leq \beta ,\,\forall \,i=1,\ldots ,n\}}\\&=\left({1 \over \beta -\alpha }\right)^{n}\mathbf {1} _{\{\alpha \,\leq \,\min _{1\leq i\leq n}X_{i}\}}\mathbf {1} _{\{\max _{1\leq i\leq n}X_{i}\,\leq \,\beta \}}.\end{aligned}}}

Совместная плотность выборки принимает форму, требуемую теоремой факторизации Фишера–Неймана, если допустить, что

h ( x 1 n ) = 1 , g ( α , β ) ( x 1 n ) = ( 1 β α ) n 1 { α min 1 i n X i } 1 { max 1 i n X i β } . {\displaystyle {\begin{aligned}h(x_{1}^{n})=1,\quad g_{(\alpha ,\beta )}(x_{1}^{n})=\left({1 \over \beta -\alpha }\right)^{n}\mathbf {1} _{\{\alpha \,\leq \,\min _{1\leq i\leq n}X_{i}\}}\mathbf {1} _{\{\max _{1\leq i\leq n}X_{i}\,\leq \,\beta \}}.\end{aligned}}}

Так как не зависит от параметра и зависит только от через функцию h ( x 1 n ) {\displaystyle h(x_{1}^{n})} ( α , β ) {\displaystyle (\alpha ,\beta )} g ( α , β ) ( x 1 n ) {\displaystyle g_{(\alpha \,,\,\beta )}(x_{1}^{n})} x 1 n {\displaystyle x_{1}^{n}} T ( X 1 n ) = ( min 1 i n X i , max 1 i n X i ) , {\displaystyle T(X_{1}^{n})=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right),}

теорема Фишера–Неймана о факторизации подразумевает, что является достаточной статистикой для . T ( X 1 n ) = ( min 1 i n X i , max 1 i n X i ) {\displaystyle T(X_{1}^{n})=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right)} ( α , β ) {\displaystyle (\alpha \,,\,\beta )}

Распределение Пуассона

Если X 1 , ....,  X n независимы и имеют распределение Пуассона с параметром λ , то сумма T ( X ) =  X 1  + ... +  X n является достаточной статистикой для  λ .

Чтобы увидеть это, рассмотрим совместное распределение вероятностей:

Pr ( X = x ) = P ( X 1 = x 1 , X 2 = x 2 , , X n = x n ) . {\displaystyle \Pr(X=x)=P(X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{n}=x_{n}).}

Поскольку наблюдения независимы, это можно записать как

e λ λ x 1 x 1 ! e λ λ x 2 x 2 ! e λ λ x n x n ! {\displaystyle {e^{-\lambda }\lambda ^{x_{1}} \over x_{1}!}\cdot {e^{-\lambda }\lambda ^{x_{2}} \over x_{2}!}\cdots {e^{-\lambda }\lambda ^{x_{n}} \over x_{n}!}}

что может быть записано как

e n λ λ ( x 1 + x 2 + + x n ) 1 x 1 ! x 2 ! x n ! {\displaystyle e^{-n\lambda }\lambda ^{(x_{1}+x_{2}+\cdots +x_{n})}\cdot {1 \over x_{1}!x_{2}!\cdots x_{n}!}}

что показывает, что критерий факторизации выполняется, где h ( x ) — обратная величина произведения факториалов. Обратите внимание, что параметр λ взаимодействует с данными только через свою сумму T ( X ).

Нормальное распределение

Если независимы и нормально распределены с ожидаемым значением (параметром) и известной конечной дисперсией , то X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} θ {\displaystyle \theta } σ 2 , {\displaystyle \sigma ^{2},}

T ( X 1 n ) = x ¯ = 1 n i = 1 n X i {\displaystyle T(X_{1}^{n})={\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}}

достаточная статистика для θ . {\displaystyle \theta .}

Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т.е. X 1 n = ( X 1 , , X n ) {\displaystyle X_{1}^{n}=(X_{1},\dots ,X_{n})}

f X 1 n ( x 1 n ) = i = 1 n 1 2 π σ 2 exp ( ( x i θ ) 2 2 σ 2 ) = ( 2 π σ 2 ) n 2 exp ( i = 1 n ( x i θ ) 2 2 σ 2 ) = ( 2 π σ 2 ) n 2 exp ( i = 1 n ( ( x i x ¯ ) ( θ x ¯ ) ) 2 2 σ 2 ) = ( 2 π σ 2 ) n 2 exp ( 1 2 σ 2 ( i = 1 n ( x i x ¯ ) 2 + i = 1 n ( θ x ¯ ) 2 2 i = 1 n ( x i x ¯ ) ( θ x ¯ ) ) ) = ( 2 π σ 2 ) n 2 exp ( 1 2 σ 2 ( i = 1 n ( x i x ¯ ) 2 + n ( θ x ¯ ) 2 ) ) i = 1 n ( x i x ¯ ) ( θ x ¯ ) = 0 = ( 2 π σ 2 ) n 2 exp ( 1 2 σ 2 i = 1 n ( x i x ¯ ) 2 ) exp ( n 2 σ 2 ( θ x ¯ ) 2 ) {\displaystyle {\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x_{i}-\theta )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-\sum _{i=1}^{n}{\frac {(x_{i}-\theta )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-\sum _{i=1}^{n}{\frac {\left(\left(x_{i}-{\overline {x}}\right)-\left(\theta -{\overline {x}}\right)\right)^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\left(\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}+\sum _{i=1}^{n}(\theta -{\overline {x}})^{2}-2\sum _{i=1}^{n}(x_{i}-{\overline {x}})(\theta -{\overline {x}})\right)\right)\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\left(\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}+n(\theta -{\overline {x}})^{2}\right)\right)&&\sum _{i=1}^{n}(x_{i}-{\overline {x}})(\theta -{\overline {x}})=0\\[6pt]&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right)\exp \left(-{\frac {n}{2\sigma ^{2}}}(\theta -{\overline {x}})^{2}\right)\end{aligned}}}

Совместная плотность выборки принимает форму, требуемую теоремой факторизации Фишера–Неймана, если допустить, что

h ( x 1 n ) = ( 2 π σ 2 ) n 2 exp ( 1 2 σ 2 i = 1 n ( x i x ¯ ) 2 ) g θ ( x 1 n ) = exp ( n 2 σ 2 ( θ x ¯ ) 2 ) {\displaystyle {\begin{aligned}h(x_{1}^{n})&=(2\pi \sigma ^{2})^{-{\frac {n}{2}}}\exp \left(-{1 \over 2\sigma ^{2}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right)\\[6pt]g_{\theta }(x_{1}^{n})&=\exp \left(-{\frac {n}{2\sigma ^{2}}}(\theta -{\overline {x}})^{2}\right)\end{aligned}}}

Так как не зависит от параметра и зависит только от через функцию h ( x 1 n ) {\displaystyle h(x_{1}^{n})} θ {\displaystyle \theta } g θ ( x 1 n ) {\displaystyle g_{\theta }(x_{1}^{n})} x 1 n {\displaystyle x_{1}^{n}}

T ( X 1 n ) = x ¯ = 1 n i = 1 n X i , {\displaystyle T(X_{1}^{n})={\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i},}

теорема Фишера–Неймана о факторизации подразумевает, что является достаточной статистикой для . T ( X 1 n ) {\displaystyle T(X_{1}^{n})} θ {\displaystyle \theta }

Если неизвестно и поскольку , то указанную выше вероятность можно переписать как σ 2 {\displaystyle \sigma ^{2}} s 2 = 1 n 1 i = 1 n ( x i x ¯ ) 2 {\displaystyle s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}

f X 1 n ( x 1 n ) = ( 2 π σ 2 ) n / 2 exp ( n 1 2 σ 2 s 2 ) exp ( n 2 σ 2 ( θ x ¯ ) 2 ) . {\displaystyle {\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})=(2\pi \sigma ^{2})^{-n/2}\exp \left(-{\frac {n-1}{2\sigma ^{2}}}s^{2}\right)\exp \left(-{\frac {n}{2\sigma ^{2}}}(\theta -{\overline {x}})^{2}\right).\end{aligned}}}

Теорема факторизации Фишера–Неймана по-прежнему верна и подразумевает, что является совместной достаточной статистикой для . ( x ¯ , s 2 ) {\displaystyle ({\overline {x}},s^{2})} ( θ , σ 2 ) {\displaystyle (\theta ,\sigma ^{2})}

Экспоненциальное распределение

Если независимы и экспоненциально распределены с ожидаемым значением θ (неизвестный действительный положительный параметр), то является достаточной статистикой для θ. X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} T ( X 1 n ) = i = 1 n X i {\displaystyle T(X_{1}^{n})=\sum _{i=1}^{n}X_{i}}

Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т.е. X 1 n = ( X 1 , , X n ) {\displaystyle X_{1}^{n}=(X_{1},\dots ,X_{n})}

f X 1 n ( x 1 n ) = i = 1 n 1 θ e 1 θ x i = 1 θ n e 1 θ i = 1 n x i . {\displaystyle {\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}{1 \over \theta }\,e^{{-1 \over \theta }x_{i}}={1 \over \theta ^{n}}\,e^{{-1 \over \theta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}}

Совместная плотность выборки принимает форму, требуемую теоремой факторизации Фишера–Неймана, если допустить, что

h ( x 1 n ) = 1 , g θ ( x 1 n ) = 1 θ n e 1 θ i = 1 n x i . {\displaystyle {\begin{aligned}h(x_{1}^{n})=1,\,\,\,g_{\theta }(x_{1}^{n})={1 \over \theta ^{n}}\,e^{{-1 \over \theta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}}

Так как не зависит от параметра и зависит только от через функцию h ( x 1 n ) {\displaystyle h(x_{1}^{n})} θ {\displaystyle \theta } g θ ( x 1 n ) {\displaystyle g_{\theta }(x_{1}^{n})} x 1 n {\displaystyle x_{1}^{n}} T ( X 1 n ) = i = 1 n X i {\displaystyle T(X_{1}^{n})=\sum _{i=1}^{n}X_{i}}

теорема Фишера–Неймана о факторизации подразумевает, что является достаточной статистикой для . T ( X 1 n ) = i = 1 n X i {\displaystyle T(X_{1}^{n})=\sum _{i=1}^{n}X_{i}} θ {\displaystyle \theta }

Гамма-распределение

Если независимы и распределены как , где и — неизвестные параметры гамма-распределения , то — двумерная достаточная статистика для . X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} Γ ( α , β ) {\displaystyle \Gamma (\alpha \,,\,\beta )} α {\displaystyle \alpha } β {\displaystyle \beta } T ( X 1 n ) = ( i = 1 n X i , i = 1 n X i ) {\displaystyle T(X_{1}^{n})=\left(\prod _{i=1}^{n}{X_{i}},\sum _{i=1}^{n}X_{i}\right)} ( α , β ) {\displaystyle (\alpha ,\beta )}

Чтобы увидеть это, рассмотрим функцию плотности совместной вероятности . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т.е. X 1 n = ( X 1 , , X n ) {\displaystyle X_{1}^{n}=(X_{1},\dots ,X_{n})}

f X 1 n ( x 1 n ) = i = 1 n ( 1 Γ ( α ) β α ) x i α 1 e ( 1 / β ) x i = ( 1 Γ ( α ) β α ) n ( i = 1 n x i ) α 1 e 1 β i = 1 n x i . {\displaystyle {\begin{aligned}f_{X_{1}^{n}}(x_{1}^{n})&=\prod _{i=1}^{n}\left({1 \over \Gamma (\alpha )\beta ^{\alpha }}\right)x_{i}^{\alpha -1}e^{(-1/\beta )x_{i}}\\[5pt]&=\left({1 \over \Gamma (\alpha )\beta ^{\alpha }}\right)^{n}\left(\prod _{i=1}^{n}x_{i}\right)^{\alpha -1}e^{{-1 \over \beta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}}

Совместная плотность выборки принимает форму, требуемую теоремой факторизации Фишера–Неймана, если допустить, что

h ( x 1 n ) = 1 , g ( α , β ) ( x 1 n ) = ( 1 Γ ( α ) β α ) n ( i = 1 n x i ) α 1 e 1 β i = 1 n x i . {\displaystyle {\begin{aligned}h(x_{1}^{n})=1,\,\,\,g_{(\alpha \,,\,\beta )}(x_{1}^{n})=\left({1 \over \Gamma (\alpha )\beta ^{\alpha }}\right)^{n}\left(\prod _{i=1}^{n}x_{i}\right)^{\alpha -1}e^{{-1 \over \beta }\sum _{i=1}^{n}x_{i}}.\end{aligned}}}

Так как не зависит от параметра и зависит только от через функцию h ( x 1 n ) {\displaystyle h(x_{1}^{n})} ( α , β ) {\displaystyle (\alpha \,,\,\beta )} g ( α , β ) ( x 1 n ) {\displaystyle g_{(\alpha \,,\,\beta )}(x_{1}^{n})} x 1 n {\displaystyle x_{1}^{n}} T ( x 1 n ) = ( i = 1 n x i , i = 1 n x i ) , {\displaystyle T(x_{1}^{n})=\left(\prod _{i=1}^{n}x_{i},\sum _{i=1}^{n}x_{i}\right),}

теорема Фишера-Неймана о факторизации подразумевает, что это достаточная статистика для T ( X 1 n ) = ( i = 1 n X i , i = 1 n X i ) {\displaystyle T(X_{1}^{n})=\left(\prod _{i=1}^{n}X_{i},\sum _{i=1}^{n}X_{i}\right)} ( α , β ) . {\displaystyle (\alpha \,,\,\beta ).}

Теорема Рао–Блэквелла

Достаточность находит полезное применение в теореме Рао–Блэквелла , которая гласит, что если g ( X ) является любым видом оценки θ , то обычно условное ожидание g ( X ) при достаточной статистике T ( X ) является лучшей (в смысле наличия более низкой дисперсии ) оценкой θ и никогда не бывает хуже. Иногда можно очень легко построить очень грубую оценку g ( X ), а затем оценить это условное ожидаемое значение, чтобы получить оценку, которая является оптимальной в различных смыслах.

Экспоненциальная семья

Согласно теореме Питмана–Купмана–Дармуа, среди семейств распределений вероятностей, область определения которых не меняется с оцениваемым параметром, только в экспоненциальных семействах существует достаточная статистика, размерность которой остается ограниченной при увеличении размера выборки. Интуитивно это означает, что неэкспоненциальные семейства распределений на действительной прямой требуют непараметрической статистики для полного охвата информации в данных.

Менее кратко, предположим, что являются независимыми одинаково распределенными действительными случайными величинами, распределение которых, как известно, принадлежит некоторому семейству распределений вероятностей, параметризованному с помощью , удовлетворяющему определенным техническим условиям регулярности, тогда это семейство является экспоненциальным семейством тогда и только тогда, когда существует -значная достаточная статистика, число скалярных компонентов которой не увеличивается с увеличением размера выборки n . [14] X n , n = 1 , 2 , 3 , {\displaystyle X_{n},n=1,2,3,\dots } θ {\displaystyle \theta } R m {\displaystyle \mathbb {R} ^{m}} T ( X 1 , , X n ) {\displaystyle T(X_{1},\dots ,X_{n})} m {\displaystyle m}

Эта теорема показывает, что существование конечномерной, действительной векторнозначной достаточной статистики резко ограничивает возможные формы семейства распределений на действительной прямой .

Когда параметры или случайные величины больше не являются действительными, ситуация становится более сложной. [15]

Другие виды достаточности

Байесовская достаточность

Альтернативная формулировка условия достаточности статистики, заданная в байесовском контексте, включает апостериорные распределения, полученные с использованием полного набора данных и с использованием только статистики. Таким образом, требование заключается в том, что для почти каждого x ,

Pr ( θ X = x ) = Pr ( θ T ( X ) = t ( x ) ) . {\displaystyle \Pr(\theta \mid X=x)=\Pr(\theta \mid T(X)=t(x)).}

В более общем плане, не прибегая к параметрической модели, можно сказать, что статистика T достаточно предсказательная , если

Pr ( X = x X = x ) = Pr ( X = x T ( X ) = t ( x ) ) . {\displaystyle \Pr(X'=x'\mid X=x)=\Pr(X'=x'\mid T(X)=t(x)).}

Оказывается, что эта «байесовская достаточность» является следствием приведенной выше формулировки, [16] однако они не являются напрямую эквивалентными в бесконечномерном случае. [17] Доступен ряд теоретических результатов для достаточности в байесовском контексте. [18]

Линейная достаточность

Понятие, называемое «линейной достаточностью», может быть сформулировано в байесовском контексте [19] и в более общем смысле. [20] Сначала определим наилучший линейный предиктор вектора Y на основе X как . Тогда линейная статистика T ( x ) является линейно достаточной [21], если E ^ [ Y X ] {\displaystyle {\hat {E}}[Y\mid X]}

E ^ [ θ X ] = E ^ [ θ T ( X ) ] . {\displaystyle {\hat {E}}[\theta \mid X]={\hat {E}}[\theta \mid T(X)].}

Смотрите также

Примечания

  1. ^ Додж, И. (2003) — запись для линейной достаточности
  2. ^ Фишер, РА (1922). «О математических основах теоретической статистики». Philosophical Transactions of the Royal Society A. 222 ( 594–604): 309–368. Bibcode :1922RSPTA.222..309F. doi : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . JFM  48.1280.02. JSTOR  91208.
  3. ^ Стиглер, Стивен (декабрь 1973 г.). «Исследования по истории вероятности и статистики. XXXII: Лаплас, Фишер и открытие концепции достаточности». Biometrika . 60 (3): 439–445. doi :10.1093/biomet/60.3.439. JSTOR  2334992. MR  0326872.
  4. ^ Казелла, Джордж; Бергер, Роджер Л. (2002). Статистический вывод, 2-е изд . Duxbury Press.
  5. ^ Cover, Thomas M. (2006). Элементы теории информации . Joy A. Thomas (2-е изд.). Hoboken, NJ: Wiley-Interscience. стр. 36. ISBN 0-471-24195-4. OCLC  59879802.
  6. ^ Halmos, PR; Savage, LJ (1949). «Применение теоремы Радона-Никодима к теории достаточных статистик». Анналы математической статистики . 20 (2): 225–241. doi : 10.1214/aoms/1177730032 . ISSN  0003-4851.
  7. ^ "Теорема о факторизации - Энциклопедия математики". encyclopediaofmath.org . Получено 2022-09-07 .
  8. ^ Таралдсен, Г. (2022). «Теорема факторизации для достаточности». Препринт . doi :10.13140/RG.2.2.15068.87687.
  9. ^ Хогг, Роберт В.; Крейг, Аллен Т. (1995). Введение в математическую статистику . Prentice Hall. ISBN 978-0-02-355722-4.
  10. ^ «Теорема Фишера–Неймана о факторизации».. Веб-страница на сайте Connexions (cnx.org)
  11. ^ Dodge (2003) — запись для минимальной достаточной статистики
  12. ^ Леманн и Каселла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 37
  13. ^ Леманн и Каселла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 42
  14. ^ Тикочинский, Y.; Тишби, NZ; Левин, RD (1984-11-01). «Альтернативный подход к выводу максимальной энтропии». Physical Review A. 30 ( 5): 2638–2644. Bibcode : 1984PhRvA..30.2638T. doi : 10.1103/physreva.30.2638. ISSN  0556-2791.
  15. ^ Андерсен, Эрлинг Бернхард (сентябрь 1970 г.). «Достаточность и экспоненциальные семейства для дискретных выборочных пространств». Журнал Американской статистической ассоциации . 65 (331): 1248–1255. doi :10.1080/01621459.1970.10481160. ISSN  0162-1459.
  16. ^ Бернардо, Дж. М .; Смит, А. Ф. М. (1994). "Раздел 5.1.4". Байесовская теория . Wiley. ISBN 0-471-92416-4.
  17. ^ Блэквелл, Д.; Рамамурти, Р.В. (1982). «Байесовский, но не классически достаточный статистический показатель». Annals of Statistics . 10 (3): 1025–1026. doi : 10.1214/aos/1176345895 . MR  0663456. Zbl  0485.62004.
  18. ^ Ногалес, АГ; Ойола, ДЖА; Перес, П. (2000). «Об условной независимости и связи между достаточностью и инвариантностью с байесовской точки зрения». Statistics & Probability Letters . 46 (1): 75–84. doi :10.1016/S0167-7152(99)00089-9. MR  1731351. Zbl  0964.62003.
  19. ^ Голдштейн, М.; О'Хаган, А. (1996). «Байесовская линейная достаточность и системы экспертных апостериорных оценок». Журнал Королевского статистического общества . Серия B. 58 (2): 301–316. JSTOR  2345978.
  20. ^ Годамбе, В. П. (1966). «Новый подход к выборке из конечных совокупностей. II Достаточность без распределения». Журнал Королевского статистического общества . Серия B. 28 (2): 320–328. JSTOR  2984375.
  21. ^ Witting, T. (1987). «Линейное свойство Маркова в теории достоверности». ASTIN Bulletin . 17 (1): 71–84. doi : 10.2143/ast.17.1.2014984 . hdl : 20.500.11850/422507 .

Ссылки

Retrieved from "https://en.wikipedia.org/w/index.php?title=Sufficient_statistic&oldid=1245447251"