Основное количество

Функция наблюдений и ненаблюдаемых параметров

В статистике опорная величина или стержень — это функция наблюдений и ненаблюдаемых параметров, такая, что распределение вероятностей функции не зависит от неизвестных параметров (включая мешающие параметры ). [1] Опорный элемент не обязательно должен быть статистикой — функция и ее «значение» могут зависеть от параметров модели, но ее «распределение» не должно. Если это статистика, то она известна как « вспомогательная статистика ».

Более формально, [2] пусть будет случайной выборкой из распределения, которое зависит от параметра (или вектора параметров) . Пусть будет случайной величиной, распределение которой одинаково для всех . Тогда называется «основной величиной» (или просто «основой»). Х = ( Х 1 , Х 2 , , Х н ) {\displaystyle X=(X_{1},X_{2},\ldots ,X_{n})} θ {\displaystyle \тета} г ( Х , θ ) {\displaystyle g(X,\theta)} θ {\displaystyle \тета} г {\displaystyle г}

Сводные величины обычно используются для нормализации, чтобы можно было сравнивать данные из разных наборов данных. Относительно легко построить сводные величины для параметров местоположения и масштаба: для первых мы формируем различия, чтобы местоположение отменялось, для вторых — отношения, чтобы масштаб отменялся.

Основные величины имеют основополагающее значение для построения тестовых статистик , поскольку они позволяют статистике не зависеть от параметров — например, t-статистика Стьюдента предназначена для нормального распределения с неизвестной дисперсией (и средним значением). Они также предоставляют один из методов построения доверительных интервалов , а использование основных величин улучшает производительность бутстрапа . В форме вспомогательных статистик их можно использовать для построения частотных интервалов прогнозирования (прогностических доверительных интервалов).

Примеры

Нормальное распределение

Одной из самых простых основных величин является z-оценка . При наличии нормального распределения со средним значением и дисперсией и наблюдения 'x', z-оценка: μ {\displaystyle \мю} σ 2 {\displaystyle \sigma ^{2}}

z = x μ σ , {\displaystyle z={\frac {x-\mu }{\sigma }},}

имеет распределение – нормальное распределение со средним значением 0 и дисперсией 1. Аналогично, поскольку среднее значение выборки n имеет выборочное распределение , z-оценка среднего значения N ( 0 , 1 ) {\displaystyle N(0,1)} N ( μ , σ 2 / n ) {\displaystyle N(\mu ,\sigma ^{2}/n)}

z = X ¯ μ σ / n {\displaystyle z={\frac {{\overline {X}}-\mu }{\sigma /{\sqrt {n}}}}}

также имеет распределение. Обратите внимание, что хотя эти функции зависят от параметров (и, следовательно, их можно вычислить, только если параметры известны (они не являются статистикой)), распределение не зависит от параметров. N ( 0 , 1 ) . {\displaystyle N(0,1).}

Учитывая независимые, одинаково распределенные (iid) наблюдения из нормального распределения с неизвестным средним значением и дисперсией , из функции можно получить основную величину: n {\displaystyle n} X = ( X 1 , X 2 , , X n ) {\displaystyle X=(X_{1},X_{2},\ldots ,X_{n})} μ {\displaystyle \mu } σ 2 {\displaystyle \sigma ^{2}}

g ( x , X ) = x X ¯ s / n {\displaystyle g(x,X)={\frac {x-{\overline {X}}}{s/{\sqrt {n}}}}}

где

X ¯ = 1 n i = 1 n X i {\displaystyle {\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}{X_{i}}}

и

s 2 = 1 n 1 i = 1 n ( X i X ¯ ) 2 {\displaystyle s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}{(X_{i}-{\overline {X}})^{2}}}

являются несмещенными оценками и , соответственно. Функция представляет собой t-статистику Стьюдента для нового значения , которое должно быть взято из той же совокупности, что и уже наблюдаемый набор значений . μ {\displaystyle \mu } σ 2 {\displaystyle \sigma ^{2}} g ( x , X ) {\displaystyle g(x,X)} x {\displaystyle x} X {\displaystyle X}

Использование функции становится стержневой величиной, которая также распределена по распределению Стьюдента со степенями свободы. Как и требуется, хотя и выступает в качестве аргумента функции , распределение не зависит от параметров или нормального распределения вероятностей, которое управляет наблюдениями . x = μ {\displaystyle x=\mu } g ( μ , X ) {\displaystyle g(\mu ,X)} ν = n 1 {\displaystyle \nu =n-1} μ {\displaystyle \mu } g {\displaystyle g} g ( μ , X ) {\displaystyle g(\mu ,X)} μ {\displaystyle \mu } σ {\displaystyle \sigma } X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}}

Это можно использовать для вычисления интервала прогнозирования для следующего наблюдения ( см. Интервал прогнозирования: Нормальное распределение ). X n + 1 ; {\displaystyle X_{n+1};}

Двумерное нормальное распределение

В более сложных случаях невозможно построить точные опорные точки. Однако наличие приближенных опорных точек улучшает сходимость к асимптотической нормальности .

Предположим, что выборка размера векторов взята из двумерного нормального распределения с неизвестной корреляцией . n {\displaystyle n} ( X i , Y i ) {\displaystyle (X_{i},Y_{i})'} ρ {\displaystyle \rho }

Оценкой является выборочная (Пирсоновская, моментная) корреляция ρ {\displaystyle \rho }

r = 1 n 1 i = 1 n ( X i X ¯ ) ( Y i Y ¯ ) s X s Y {\displaystyle r={\frac {{\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})(Y_{i}-{\overline {Y}})}{s_{X}s_{Y}}}}

где — выборочные дисперсии и . Выборочная статистика имеет асимптотически нормальное распределение: s X 2 , s Y 2 {\displaystyle s_{X}^{2},s_{Y}^{2}} X {\displaystyle X} Y {\displaystyle Y} r {\displaystyle r}

n r ρ 1 ρ 2 N ( 0 , 1 ) {\displaystyle {\sqrt {n}}{\frac {r-\rho }{1-\rho ^{2}}}\Rightarrow N(0,1)} .

Однако, дисперсионно-стабилизирующее преобразование

z = t a n h 1 r = 1 2 ln 1 + r 1 r {\displaystyle z={\rm {{tanh}^{-1}r={\frac {1}{2}}\ln {\frac {1+r}{1-r}}}}}

Известное как z-преобразование Фишера коэффициента корреляции позволяет создать распределение, асимптотически независимое от неизвестных параметров: z {\displaystyle z}

n ( z ζ ) N ( 0 , 1 ) {\displaystyle {\sqrt {n}}(z-\zeta )\Rightarrow N(0,1)}

где — соответствующий параметр распределения. Для конечных размеров выборки случайная величина будет иметь распределение, более близкое к нормальному, чем у . Еще более близкое приближение к стандартному нормальному распределению получается при использовании лучшего приближения для точной дисперсии: обычная форма — ζ = t a n h 1 ρ {\displaystyle \zeta ={\rm {tanh}}^{-1}\rho } n {\displaystyle n} z {\displaystyle z} r {\displaystyle r}

Var ( z ) 1 n 3 {\displaystyle \operatorname {Var} (z)\approx {\frac {1}{n-3}}} .

Надежность

С точки зрения надежной статистики , основные величины надежны к изменениям параметров — действительно, независимо от параметров — но в целом не надежны к изменениям в модели, таким как нарушения предположения о нормальности. Это имеет основополагающее значение для надежной критики ненадежной статистики, часто выведенной из основных величин: такая статистика может быть надежной внутри семейства, но не надежной вне его.

Смотрите также

Ссылки

  1. ^ Шао, Дж. (2008). «Основные величины». Математическая статистика (2-е изд.). Нью-Йорк: Springer. С. 471–477. ISBN 978-0-387-21718-5.
  2. ^ ДеГрут, Моррис Х.; Шервиш, Марк Дж. (2011). Вероятность и статистика (4-е изд.). Пирсон. стр. 489. ISBN 978-0-321-70970-7.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Pivotal_quantity&oldid=1206533297"