Смещение оценщика

Статистическая собственность

В статистике смещение оценщика (или функция смещения ) — это разница между ожидаемым значением этого оценщика и истинным значением оцениваемого параметра. Оценщик или правило принятия решения с нулевым смещением называется несмещенным . В статистике «смещение» — это объективное свойство оценщика. Смещение — это отличное от согласованности понятие : согласованные оценщики сходятся по вероятности к истинному значению параметра, но могут быть смещенными или несмещенными (см. смещение и согласованность для получения дополнительной информации).

При прочих равных условиях несмещенная оценка предпочтительнее смещенной оценки, хотя на практике смещенные оценки (обычно с небольшим смещением) используются часто. При использовании смещенной оценки вычисляются границы смещения. Смещенная оценка может использоваться по разным причинам: потому что несмещенная оценка не существует без дополнительных предположений о генеральной совокупности; потому что оценку трудно вычислить (как в случае несмещенной оценки стандартного отклонения ); потому что смещенная оценка может быть несмещенной по отношению к различным мерам центральной тенденции ; потому что смещенная оценка дает более низкое значение некоторой функции потерь (в частности, среднеквадратической ошибки ) по сравнению с несмещенными оценками (особенно в случае оценок сжатия ); или потому что в некоторых случаях несмещенность является слишком сильным условием, и единственные несмещенные оценки бесполезны.

Смещение также может быть измерено относительно медианы , а не среднего (ожидаемого значения), в этом случае можно отличить свойство медианы -несмещенности от обычного свойства среднего -несмещенности. Среднее-несмещенность не сохраняется при нелинейных преобразованиях , хотя медиана-несмещенность сохраняется (см. § Влияние преобразований); например, дисперсия выборки является смещенной оценкой для дисперсии совокупности. Все это проиллюстрировано ниже.

Несмещенная оценка параметра не всегда должна существовать. Например, не существует несмещенной оценки обратной величины параметра биномиальной случайной величины. [1]

Определение

Предположим, что у нас есть статистическая модель , параметризованная действительным числом θ , дающая распределение вероятностей для наблюдаемых данных, и статистика , которая служит оценщиком θ на основе любых наблюдаемых данных . То есть, мы предполагаем, что наши данные следуют некоторому неизвестному распределению (где θ — фиксированная, неизвестная константа, которая является частью этого распределения), а затем мы строим некоторый оценщик, который сопоставляет наблюдаемые данные со значениями, которые, как мы надеемся , близки к θ . Смещение относительно определяется как [2] П θ ( х ) = П ( х θ ) {\displaystyle P_{\theta }(x)=P(x\mid \theta )} θ ^ {\displaystyle {\hat {\theta }}} х {\displaystyle x} П ( х θ ) {\displaystyle P(x\mid \theta )} θ ^ {\displaystyle {\hat {\theta }}} θ ^ {\displaystyle {\hat {\theta }}} θ {\displaystyle \тета}

Предвзятость ( θ ^ , θ ) = Предвзятость θ [ θ ^ ] = Э х θ [ θ ^ ] θ = Э х θ [ θ ^ θ ] , {\displaystyle \operatorname {Смещение} ({\hat {\theta }},\theta )=\operatorname {Смещение} _{\theta }[\,{\hat {\theta }}\,]=\operatorname {E} _{x\mid \theta }[\,{\hat {\theta }}\,]-\theta =\operatorname {E} _{x\mid \theta }[\,{\hat {\theta }}-\theta \,],}

где обозначает ожидаемое значение по распределению (т.е. усреднение по всем возможным наблюдениям ). Второе уравнение следует, поскольку θ измеримо относительно условного распределения . Э х θ {\displaystyle \operatorname {E} _{x\mid \theta }} П ( х θ ) {\displaystyle P(x\mid \theta )} х {\displaystyle x} П ( х θ ) {\displaystyle P(x\mid \theta )}

Говорят, что оценка является несмещенной , если ее смещение равно нулю для всех значений параметра θ или, что эквивалентно, если ожидаемое значение оценки совпадает со значением параметра. [3] Несмещенность не гарантируется. Например, если является несмещенной оценкой для параметра θ , не гарантируется, что g( ) является несмещенной оценкой для g( θ). [4] θ ^ {\displaystyle {\hat {\theta }}} θ ^ {\displaystyle {\hat {\theta }}}

В имитационном эксперименте, касающемся свойств оценщика, смещение оценщика можно оценить с помощью средней знаковой разности .

Примеры

Дисперсия выборки

Дисперсия выборки случайной величины демонстрирует два аспекта смещения оценщика: во-первых, наивный оценщик смещен, что можно исправить с помощью масштабного коэффициента; во-вторых, несмещенный оценщик не является оптимальным с точки зрения средней квадратичной ошибки (MSE), которую можно минимизировать, используя другой масштабный коэффициент, что приводит к смещенному оценщику с более низким MSE, чем у несмещенного оценщика. Конкретно, наивный оценщик суммирует квадратичные отклонения и делит на n, что является смещенным. Деление вместо этого на n  − 1 дает несмещенный оценщик. И наоборот, MSE можно минимизировать, разделив на другое число (в зависимости от распределения), но это приводит к смещенному оценщику. Это число всегда больше n  − 1, поэтому это известно как оценка сжатия , поскольку она «сжимает» несмещенный оценщик до нуля; для нормального распределения оптимальное значение равно n  + 1.

Предположим, что X 1 , ..., X n являются независимыми и одинаково распределенными (iid) случайными величинами с ожиданием μ и дисперсией σ 2 . Если выборочное среднее и нескорректированная выборочная дисперсия определяются как

Х ¯ = 1 н я = 1 н Х я С 2 = 1 н я = 1 н ( Х я Х ¯ ) 2 {\displaystyle {\overline {X}}\,={\frac {1}{n}}\sum _{i=1}^{n}X_{i}\qquad S^{2}={\frac {1}{n}}\sum _{i=1}^{n}{\big (}X_{i}-{\overline {X}}\,{\big )}^{2}\qquad }

тогда S 2 является смещенной оценкой σ 2 , потому что

Э [ С 2 ] = Э [ 1 н я = 1 н ( Х я Х ¯ ) 2 ] = Э [ 1 н я = 1 н ( ( Х я μ ) ( Х ¯ μ ) ) 2 ] = Э [ 1 н я = 1 н ( ( Х я μ ) 2 2 ( Х ¯ μ ) ( Х я μ ) + ( Х ¯ μ ) 2 ) ] = Э [ 1 н я = 1 н ( Х я μ ) 2 2 н ( Х ¯ μ ) я = 1 н ( Х я μ ) + 1 н ( Х ¯ μ ) 2 я = 1 н 1 ] = Э [ 1 н я = 1 н ( Х я μ ) 2 2 н ( Х ¯ μ ) я = 1 н ( Х я μ ) + 1 н ( Х ¯ μ ) 2 н ] = Э [ 1 н я = 1 н ( Х я μ ) 2 2 н ( Х ¯ μ ) я = 1 н ( Х я μ ) + ( Х ¯ μ ) 2 ] {\displaystyle {\begin{aligned}\operatorname {E} [S^{2}]&=\operatorname {E} \left[{\frac {1}{n}}\sum _{i=1}^{n}{\big (}X_{i}-{\overline {X}}{\big )}^{2}\right]=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}{\bigg (}(X_{i}-\mu )-({\overline {X}}-\mu ){\bigg )}^{2}{\bigg ]}\\[8pt]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}{\bigg (}(X_{i}-\mu )^{2}-2({\overline {X}}-\mu )(X_{i}-\mu )+({\overline {X}}-\mu )^{2}{\bigg )}{\bigg ]}\\[8pt]&=\имя_оператора {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}-{\frac {2}{n}}({\overline {X}}-\mu )\sum _{i=1}^{n}(X_{i}-\mu )+{\frac {1}{n}}({\overline {X}}-\mu )^{2}\sum _{i=1}^{n}1{\bigg ]}\\[8pt]&=\имя_оператора {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}-{\frac {2}{n}}({\overline {X}}-\mu )\sum _{i=1}^{n}(X_{i}-\mu )+{\frac {1}{n}}({\overline {X}}-\mu )^{2}\cdot n{\bigg ]}\\[8pt]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}-{\frac {2}{n}}({\overline {X}}-\mu )\sum _{i=1}^{n}(X_{i}-\mu )+({\overline {X}}-\mu )^{2}{\bigg ]}\\[8pt]\end{align}}}

Продолжая, заметим, что вычитая из обеих сторон , получаем μ {\displaystyle \мю} Х ¯ = 1 н я = 1 н Х я {\displaystyle {\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}}

X ¯ μ = 1 n i = 1 n X i μ = 1 n i = 1 n X i 1 n i = 1 n μ   = 1 n i = 1 n ( X i μ ) . {\displaystyle {\begin{aligned}{\overline {X}}-\mu ={\frac {1}{n}}\sum _{i=1}^{n}X_{i}-\mu ={\frac {1}{n}}\sum _{i=1}^{n}X_{i}-{\frac {1}{n}}\sum _{i=1}^{n}\mu \ ={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu ).\\[8pt]\end{aligned}}}

Значение, (перекрестным умножением) . Тогда предыдущее становится: n ( X ¯ μ ) = i = 1 n ( X i μ ) {\displaystyle n\cdot ({\overline {X}}-\mu )=\sum _{i=1}^{n}(X_{i}-\mu )}

E [ S 2 ] = E [ 1 n i = 1 n ( X i μ ) 2 2 n ( X ¯ μ ) i = 1 n ( X i μ ) + ( X ¯ μ ) 2 ] = E [ 1 n i = 1 n ( X i μ ) 2 2 n ( X ¯ μ ) n ( X ¯ μ ) + ( X ¯ μ ) 2 ] = E [ 1 n i = 1 n ( X i μ ) 2 2 ( X ¯ μ ) 2 + ( X ¯ μ ) 2 ] = E [ 1 n i = 1 n ( X i μ ) 2 ( X ¯ μ ) 2 ] = E [ 1 n i = 1 n ( X i μ ) 2 ] E [ ( X ¯ μ ) 2 ] = σ 2 E [ ( X ¯ μ ) 2 ] = ( 1 1 n ) σ 2 < σ 2 . {\displaystyle {\begin{aligned}\operatorname {E} [S^{2}]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}-{\frac {2}{n}}({\overline {X}}-\mu )\sum _{i=1}^{n}(X_{i}-\mu )+({\overline {X}}-\mu )^{2}{\bigg ]}\\[8pt]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}-{\frac {2}{n}}({\overline {X}}-\mu )\cdot n\cdot ({\overline {X}}-\mu )+({\overline {X}}-\mu )^{2}{\bigg ]}\\[8pt]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}-2({\overline {X}}-\mu )^{2}+({\overline {X}}-\mu )^{2}{\bigg ]}\\[8pt]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}-({\overline {X}}-\mu )^{2}{\bigg ]}\\[8pt]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}{\bigg ]}-\operatorname {E} {\bigg [}({\overline {X}}-\mu )^{2}{\bigg ]}\\[8pt]&=\sigma ^{2}-\operatorname {E} {\bigg [}({\overline {X}}-\mu )^{2}{\bigg ]}=\left(1-{\frac {1}{n}}\right)\sigma ^{2}<\sigma ^{2}.\end{aligned}}}

Это можно увидеть, заметив следующую формулу, которая следует из формулы Бьенеме , для члена в неравенстве для математического ожидания нескорректированной выборочной дисперсии выше: . E [ ( X ¯ μ ) 2 ] = 1 n σ 2 {\displaystyle \operatorname {E} {\big [}({\overline {X}}-\mu )^{2}{\big ]}={\frac {1}{n}}\sigma ^{2}}

Другими словами, ожидаемое значение неоткорректированной дисперсии выборки не равно дисперсии совокупности σ 2 , если только не умножено на нормировочный коэффициент. С другой стороны, среднее значение выборки является несмещенной [5] оценкой среднего значения совокупности  μ . [3]

Обратите внимание, что обычное определение дисперсии выборки — это , и это несмещенная оценка дисперсии популяции. S 2 = 1 n 1 i = 1 n ( X i X ¯ ) 2 {\displaystyle S^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}}\,)^{2}}

С алгебраической точки зрения, является беспристрастным, потому что: E [ S 2 ] {\displaystyle \operatorname {E} [S^{2}]}

E [ S 2 ] = E [ 1 n 1 i = 1 n ( X i X ¯ ) 2 ] = n n 1 E [ 1 n i = 1 n ( X i X ¯ ) 2 ] = n n 1 ( 1 1 n ) σ 2 = σ 2 , {\displaystyle {\begin{aligned}\operatorname {E} [S^{2}]&=\operatorname {E} \left[{\frac {1}{n-1}}\sum _{i=1}^{n}{\big (}X_{i}-{\overline {X}}{\big )}^{2}\right]={\frac {n}{n-1}}\operatorname {E} \left[{\frac {1}{n}}\sum _{i=1}^{n}{\big (}X_{i}-{\overline {X}}{\big )}^{2}\right]\\[8pt]&={\frac {n}{n-1}}\left(1-{\frac {1}{n}}\right)\sigma ^{2}=\sigma ^{2},\\[8pt]\end{aligned}}}

где переход ко второй строке использует результат, полученный выше для смещенной оценки. Таким образом , и, следовательно, является несмещенной оценкой дисперсии совокупности, σ 2 . Соотношение между смещенной (нескорректированной) и несмещенной оценками дисперсии известно как поправка Бесселя . E [ S 2 ] = σ 2 {\displaystyle \operatorname {E} [S^{2}]=\sigma ^{2}} S 2 = 1 n 1 i = 1 n ( X i X ¯ ) 2 {\displaystyle S^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}}\,)^{2}}

Причина, по которой неисправленная дисперсия выборки, S 2 , смещена, заключается в том, что среднее значение выборки является обычной оценкой наименьших квадратов (МНК) для μ : это число, которое делает сумму как можно меньше. То есть, когда любое другое число вставляется в эту сумму, сумма может только увеличиться. В частности, выбор дает, X ¯ {\displaystyle {\overline {X}}} i = 1 n ( X i X ¯ ) 2 {\displaystyle \sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}} μ X ¯ {\displaystyle \mu \neq {\overline {X}}}

1 n i = 1 n ( X i X ¯ ) 2 < 1 n i = 1 n ( X i μ ) 2 , {\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}<{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2},}

а потом

E [ S 2 ] = E [ 1 n i = 1 n ( X i X ¯ ) 2 ] < E [ 1 n i = 1 n ( X i μ ) 2 ] = σ 2 . {\displaystyle {\begin{aligned}\operatorname {E} [S^{2}]&=\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}{\bigg ]}<\operatorname {E} {\bigg [}{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-\mu )^{2}{\bigg ]}=\sigma ^{2}.\end{aligned}}}

Вышеприведенное обсуждение можно понять в геометрических терминах: вектор можно разложить на «среднюю часть» и «дисперсионную часть», проецируя на направление и на ортогональную дополнительную гиперплоскость этого направления. Получаем для части вдоль и для дополнительной части. Поскольку это ортогональное разложение, теорема Пифагора гласит , и беря ожидания, получаем , как и выше (но умножаем на ). Если распределение симметрично относительно вращения, как в случае, когда выбираются из гауссова распределения, то в среднем измерение вдоль вносит вклад в равной степени, как и направления, перпендикулярные , так что и . Это фактически верно в общем случае, как объяснено выше. C = ( X 1 μ , , X n μ ) {\displaystyle {\vec {C}}=(X_{1}-\mu ,\ldots ,X_{n}-\mu )} u = ( 1 , , 1 ) {\displaystyle {\vec {u}}=(1,\ldots ,1)} A = ( X ¯ μ , , X ¯ μ ) {\displaystyle {\vec {A}}=({\overline {X}}-\mu ,\ldots ,{\overline {X}}-\mu )} u {\displaystyle {\vec {u}}} B = ( X 1 X ¯ , , X n X ¯ ) {\displaystyle {\vec {B}}=(X_{1}-{\overline {X}},\ldots ,X_{n}-{\overline {X}})} | C | 2 = | A | 2 + | B | 2 {\displaystyle |{\vec {C}}|^{2}=|{\vec {A}}|^{2}+|{\vec {B}}|^{2}} n σ 2 = n E [ ( X ¯ μ ) 2 ] + n E [ S 2 ] {\displaystyle n\sigma ^{2}=n\operatorname {E} \left[({\overline {X}}-\mu )^{2}\right]+n\operatorname {E} [S^{2}]} n {\displaystyle n} C {\displaystyle {\vec {C}}} X i {\displaystyle X_{i}} u {\displaystyle {\vec {u}}} | C | 2 {\displaystyle |{\vec {C}}|^{2}} n 1 {\displaystyle n-1} u {\displaystyle {\vec {u}}} E [ ( X ¯ μ ) 2 ] = σ 2 n {\displaystyle \operatorname {E} \left[({\overline {X}}-\mu )^{2}\right]={\frac {\sigma ^{2}}{n}}} E [ S 2 ] = ( n 1 ) σ 2 n {\displaystyle \operatorname {E} [S^{2}]={\frac {(n-1)\sigma ^{2}}{n}}}

Оценка вероятности Пуассона

Гораздо более экстремальный случай, когда смещенная оценка лучше любой несмещенной оценки, возникает из распределения Пуассона . [6] [7] Предположим, что X имеет распределение Пуассона с математическим ожиданием  λ . Предположим, что требуется оценить

P ( X = 0 ) 2 = e 2 λ {\displaystyle \operatorname {P} (X=0)^{2}=e^{-2\lambda }\quad }

с выборкой размера 1. (Например, если входящие звонки на телефонном коммутаторе моделируются как процесс Пуассона, а λ — среднее количество звонков в минуту, то e −2 λ — вероятность того, что в течение следующих двух минут не поступит ни одного звонка.)

Так как ожидание несмещенной оценки δ ( X ) равно оценке , т.е.

E ( δ ( X ) ) = x = 0 δ ( x ) λ x e λ x ! = e 2 λ , {\displaystyle \operatorname {E} (\delta (X))=\sum _{x=0}^{\infty }\delta (x){\frac {\lambda ^{x}e^{-\lambda }}{x!}}=e^{-2\lambda },}

единственная функция данных, составляющих несмещенную оценку, это

δ ( x ) = ( 1 ) x . {\displaystyle \delta (x)=(-1)^{x}.\,}

Чтобы увидеть это, обратите внимание, что при разложении e λ из приведенного выше выражения для ожидания, оставшаяся сумма также представляет собой разложение e λ в ряд Тейлора , что дает e λ e λ  = e −2 λ (см. Характеристику экспоненциальной функции ).

Если наблюдаемое значение X равно 100, то оценка равна 1, хотя истинное значение оцениваемой величины, скорее всего, будет близко к 0, что является противоположной крайностью. И если наблюдаемое значение X равно 101, то оценка еще более абсурдна: оно равно −1, хотя оцениваемая величина должна быть положительной.

(Смещенная) оценка максимального правдоподобия

e 2 X {\displaystyle e^{-2{X}}\quad }

намного лучше, чем эта непредвзятая оценка. Ее значение не только всегда положительно, но и точнее в том смысле, что ее среднеквадратическая ошибка

e 4 λ 2 e λ ( 1 / e 2 3 ) + e λ ( 1 / e 4 1 ) {\displaystyle e^{-4\lambda }-2e^{\lambda (1/e^{2}-3)}+e^{\lambda (1/e^{4}-1)}\,}

меньше; сравните среднеквадратичную ошибку несмещенной оценки

1 e 4 λ . {\displaystyle 1-e^{-4\lambda }.\,}

MSE являются функциями истинного значения  λ . Смещение оценки максимального правдоподобия равно:

e 2 λ e λ ( 1 / e 2 1 ) . {\displaystyle e^{-2\lambda }-e^{\lambda (1/e^{2}-1)}.\,}

Максимум дискретного равномерного распределения

Смещение оценок максимального правдоподобия может быть существенным. Рассмотрим случай, когда n билетов, пронумерованных от 1 до n, помещаются в коробку, и один из них выбирается случайным образом, давая значение X. Если n неизвестно, то оценка максимального правдоподобия n равна X , даже если ожидание X при n равно только ( n  + 1)/2; мы можем быть уверены только в том, что n не меньше X и, вероятно, больше. В этом случае естественная несмещенная оценка равна 2 X  − 1.

Медианно-несмещенные оценки

Теория медианно -несмещенных оценок была возрождена Джорджем Брауном в 1947 году: [8]

Оценка одномерного параметра θ будет называться медианно-несмещенной, если при фиксированном θ медиана распределения оценки равна значению θ; т. е. оценка недооценивает так же часто, как и переоценивает. Это требование, по-видимому, для большинства целей достигает того же, что и требование среднего-несмещенного, и имеет дополнительное свойство, заключающееся в том, что оно инвариантно относительно преобразования один к одному.

Дальнейшие свойства оценок без смещения медианы были отмечены Леманном, Бирнбаумом, ван дер Вартом и Пфанцаглем. [9] В частности, оценки без смещения медианы существуют в случаях, когда оценки без смещения среднего и оценки максимального правдоподобия не существуют. Они инвариантны относительно преобразований один к одному .

Существуют методы построения медианно-несмещенных оценок для распределений вероятностей, которые имеют монотонные функции правдоподобия , такие как однопараметрические экспоненциальные семейства, чтобы гарантировать, что они являются оптимальными (в некотором смысле, аналогично свойству минимальной дисперсии, рассматриваемому для оценок без смещения среднего). [10] [11] Одна из таких процедур является аналогом процедуры Рао–Блэквелла для оценок без смещения среднего: процедура справедлива для меньшего класса распределений вероятностей, чем процедура Рао–Блэквелла для оценки без смещения среднего, но для большего класса функций потерь. [11]

Смещение относительно других функций потерь

Любая среднее - несмещенная оценка с минимальной дисперсией минимизирует риск ( ожидаемые потери ) относительно функции потерь квадрата ошибки (среди среднее-несмещенных оценок), как заметил Гаусс . [12] Среднее -абсолютное отклонение медианно -несмещенной оценки с минимальным абсолютным отклонением минимизирует риск относительно абсолютной функции потерь (среди медианно-несмещенных оценок), как заметил Лаплас . [12] [13] В статистике используются и другие функции потерь, особенно в надежной статистике . [12] [14]

Эффект преобразований

Для одномерных параметров медианно-несмещенные оценки остаются медианно-несмещенными при преобразованиях , которые сохраняют порядок (или обратный порядок). Обратите внимание, что когда преобразование применяется к средне-несмещенной оценке, результат не обязательно должен быть средне-несмещенной оценкой соответствующей статистики популяции. По неравенству Йенсена выпуклая функция как преобразование внесет положительное смещение, в то время как вогнутая функция внесет отрицательное смещение, а функция смешанной выпуклости может внести смещение в любом направлении, в зависимости от конкретной функции и распределения. То есть, для нелинейной функции f и средне-несмещенной оценки U параметра p составная оценка f ( U ) не обязательно должна быть средне-несмещенной оценкой f ( p ). Например, квадратный корень несмещенной оценки дисперсии популяции не является несмещенной оценкой среднего стандартного отклонения популяции : квадратный корень несмещенной выборочной дисперсии , скорректированное выборочное стандартное отклонение , смещено. Смещение зависит как от выборочного распределения оценки, так и от преобразования, и может быть довольно сложным для вычисления — см. несмещенную оценку стандартного отклонения для обсуждения в этом случае.

Смещение, дисперсия и среднеквадратическая ошибка

Выборочные распределения двух альтернативных оценок для параметра β 0 . Хотя β 1 ^ является несмещенным, оно явно уступает смещенному β 2 ^ .

Гребневая регрессия является одним из примеров метода, в котором допущение небольшого смещения может привести к значительному снижению дисперсии и более надежным оценкам в целом.

В то время как смещение количественно определяет среднюю разницу, которую следует ожидать между оценщиком и базовым параметром, оценщик, основанный на конечной выборке, может дополнительно отличаться от параметра из-за случайности в выборке. Оценщик, который минимизирует смещение, не обязательно минимизирует среднеквадратичную ошибку. Одной из мер, которая используется для попытки отразить оба типа разницы, является среднеквадратическая ошибка , [2]

MSE ( θ ^ ) = E [ ( θ ^ θ ) 2 ] . {\displaystyle \operatorname {MSE} ({\hat {\theta }})=\operatorname {E} {\big [}({\hat {\theta }}-\theta )^{2}{\big ]}.}

Можно показать, что это равно квадрату смещения плюс дисперсия: [2]

MSE ( θ ^ ) = ( E [ θ ^ ] θ ) 2 + E [ ( θ ^ E [ θ ^ ] ) 2 ] = ( Bias ( θ ^ , θ ) ) 2 + Var ( θ ^ ) {\displaystyle {\begin{aligned}\operatorname {MSE} ({\hat {\theta }})=&(\operatorname {E} [{\hat {\theta }}]-\theta )^{2}+\operatorname {E} [\,({\hat {\theta }}-\operatorname {E} [\,{\hat {\theta }}\,])^{2}\,]\\=&(\operatorname {Bias} ({\hat {\theta }},\theta ))^{2}+\operatorname {Var} ({\hat {\theta }})\end{aligned}}}

Если параметр является вектором, применяется аналогичное разложение: [15]

MSE ( θ ^ ) = trace ( Cov ( θ ^ ) ) + Bias ( θ ^ , θ ) 2 {\displaystyle \operatorname {MSE} ({\hat {\theta }})=\operatorname {trace} (\operatorname {Cov} ({\hat {\theta }}))+\left\Vert \operatorname {Bias} ({\hat {\theta }},\theta )\right\Vert ^{2}}

где — след (диагональная сумма) ковариационной матрицы оценки, а — квадратная векторная норма . trace ( Cov ( θ ^ ) ) {\displaystyle \operatorname {trace} (\operatorname {Cov} ({\hat {\theta }}))} Bias ( θ ^ , θ ) 2 {\displaystyle \left\Vert \operatorname {Bias} ({\hat {\theta }},\theta )\right\Vert ^{2}}

Пример: Оценка дисперсии популяции

Например, [16] предположим, что оценка имеет вид

T 2 = c i = 1 n ( X i X ¯ ) 2 = c n S 2 {\displaystyle T^{2}=c\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}\,\right)^{2}=cnS^{2}}

ищется дисперсия популяции, как и выше, но на этот раз для минимизации MSE:

MSE = E [ ( T 2 σ 2 ) 2 ] = ( E [ T 2 σ 2 ] ) 2 + Var ( T 2 ) {\displaystyle {\begin{aligned}\operatorname {MSE} =&\operatorname {E} \left[(T^{2}-\sigma ^{2})^{2}\right]\\=&\left(\operatorname {E} \left[T^{2}-\sigma ^{2}\right]\right)^{2}+\operatorname {Var} (T^{2})\end{aligned}}}

Если переменные X 1 ... X n следуют нормальному распределению, то nS 22 имеет распределение хи-квадрат с n  − 1 степенями свободы, что дает:

E [ n S 2 ] = ( n 1 ) σ 2  and  Var ( n S 2 ) = 2 ( n 1 ) σ 4 . {\displaystyle \operatorname {E} [nS^{2}]=(n-1)\sigma ^{2}{\text{ and }}\operatorname {Var} (nS^{2})=2(n-1)\sigma ^{4}.}

и так

MSE = ( c ( n 1 ) 1 ) 2 σ 4 + 2 c 2 ( n 1 ) σ 4 {\displaystyle \operatorname {MSE} =(c(n-1)-1)^{2}\sigma ^{4}+2c^{2}(n-1)\sigma ^{4}}

С помощью небольших алгебраических вычислений можно подтвердить, что именно c = 1/( n  + 1) минимизирует эту комбинированную функцию потерь, а не c = 1/( n  − 1), которое минимизирует только квадрат смещения.

В более общем смысле, только в ограниченных классах задач будет существовать оценщик, который минимизирует MSE независимо от значений параметров.

Однако очень часто может возникнуть ощущение, что существует компромисс между смещением и дисперсией , когда небольшое увеличение смещения можно обменять на большее уменьшение дисперсии, что в итоге приводит к более желательной оценке в целом.

Байесовский взгляд

Большинство байесовцев не слишком заботятся о несмещенности (по крайней мере, в формальном смысле теории выборки, указанном выше) своих оценок. Например, Гельман и соавторы (1995) пишут: «С байесовской точки зрения принцип несмещенности разумен в пределе больших выборок, но в противном случае он потенциально вводит в заблуждение». [17]

По сути, разница между байесовским подходом и подходом теории выборки, описанным выше, заключается в том, что в подходе теории выборки параметр принимается фиксированным, а затем рассматриваются распределения вероятностей статистики на основе предсказанного распределения выборки данных. Для байесовского подхода, однако, известны и фиксированы данные , а неизвестный параметр является тем, для которого делается попытка построить распределение вероятностей, используя теорему Байеса :

p ( θ D , I ) p ( θ I ) p ( D θ , I ) {\displaystyle p(\theta \mid D,I)\propto p(\theta \mid I)p(D\mid \theta ,I)}

Здесь второй член, вероятность данных с учетом неизвестного значения параметра θ, зависит только от полученных данных и моделирования процесса генерации данных. Однако байесовское вычисление также включает первый член, априорную вероятность для θ, которая учитывает все, что аналитик может знать или подозревать о θ до поступления данных. Эта информация не играет никакой роли в подходе теории выборки; на самом деле любая попытка включить ее будет считаться «смещением» от того, на что указывали исключительно данные. В той степени, в которой байесовские вычисления включают априорную информацию, поэтому по сути неизбежно, что их результаты не будут «несмещенными» в терминах теории выборки.

Однако результаты байесовского подхода могут отличаться от подхода теории выборки, даже если байесовский подход пытается принять «неинформативную» априорную информацию.

Например, рассмотрим снова оценку неизвестной дисперсии популяции σ 2 нормального распределения с неизвестным средним значением, где требуется оптимизировать c в ожидаемой функции потерь.

ExpectedLoss = E [ ( c n S 2 σ 2 ) 2 ] = E [ σ 4 ( c n S 2 σ 2 1 ) 2 ] {\displaystyle \operatorname {ExpectedLoss} =\operatorname {E} \left[\left(cnS^{2}-\sigma ^{2}\right)^{2}\right]=\operatorname {E} \left[\sigma ^{4}\left(cn{\tfrac {S^{2}}{\sigma ^{2}}}-1\right)^{2}\right]}

Стандартным выбором неинформативного априорного распределения для этой задачи является априорное распределение Джеффриса , которое эквивалентно принятию инвариантного к масштабированию плоского априорного распределения для ln(σ 2 ) . p ( σ 2 ) 1 / σ 2 {\displaystyle \scriptstyle {p(\sigma ^{2})\;\propto \;1/\sigma ^{2}}}

Одним из следствий принятия этого априорного значения является то, что S 22 остается основной величиной , т.е. распределение вероятностей S 22 зависит только от S 22 , независимо от значения S 2 или σ 2 :

p ( S 2 σ 2 S 2 ) = p ( S 2 σ 2 σ 2 ) = g ( S 2 σ 2 ) {\displaystyle p\left({\tfrac {S^{2}}{\sigma ^{2}}}\mid S^{2}\right)=p\left({\tfrac {S^{2}}{\sigma ^{2}}}\mid \sigma ^{2}\right)=g\left({\tfrac {S^{2}}{\sigma ^{2}}}\right)}

Однако, в то время как

E p ( S 2 σ 2 ) [ σ 4 ( c n S 2 σ 2 1 ) 2 ] = σ 4 E p ( S 2 σ 2 ) [ ( c n S 2 σ 2 1 ) 2 ] {\displaystyle \operatorname {E} _{p(S^{2}\mid \sigma ^{2})}\left[\sigma ^{4}\left(cn{\tfrac {S^{2}}{\sigma ^{2}}}-1\right)^{2}\right]=\sigma ^{4}\operatorname {E} _{p(S^{2}\mid \sigma ^{2})}\left[\left(cn{\tfrac {S^{2}}{\sigma ^{2}}}-1\right)^{2}\right]}

в отличие

E p ( σ 2 S 2 ) [ σ 4 ( c n S 2 σ 2 1 ) 2 ] σ 4 E p ( σ 2 S 2 ) [ ( c n S 2 σ 2 1 ) 2 ] {\displaystyle \operatorname {E} _{p(\sigma ^{2}\mid S^{2})}\left[\sigma ^{4}\left(cn{\tfrac {S^{2}}{\sigma ^{2}}}-1\right)^{2}\right]\neq \sigma ^{4}\operatorname {E} _{p(\sigma ^{2}\mid S^{2})}\left[\left(cn{\tfrac {S^{2}}{\sigma ^{2}}}-1\right)^{2}\right]}

— когда ожидание берется по распределению вероятностей σ 2 при заданном S 2 , как это происходит в байесовском случае, а не S 2 при заданном σ 2 , больше нельзя брать σ 4 как константу и выносить ее за скобки. Следствием этого является то, что по сравнению с расчетом по теории выборки байесовский расчет придает больший вес большим значениям σ 2 , надлежащим образом учитывая (чего не может сделать расчет по теории выборки), что при этой функции квадратичных потерь последствие недооценки больших значений σ 2 является более дорогостоящим в терминах квадратичных потерь, чем переоценка малых значений σ 2 .

Разработанный байесовский расчет дает масштабированное обратное распределение хи-квадрат с n  − 1 степенями свободы для апостериорного распределения вероятностей σ 2 . Ожидаемые потери минимизируются, когда cnS 2  = <σ 2 >; это происходит, когда c  = 1/( n  − 3).

Таким образом, даже при неинформативном априорном значении байесовский расчет может не дать того же результата минимизации ожидаемых потерь, что и соответствующий расчет на основе теории выборки.

Смотрите также

Примечания

  1. ^ "Почему для биномиального распределения не существует несмещенной оценки для $1/p$?". Mathematics Stack Exchange . Получено 2023-12-27 .
  2. ^ abc Kozdron, Michael (март 2016 г.). «Оценка качества оценщика: смещение, среднеквадратическая ошибка, относительная эффективность (глава 3)» (PDF) . stat.math.uregina.ca . Получено 11 сентября 2020 г. .
  3. ^ ab Taylor, Courtney (13 января 2019 г.). «Непредвзятые и предвзятые оценщики». ThoughtCo . Получено 12 сентября 2020 г.
  4. ^ Деккинг, Мишель, ред. (2005). Современное введение в вероятность и статистику: понимание почему и как . Тексты Springer по статистике. Лондон [Гейдельберг]: Springer. ISBN 978-1-85233-896-1.
  5. ^ Ричард Арнольд Джонсон; Дин В. Вихерн (2007). Прикладной многомерный статистический анализ. Pearson Prentice Hall. ISBN 978-0-13-187715-3. Получено 10 августа 2012 г.
  6. ^ Романо, Дж. П.; Сигел, А. Ф. (1986). Контрпримеры в теории вероятностей и статистике . Монтерей, Калифорния, США: Wadsworth & Brooks / Cole. стр. 168.
  7. Харди, М. (1 марта 2003 г.). «Проясняющий контрпример». American Mathematical Monthly . 110 (3): 234–238. arXiv : math/0206006 . doi :10.2307/3647938. ISSN  0002-9890. JSTOR  3647938.
  8. Браун (1947), стр. 583.
  9. ^ Леманн 1951; Бирнбаум 1961; Ван дер Ваарт 1961; Пфанзагль 1994 г.
  10. ^ Пфанцагль, Иоганн (1979). «Об оптимальных медианных несмещенных оценках при наличии мешающих параметров». Анналы статистики . 7 (1): 187–193. doi : 10.1214/aos/1176344563 .
  11. ^ ab Браун, LD; Коэн, Артур; Страудерман, WE (1976). «Полная теорема о классе для строго монотонного отношения правдоподобия с приложениями». Ann. Statist . 4 (4): 712–722. doi : 10.1214/aos/1176343543 .
  12. ^ abc Dodge, Yadolah, ed. (1987). Статистический анализ данных на основе L 1 -нормы и связанных с ней методов . Доклады с первой международной конференции, состоявшейся в Невшателе, 31 августа–4 сентября 1987 г. Амстердам: Северная Голландия. ISBN 0-444-70273-3.
  13. ^ Джейнс, ET (2007). Теория вероятностей: логика науки . Кембридж: Cambridge Univ. Press. стр. 172. ISBN 978-0-521-59271-0.
  14. ^ Клебанов, Лев Б.; Рачев, Светлозар Т.; Фабоцци, Фрэнк Дж. (2009). "Функции потерь и теория несмещенной оценки". Робастные и неробастные модели в статистике . Нью-Йорк: Nova Scientific. ISBN 978-1-60741-768-2.
  15. ^ Табога, Марко (2010). «Лекции по теории вероятностей и математической статистике».
  16. ^ ДеГрут, Моррис Х. (1986). Вероятность и статистика (2-е изд.). Эддисон-Уэсли. стр. 414–5. ISBN 0-201-11366-X.Но сравните это, например, с обсуждением в Casella; Berger (2001). Статистический вывод (2-е изд.). Duxbury. стр. 332. ISBN 0-534-24312-6.
  17. ^ Гельман, А. и др. (1995). Байесовский анализ данных . Чепмен и Холл. стр. 108. ISBN 0-412-03991-5.

Ссылки

  • Браун, Джордж У. «Оценка малых выборок». Анналы математической статистики , т. 18, № 4 (декабрь 1947 г.), стр. 582–585. JSTOR  2236236.
  • Lehmann, EL (декабрь 1951 г.). «Общая концепция беспристрастности». Анналы математической статистики . 22 (4): 587–592. JSTOR  2236928.
  • Бирнбаум, Аллан (март 1961 г.). «Единая теория оценки, I». Анналы математической статистики . 32 (1): 112–135.{{cite journal}}: CS1 maint: date and year (link)
  • Ван дер Ваарт, ХР (июнь 1961 г.). «Некоторые расширения идеи смещения». Анналы математической статистики . 32 (2): 436–447.{{cite journal}}: CS1 maint: date and year (link)
  • Пфанзагль, Иоганн (1994). Параметрическая статистическая теория . Вальтер де Грюйтер.
  • Стюарт, Алан; Орд, Кит; Арнольд, Стивен [Ф.] (2010). Классический вывод и линейная модель . Расширенная теория статистики Кендалла. Том 2А. Wiley. ISBN 978-0-4706-8924-0..
  • Воинов, Василий [Г.]; Никулин, Михаил [С.] (1993). Несмещенные оценки и их приложения . Том 1: Одномерный случай. Dordrect: Kluwer Academic Publishers. ISBN 0-7923-2382-3.
  • Воинов, Василий [Г.]; Никулин, Михаил [С.] (1996). Несмещенные оценки и их применение . Том 2: Многомерный случай. Dordrect: Kluwer Academic Publishers. ISBN 0-7923-3939-8.
  • Клебанов, Лев [Б.]; Рачев, Светлозар [Т.]; Фабоцци, Франк [Дж.] (2009). Надежные и ненадежные модели в статистике . Нью-Йорк: Nova Scientific Publishers. ISBN 978-1-60741-768-2.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Bias_of_an_estimator&oldid=1254826539"