Среднее арифметическое взвешенное

Статистическая сумма

Средневзвешенное арифметическое значение похоже на обычное среднее арифметическое (наиболее распространенный тип среднего ), за исключением того, что вместо того, чтобы каждая из точек данных вносила одинаковый вклад в конечное среднее значение, некоторые точки данных вносят больший вклад, чем другие. Понятие средневзвешенного значения играет роль в описательной статистике , а также встречается в более общей форме в нескольких других областях математики.

Если все веса равны, то средневзвешенное значение равно среднему арифметическому . Хотя средневзвешенные значения обычно ведут себя аналогично средним арифметическим, у них есть несколько контринтуитивных свойств, как, например, в парадоксе Симпсона .

Примеры

Простой пример

Даны два школьных класса один с 20 учениками, другой с 30 учениками и тестовые оценки в каждом классе следующим образом:

Утреннее занятие = {62, 67, 71, 74, 76, 77, 78, 79, 79, 80, 80, 81, 81, 82, 83, 84, 86, 89, 93, 98}

Дневное занятие = {81, 82, 83, 84, 85, 86, 87, 87, 88, 88, 89, 89, 89, 90, 90, 90, 90, 91, 91, 91, 92, 92, 93, 93, 94, 95, 96, 97, 98, 99}

Среднее значение для утреннего класса составляет 80, а среднее значение для дневного класса составляет 90. Невзвешенное среднее значение двух средних значений составляет 85. Однако это не учитывает разницу в количестве учеников в каждом классе (20 против 30); поэтому значение 85 не отражает среднюю оценку ученика (независимо от класса). Среднюю оценку ученика можно получить, усреднив все оценки, без учета классов (сложите все оценки и разделите на общее количество учеников): х ¯ = 4300 50 = 86. {\displaystyle {\bar {x}}={\frac {4300}{50}}=86.}

Или это можно сделать, взвешивая средние значения класса по количеству учеников в каждом классе. Больший класс получает больший «вес»:

х ¯ = ( 20 × 80 ) + ( 30 × 90 ) 20 + 30 = 86. {\displaystyle {\bar {x}}={\frac {(20\times 80)+(30\times 90)}{20+30}}=86.}

Таким образом, средневзвешенное значение позволяет найти среднюю оценку ученика, не зная баллов каждого ученика. Нужны только средние значения классов и количество учеников в каждом классе.

Пример выпуклой комбинации

Поскольку важны только относительные веса, любое взвешенное среднее может быть выражено с использованием коэффициентов, которые в сумме дают единицу. Такая линейная комбинация называется выпуклой комбинацией .

Используя предыдущий пример, мы получим следующие веса:

20 20 + 30 = 0.4 {\displaystyle {\frac {20}{20+30}}=0,4}
30 20 + 30 = 0,6 {\displaystyle {\frac {30}{20+30}}=0,6}

Затем примените веса следующим образом:

х ¯ = ( 0.4 × 80 ) + ( 0,6 × 90 ) = 86. {\displaystyle {\bar {x}}=(0,4\times 80)+(0,6\times 90)=86.}

Математическое определение

Формально взвешенное среднее непустого конечного кортежа данных с соответствующими неотрицательными весами равно ( х 1 , х 2 , , х н ) {\displaystyle \left(x_{1},x_{2},\точки ,x_{n}\right)} ( ж 1 , ж 2 , , ж н ) {\displaystyle \left(w_{1},w_{2},\точки ,w_{n}\right)}

х ¯ = я = 1 н ж я х я я = 1 н ж я , {\displaystyle {\bar {x}}={\frac {\sum \limits _{i=1}^{n}w_{i}x_{i}}{\sum \limits _{i=1}^{n}w_{i}}},}

который расширяется до:

х ¯ = ж 1 х 1 + ж 2 х 2 + + ж н х н ж 1 + ж 2 + + ж н . {\displaystyle {\bar {x}}={\frac {w_{1}x_{1}+w_{2}x_{2}+\cdots +w_{n}x_{n}}{w_{1}+w_{2}+\cdots +w_{n}}}.}

Поэтому элементы данных с высоким весом вносят больший вклад в средневзвешенное значение, чем элементы с низким весом. Веса не могут быть отрицательными, чтобы уравнение работало [a] . Некоторые из них могут быть нулевыми, но не все (поскольку деление на ноль не допускается).

Формулы упрощаются, когда веса нормализуются таким образом, что их сумма составляет 1, т. е . Для таких нормализованных весов средневзвешенное значение эквивалентно: я = 1 н ж я = 1 {\textstyle \sum \limits _{i=1}^{n}{w_{i}'}=1}

x ¯ = i = 1 n w i x i {\displaystyle {\bar {x}}=\sum \limits _{i=1}^{n}{w_{i}'x_{i}}} .

Всегда можно нормализовать веса, выполнив следующее преобразование исходных весов:

w i = w i j = 1 n w j {\displaystyle w_{i}'={\frac {w_{i}}{\sum \limits _{j=1}^{n}{w_{j}}}}} .

Обычное среднее значение является частным случаем взвешенного среднего значения, где все данные имеют одинаковый вес. 1 n i = 1 n x i {\textstyle {\frac {1}{n}}\sum \limits _{i=1}^{n}{x_{i}}}

Если элементы данных являются независимыми и одинаково распределенными случайными величинами с дисперсией , то стандартная ошибка взвешенного среднего , , может быть показана с помощью распространения неопределенности как: σ 2 {\displaystyle \sigma ^{2}} σ x ¯ {\displaystyle \sigma _{\bar {x}}}

σ x ¯ = σ i = 1 n w i 2 {\textstyle \sigma _{\bar {x}}=\sigma {\sqrt {\sum \limits _{i=1}^{n}w_{i}'^{2}}}}

Веса, определяемые дисперсией

Для взвешенного среднего значения списка данных, в котором каждый элемент потенциально происходит из другого распределения вероятностей с известной дисперсией , и все они имеют одинаковое среднее значение, один из возможных вариантов выбора весов задается обратной величиной дисперсии: x i {\displaystyle x_{i}} σ i 2 {\displaystyle \sigma _{i}^{2}}

w i = 1 σ i 2 . {\displaystyle w_{i}={\frac {1}{\sigma _{i}^{2}}}.}

Средневзвешенное значение в этом случае равно:

x ¯ = i = 1 n ( x i σ i 2 ) i = 1 n 1 σ i 2 = i = 1 n ( x i w i ) i = 1 n w i , {\displaystyle {\bar {x}}={\frac {\sum _{i=1}^{n}\left({\dfrac {x_{i}}{\sigma _{i}^{2}}}\right)}{\sum _{i=1}^{n}{\dfrac {1}{\sigma _{i}^{2}}}}}={\frac {\sum _{i=1}^{n}\left(x_{i}\cdot w_{i}\right)}{\sum _{i=1}^{n}w_{i}}},}

а стандартная ошибка взвешенного среднего (с весами обратной дисперсии) составляет:

σ x ¯ = 1 i = 1 n σ i 2 = 1 i = 1 n w i , {\displaystyle \sigma _{\bar {x}}={\sqrt {\frac {1}{\sum _{i=1}^{n}\sigma _{i}^{-2}}}}={\sqrt {\frac {1}{\sum _{i=1}^{n}w_{i}}}},}

Обратите внимание, что это сводится к тому, когда все . Это частный случай общей формулы в предыдущем разделе, σ x ¯ 2 = σ 0 2 / n {\displaystyle \sigma _{\bar {x}}^{2}=\sigma _{0}^{2}/n} σ i = σ 0 {\displaystyle \sigma _{i}=\sigma _{0}}

σ x ¯ 2 = i = 1 n w i 2 σ i 2 = i = 1 n σ i 4 σ i 2 ( i = 1 n σ i 2 ) 2 . {\displaystyle \sigma _{\bar {x}}^{2}=\sum _{i=1}^{n}{w_{i}'^{2}\sigma _{i}^{2}}={\frac {\sum _{i=1}^{n}{\sigma _{i}^{-4}\sigma _{i}^{2}}}{\left(\sum _{i=1}^{n}\sigma _{i}^{-2}\right)^{2}}}.}

Уравнения выше можно объединить и получить:

x ¯ = σ x ¯ 2 i = 1 n x i σ i 2 . {\displaystyle {\bar {x}}=\sigma _{\bar {x}}^{2}\sum _{i=1}^{n}{\frac {x_{i}}{\sigma _{i}^{2}}}.}

Значимость этого выбора заключается в том, что это взвешенное среднее значение является оценкой максимального правдоподобия среднего значения распределений вероятностей при условии, что они независимы и нормально распределены с одинаковым средним значением.

Статистические свойства

Ожидание

Взвешенное выборочное среднее, , само по себе является случайной величиной. Его ожидаемое значение и стандартное отклонение связаны с ожидаемыми значениями и стандартными отклонениями наблюдений следующим образом. Для простоты мы предполагаем нормализованные веса (веса, суммирующиеся до одного). x ¯ {\displaystyle {\bar {x}}}

Если наблюдения имеют ожидаемые значения , то взвешенное выборочное среднее имеет ожидание. В частности, если средние значения равны, то ожидание взвешенного выборочного среднего будет равно этому значению, E ( x i ) = μ i , {\displaystyle E(x_{i})={\mu _{i}},} E ( x ¯ ) = i = 1 n w i μ i . {\displaystyle E({\bar {x}})=\sum _{i=1}^{n}{w_{i}'\mu _{i}}.} μ i = μ {\displaystyle \mu _{i}=\mu } E ( x ¯ ) = μ . {\displaystyle E({\bar {x}})=\mu .}

Дисперсия

Простой случай iid

Если рассматривать веса как константы и иметь выборку из n наблюдений из некоррелированных случайных величин , все с одинаковой дисперсией и математическим ожиданием (как в случае с независимыми тождественными случайными величинами), то дисперсию взвешенного среднего можно оценить как произведение невзвешенной дисперсии на эффект дизайна Киша (см. доказательство ):

Var ( y ¯ w ) = σ ^ y 2 w 2 ¯ w ¯ 2 {\displaystyle \operatorname {Var} ({\bar {y}}_{w})={\hat {\sigma }}_{y}^{2}{\frac {\overline {w^{2}}}{{\bar {w}}^{2}}}}

С , , и σ ^ y 2 = i = 1 n ( y i y ¯ ) 2 n 1 {\displaystyle {\hat {\sigma }}_{y}^{2}={\frac {\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}{n-1}}} w ¯ = i = 1 n w i n {\displaystyle {\bar {w}}={\frac {\sum _{i=1}^{n}w_{i}}{n}}} w 2 ¯ = i = 1 n w i 2 n {\displaystyle {\overline {w^{2}}}={\frac {\sum _{i=1}^{n}w_{i}^{2}}{n}}}

Однако эта оценка довольно ограничена из-за сильного предположения о наблюдениях y . Это привело к разработке альтернативных, более общих оценок.

Перспектива выборки обследования

С точки зрения модели , мы заинтересованы в оценке дисперсии взвешенного среднего, когда различные не являются случайными величинами iid . Альтернативная перспектива для этой проблемы заключается в некотором произвольном дизайне выборки данных, в котором единицы выбираются с неравными вероятностями (с заменой). [1] : 306  y i {\displaystyle y_{i}}

В методологии обследования среднее значение совокупности некоторого интересующего количества y вычисляется путем взятия оценки суммы y по всем элементам в совокупности ( Y или иногда T ) и деления ее на размер совокупности — известный ( ) или оцененный ( ). В этом контексте каждое значение y считается постоянным, а изменчивость возникает из процедуры отбора. Это в отличие от подходов «на основе модели», в которых случайность часто описывается в значениях y. Процедура выборки обследования дает ряд значений индикатора Бернулли ( ), которые получают 1, если некоторое наблюдение i есть в выборке, и 0, если оно не было выбрано. Это может произойти с фиксированным размером выборки или с выборкой переменного размера выборки (например, выборка Пуассона ). Вероятность выбора некоторого элемента при заданной выборке обозначается как , а вероятность выбора с одной выборкой равна (если N очень велико, а каждое очень мало). Для следующего вывода мы предположим, что вероятность выбора каждого элемента полностью представлена ​​этими вероятностями. [2] : 42, 43, 51  То есть: выбор одного элемента не повлияет на вероятность выбора другого элемента (это не относится к таким вещам, как дизайн кластерной выборки ). N {\displaystyle N} N ^ {\displaystyle {\hat {N}}} I i {\displaystyle I_{i}} P ( I i = 1 Some sample of size  n ) = π i {\displaystyle P(I_{i}=1\mid {\text{Some sample of size }}n)=\pi _{i}} P ( I i = 1 | one sample draw ) = p i π i n {\displaystyle P(I_{i}=1|{\text{one sample draw}})=p_{i}\approx {\frac {\pi _{i}}{n}}} p i {\displaystyle p_{i}}

Поскольку каждый элемент ( ) фиксирован, а случайность возникает из-за того, включен ли он в выборку или нет ( ), мы часто говорим об умножении двух, что является случайной величиной. Чтобы избежать путаницы в следующем разделе, давайте назовем этот термин: . Со следующим ожиданием: ; и дисперсией: . y i {\displaystyle y_{i}} I i {\displaystyle I_{i}} y i = y i I i {\displaystyle y'_{i}=y_{i}I_{i}} E [ y i ] = y i E [ I i ] = y i π i {\displaystyle E[y'_{i}]=y_{i}E[I_{i}]=y_{i}\pi _{i}} V [ y i ] = y i 2 V [ I i ] = y i 2 π i ( 1 π i ) {\displaystyle V[y'_{i}]=y_{i}^{2}V[I_{i}]=y_{i}^{2}\pi _{i}(1-\pi _{i})}

Когда каждый элемент выборки увеличивается на величину, обратную его вероятности выбора, это называется -расширенными значениями y , т.е.: . Соответствующая величина -расширенные значения y : . [2] : 42, 43, 51, 52  Как и выше, мы можем добавить отметку при умножении на индикаторную функцию. Т.е.: π {\displaystyle \pi } y ˇ i = y i π i {\displaystyle {\check {y}}_{i}={\frac {y_{i}}{\pi _{i}}}} p {\displaystyle p} y i p i = n y ˇ i {\displaystyle {\frac {y_{i}}{p_{i}}}=n{\check {y}}_{i}} y ˇ i = I i y ˇ i = I i y i π i {\displaystyle {\check {y}}'_{i}=I_{i}{\check {y}}_{i}={\frac {I_{i}y_{i}}{\pi _{i}}}}

В этой перспективе, основанной на дизайне , веса, используемые в числителе взвешенного среднего, получаются путем взятия обратной величины вероятности выбора (т. е. фактора инфляции). То есть: . w i = 1 π i 1 n × p i {\displaystyle w_{i}={\frac {1}{\pi _{i}}}\approx {\frac {1}{n\times p_{i}}}}

Дисперсия взвешенной суммы (мощность-оценщик для итогов)

Если известна численность популяции N, мы можем оценить среднее значение популяции, используя . Y ¯ ^ known  N = Y ^ p w r N i = 1 n w i y i N {\displaystyle {\hat {\bar {Y}}}_{{\text{known }}N}={\frac {{\hat {Y}}_{pwr}}{N}}\approx {\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{N}}}

Если план выборки таков, что приводит к фиксированному размеру выборки n (например, при выборке pps ), то дисперсия этой оценки равна:

Var ( Y ¯ ^ known  N ) = 1 N 2 n n 1 i = 1 n ( w i y i w y ¯ ) 2 {\displaystyle \operatorname {Var} \left({\hat {\bar {Y}}}_{{\text{known }}N}\right)={\frac {1}{N^{2}}}{\frac {n}{n-1}}\sum _{i=1}^{n}\left(w_{i}y_{i}-{\overline {wy}}\right)^{2}}
Доказательство

Общую формулу можно разработать следующим образом:

Y ¯ ^ known  N = Y ^ p w r N = 1 n i = 1 n y i p i N i = 1 n y i π i N = i = 1 n w i y i N . {\displaystyle {\hat {\bar {Y}}}_{{\text{known }}N}={\frac {{\hat {Y}}_{pwr}}{N}}={\frac {{\frac {1}{n}}\sum _{i=1}^{n}{\frac {y'_{i}}{p_{i}}}}{N}}\approx {\frac {\sum _{i=1}^{n}{\frac {y'_{i}}{\pi _{i}}}}{N}}={\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{N}}.}

Общая численность населения обозначается как и может быть оценена (несмещенной) оценкой Хорвица–Томпсона , также называемой -оценкой. Эта оценка может быть сама оценена с использованием pwr -оценки (т.е.: -расширенной с заменой оценкой, или "вероятности с заменой" оценки). С указанными выше обозначениями это: . [2] : 51  Y = i = 1 N y i {\displaystyle Y=\sum _{i=1}^{N}y_{i}} π {\displaystyle \pi } p {\displaystyle p} Y ^ p w r = 1 n i = 1 n y i p i = i = 1 n y i n p i i = 1 n y i π i = i = 1 n w i y i {\displaystyle {\hat {Y}}_{pwr}={\frac {1}{n}}\sum _{i=1}^{n}{\frac {y'_{i}}{p_{i}}}=\sum _{i=1}^{n}{\frac {y'_{i}}{np_{i}}}\approx \sum _{i=1}^{n}{\frac {y'_{i}}{\pi _{i}}}=\sum _{i=1}^{n}w_{i}y'_{i}}

Расчетная дисперсия pwr -оценщика определяется по формуле: [2] : 52  , где . Var ( Y ^ p w r ) = n n 1 i = 1 n ( w i y i w y ¯ ) 2 {\displaystyle \operatorname {Var} ({\hat {Y}}_{pwr})={\frac {n}{n-1}}\sum _{i=1}^{n}\left(w_{i}y_{i}-{\overline {wy}}\right)^{2}} w y ¯ = i = 1 n w i y i n {\displaystyle {\overline {wy}}=\sum _{i=1}^{n}{\frac {w_{i}y_{i}}{n}}}

Вышеприведенная формула была взята из работы Сарндала и др. (1992) (также представлена ​​в работе Кохрана 1977), но записана по-другому. [2] : 52  [1] : 307 (11,35)  Левая сторона — это то, как была записана дисперсия, а правая сторона — то, как мы разработали взвешенную версию:

Var ( Y ^ pwr ) = 1 n 1 n 1 i = 1 n ( y i p i Y ^ p w r ) 2 = 1 n 1 n 1 i = 1 n ( n n y i p i n n i = 1 n w i y i ) 2 = 1 n 1 n 1 i = 1 n ( n y i π i n i = 1 n w i y i n ) 2 = n 2 n 1 n 1 i = 1 n ( w i y i w y ¯ ) 2 = n n 1 i = 1 n ( w i y i w y ¯ ) 2 {\displaystyle {\begin{aligned}\operatorname {Var} ({\hat {Y}}_{\text{pwr}})&={\frac {1}{n}}{\frac {1}{n-1}}\sum _{i=1}^{n}\left({\frac {y_{i}}{p_{i}}}-{\hat {Y}}_{pwr}\right)^{2}\\&={\frac {1}{n}}{\frac {1}{n-1}}\sum _{i=1}^{n}\left({\frac {n}{n}}{\frac {y_{i}}{p_{i}}}-{\frac {n}{n}}\sum _{i=1}^{n}w_{i}y_{i}\right)^{2}={\frac {1}{n}}{\frac {1}{n-1}}\sum _{i=1}^{n}\left(n{\frac {y_{i}}{\pi _{i}}}-n{\frac {\sum _{i=1}^{n}w_{i}y_{i}}{n}}\right)^{2}\\&={\frac {n^{2}}{n}}{\frac {1}{n-1}}\sum _{i=1}^{n}\left(w_{i}y_{i}-{\overline {wy}}\right)^{2}\\&={\frac {n}{n-1}}\sum _{i=1}^{n}\left(w_{i}y_{i}-{\overline {wy}}\right)^{2}\end{aligned}}}

И мы добрались до формулы, приведённой выше.

Альтернативный термин, обозначающий случайный размер выборки (как в выборке Пуассона ), представлен в работе Сарндала и др. (1992) как: [2] : 182 

Var ( Y ¯ ^ pwr (known  N ) ) = 1 N 2 i = 1 n j = 1 n ( Δ ˇ i j y ˇ i y ˇ j ) {\displaystyle \operatorname {Var} ({\hat {\bar {Y}}}_{{\text{pwr (known }}N{\text{)}}})={\frac {1}{N^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}\left({\check {\Delta }}_{ij}{\check {y}}_{i}{\check {y}}_{j}\right)}

При . Кроме того, где есть вероятность выбора как i, так и j. [2] : 36  И , а для i=j: . [2] : 43  y ˇ i = y i π i {\displaystyle {\check {y}}_{i}={\frac {y_{i}}{\pi _{i}}}} C ( I i , I j ) = π i j π i π j = Δ i j {\displaystyle C(I_{i},I_{j})=\pi _{ij}-\pi _{i}\pi _{j}=\Delta _{ij}} π i j {\displaystyle \pi _{ij}} Δ ˇ i j = 1 π i π j π i j {\displaystyle {\check {\Delta }}_{ij}=1-{\frac {\pi _{i}\pi _{j}}{\pi _{ij}}}} Δ ˇ i i = 1 π i π i π i = 1 π i {\displaystyle {\check {\Delta }}_{ii}=1-{\frac {\pi _{i}\pi _{i}}{\pi _{i}}}=1-\pi _{i}}

Если вероятности выбора некоррелированы (т.е.: ), и если предположить, что вероятность каждого элемента очень мала, то: i j : C ( I i , I j ) = 0 {\displaystyle \forall i\neq j:C(I_{i},I_{j})=0}

Var ( Y ¯ ^ pwr (known  N ) ) = 1 N 2 i = 1 n ( w i y i ) 2 {\displaystyle \operatorname {Var} ({\hat {\bar {Y}}}_{{\text{pwr (known }}N{\text{)}}})={\frac {1}{N^{2}}}\sum _{i=1}^{n}\left(w_{i}y_{i}\right)^{2}}
Доказательство

Мы предполагаем, что и что ( 1 π i ) 1 {\displaystyle (1-\pi _{i})\approx 1} Var ( Y ^ pwr (known  N ) ) = 1 N 2 i = 1 n j = 1 n ( Δ ˇ i j y ˇ i y ˇ j ) = 1 N 2 i = 1 n ( Δ ˇ i i y ˇ i y ˇ i ) = 1 N 2 i = 1 n ( ( 1 π i ) y i π i y i π i ) = 1 N 2 i = 1 n ( w i y i ) 2 {\displaystyle {\begin{aligned}\operatorname {Var} ({\hat {Y}}_{{\text{pwr (known }}N{\text{)}}})&={\frac {1}{N^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}\left({\check {\Delta }}_{ij}{\check {y}}_{i}{\check {y}}_{j}\right)\\&={\frac {1}{N^{2}}}\sum _{i=1}^{n}\left({\check {\Delta }}_{ii}{\check {y}}_{i}{\check {y}}_{i}\right)\\&={\frac {1}{N^{2}}}\sum _{i=1}^{n}\left((1-\pi _{i}){\frac {y_{i}}{\pi _{i}}}{\frac {y_{i}}{\pi _{i}}}\right)\\&={\frac {1}{N^{2}}}\sum _{i=1}^{n}\left(w_{i}y_{i}\right)^{2}\end{aligned}}}

Дисперсия средневзвешенного значения (π-оценка для среднего отношения)

В предыдущем разделе рассматривалась оценка среднего значения популяции как отношение оценочной общей численности популяции ( ) к известному размеру популяции ( ), и дисперсия оценивалась в этом контексте. Другой распространенный случай заключается в том, что сам размер популяции ( ) неизвестен и оценивается с использованием выборки (т. е.: ). Оценка может быть описана как сумма весов. Поэтому, когда мы получаем . С указанными выше обозначениями параметр, который нас интересует, является отношением сумм s и 1s. Т. е.: . Мы можем оценить его, используя нашу выборку с помощью: . Поскольку мы перешли от использования N к использованию n, мы фактически знаем, что все переменные-индикаторы получают 1, поэтому мы могли бы просто написать: . Это будет оценка для конкретных значений y и w, но статистические свойства появляются при включении переменной-индикатора . [2] : 162, 163, 176  Y ^ {\displaystyle {\hat {Y}}} N {\displaystyle N} N {\displaystyle N} N ^ {\displaystyle {\hat {N}}} N {\displaystyle N} w i = 1 π i {\displaystyle w_{i}={\frac {1}{\pi _{i}}}} N ^ = i = 1 n w i I i = i = 1 n I i π i = i = 1 n 1 ˇ i {\displaystyle {\hat {N}}=\sum _{i=1}^{n}w_{i}I_{i}=\sum _{i=1}^{n}{\frac {I_{i}}{\pi _{i}}}=\sum _{i=1}^{n}{\check {1}}'_{i}} y i {\displaystyle y_{i}} R = Y ¯ = i = 1 N y i π i i = 1 N 1 π i = i = 1 N y ˇ i i = 1 N 1 ˇ i = i = 1 N w i y i i = 1 N w i {\displaystyle R={\bar {Y}}={\frac {\sum _{i=1}^{N}{\frac {y_{i}}{\pi _{i}}}}{\sum _{i=1}^{N}{\frac {1}{\pi _{i}}}}}={\frac {\sum _{i=1}^{N}{\check {y}}_{i}}{\sum _{i=1}^{N}{\check {1}}_{i}}}={\frac {\sum _{i=1}^{N}w_{i}y_{i}}{\sum _{i=1}^{N}w_{i}}}} R ^ = Y ¯ ^ = i = 1 N I i y i π i i = 1 N I i 1 π i = i = 1 N y ˇ i i = 1 N 1 ˇ i = i = 1 N w i y i i = 1 N w i 1 i = i = 1 n w i y i i = 1 n w i 1 i = y ¯ w {\displaystyle {\hat {R}}={\hat {\bar {Y}}}={\frac {\sum _{i=1}^{N}I_{i}{\frac {y_{i}}{\pi _{i}}}}{\sum _{i=1}^{N}I_{i}{\frac {1}{\pi _{i}}}}}={\frac {\sum _{i=1}^{N}{\check {y}}'_{i}}{\sum _{i=1}^{N}{\check {1}}'_{i}}}={\frac {\sum _{i=1}^{N}w_{i}y'_{i}}{\sum _{i=1}^{N}w_{i}1'_{i}}}={\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{\sum _{i=1}^{n}w_{i}1'_{i}}}={\bar {y}}_{w}} y ¯ w = i = 1 n w i y i i = 1 n w i {\displaystyle {\bar {y}}_{w}={\frac {\sum _{i=1}^{n}w_{i}y_{i}}{\sum _{i=1}^{n}w_{i}}}} y ¯ w = i = 1 n w i y i i = 1 n w i 1 i {\displaystyle {\bar {y}}_{w}={\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{\sum _{i=1}^{n}w_{i}1'_{i}}}}

Это называется оценкой отношения и она приблизительно несмещена для R . [2] : 182 

В этом случае изменчивость отношения зависит от изменчивости случайных величин как в числителе, так и в знаменателе, а также от их корреляции. Поскольку не существует замкнутой аналитической формы для вычисления этой дисперсии, для приблизительной оценки используются различные методы. В первую очередь, линеаризация первого порядка ряда Тейлора , асимптотика и бутстрап/складной нож. [2] : 172  Метод линеаризации Тейлора может привести к недооценке дисперсии для небольших размеров выборки в целом, но это зависит от сложности статистики. Для взвешенного среднего приближенная дисперсия должна быть относительно точной даже для средних размеров выборки. [2] : 176  Для случая, когда выборка имеет случайный размер выборки (как в выборке Пуассона ), это выглядит следующим образом: [2] : 182 

V ( y ¯ w ) ^ = 1 ( i = 1 n w i ) 2 i = 1 n w i 2 ( y i y ¯ w ) 2 {\displaystyle {\widehat {V({\bar {y}}_{w})}}={\frac {1}{(\sum _{i=1}^{n}w_{i})^{2}}}\sum _{i=1}^{n}w_{i}^{2}(y_{i}-{\bar {y}}_{w})^{2}} .

Если , то либо использование , либо даст ту же оценку, поскольку умножение на некоторый коэффициент приведет к той же оценке. Это также означает, что если мы масштабируем сумму весов так, чтобы она была равна известному ранее размеру популяции N , расчет дисперсии будет выглядеть так же. Когда все веса равны друг другу, эта формула сводится к стандартной несмещенной оценке дисперсии. π i p i n {\displaystyle \pi _{i}\approx p_{i}n} w i = 1 π i {\displaystyle w_{i}={\frac {1}{\pi _{i}}}} w i = 1 p i {\displaystyle w_{i}={\frac {1}{p_{i}}}} w i {\displaystyle w_{i}}

Доказательство

Линеаризация Тейлора утверждает, что для общей оценки отношения двух сумм ( ) их можно разложить вокруг истинного значения R и получить: [2] : 178  R ^ = Y ^ Z ^ {\displaystyle {\hat {R}}={\frac {\hat {Y}}{\hat {Z}}}}

R ^ = Y ^ Z ^ = i = 1 n w i y i i = 1 n w i z i R + 1 Z i = 1 n ( y i π i R z i π i ) {\displaystyle {\hat {R}}={\frac {\hat {Y}}{\hat {Z}}}={\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{\sum _{i=1}^{n}w_{i}z'_{i}}}\approx R+{\frac {1}{Z}}\sum _{i=1}^{n}\left({\frac {y'_{i}}{\pi _{i}}}-R{\frac {z'_{i}}{\pi _{i}}}\right)}

И дисперсию можно приблизительно оценить следующим образом: [2] : 178, 179 

V ( R ^ ) ^ = 1 Z ^ 2 i = 1 n j = 1 n ( Δ ˇ i j y i R ^ z i π i y j R ^ z j π j ) = 1 Z ^ 2 [ V ( Y ^ ) ^ + R ^ V ( Z ^ ) ^ 2 R ^ C ^ ( Y ^ , Z ^ ) ] {\displaystyle {\widehat {V({\hat {R}})}}={\frac {1}{{\hat {Z}}^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}\left({\check {\Delta }}_{ij}{\frac {y_{i}-{\hat {R}}z_{i}}{\pi _{i}}}{\frac {y_{j}-{\hat {R}}z_{j}}{\pi _{j}}}\right)={\frac {1}{{\hat {Z}}^{2}}}\left[{\widehat {V({\hat {Y}})}}+{\hat {R}}{\widehat {V({\hat {Z}})}}-2{\hat {R}}{\hat {C}}({\hat {Y}},{\hat {Z}})\right]} .

Член представляет собой оценочную ковариацию между оценочной суммой Y и оценочной суммой Z. Поскольку это ковариация двух сумм случайных величин , она будет включать множество комбинаций ковариаций, которые будут зависеть от переменных-индикаторов. Если вероятность выбора некоррелирована (т.е.: ), этот член все равно будет включать сумму n ковариаций для каждого элемента i между и . Это помогает проиллюстрировать, что эта формула включает эффект корреляции между y и z на дисперсию оценок отношения. C ^ ( Y ^ , Z ^ ) {\displaystyle {\hat {C}}({\hat {Y}},{\hat {Z}})} i j : Δ i j = C ( I i , I j ) = 0 {\displaystyle \forall i\neq j:\Delta _{ij}=C(I_{i},I_{j})=0} y i = I i y i {\displaystyle y'_{i}=I_{i}y_{i}} z i = I i z i {\displaystyle z'_{i}=I_{i}z_{i}}

При определении вышеизложенного становится: [2] : 182  z i = 1 {\displaystyle z_{i}=1}

V ( R ^ ) ^ = V ( y ¯ w ) ^ = 1 N ^ 2 i = 1 n j = 1 n ( Δ ˇ i j y i y ¯ w π i y j y ¯ w π j ) . {\displaystyle {\widehat {V({\hat {R}})}}={\widehat {V({\bar {y}}_{w})}}={\frac {1}{{\hat {N}}^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}\left({\check {\Delta }}_{ij}{\frac {y_{i}-{\bar {y}}_{w}}{\pi _{i}}}{\frac {y_{j}-{\bar {y}}_{w}}{\pi _{j}}}\right).}

Если вероятности выбора некоррелированы (т.е.: ), и если предположить, что вероятность каждого элемента очень мала (т.е.: ), то вышеизложенное сводится к следующему: i j : Δ i j = C ( I i , I j ) = 0 {\displaystyle \forall i\neq j:\Delta _{ij}=C(I_{i},I_{j})=0} ( 1 π i ) 1 {\displaystyle (1-\pi _{i})\approx 1} V ( y ¯ w ) ^ = 1 N ^ 2 i = 1 n ( ( 1 π i ) y i y ¯ w π i ) 2 = 1 ( i = 1 n w i ) 2 i = 1 n w i 2 ( y i y ¯ w ) 2 . {\displaystyle {\widehat {V({\bar {y}}_{w})}}={\frac {1}{{\hat {N}}^{2}}}\sum _{i=1}^{n}\left((1-\pi _{i}){\frac {y_{i}-{\bar {y}}_{w}}{\pi _{i}}}\right)^{2}={\frac {1}{(\sum _{i=1}^{n}w_{i})^{2}}}\sum _{i=1}^{n}w_{i}^{2}(y_{i}-{\bar {y}}_{w})^{2}.}

Похожее воссоздание доказательства (до некоторых ошибок в конце) было предоставлено Томасом Ламли в crossvalidated. [3]

У нас есть (по крайней мере) две версии дисперсии для взвешенного среднего: одна с известной и одна с неизвестной оценкой размера популяции. Не существует однозначно лучшего подхода, но в литературе представлено несколько аргументов в пользу использования версии с оценкой популяции (даже когда размер популяции известен). [2] : 188  Например: если все значения y постоянны, оценка с неизвестным размером популяции даст правильный результат, в то время как оценка с известным размером популяции будет иметь некоторую изменчивость. Кроме того, когда сам размер выборки является случайным (например: в выборке Пуассона ), версия с неизвестным средним значением популяции считается более стабильной. Наконец, если доля выборки отрицательно коррелирует со значениями (т. е.: меньшая вероятность выборки наблюдения, которое является большим), то версия с неизвестным размером популяции немного компенсирует это.

Для тривиального случая, когда все веса равны 1, приведенная выше формула аналогична обычной формуле для дисперсии среднего значения (но обратите внимание, что она использует оценку максимального правдоподобия для дисперсии вместо несмещенной дисперсии. То есть: делит ее на n вместо (n-1)).

Проверка начальной загрузки

Гатц и др. (1995) показали, что по сравнению с методами бутстреппинга , следующая оценка (оценка дисперсии отношения среднего с использованием линеаризации ряда Тейлора ) является разумной оценкой квадрата стандартной ошибки среднего (при использовании в контексте измерения химических компонентов): [4] : 1186 

σ x ¯ w 2 ^ = n ( n 1 ) ( n w ¯ ) 2 [ ( w i x i w ¯ x ¯ w ) 2 2 x ¯ w ( w i w ¯ ) ( w i x i w ¯ x ¯ w ) + x ¯ w 2 ( w i w ¯ ) 2 ] {\displaystyle {\widehat {\sigma _{{\bar {x}}_{w}}^{2}}}={\frac {n}{(n-1)(n{\bar {w}})^{2}}}\left[\sum (w_{i}x_{i}-{\bar {w}}{\bar {x}}_{w})^{2}-2{\bar {x}}_{w}\sum (w_{i}-{\bar {w}})(w_{i}x_{i}-{\bar {w}}{\bar {x}}_{w})+{\bar {x}}_{w}^{2}\sum (w_{i}-{\bar {w}})^{2}\right]}

где . Дальнейшее упрощение приводит к w ¯ = w i n {\displaystyle {\bar {w}}={\frac {\sum w_{i}}{n}}}

σ x ¯ 2 ^ = n ( n 1 ) ( n w ¯ ) 2 w i 2 ( x i x ¯ w ) 2 {\displaystyle {\widehat {\sigma _{\bar {x}}^{2}}}={\frac {n}{(n-1)(n{\bar {w}})^{2}}}\sum w_{i}^{2}(x_{i}-{\bar {x}}_{w})^{2}}

Gatz et al. упоминают, что приведенная выше формулировка была опубликована Endlich et al. (1988) при обработке взвешенного среднего как комбинации взвешенной общей оценки, деленной на оценку размера популяции, [5] на основе формулировки, опубликованной Cochran (1977), как приближения к среднему отношению. Однако Endlich et al., похоже, не опубликовали этот вывод в своей статье (хотя они упоминают, что использовали его), а книга Cochran включает несколько иную формулировку. [1] : 155  Тем не менее, она почти идентична формулировкам, описанным в предыдущих разделах.

Оценки на основе репликации

Поскольку не существует замкнутой аналитической формы для дисперсии взвешенного среднего, в литературе было предложено полагаться на методы репликации, такие как метод складного ножа и бутстрапинг . [1] : 321 

Другие заметки

Для некоррелированных наблюдений с дисперсиями дисперсия взвешенного выборочного среднего равна [ требуется ссылка ] σ i 2 {\displaystyle \sigma _{i}^{2}}

σ x ¯ 2 = i = 1 n w i 2 σ i 2 {\displaystyle \sigma _{\bar {x}}^{2}=\sum _{i=1}^{n}{w_{i}'^{2}\sigma _{i}^{2}}}

квадратный корень которого можно назвать стандартной ошибкой взвешенного среднего (общий случай) . [ необходима ссылка ] σ x ¯ {\displaystyle \sigma _{\bar {x}}}

Следовательно, если все наблюдения имеют одинаковую дисперсию, то взвешенное выборочное среднее будет иметь дисперсию σ i 2 = σ 0 2 {\displaystyle \sigma _{i}^{2}=\sigma _{0}^{2}}

σ x ¯ 2 = σ 0 2 i = 1 n w i 2 , {\displaystyle \sigma _{\bar {x}}^{2}=\sigma _{0}^{2}\sum _{i=1}^{n}{w_{i}'^{2}},}

где . Дисперсия достигает своего максимального значения, , когда все веса, кроме одного, равны нулю. Ее минимальное значение находится, когда все веса равны (т.е. невзвешенное среднее), в этом случае мы имеем , т.е. она вырождается в стандартную ошибку среднего , возведенную в квадрат. 1 / n i = 1 n w i 2 1 {\textstyle 1/n\leq \sum _{i=1}^{n}{w_{i}'^{2}}\leq 1} σ 0 2 {\displaystyle \sigma _{0}^{2}} σ x ¯ = σ 0 / n {\textstyle \sigma _{\bar {x}}=\sigma _{0}/{\sqrt {n}}}

Поскольку ненормализованные веса всегда можно преобразовать в нормализованные веса, все формулы в этом разделе можно адаптировать к ненормализованным весам, заменив все . w i = w i i = 1 n w i {\displaystyle w_{i}'={\frac {w_{i}}{\sum _{i=1}^{n}{w_{i}}}}}

Взвешенная выборочная дисперсия

Обычно при расчете среднего значения важно знать дисперсию и стандартное отклонение этого среднего значения. При использовании взвешенного среднего значение дисперсии взвешенной выборки отличается от дисперсии невзвешенной выборки. μ {\displaystyle \mu ^{*}}

Смещенная взвешенная выборочная дисперсия определяется аналогично нормальной смещенной выборочной дисперсии : σ ^ w 2 {\displaystyle {\hat {\sigma }}_{\mathrm {w} }^{2}} σ ^ 2 {\displaystyle {\hat {\sigma }}^{2}}

σ ^ 2   = i = 1 N ( x i μ ) 2 N σ ^ w 2 = i = 1 N w i ( x i μ ) 2 i = 1 N w i {\displaystyle {\begin{aligned}{\hat {\sigma }}^{2}\ &={\frac {\sum \limits _{i=1}^{N}\left(x_{i}-\mu \right)^{2}}{N}}\\{\hat {\sigma }}_{\mathrm {w} }^{2}&={\frac {\sum \limits _{i=1}^{N}w_{i}\left(x_{i}-\mu ^{*}\right)^{2}}{\sum _{i=1}^{N}w_{i}}}\end{aligned}}}

где для нормализованных весов. Если веса являются частотными весами (и, следовательно, являются случайными величинами), можно показать [ требуется ссылка ], что является оценкой максимального правдоподобия для iid гауссовых наблюдений. i = 1 N w i = 1 {\displaystyle \sum _{i=1}^{N}w_{i}=1} σ ^ w 2 {\displaystyle {\hat {\sigma }}_{\mathrm {w} }^{2}} σ 2 {\displaystyle \sigma ^{2}}

Для небольших выборок принято использовать несмещенную оценку для дисперсии популяции. В обычных невзвешенных выборках N в знаменателе (соответствующем размеру выборки) изменяется на N  − 1 (см. поправку Бесселя ). В взвешенной настройке фактически есть две разные несмещенные оценки, одна для случая весов частоты , а другая для случая весов надежности .

Частотные веса

Если веса являются частотными весами (где вес равен количеству появлений), то несмещенная оценка имеет вид:

s 2   = i = 1 N w i ( x i μ ) 2 i = 1 N w i 1 {\displaystyle s^{2}\ ={\frac {\sum \limits _{i=1}^{N}w_{i}\left(x_{i}-\mu ^{*}\right)^{2}}{\sum _{i=1}^{N}w_{i}-1}}}

Это эффективно применяет поправку Бесселя для частотных весов.

Например, если значения взяты из одного и того же распределения, то мы можем рассматривать этот набор как невзвешенную выборку или как взвешенную выборку с соответствующими весами , и в любом случае мы получим тот же результат. { 2 , 2 , 4 , 5 , 5 , 5 } {\displaystyle \{2,2,4,5,5,5\}} { 2 , 4 , 5 } {\displaystyle \{2,4,5\}} { 2 , 1 , 3 } {\displaystyle \{2,1,3\}}

Если частотные веса нормализовать до 1, то правильное выражение после коррекции Бесселя становится { w i } {\displaystyle \{w_{i}\}}

s 2   = i = 1 N w i i = 1 N w i 1 i = 1 N w i ( x i μ ) 2 {\displaystyle s^{2}\ ={\frac {\sum _{i=1}^{N}w_{i}}{\sum _{i=1}^{N}w_{i}-1}}\sum _{i=1}^{N}w_{i}\left(x_{i}-\mu ^{*}\right)^{2}}

где общее число выборок равно (не ). В любом случае информация об общем числе выборок необходима для получения несмещенной коррекции, даже если имеет иное значение, нежели вес частоты. i = 1 N w i {\displaystyle \sum _{i=1}^{N}w_{i}} N {\displaystyle N} w i {\displaystyle w_{i}}

Оценка может быть несмещенной только в том случае, если веса не стандартизированы и не нормализованы , поскольку эти процессы изменяют среднее значение и дисперсию данных и, таким образом, приводят к потере базовой ставки (численности населения, которая является требованием для поправки Бесселя).

Надежность веса

Если веса вместо этого не случайны ( весы надежности [ необходимо определение ] ), мы можем определить поправочный коэффициент, чтобы получить несмещенную оценку. Предполагая, что каждая случайная переменная выбирается из того же распределения со средним значением и фактической дисперсией , принимая ожидания, которые у нас есть, μ {\displaystyle \mu } σ actual 2 {\displaystyle \sigma _{\text{actual}}^{2}}

E [ σ ^ 2 ] = i = 1 N E [ ( x i μ ) 2 ] N = E [ ( X E [ X ] ) 2 ] 1 N E [ ( X E [ X ] ) 2 ] = ( N 1 N ) σ actual 2 E [ σ ^ w 2 ] = i = 1 N w i E [ ( x i μ ) 2 ] V 1 = E [ ( X E [ X ] ) 2 ] V 2 V 1 2 E [ ( X E [ X ] ) 2 ] = ( 1 V 2 V 1 2 ) σ actual 2 {\displaystyle {\begin{aligned}\operatorname {E} [{\hat {\sigma }}^{2}]&={\frac {\sum \limits _{i=1}^{N}\operatorname {E} [(x_{i}-\mu )^{2}]}{N}}\\&=\operatorname {E} [(X-\operatorname {E} [X])^{2}]-{\frac {1}{N}}\operatorname {E} [(X-\operatorname {E} [X])^{2}]\\&=\left({\frac {N-1}{N}}\right)\sigma _{\text{actual}}^{2}\\\operatorname {E} [{\hat {\sigma }}_{\mathrm {w} }^{2}]&={\frac {\sum \limits _{i=1}^{N}w_{i}\operatorname {E} [(x_{i}-\mu ^{*})^{2}]}{V_{1}}}\\&=\operatorname {E} [(X-\operatorname {E} [X])^{2}]-{\frac {V_{2}}{V_{1}^{2}}}\operatorname {E} [(X-\operatorname {E} [X])^{2}]\\&=\left(1-{\frac {V_{2}}{V_{1}^{2}}}\right)\sigma _{\text{actual}}^{2}\end{aligned}}}

где и . Таким образом, смещение в нашей оценке равно , аналогично смещению в невзвешенной оценке (также обратите внимание, что это эффективный размер выборки ). Это означает, что для устранения смещения нашей оценки нам нужно предварительно разделить на , гарантируя, что ожидаемое значение оценочной дисперсии равно фактической дисперсии распределения выборки. V 1 = i = 1 N w i {\displaystyle V_{1}=\sum _{i=1}^{N}w_{i}} V 2 = i = 1 N w i 2 {\displaystyle V_{2}=\sum _{i=1}^{N}w_{i}^{2}} ( 1 V 2 V 1 2 ) {\displaystyle \left(1-{\frac {V_{2}}{V_{1}^{2}}}\right)} ( N 1 N ) {\displaystyle \left({\frac {N-1}{N}}\right)}   V 1 2 / V 2 = N e f f {\displaystyle \ V_{1}^{2}/V_{2}=N_{eff}} 1 ( V 2 / V 1 2 ) {\displaystyle 1-\left(V_{2}/V_{1}^{2}\right)}

Окончательная несмещенная оценка дисперсии выборки:

s w 2   = σ ^ w 2 1 ( V 2 / V 1 2 ) = i = 1 N w i ( x i μ ) 2 V 1 ( V 2 / V 1 ) , {\displaystyle {\begin{aligned}s_{\mathrm {w} }^{2}\ &={\frac {{\hat {\sigma }}_{\mathrm {w} }^{2}}{1-(V_{2}/V_{1}^{2})}}\\[4pt]&={\frac {\sum \limits _{i=1}^{N}w_{i}(x_{i}-\mu ^{*})^{2}}{V_{1}-(V_{2}/V_{1})}},\end{aligned}}} [6]

где . E [ s w 2 ] = σ actual 2 {\displaystyle \operatorname {E} [s_{\mathrm {w} }^{2}]=\sigma _{\text{actual}}^{2}}

Степени свободы взвешенной, несмещенной выборочной дисперсии соответственно изменяются от N  − 1 до 0.

Стандартное отклонение — это просто квадратный корень из приведенной выше дисперсии.

В качестве примечания, были описаны и другие подходы для вычисления взвешенной выборочной дисперсии. [7]

Взвешенная выборочная ковариация

Во взвешенной выборке каждому вектору-строке (каждому набору отдельных наблюдений по каждой из K случайных величин) присваивается вес . x i {\displaystyle \mathbf {x} _{i}} w i 0 {\displaystyle w_{i}\geq 0}

Тогда средневзвешенный вектор определяется как μ {\displaystyle \mathbf {\mu ^{*}} }

μ = i = 1 N w i x i i = 1 N w i . {\displaystyle \mathbf {\mu ^{*}} ={\frac {\sum _{i=1}^{N}w_{i}\mathbf {x} _{i}}{\sum _{i=1}^{N}w_{i}}}.}

А взвешенная ковариационная матрица определяется как: [8]

C = i = 1 N w i ( x i μ ) T ( x i μ ) V 1 . {\displaystyle \mathbf {C} ={\frac {\sum _{i=1}^{N}w_{i}\left(\mathbf {x} _{i}-\mu ^{*}\right)^{T}\left(\mathbf {x} _{i}-\mu ^{*}\right)}{V_{1}}}.}

Подобно взвешенной выборочной дисперсии, существуют две различные несмещенные оценки в зависимости от типа весов.

Частотные веса

Если веса являются частотными весами , то несмещенная взвешенная оценка ковариационной матрицы с поправкой Бесселя определяется как: [8] C {\displaystyle \textstyle \mathbf {C} }

C = i = 1 N w i ( x i μ ) T ( x i μ ) V 1 1 . {\displaystyle \mathbf {C} ={\frac {\sum _{i=1}^{N}w_{i}\left(\mathbf {x} _{i}-\mu ^{*}\right)^{T}\left(\mathbf {x} _{i}-\mu ^{*}\right)}{V_{1}-1}}.}

Эта оценка может быть несмещенной только в том случае, если веса не стандартизированы и не нормализованы , поскольку эти процессы изменяют среднее значение и дисперсию данных и, таким образом, приводят к потере базовой ставки (численности населения, которая является требованием для поправки Бесселя).

Надежность веса

В случае весов надежности веса нормализуются :

V 1 = i = 1 N w i = 1. {\displaystyle V_{1}=\sum _{i=1}^{N}w_{i}=1.}

(Если это не так, разделите веса на их сумму, чтобы нормализовать перед расчетом : V 1 {\displaystyle V_{1}}

w i = w i i = 1 N w i {\displaystyle w_{i}'={\frac {w_{i}}{\sum _{i=1}^{N}w_{i}}}}

Тогда средневзвешенный вектор можно упростить до μ {\displaystyle \mathbf {\mu ^{*}} }

μ = i = 1 N w i x i . {\displaystyle \mathbf {\mu ^{*}} =\sum _{i=1}^{N}w_{i}\mathbf {x} _{i}.}

и несмещенная взвешенная оценка ковариационной матрицы равна: [9] C {\displaystyle \mathbf {C} }

C = i = 1 N w i ( i = 1 N w i ) 2 i = 1 N w i 2 i = 1 N w i ( x i μ ) T ( x i μ ) = i = 1 N w i ( x i μ ) T ( x i μ ) V 1 ( V 2 / V 1 ) . {\displaystyle {\begin{aligned}\mathbf {C} &={\frac {\sum _{i=1}^{N}w_{i}}{\left(\sum _{i=1}^{N}w_{i}\right)^{2}-\sum _{i=1}^{N}w_{i}^{2}}}\sum _{i=1}^{N}w_{i}\left(\mathbf {x} _{i}-\mu ^{*}\right)^{T}\left(\mathbf {x} _{i}-\mu ^{*}\right)\\&={\frac {\sum _{i=1}^{N}w_{i}\left(\mathbf {x} _{i}-\mu ^{*}\right)^{T}\left(\mathbf {x} _{i}-\mu ^{*}\right)}{V_{1}-(V_{2}/V_{1})}}.\end{aligned}}}

Обоснование здесь такое же, как и в предыдущем разделе.

Поскольку мы предполагаем, что веса нормализованы, то это сводится к: V 1 = 1 {\displaystyle V_{1}=1}

C = i = 1 N w i ( x i μ ) T ( x i μ ) 1 V 2 . {\displaystyle \mathbf {C} ={\frac {\sum _{i=1}^{N}w_{i}\left(\mathbf {x} _{i}-\mu ^{*}\right)^{T}\left(\mathbf {x} _{i}-\mu ^{*}\right)}{1-V_{2}}}.}

Если все веса одинаковы, т. е . , то взвешенное среднее и ковариация сводятся к невзвешенному выборочному среднему и ковариации, указанным выше. w i / V 1 = 1 / N {\displaystyle w_{i}/V_{1}=1/N}

Векторно-значные оценки

Вышесказанное легко обобщается на случай взятия среднего значения векторных оценок. Например, оценки положения на плоскости могут иметь меньшую определенность в одном направлении, чем в другом. Как и в скалярном случае, взвешенное среднее значение множественных оценок может дать оценку максимального правдоподобия . Мы просто заменяем дисперсию на ковариационную матрицу , а арифметическую обратную на обратную матрицу (обе обозначаются одинаково, с помощью верхних индексов); тогда матрица весов выглядит следующим образом: [10] σ 2 {\displaystyle \sigma ^{2}} C {\displaystyle \mathbf {C} }

W i = C i 1 . {\displaystyle \mathbf {W} _{i}=\mathbf {C} _{i}^{-1}.}

Средневзвешенное значение в этом случае равно: (где порядок произведения матрицы и вектора не является коммутативным ), в терминах ковариации средневзвешенного значения: x ¯ = C x ¯ ( i = 1 n W i x i ) , {\displaystyle {\bar {\mathbf {x} }}=\mathbf {C} _{\bar {\mathbf {x} }}\left(\sum _{i=1}^{n}\mathbf {W} _{i}\mathbf {x} _{i}\right),} C x ¯ = ( i = 1 n W i ) 1 , {\displaystyle \mathbf {C} _{\bar {\mathbf {x} }}=\left(\sum _{i=1}^{n}\mathbf {W} _{i}\right)^{-1},}

Например, рассмотрим средневзвешенное значение точки [1 0] с высокой дисперсией во втором компоненте и [0 1] с высокой дисперсией в первом компоненте. Тогда

x 1 := [ 1 0 ] , C 1 := [ 1 0 0 100 ] {\displaystyle \mathbf {x} _{1}:={\begin{bmatrix}1&0\end{bmatrix}}^{\top },\qquad \mathbf {C} _{1}:={\begin{bmatrix}1&0\\0&100\end{bmatrix}}}
x 2 := [ 0 1 ] , C 2 := [ 100 0 0 1 ] {\displaystyle \mathbf {x} _{2}:={\begin{bmatrix}0&1\end{bmatrix}}^{\top },\qquad \mathbf {C} _{2}:={\begin{bmatrix}100&0\\0&1\end{bmatrix}}}

тогда средневзвешенное значение равно:

x ¯ = ( C 1 1 + C 2 1 ) 1 ( C 1 1 x 1 + C 2 1 x 2 ) = [ 0.9901 0 0 0.9901 ] [ 1 1 ] = [ 0.9901 0.9901 ] {\displaystyle {\begin{aligned}{\bar {\mathbf {x} }}&=\left(\mathbf {C} _{1}^{-1}+\mathbf {C} _{2}^{-1}\right)^{-1}\left(\mathbf {C} _{1}^{-1}\mathbf {x} _{1}+\mathbf {C} _{2}^{-1}\mathbf {x} _{2}\right)\\[5pt]&={\begin{bmatrix}0.9901&0\\0&0.9901\end{bmatrix}}{\begin{bmatrix}1\\1\end{bmatrix}}={\begin{bmatrix}0.9901\\0.9901\end{bmatrix}}\end{aligned}}}

что имеет смысл: оценка [1 0] «соответствует» второму компоненту, а оценка [0 1] соответствует первому компоненту, поэтому средневзвешенное значение составляет почти [1 1].

Учет корреляций

В общем случае предположим, что , — ковариационная матрица, связывающая величины , — общее среднее значение, которое необходимо оценить, и — матрица плана, равная вектору единиц (длиной ). Теорема Гаусса–Маркова утверждает, что оценка среднего значения, имеющего минимальную дисперсию, определяется по формуле: X = [ x 1 , , x n ] T {\displaystyle \mathbf {X} =[x_{1},\dots ,x_{n}]^{T}} C {\displaystyle \mathbf {C} } x i {\displaystyle x_{i}} x ¯ {\displaystyle {\bar {x}}} J {\displaystyle \mathbf {J} } [ 1 , , 1 ] T {\displaystyle [1,\dots ,1]^{T}} n {\displaystyle n}

σ x ¯ 2 = ( J T W J ) 1 , {\displaystyle \sigma _{\bar {x}}^{2}=(\mathbf {J} ^{T}\mathbf {W} \mathbf {J} )^{-1},}

и

x ¯ = σ x ¯ 2 ( J T W X ) , {\displaystyle {\bar {x}}=\sigma _{\bar {x}}^{2}(\mathbf {J} ^{T}\mathbf {W} \mathbf {X} ),}

где:

W = C 1 . {\displaystyle \mathbf {W} =\mathbf {C} ^{-1}.}

Уменьшение силы взаимодействий

Рассмотрим временной ряд независимой переменной и зависимой переменной с выборкой наблюдений в дискретные моменты времени . Во многих распространенных ситуациях значение в момент времени зависит не только от , но и от ее прошлых значений. Обычно сила этой зависимости уменьшается по мере увеличения разделения наблюдений во времени. Чтобы смоделировать эту ситуацию, можно заменить независимую переменную ее скользящим средним для размера окна . x {\displaystyle x} y {\displaystyle y} n {\displaystyle n} t i {\displaystyle t_{i}} y {\displaystyle y} t i {\displaystyle t_{i}} x i {\displaystyle x_{i}} z {\displaystyle z} m {\displaystyle m}

z k = i = 1 m w i x k + 1 i . {\displaystyle z_{k}=\sum _{i=1}^{m}w_{i}x_{k+1-i}.}

Экспоненциально уменьшающиеся веса

В сценарии, описанном в предыдущем разделе, чаще всего уменьшение силы взаимодействия подчиняется отрицательному экспоненциальному закону. Если наблюдения отбираются в равноотстоящие моменты времени, то экспоненциальное уменьшение эквивалентно уменьшению на постоянную долю на каждом временном шаге. Задавая мы можем определить нормализованные веса как 0 < Δ < 1 {\displaystyle 0<\Delta <1} w = 1 Δ {\displaystyle w=1-\Delta } m {\displaystyle m}

w i = w i 1 V 1 , {\displaystyle w_{i}={\frac {w^{i-1}}{V_{1}}},}

где - сумма ненормализованных весов. В этом случае просто V 1 {\displaystyle V_{1}} V 1 {\displaystyle V_{1}}

V 1 = i = 1 m w i 1 = 1 w m 1 w , {\displaystyle V_{1}=\sum _{i=1}^{m}{w^{i-1}}={\frac {1-w^{m}}{1-w}},}

приближается для больших значений . V 1 = 1 / ( 1 w ) {\displaystyle V_{1}=1/(1-w)} m {\displaystyle m}

Константа затухания должна соответствовать фактическому уменьшению силы взаимодействия. Если это невозможно определить из теоретических соображений, то следующие свойства экспоненциально уменьшающихся весов полезны для подходящего выбора: на шаге вес приблизительно равен , площадь хвоста значению , площадь головы . Площадь хвоста на шаге равна . Если в первую очередь важны ближайшие наблюдения, а эффект остальных наблюдений можно безопасно игнорировать, то выбирайте так, чтобы площадь хвоста была достаточно мала. w {\displaystyle w} ( 1 w ) 1 {\displaystyle (1-w)^{-1}} e 1 ( 1 w ) = 0.39 ( 1 w ) {\displaystyle {e^{-1}}(1-w)=0.39(1-w)} e 1 {\displaystyle e^{-1}} 1 e 1 = 0.61 {\displaystyle {1-e^{-1}}=0.61} n {\displaystyle n} e n ( 1 w ) {\displaystyle \leq {e^{-n(1-w)}}} n {\displaystyle n} w {\displaystyle w}

Средневзвешенные значения функций

Понятие средневзвешенного значения может быть распространено на функции. [11] Средневзвешенные значения функций играют важную роль в системах весового дифференциального и интегрального исчисления. [12]

Коррекция избыточной или недостаточной дисперсии

Взвешенные средние значения обычно используются для нахождения взвешенного среднего значения исторических данных, а не теоретически сгенерированных данных. В этом случае будет некоторая ошибка в дисперсии каждой точки данных. Обычно экспериментальные ошибки могут быть недооценены из-за того, что экспериментатор не учитывает все источники ошибок при расчете дисперсии каждой точки данных. В этом случае дисперсия взвешенного среднего значения должна быть скорректирована с учетом того, что она слишком велика. Коррекция, которая должна быть сделана, это χ 2 {\displaystyle \chi ^{2}}

σ ^ x ¯ 2 = σ x ¯ 2 χ ν 2 {\displaystyle {\hat {\sigma }}_{\bar {x}}^{2}=\sigma _{\bar {x}}^{2}\chi _{\nu }^{2}}

где — приведенный хи-квадрат : χ ν 2 {\displaystyle \chi _{\nu }^{2}}

χ ν 2 = 1 ( n 1 ) i = 1 n ( x i x ¯ ) 2 σ i 2 ; {\displaystyle \chi _{\nu }^{2}={\frac {1}{(n-1)}}\sum _{i=1}^{n}{\frac {(x_{i}-{\bar {x}})^{2}}{\sigma _{i}^{2}}};}

Квадратный корень можно назвать стандартной ошибкой средневзвешенного значения (веса дисперсии, скорректированные по масштабу) . σ ^ x ¯ {\displaystyle {\hat {\sigma }}_{\bar {x}}}

Когда все дисперсии данных равны, они сокращаются во взвешенной средней дисперсии, которая снова сводится к стандартной ошибке среднего (квадрату), сформулированной в терминах стандартного отклонения выборки (квадрата), σ i = σ 0 {\displaystyle \sigma _{i}=\sigma _{0}} σ x ¯ 2 {\displaystyle \sigma _{\bar {x}}^{2}} σ x ¯ 2 = σ 2 / n {\displaystyle \sigma _{\bar {x}}^{2}=\sigma ^{2}/n}

σ 2 = i = 1 n ( x i x ¯ ) 2 n 1 . {\displaystyle \sigma ^{2}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}{n-1}}.}

Смотрите также

Примечания

  1. ^ Технически, отрицательные значения могут использоваться, если все значения либо нулевые, либо отрицательные. Однако это не заполняет никакой функции, поскольку веса работают как абсолютные значения .

Ссылки

  1. ^ abcd Cochran, WG (1977). Методы выборки (3-е изд.). Нэшвилл, Теннесси: John Wiley & Sons. ISBN  978-0-471-16240-7
  2. ^ abcdefghijklmnopq Карл-Эрик Сарндал; Бенгт Свенсон; Ян Ретман (1992). Выборка опроса с помощью модели . ISBN 978-0-387-97528-3.
  3. ^ Томас Ламли (https://stats.stackexchange.com/users/249135/thomas-lumley), Как оценить (приблизительную) дисперсию взвешенного среднего?, URL (версия: 2021-06-08): https://stats.stackexchange.com/q/525770
  4. ^ Гатц, Дональд Ф.; Смит, Лютер (июнь 1995 г.). «Стандартная ошибка взвешенной средней концентрации — I. Бутстрэппинг против других методов». Atmospheric Environment . 29 (11): 1185–1193. Bibcode : 1995AtmEn..29.1185G. doi : 10.1016/1352-2310(94)00210-C.- ссылка на pdf-файл
  5. ^ Endlich, RM; Eymon, BP; Ferek, RJ; Valdes, AD; Maxwell, C. (1988-12-01). "Статистический анализ измерений химии осадков в восточной части Соединенных Штатов. Часть I: Сезонные и региональные закономерности и корреляции". Журнал прикладной метеорологии и климатологии . 27 (12): 1322–1333. Bibcode : 1988JApMe..27.1322E. doi : 10.1175/1520-0450(1988)027<1322:SAOPCM>2.0.CO;2 .
  6. ^ "GNU Scientific Library – Reference Manual: Weighted Samples". Gnu.org . Получено 22 декабря 2017 г.
  7. ^ "Взвешенная стандартная ошибка и ее влияние на проверку значимости (WinCross против Quantum и SPSS), д-р Альберт Мадански" (PDF) . Analyticalgroup.com . Получено 22 декабря 2017 г. .
  8. ^ ab Price, George R. (апрель 1972 г.). "Расширение математики ковариационного отбора" (PDF) . Annals of Human Genetics . 35 (4): 485–490. doi :10.1111/j.1469-1809.1957.tb01874.x. PMID  5073694. S2CID  37828617.
  9. ^ Марк Галасси, Джим Дэвис, Джеймс Тейлер, Брайан Гоф, Джерард Юнгман, Майкл Бут и Фабрис Росси. GNU Scientific Library - Справочное руководство, версия 1.15, 2011. Раздел 21.7 Взвешенные выборки
  10. ^ Джеймс, Фредерик (2006). Статистические методы в экспериментальной физике (2-е изд.). Сингапур: World Scientific. стр. 324. ISBN 981-270-527-9.
  11. ^ GH Hardy, JE Littlewood и G. Pólya. Неравенства (2-е изд.), Cambridge University Press, ISBN 978-0-521-35880-4 , 1988. 
  12. ^ Джейн Гроссман, Майкл Гроссман, Роберт Кац. Первые системы весового дифференциального и интегрального исчисления, ISBN 0-9771170-1-4 , 1980. 

Дальнейшее чтение

  • Бевингтон, Филип Р. (1969). Обработка данных и анализ ошибок в физических науках . Нью-Йорк, штат Нью-Йорк: McGraw-Hill. OCLC  300283069.
  • Штрутц, Т. (2010). Подгонка данных и неопределенность (Практическое введение в метод взвешенных наименьших квадратов и далее) . Vieweg+Teubner. ISBN 978-3-8348-1022-9.
  • Дэвид Терр. "Взвешенное среднее". MathWorld .
  • Инструмент для расчета средневзвешенного значения
Retrieved from "https://en.wikipedia.org/w/index.php?title=Weighted_arithmetic_mean&oldid=1247980410"