Стратифицированная выборка

Выборка из популяции, которую можно разделить на субпопуляции

В статистике стратифицированная выборка — это метод отбора выборки из совокупности , которую можно разделить на подгруппы .

Пример стратифицированной выборки

В статистических обследованиях , когда субпопуляции внутри общей популяции различаются, может быть целесообразно производить выборку каждой субпопуляции ( страты ) независимо.

Стратификация — это процесс разделения членов популяции на однородные подгруппы перед выборкой. Страты должны определять раздел популяции. То есть, они должны быть коллективно исчерпывающими и взаимоисключающими : каждый элемент популяции должен быть отнесен к одной и только одной страте. Затем выборка выполняется в каждой страте, например: путем простой случайной выборки . Цель состоит в том, чтобы повысить точность выборки за счет уменьшения ошибки выборки . Она может дать взвешенное среднее , которое имеет меньшую изменчивость, чем арифметическое среднее простой случайной выборки популяции.

В вычислительной статистике стратифицированная выборка представляет собой метод снижения дисперсии , когда методы Монте-Карло используются для оценки статистики популяции на основе известной популяции. [1]

Пример

Предположим, что нам нужно оценить среднее количество голосов за каждого кандидата на выборах. Предположим, что в стране есть 3 города: в городе A проживает 1 миллион рабочих, в городе B — 2 миллиона офисных работников, а в городе C — 3 миллиона пенсионеров. Мы можем выбрать случайную выборку размером 60 по всей популяции, но есть некоторая вероятность того, что полученная случайная выборка будет плохо сбалансирована по этим городам и, следовательно, будет смещена, что приведет к значительной ошибке в оценке (когда интересующий нас результат будет иметь разное распределение с точки зрения интересующего нас параметра между городами). Вместо этого, если мы решим взять случайную выборку из 10, 20 и 30 человек из городов A, B и C соответственно, то мы сможем получить меньшую ошибку в оценке для того же общего размера выборки. Этот метод обычно используется, когда популяция не является однородной группой.

Стратегии стратифицированной выборки

  1. Пропорциональное распределение использует выборочную фракцию в каждой из страт, которая пропорциональна выборочной фракции всей популяции. Например, если популяция состоит из n особей, m из которых являются мужчинами и f женщинами (и где m + f = n ), то относительный размер двух выборок ( x 1 = m / n мужчин, x 2 = f / n женщин) должен отражать эту пропорцию.
  2. Оптимальное распределение (или непропорциональное распределение ) – доля выборки каждой страты пропорциональна как доле (как указано выше), так и стандартному отклонению распределения переменной. Более крупные выборки берутся в стратах с наибольшей изменчивостью, чтобы сгенерировать наименьшую возможную общую дисперсию выборки.

Реальным примером использования стратифицированной выборки может быть политический опрос . Если респондентам необходимо отразить разнообразие населения, исследователь специально постарается включить участников различных групп меньшинств, таких как раса или религия, на основе их пропорциональности по отношению к общей численности населения, как упоминалось выше. Таким образом, стратифицированный опрос может претендовать на большую репрезентативность для населения, чем опрос простой случайной выборки или систематической выборки . Как среднее, так и дисперсия могут быть скорректированы для непропорциональных затрат на выборку с использованием стратифицированных размеров выборки .

Преимущества

Причины использования стратифицированной выборки вместо простой случайной выборки включают [2]

  1. Если измерения внутри страт имеют меньшее стандартное отклонение (по сравнению с общим стандартным отклонением в популяции), стратификация дает меньшую ошибку оценки.
  2. Для многих приложений измерения становятся более управляемыми и/или более дешевыми, когда совокупность группируется в слои.
  3. Когда желательно иметь оценки параметров популяции для групп внутри популяции, стратифицированная выборка проверяет, что у нас достаточно образцов из интересующих слоев.

Если плотность населения сильно различается в пределах региона, стратифицированная выборка обеспечит возможность делать оценки с одинаковой точностью в разных частях региона и проводить сравнения субрегионов с одинаковой статистической мощностью . Например, в Онтарио обследование, проведенное по всей провинции, может использовать большую долю выборки в менее населенном севере, поскольку разница в численности населения между севером и югом настолько велика, что доля выборки, основанная на выборке провинции в целом, может привести к сбору лишь небольшого количества данных с севера.

Недостатки

Было бы неправильным применением техники делать размеры выборки подгрупп пропорциональными объему данных, доступных из подгрупп, вместо того, чтобы масштабировать размеры выборки к размерам подгрупп (или к их дисперсиям, если известно, что они значительно различаются — например, с помощью F-теста ). Данные, представляющие каждую подгруппу, считаются одинаково важными, если предполагаемая вариация среди них оправдывает стратифицированную выборку. Если дисперсии подгрупп значительно различаются и данные необходимо стратифицировать по дисперсии, невозможно одновременно сделать размер выборки каждой подгруппы пропорциональным размеру подгруппы в общей популяции. Для эффективного способа распределения ресурсов выборки между группами, которые различаются по своим средним значениям, дисперсии и затратам, см. «оптимальное распределение» . Проблема стратифицированной выборки в случае неизвестных априорных значений классов (соотношение субпопуляций во всей популяции) может оказать пагубное влияние на производительность любого анализа набора данных, например классификации. [3] В этой связи минимаксное отношение выборки может быть использовано для того, чтобы сделать набор данных устойчивым к неопределенности в базовом процессе генерации данных. [3]

Объединение субстратов для обеспечения адекватных чисел может привести к парадоксу Симпсона , когда тенденции, существующие в различных группах данных, исчезают или даже меняются на противоположные при объединении групп.

Среднее значение и стандартная ошибка

Среднее значение и дисперсия стратифицированной случайной выборки определяются по формуле: [2]

х ¯ = 1 Н час = 1 Л Н час х ¯ час {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{h=1}^{L}N_{h}{\bar {x}}_{h}}
с х ¯ 2 = час = 1 Л ( Н час Н ) 2 ( Н час н час Н час 1 ) с час 2 н час {\displaystyle s_{\bar {x}}^{2}=\sum _{h=1}^{L}\left({\frac {N_{h}}{N}}\right)^{2}\left({\frac {N_{h}-n_{h}}{N_{h}-1}}\right){\frac {s_{h}^{2}}{n_{h}}}}

где

Л = {\displaystyle L={}} количество слоев
Н = {\displaystyle N={}} сумма всех размеров страт
Н час = {\displaystyle N_{h}={}} размер слоя час {\displaystyle ч}
х ¯ час = {\displaystyle {\bar {x}}_{h}={}} выборочное среднее значение слоя час {\displaystyle ч}
н час = {\displaystyle n_{h}={}} количество наблюдений в страте час {\displaystyle ч}
с час = {\displaystyle s_{h}={}} стандартное отклонение выборки слоя час {\displaystyle ч}

Обратите внимание, что член , который равен , является конечной поправкой на популяцию и должен быть выражен в "единицах выборки". Отказ от конечной поправки на популяцию дает: ( Н час н час ) / ( Н час 1 ) {\displaystyle (N_{h}-n_{h})/(N_{h}-1)} 1 н час 1 Н час 1 {\displaystyle 1-{\frac {n_{h}-1}{N_{h}-1}}} Н час {\displaystyle N_{h}}

с х ¯ 2 = час = 1 Л ( Н час Н ) 2 с час 2 н час {\displaystyle s_{\bar {x}}^{2}=\sum _{h=1}^{L}\left({\frac {N_{h}}{N}}\right)^{2}{\frac {s_{h}^{2}}{n_{h}}}}

где — вес населения слоя . ж час = Н час / Н {\displaystyle w_{h}=N_{h}/N} час {\displaystyle ч}

Распределение размера выборки

Для стратегии пропорционального распределения размер выборки в каждой страте берется пропорционально размеру страты. Предположим, что в компании есть следующий персонал: [4]

  • мужчины, полный рабочий день: 90
  • мужской, неполный рабочий день: 18
  • женщины, полный рабочий день: 9
  • женщины, неполный рабочий день: 63
  • всего: 180

и нас просят сделать выборку из 40 сотрудников, стратифицированных в соответствии с вышеуказанными категориями.

Первый шаг — рассчитать процент каждой группы от общего числа.

  • % мужчин, полный рабочий день = 90 ÷ 180 = 50%
  • % мужчин, неполный рабочий день = 18 ÷ 180 = 10%
  • % женщин, полный рабочий день = 9 ÷ 180 = 5%
  • % женщин, неполный рабочий день = 63 ÷ 180 = 35%

Это говорит нам, что из нашей выборки из 40 человек,

  • 50% (20 человек) должны быть мужчинами, работающими полный рабочий день.
  • 10% (4 человека) должны быть мужчинами, работающими неполный рабочий день.
  • 5% (2 человека) должны быть женщинами, работающими полный рабочий день.
  • 35% (14 человек) должны быть женщинами, работающими неполный рабочий день.

Другой простой способ, не требующий расчета процента, — умножить размер каждой группы на размер выборки и разделить на общую численность населения (размер всего персонала):

  • мужчины, полный рабочий день = 90 × (40 ÷ 180) = 20
  • мужчина, неполный рабочий день = 18 × (40 ÷ 180) = 4
  • женщины, полный рабочий день = 9 × (40 ÷ 180) = 2
  • женщина, неполный рабочий день = 63 × (40 ÷ 180) = 14

Смотрите также

Ссылки

  1. ^ Ботев, З.; Риддер, А. (2017). «Снижение дисперсии». Wiley StatsRef: Справочник по статистике онлайн : 1–6. doi : 10.1002/9781118445112.stat07975. ISBN 9781118445112.
  2. ^ ab "6.1 Как использовать стратифицированную выборку | STAT 506". onlinecourses.science.psu.edu . Получено 23 июля 2015 г.
  3. ^ ab Shahrokh Esfahani, Mohammad; Dougherty, Edward R. (2014). «Влияние раздельной выборки на точность классификации». Bioinformatics . 30 (2): 242–250. doi : 10.1093/bioinformatics/btt662 . PMID  24257187.
  4. ^ Хант, Невилл; Тиррелл, Сидней (2001). «Стратифицированная выборка». Веб-страница в Университете Ковентри . Архивировано из оригинала 13 октября 2013 года . Получено 12 июля 2012 года .

нжЕя

Дальнейшее чтение

  • Сарндаль, Карл-Эрик и др. (2003). «Стратифицированная выборка». Model Assisted Survey Sampling . Нью-Йорк: Springer. С. 100–109. ISBN 0-387-40620-4.
Получено с "https://en.wikipedia.org/w/index.php?title=Стратифицированная_выборка&oldid=1241861279"