В статистике стратифицированная выборка — это метод отбора выборки из совокупности , которую можно разделить на подгруппы .
В статистических обследованиях , когда субпопуляции внутри общей популяции различаются, может быть целесообразно производить выборку каждой субпопуляции ( страты ) независимо.
Стратификация — это процесс разделения членов популяции на однородные подгруппы перед выборкой. Страты должны определять раздел популяции. То есть, они должны быть коллективно исчерпывающими и взаимоисключающими : каждый элемент популяции должен быть отнесен к одной и только одной страте. Затем выборка выполняется в каждой страте, например: путем простой случайной выборки . Цель состоит в том, чтобы повысить точность выборки за счет уменьшения ошибки выборки . Она может дать взвешенное среднее , которое имеет меньшую изменчивость, чем арифметическое среднее простой случайной выборки популяции.
В вычислительной статистике стратифицированная выборка представляет собой метод снижения дисперсии , когда методы Монте-Карло используются для оценки статистики популяции на основе известной популяции. [1]
Предположим, что нам нужно оценить среднее количество голосов за каждого кандидата на выборах. Предположим, что в стране есть 3 города: в городе A проживает 1 миллион рабочих, в городе B — 2 миллиона офисных работников, а в городе C — 3 миллиона пенсионеров. Мы можем выбрать случайную выборку размером 60 по всей популяции, но есть некоторая вероятность того, что полученная случайная выборка будет плохо сбалансирована по этим городам и, следовательно, будет смещена, что приведет к значительной ошибке в оценке (когда интересующий нас результат будет иметь разное распределение с точки зрения интересующего нас параметра между городами). Вместо этого, если мы решим взять случайную выборку из 10, 20 и 30 человек из городов A, B и C соответственно, то мы сможем получить меньшую ошибку в оценке для того же общего размера выборки. Этот метод обычно используется, когда популяция не является однородной группой.
Реальным примером использования стратифицированной выборки может быть политический опрос . Если респондентам необходимо отразить разнообразие населения, исследователь специально постарается включить участников различных групп меньшинств, таких как раса или религия, на основе их пропорциональности по отношению к общей численности населения, как упоминалось выше. Таким образом, стратифицированный опрос может претендовать на большую репрезентативность для населения, чем опрос простой случайной выборки или систематической выборки . Как среднее, так и дисперсия могут быть скорректированы для непропорциональных затрат на выборку с использованием стратифицированных размеров выборки .
Причины использования стратифицированной выборки вместо простой случайной выборки включают [2]
Если плотность населения сильно различается в пределах региона, стратифицированная выборка обеспечит возможность делать оценки с одинаковой точностью в разных частях региона и проводить сравнения субрегионов с одинаковой статистической мощностью . Например, в Онтарио обследование, проведенное по всей провинции, может использовать большую долю выборки в менее населенном севере, поскольку разница в численности населения между севером и югом настолько велика, что доля выборки, основанная на выборке провинции в целом, может привести к сбору лишь небольшого количества данных с севера.
Было бы неправильным применением техники делать размеры выборки подгрупп пропорциональными объему данных, доступных из подгрупп, вместо того, чтобы масштабировать размеры выборки к размерам подгрупп (или к их дисперсиям, если известно, что они значительно различаются — например, с помощью F-теста ). Данные, представляющие каждую подгруппу, считаются одинаково важными, если предполагаемая вариация среди них оправдывает стратифицированную выборку. Если дисперсии подгрупп значительно различаются и данные необходимо стратифицировать по дисперсии, невозможно одновременно сделать размер выборки каждой подгруппы пропорциональным размеру подгруппы в общей популяции. Для эффективного способа распределения ресурсов выборки между группами, которые различаются по своим средним значениям, дисперсии и затратам, см. «оптимальное распределение» . Проблема стратифицированной выборки в случае неизвестных априорных значений классов (соотношение субпопуляций во всей популяции) может оказать пагубное влияние на производительность любого анализа набора данных, например классификации. [3] В этой связи минимаксное отношение выборки может быть использовано для того, чтобы сделать набор данных устойчивым к неопределенности в базовом процессе генерации данных. [3]
Объединение субстратов для обеспечения адекватных чисел может привести к парадоксу Симпсона , когда тенденции, существующие в различных группах данных, исчезают или даже меняются на противоположные при объединении групп.
Среднее значение и дисперсия стратифицированной случайной выборки определяются по формуле: [2]
где
Обратите внимание, что член , который равен , является конечной поправкой на популяцию и должен быть выражен в "единицах выборки". Отказ от конечной поправки на популяцию дает:
где — вес населения слоя .
Для стратегии пропорционального распределения размер выборки в каждой страте берется пропорционально размеру страты. Предположим, что в компании есть следующий персонал: [4]
и нас просят сделать выборку из 40 сотрудников, стратифицированных в соответствии с вышеуказанными категориями.
Первый шаг — рассчитать процент каждой группы от общего числа.
Это говорит нам, что из нашей выборки из 40 человек,
Другой простой способ, не требующий расчета процента, — умножить размер каждой группы на размер выборки и разделить на общую численность населения (размер всего персонала):
нжЕя