Сверхдисперсия

Наличие большей изменчивости в наборе данных, чем можно было бы ожидать

В статистике избыточная дисперсия — это наличие большей изменчивости ( статистической дисперсии ) в наборе данных, чем можно было бы ожидать на основе данной статистической модели .

Распространенной задачей в прикладной статистике является выбор параметрической модели для соответствия заданному набору эмпирических наблюдений. Это требует оценки соответствия выбранной модели. Обычно можно выбрать параметры модели таким образом, чтобы теоретическое среднее значение популяции модели было приблизительно равно выборочному среднему значению . Однако, особенно для простых моделей с небольшим количеством параметров, теоретические предсказания могут не соответствовать эмпирическим наблюдениям для более высоких моментов . Когда наблюдаемая дисперсия выше дисперсии теоретической модели, произошла чрезмерная дисперсия . И наоборот, недостаточная дисперсия означает, что в данных было меньше вариаций, чем прогнозировалось. Чрезмерная дисперсия является очень распространенной особенностью в прикладном анализе данных, поскольку на практике популяции часто являются гетерогенными (неоднородными) вопреки предположениям, подразумеваемым в широко используемых простых параметрических моделях.

Примеры

Пуассон

Избыточная дисперсия часто встречается при подгонке очень простых параметрических моделей, таких как те, которые основаны на распределении Пуассона . Распределение Пуассона имеет один свободный параметр и не позволяет корректировать дисперсию независимо от среднего значения. Выбор распределения из семейства Пуассона часто диктуется природой эмпирических данных. Например, регрессионный анализ Пуассона обычно используется для моделирования данных подсчета . Если избыточная дисперсия является признаком, альтернативная модель с дополнительными свободными параметрами может обеспечить лучшее соответствие. В случае данных подсчета вместо этого может быть предложена модель смеси Пуассона, такая как отрицательное биномиальное распределение , в которой среднее значение распределения Пуассона само по себе может рассматриваться как случайная величина, взятая — в данном случае — из гамма-распределения, тем самым вводя дополнительный свободный параметр (обратите внимание, что полученное отрицательное биномиальное распределение полностью характеризуется двумя параметрами).

Биномиальный

В качестве более конкретного примера можно привести наблюдение, что число мальчиков, рожденных в семьях, не полностью соответствует биномиальному распределению , как можно было бы ожидать. [1] Вместо этого соотношение полов в семьях, по-видимому, смещено в сторону либо мальчиков, либо девочек (см., например, гипотезу Триверса-Уилларда для одного из возможных объяснений), т. е. существует больше семей, состоящих только из мальчиков, больше семей, состоящих только из девочек, и недостаточно семей, близких к среднему соотношению мальчиков и девочек 51:49, чем ожидается от биномиального распределения, и результирующая эмпирическая дисперсия больше, чем указано в биномиальной модели.

В этом случае бета-биномиальная модель распределения является популярной и аналитически поддающейся обработке альтернативной моделью биномиальному распределению, поскольку она обеспечивает лучшее соответствие наблюдаемым данным. [2] Чтобы охватить неоднородность семей, можно представить себе вероятностный параметр биномиальной модели (скажем, вероятность быть мальчиком) как случайную величину (т. е. модель случайных эффектов ), взятую для каждой семьи из бета-распределения как смешивания распределения. Результирующее составное распределение (бета-биномиальное) имеет дополнительный свободный параметр.

Другая распространенная модель для сверхдисперсии — когда некоторые из наблюдений не являются бернуллиевскими — возникает из-за введения нормальной случайной величины в логистическую модель . Программное обеспечение широко доступно для подгонки этого типа многоуровневой модели . В этом случае, если дисперсия нормальной величины равна нулю, модель сводится к стандартной (недисперсной) логистической регрессии . Эта модель имеет дополнительный свободный параметр, а именно дисперсию нормальной величины.

В отношении биномиальных случайных величин концепция сверхдисперсии имеет смысл только в случае, если n>1 (т.е. сверхдисперсия бессмысленна для бернуллиевских случайных величин).

Нормальное распределение

Поскольку нормальное распределение (гауссово) имеет дисперсию в качестве параметра, любые данные с конечной дисперсией (включая любые конечные данные) могут быть смоделированы с помощью нормального распределения с точной дисперсией — нормальное распределение является двухпараметрической моделью со средним значением и дисперсией. Таким образом, при отсутствии базовой модели нет понятия о том, что данные чрезмерно разбросаны относительно нормальной модели, хотя соответствие может быть плохим в других отношениях (таких как более высокие моменты перекоса , эксцесса и т. д.). Однако в случае, если данные моделируются с помощью нормального распределения с ожидаемой вариацией, они могут быть чрезмерно или недостаточно разбросаны относительно этого прогноза.

Например, в статистическом опросе погрешность (определяемая размером выборки) предсказывает погрешность выборки и, следовательно , дисперсию результатов повторных опросов. Если провести метаанализ повторных опросов фиксированной популяции (скажем, с заданным размером выборки, поэтому погрешность одинакова), можно ожидать, что результаты будут соответствовать нормальному распределению со стандартным отклонением, равным погрешности. Однако при наличии неоднородности исследования , когда исследования имеют различное смещение выборки , распределение вместо этого является составным распределением и будет перераспределено относительно прогнозируемого распределения. Например, если все повторные опросы общественного мнения имеют погрешность 3%, если они проводятся разными организациями, проводящими опросы, можно ожидать, что результаты будут иметь стандартное отклонение более 3% из-за смещения опросчика из-за разных методологий.

Различия в терминологии между дисциплинами

Избыточная и недостаточная дисперсия — это термины, принятые в биологических науках . В паразитологии термин «избыточная дисперсия» обычно используется в том значении, в котором он определен здесь — то есть распределение с дисперсией, превышающей ожидаемую.

Однако в некоторых областях экологии значения были переставлены, так что сверхдисперсия фактически воспринимается как более равномерная (более низкая дисперсия), чем ожидалось. Эта путаница заставила некоторых экологов предположить, что термины «агрегированный» или «заразный» было бы лучше использовать в экологии для «сверхдисперсного». [3] Такие предпочтения проникают и в паразитологию . [4] В целом это предложение не было принято во внимание, и путаница сохраняется в литературе.

Кроме того, в демографии чрезмерная дисперсия часто очевидна при анализе данных о количестве смертей, но демографы предпочитают термин « ненаблюдаемая неоднородность ».

Смотрите также

Ссылки

  1. ^ Стэнсфилд, Уильям Д.; Карлтон, Мэтью А. (февраль 2009 г.). «Наиболее широко освещаемая гендерная проблема в генетике человека». Human Biology . 81 (1): 3– 11. doi :10.3378/027.081.0101. ISSN  1534-6617. PMID  19589015.
  2. ^ Линдси, Дж. К.; Альтам, П. М. Э. (1998). «Анализ соотношения полов у людей с использованием моделей сверхдисперсии». Журнал Королевского статистического общества, серия C. 47 ( 1): 149–157 . doi : 10.1111/1467-9876.00103 . PMID  12293397. S2CID  22354905.
  3. ^ Грейг-Смит, П. (1983). Количественная экология растений (третье изд.). Издательство Калифорнийского университета. ISBN 0-632-00142-9.
  4. ^ Poulin, R. (2006). Эволюционная экология паразитов. Princeton University Press. ISBN 9780691120850.
Взято с "https://en.wikipedia.org/w/index.php?title=Чрезмерная дисперсия&oldid=1189019624"