Экологическая ошибка (также экологическая ошибка вывода [1] или популяционная ошибка ) — это формальная ошибка в интерпретации статистических данных, которая происходит, когда выводы о природе индивидуумов выводятся из выводов о группе, к которой эти индивидуумы принадлежат. «Экологическая ошибка» — это термин, который иногда используется для описания ошибки разделения , которая не является статистической ошибкой. Четыре распространенных статистических экологических ошибки: путаница между экологическими корреляциями и индивидуальными корреляциями, путаница между групповым средним и общим средним, парадокс Симпсона и путаница между более высоким средним и более высоким правдоподобием. Со статистической точки зрения эти идеи можно объединить, указав надлежащие статистические модели для выполнения формальных выводов, используя агрегированные данные для создания ненаблюдаемых связей в данных индивидуального уровня. [2]
Примером экологического заблуждения является предположение, что среднее значение популяции имеет простую интерпретацию при рассмотрении вероятностей для отдельного человека.
Например, если средний балл группы больше нуля, это не означает, что случайный человек из этой группы с большей вероятностью будет иметь положительный балл, чем отрицательный (пока отрицательных баллов больше, чем положительных, человек с большей вероятностью будет иметь отрицательный балл). Аналогично, если определенная группа людей имеет более низкий средний IQ, чем общая популяция, то ошибочно делать вывод о том, что случайно выбранный член группы с большей вероятностью будет иметь более низкий IQ, чем средний IQ общей популяции; также не обязательно, что случайно выбранный член группы с большей вероятностью будет иметь более низкий IQ, чем случайно выбранный член общей популяции. Математически это происходит из того факта, что распределение может иметь положительное среднее, но отрицательную медиану. Это свойство связано с асимметрией распределения .
Рассмотрим следующий числовой пример:
Исследования, датируемые Эмилем Дюркгеймом, показывают, что в преимущественно протестантских населенных пунктах уровень самоубийств выше, чем в преимущественно католических . [3] По словам Фридмана, [4] идея о том, что выводы Дюркгейма связывают на индивидуальном уровне религию человека с его риском самоубийства, является примером экологического заблуждения. Отношения на уровне группы не характеризуют автоматически отношения на уровне индивида.
Аналогично, даже если на индивидуальном уровне богатство положительно коррелирует с тенденцией голосовать за республиканцев в Соединенных Штатах , мы наблюдаем, что более богатые штаты, как правило, голосуют за демократов . Например, на президентских выборах в Соединенных Штатах в 2004 году кандидат от республиканцев Джордж Буш -младший победил в пятнадцати беднейших штатах, а кандидат от демократов Джон Керри победил в 9 из 11 самых богатых штатов в Коллегии выборщиков . Тем не менее, 62% избирателей с годовым доходом более 200 000 долларов проголосовали за Буша, но только 36% избирателей с годовым доходом 15 000 долларов или меньше проголосовали за Буша. [5] Корреляция на совокупном уровне будет отличаться от корреляции на индивидуальном уровне, если предпочтения избирателей зависят от общего богатства штата даже после учета индивидуального богатства. Истинным движущим фактором предпочтений избирателей может быть самооценка относительного богатства; возможно, те, кто считает себя более обеспеченными, чем их соседи, с большей вероятностью проголосуют за республиканцев. В этом случае человек с большей вероятностью проголосует за республиканца, если станет богаче, но он с большей вероятностью проголосует за демократа, если богатство его соседа увеличится (что приведет к более богатому штату).
Однако наблюдаемая разница в избирательных привычках, основанных на богатстве на уровне штата и отдельного человека, может также объясняться распространенной путаницей между более высокими средними значениями и более высокими вероятностями, как обсуждалось выше. Штаты могут быть богаче не потому, что в них проживает больше богатых людей (т. е. больше людей с годовым доходом свыше 200 000 долларов), а скорее потому, что в них проживает небольшое количество сверхбогатых людей; экологическая ошибка тогда возникает из-за неправильного предположения, что люди в более богатых штатах с большей вероятностью будут богатыми.
Множество примеров экологических заблуждений можно найти в исследованиях социальных сетей, которые часто объединяют анализ и выводы с разных уровней. Это было проиллюстрировано в академической статье о сетях фермеров на Суматре . [6]
В статье 1950 года Уильяма С. Робинсона был вычислен уровень неграмотности и доля населения, родившегося за пределами США, для каждого штата и для округа Колумбия по данным переписи 1930 года . [7] Он показал, что эти две цифры были связаны с отрицательной корреляцией -0,53; другими словами, чем больше доля иммигрантов в штате, тем ниже его средний уровень неграмотности (или, что эквивалентно, тем выше его средний уровень грамотности). Однако, когда рассматриваются отдельные лица, корреляция между неграмотностью и происхождением составляла +0,12 (иммигранты были в среднем более неграмотными, чем коренные граждане). Робинсон показал, что отрицательная корреляция на уровне населения штата была связана с тем, что иммигранты имели тенденцию селиться в штатах, где коренное население было более грамотным. Он предостерег от вывода выводов об отдельных лицах на основе данных на уровне населения или «экологических» данных. В 2011 году было обнаружено, что расчеты Робинсона экологических корреляций основаны на неверных данных на уровне штата. Упомянутая выше корреляция −0,53 на самом деле равна −0,46. [8] Статья Робинсона была основополагающей, но термин «экологическое заблуждение» был введен только в 1958 году Селвином. [9]
Корреляция совокупных величин (или экологическая корреляция ) не равна корреляции индивидуальных величин. Обозначим через X i , Y i две величины на индивидуальном уровне. Формула для ковариации совокупных величин в группах размера N имеет вид
Ковариация двух агрегированных переменных зависит не только от ковариации двух переменных в пределах одних и тех же индивидуумов, но и от ковариаций переменных между разными индивидуумами. Другими словами, корреляция агрегированных переменных учитывает перекрестные эффекты, которые не имеют значения на индивидуальном уровне.
Проблема корреляций естественным образом влечет за собой проблему регрессий на агрегированных переменных: поэтому ошибка корреляции является важной проблемой для исследователя, который хочет измерить причинно-следственные связи. Начните с регрессионной модели, где на результат влияет
Регрессионная модель на совокупном уровне получается путем суммирования отдельных уравнений:
Ничто не мешает регрессорам и ошибкам коррелировать на совокупном уровне. Поэтому, как правило, запуск регрессии на совокупных данных не оценивает ту же модель, что и запуск регрессии с индивидуальными данными.
Агрегированная модель верна тогда и только тогда, когда
Это означает, что контроль за не определяет .
Нет ничего плохого в запуске регрессий на агрегированных данных, если вас интересует агрегированная модель. Например, для губернатора штата правильно запустить регрессии между полицейскими силами и уровнем преступности на уровне штата, если вас интересуют политические последствия увеличения численности полицейских сил. Однако, если городской совет выведет влияние увеличения численности полицейских сил на уровень преступности на уровне города из корреляции на уровне штата, произойдет экологическое заблуждение.
Выбор между совокупными и индивидуальными регрессиями для понимания совокупного воздействия на некоторую политику зависит от следующего компромисса: совокупные регрессии теряют данные на индивидуальном уровне, но индивидуальные регрессии добавляют сильные допущения моделирования. Некоторые исследователи предполагают, что экологическая корреляция дает лучшую картину результатов действий государственной политики, поэтому они рекомендуют экологическую корреляцию вместо корреляции на индивидуальном уровне для этой цели (Lubinski & Humphreys, 1996). Другие исследователи не согласны, особенно когда отношения между уровнями нечетко смоделированы. Чтобы предотвратить экологическую ошибку, исследователи, не имеющие индивидуальных данных, могут сначала смоделировать то, что происходит на индивидуальном уровне, затем смоделировать, как связаны индивидуальные и групповые уровни, и, наконец, изучить, добавляет ли что-либо, происходящее на групповом уровне, к пониманию взаимосвязи. Например, при оценке воздействия государственной политики полезно знать, что воздействие политики меньше различается между штатами, чем сама политика, что предполагает, что различия в политике не очень хорошо транслируются в результаты, несмотря на высокие экологические корреляции (Rose, 1973).
Экологическое заблуждение может также относиться к следующему заблуждению: среднее значение для группы аппроксимируется средним значением для всей популяции, деленным на размер группы. Предположим, что известно число протестантов и уровень самоубийств в США, но нет данных, связывающих религию и самоубийства на индивидуальном уровне. Если кого-то интересует уровень самоубийств протестантов, то ошибкой будет оценивать его по общему уровню самоубийств, деленному на число протестантов. Формально обозначим среднее значение для группы, обычно имеем:
Однако закон полной вероятности дает
Поскольку мы знаем, что находится в диапазоне от 0 до 1, это уравнение дает оценку для .
Ярким экологическим заблуждением является парадокс Симпсона : тот факт, что при сравнении двух популяций, разделенных на группы, среднее значение некоторой переменной в первой популяции может быть выше в каждой группе и ниже в общей популяции. Формально, когда каждое значение Z относится к разным группам, а X относится к некоторому лечению, может случиться, что
Когда не зависит от , парадокс Симпсона — это в точности смещение пропущенной переменной для регрессии Y на X , где регрессор — фиктивная переменная , а пропущенная переменная — категориальная переменная, определяющая группы для каждого принимаемого ею значения. Применение поразительно, поскольку смещение достаточно велико, чтобы параметры имели противоположные знаки.
Экологическое заблуждение обсуждалось в судебном оспаривании выборов губернатора Вашингтона 2004 года , на которых после выборов было выявлено несколько нелегальных избирателей; их голоса были неизвестны, поскольку голосование было тайным . Протестующие утверждали, что нелегальные голоса, поданные на выборах, следовали бы моделям голосования округов, на которых они были поданы, и поэтому должны быть сделаны соответствующие корректировки. [10] Эксперт-свидетель сказал, что этот подход был похож на попытку выяснить средний показатель отбивания Ичиро Судзуки , глядя на средний показатель отбивания всей команды Seattle Mariners , поскольку нелегальные голоса были поданы нерепрезентативной выборкой избирателей каждого округа и могли отличаться от среднего избирателя в округе так же, как Ичиро отличался от остальной части своей команды. [11] Судья определил, что аргумент протестующих был экологическим заблуждением, и отклонил его. [12]
Проблема заключается в «экологическом заблуждении» (или заблуждении разделения) — стремлении применять характеристики группового или общественного уровня к индивидам внутри этой группы.