Экологическое заблуждение

Логическая ошибка, возникающая, когда групповые характеристики применяются к отдельным лицам.

Экологическая ошибка (также экологическая ошибка вывода [1] или популяционная ошибка ) — это формальная ошибка в интерпретации статистических данных, которая происходит, когда выводы о природе индивидуумов выводятся из выводов о группе, к которой эти индивидуумы принадлежат. «Экологическая ошибка» — это термин, который иногда используется для описания ошибки разделения , которая не является статистической ошибкой. Четыре распространенных статистических экологических ошибки: путаница между экологическими корреляциями и индивидуальными корреляциями, путаница между групповым средним и общим средним, парадокс Симпсона и путаница между более высоким средним и более высоким правдоподобием. Со статистической точки зрения эти идеи можно объединить, указав надлежащие статистические модели для выполнения формальных выводов, используя агрегированные данные для создания ненаблюдаемых связей в данных индивидуального уровня. [2]

Примеры

Среднее и медиана

Примером экологического заблуждения является предположение, что среднее значение популяции имеет простую интерпретацию при рассмотрении вероятностей для отдельного человека.

Например, если средний балл группы больше нуля, это не означает, что случайный человек из этой группы с большей вероятностью будет иметь положительный балл, чем отрицательный (пока отрицательных баллов больше, чем положительных, человек с большей вероятностью будет иметь отрицательный балл). Аналогично, если определенная группа людей имеет более низкий средний IQ, чем общая популяция, то ошибочно делать вывод о том, что случайно выбранный член группы с большей вероятностью будет иметь более низкий IQ, чем средний IQ общей популяции; также не обязательно, что случайно выбранный член группы с большей вероятностью будет иметь более низкий IQ, чем случайно выбранный член общей популяции. Математически это происходит из того факта, что распределение может иметь положительное среднее, но отрицательную медиану. Это свойство связано с асимметрией распределения .

Рассмотрим следующий числовой пример:

  • Группа A: 80% людей получили 40 баллов, а 20% из них получили 95 баллов. Средний балл — 51 балл.
  • Группа B: 50% людей получили 45 баллов и 50% получили 55 баллов. Средний балл — 50 баллов.
  • Если мы выберем двух случайных людей из А и В, то возможны 4 результата:
    • A – 40, B – 45 (B выигрывает, вероятность 40% – 0,8 × 0,5)
    • A – 40, B – 55 (B выигрывает, вероятность 40% – 0,8 × 0,5)
    • A – 95, B – 45 (A выигрывает, вероятность 10% – 0,2 × 0,5)
    • A – 95, B – 55 (A выигрывает, вероятность 10% – 0,2 × 0,5)
  • Хотя группа А имеет более высокий средний балл, в 80% случаев случайный человек из группы А будет иметь более низкий балл, чем случайный человек из группы В.

Индивидуальные и совокупные корреляции

Исследования, датируемые Эмилем Дюркгеймом, показывают, что в преимущественно протестантских населенных пунктах уровень самоубийств выше, чем в преимущественно католических . [3] По словам Фридмана, [4] идея о том, что выводы Дюркгейма связывают на индивидуальном уровне религию человека с его риском самоубийства, является примером экологического заблуждения. Отношения на уровне группы не характеризуют автоматически отношения на уровне индивида.

Аналогично, даже если на индивидуальном уровне богатство положительно коррелирует с тенденцией голосовать за республиканцев в Соединенных Штатах , мы наблюдаем, что более богатые штаты, как правило, голосуют за демократов . Например, на президентских выборах в Соединенных Штатах в 2004 году кандидат от республиканцев Джордж Буш -младший победил в пятнадцати беднейших штатах, а кандидат от демократов Джон Керри победил в 9 из 11 самых богатых штатов в Коллегии выборщиков . Тем не менее, 62% избирателей с годовым доходом более 200 000 долларов проголосовали за Буша, но только 36% избирателей с годовым доходом 15 000 долларов или меньше проголосовали за Буша. [5] Корреляция на совокупном уровне будет отличаться от корреляции на индивидуальном уровне, если предпочтения избирателей зависят от общего богатства штата даже после учета индивидуального богатства. Истинным движущим фактором предпочтений избирателей может быть самооценка относительного богатства; возможно, те, кто считает себя более обеспеченными, чем их соседи, с большей вероятностью проголосуют за республиканцев. В этом случае человек с большей вероятностью проголосует за республиканца, если станет богаче, но он с большей вероятностью проголосует за демократа, если богатство его соседа увеличится (что приведет к более богатому штату).

Однако наблюдаемая разница в избирательных привычках, основанных на богатстве на уровне штата и отдельного человека, может также объясняться распространенной путаницей между более высокими средними значениями и более высокими вероятностями, как обсуждалось выше. Штаты могут быть богаче не потому, что в них проживает больше богатых людей (т. е. больше людей с годовым доходом свыше 200 000 долларов), а скорее потому, что в них проживает небольшое количество сверхбогатых людей; экологическая ошибка тогда возникает из-за неправильного предположения, что люди в более богатых штатах с большей вероятностью будут богатыми.

Множество примеров экологических заблуждений можно найти в исследованиях социальных сетей, которые часто объединяют анализ и выводы с разных уровней. Это было проиллюстрировано в академической статье о сетях фермеров на Суматре . [6]

Парадокс Робинсона

В статье 1950 года Уильяма С. Робинсона был вычислен уровень неграмотности и доля населения, родившегося за пределами США, для каждого штата и для округа Колумбия по данным переписи 1930 года . [7] Он показал, что эти две цифры были связаны с отрицательной корреляцией -0,53; другими словами, чем больше доля иммигрантов в штате, тем ниже его средний уровень неграмотности (или, что эквивалентно, тем выше его средний уровень грамотности). Однако, когда рассматриваются отдельные лица, корреляция между неграмотностью и происхождением составляла +0,12 (иммигранты были в среднем более неграмотными, чем коренные граждане). Робинсон показал, что отрицательная корреляция на уровне населения штата была связана с тем, что иммигранты имели тенденцию селиться в штатах, где коренное население было более грамотным. Он предостерег от вывода выводов об отдельных лицах на основе данных на уровне населения или «экологических» данных. В 2011 году было обнаружено, что расчеты Робинсона экологических корреляций основаны на неверных данных на уровне штата. Упомянутая выше корреляция −0,53 на самом деле равна −0,46. [8] Статья Робинсона была основополагающей, но термин «экологическое заблуждение» был введен только в 1958 году Селвином. [9]

Формальная проблема

Корреляция совокупных величин (или экологическая корреляция ) не равна корреляции индивидуальных величин. Обозначим через X iY i две величины на индивидуальном уровне. Формула для ковариации совокупных величин в группах размера N имеет вид

ков ( я = 1 Н И я , я = 1 Н Х я ) = я = 1 Н ков ( И я , Х я ) + я = 1 Н л я ков ( И л , Х я ) {\displaystyle \operatorname {cov} \left(\sum _{i=1}^{N}Y_{i},\sum _{i=1}^{N}X_{i}\right)=\sum _{i=1}^{N}\operatorname {cov} (Y_{i},X_{i})+\sum _{i=1}^{N}\sum _{l\neq i}\operatorname {cov} (Y_{l},X_{i})}

Ковариация двух агрегированных переменных зависит не только от ковариации двух переменных в пределах одних и тех же индивидуумов, но и от ковариаций переменных между разными индивидуумами. Другими словами, корреляция агрегированных переменных учитывает перекрестные эффекты, которые не имеют значения на индивидуальном уровне.

Проблема корреляций естественным образом влечет за собой проблему регрессий на агрегированных переменных: поэтому ошибка корреляции является важной проблемой для исследователя, который хочет измерить причинно-следственные связи. Начните с регрессионной модели, где на результат влияет И я {\displaystyle Y_{i}} Х я {\displaystyle X_{i}}

И я = α + β Х я + ты я , {\displaystyle Y_{i}=\альфа +\бета X_{i}+u_{i},}
ков [ ты я , Х я ] = 0. {\displaystyle \operatorname {cov} [u_{i},X_{i}]=0.}

Регрессионная модель на совокупном уровне получается путем суммирования отдельных уравнений:

я = 1 Н И я = α Н + β я = 1 Н Х я + я = 1 Н ты я , {\displaystyle \sum _{i=1}^{N}Y_{i}=\alpha \cdot N+\beta \sum _{i=1}^{N}X_{i}+\sum _{i=1}^{N}u_{i},}
ков [ я = 1 Н ты я , я = 1 Н Х я ] 0. {\displaystyle \operatorname {cov} \left[\sum _{i=1}^{N}u_{i},\sum _{i=1}^{N}X_{i}\right]\neq 0.}

Ничто не мешает регрессорам и ошибкам коррелировать на совокупном уровне. Поэтому, как правило, запуск регрессии на совокупных данных не оценивает ту же модель, что и запуск регрессии с индивидуальными данными.

Агрегированная модель верна тогда и только тогда, когда

ков [ ты я , к = 1 Н Х к ] = 0  для всех  я . {\displaystyle \operatorname {cov} \left[u_{i},\sum _{k=1}^{N}X_{k}\right]=0\quad {\text{ для всех }}i.}

Это означает, что контроль за не определяет . Х я {\displaystyle X_{i}} к = 1 Н Х к {\displaystyle \sum _{k=1}^{N}X_{k}} И я {\displaystyle Y_{i}}

Выбор между совокупным и индивидуальным выводом

Нет ничего плохого в запуске регрессий на агрегированных данных, если вас интересует агрегированная модель. Например, для губернатора штата правильно запустить регрессии между полицейскими силами и уровнем преступности на уровне штата, если вас интересуют политические последствия увеличения численности полицейских сил. Однако, если городской совет выведет влияние увеличения численности полицейских сил на уровень преступности на уровне города из корреляции на уровне штата, произойдет экологическое заблуждение.

Выбор между совокупными и индивидуальными регрессиями для понимания совокупного воздействия на некоторую политику зависит от следующего компромисса: совокупные регрессии теряют данные на индивидуальном уровне, но индивидуальные регрессии добавляют сильные допущения моделирования. Некоторые исследователи предполагают, что экологическая корреляция дает лучшую картину результатов действий государственной политики, поэтому они рекомендуют экологическую корреляцию вместо корреляции на индивидуальном уровне для этой цели (Lubinski & Humphreys, 1996). Другие исследователи не согласны, особенно когда отношения между уровнями нечетко смоделированы. Чтобы предотвратить экологическую ошибку, исследователи, не имеющие индивидуальных данных, могут сначала смоделировать то, что происходит на индивидуальном уровне, затем смоделировать, как связаны индивидуальные и групповые уровни, и, наконец, изучить, добавляет ли что-либо, происходящее на групповом уровне, к пониманию взаимосвязи. Например, при оценке воздействия государственной политики полезно знать, что воздействие политики меньше различается между штатами, чем сама политика, что предполагает, что различия в политике не очень хорошо транслируются в результаты, несмотря на высокие экологические корреляции (Rose, 1973).

Групповые и общие средние значения

Экологическое заблуждение может также относиться к следующему заблуждению: среднее значение для группы аппроксимируется средним значением для всей популяции, деленным на размер группы. Предположим, что известно число протестантов и уровень самоубийств в США, но нет данных, связывающих религию и самоубийства на индивидуальном уровне. Если кого-то интересует уровень самоубийств протестантов, то ошибкой будет оценивать его по общему уровню самоубийств, деленному на число протестантов. Формально обозначим среднее значение для группы, обычно имеем: П [ Самоубийство протестантский ] {\displaystyle P[{\text{Самоубийство}}\mid {\text{Протестант}}]}

П [ Самоубийство протестантский ] П [ Самоубийство ] П ( протестантский ) {\displaystyle P[{\text{Самоубийство}}\mid {\text{Протестант}}]\neq {\frac {P[{\text{Самоубийство}}]}{P({\text{Протестант}})}}}

Однако закон полной вероятности дает

П [ Самоубийство ] = П [ Самоубийство протестантский ] П ( протестантский ) + П [ Самоубийство не протестант ] ( 1 П ( протестантский ) ) {\displaystyle {\begin{aligned}P[{\text{Самоубийство}}]={\color {Синий}P[{\text{Самоубийство}}\mid {\text{Протестант}}]}P({\text{Протестант}})+{\color {Синий}P[{\text{Самоубийство}}\mid {\text{не протестант}}]}(1-P({\text{Протестант}}))\end{aligned}}}

Поскольку мы знаем, что находится в диапазоне от 0 до 1, это уравнение дает оценку для . П [ Самоубийство не протестант ] {\displaystyle P[{\text{Самоубийство}}\mid {\text{не протестант}}]} П [ Самоубийство протестантский ] {\displaystyle P[{\text{Самоубийство}}\mid {\text{Протестант}}]}

Парадокс Симпсона

Ярким экологическим заблуждением является парадокс Симпсона : тот факт, что при сравнении двух популяций, разделенных на группы, среднее значение некоторой переменной в первой популяции может быть выше в каждой группе и ниже в общей популяции. Формально, когда каждое значение Z относится к разным группам, а X относится к некоторому лечению, может случиться, что

Э [ И З = з , Х = 1 ] > Э [ И З = з , Х = 0 ]   для всех  з ,  пока  Э [ И Х = 1 ] < Э [ И Х = 0 ] {\displaystyle E[Y\mid Z=z,X=1]>E[Y\mid Z=z,X=0]\ {\text{для всех }}z,{\text{ пока }}E[Y\mid X=1]<E[Y\mid X=0]}

Когда не зависит от , парадокс Симпсона — это в точности смещение пропущенной переменной для регрессии Y на X , где регрессор — фиктивная переменная , а пропущенная переменная — категориальная переменная, определяющая группы для каждого принимаемого ею значения. Применение поразительно, поскольку смещение достаточно велико, чтобы параметры имели противоположные знаки. Э [ И З = з , Х = 1 ] Э [ И З = з , Х = 0 ] {\displaystyle E[Y\mid Z=z,X=1]-E[Y\mid Z=z,X=0]} З {\displaystyle Z} Х {\displaystyle X} З {\displaystyle Z}

Экологическое заблуждение обсуждалось в судебном оспаривании выборов губернатора Вашингтона 2004 года , на которых после выборов было выявлено несколько нелегальных избирателей; их голоса были неизвестны, поскольку голосование было тайным . Протестующие утверждали, что нелегальные голоса, поданные на выборах, следовали бы моделям голосования округов, на которых они были поданы, и поэтому должны быть сделаны соответствующие корректировки. [10] Эксперт-свидетель сказал, что этот подход был похож на попытку выяснить средний показатель отбивания Ичиро Судзуки , глядя на средний показатель отбивания всей команды Seattle Mariners , поскольку нелегальные голоса были поданы нерепрезентативной выборкой избирателей каждого округа и могли отличаться от среднего избирателя в округе так же, как Ичиро отличался от остальной части своей команды. [11] Судья определил, что аргумент протестующих был экологическим заблуждением, и отклонил его. [12]

Смотрите также

Ссылки

  1. ^ Чарльз Эсс; Фэй Садуикс (2001). Культура, технология, коммуникация: на пути к межкультурной глобальной деревне . SUNY Press. стр. 90. ISBN 978-0-7914-5015-4Проблема заключается в «экологическом заблуждении» (или заблуждении разделения) — стремлении применять характеристики группового или общественного уровня к индивидам внутри этой группы .
  2. ^ Кинг, Гэри (1997). Решение проблемы экологического вывода. Princeton University Press. ISBN 978-0-691-01240-7.
  3. ^ Дюркгейм, (1951/1897). Самоубийство: исследование по социологии . Перевод Джона А. Сполдинга и Джорджа Симпсона. Нью-Йорк: The Free Press. ISBN 0-684-83632-7 . 
  4. ^ Фридман, ДА (1999). Экологический вывод и экологическое заблуждение. Международная энциклопедия социальных и поведенческих наук , Технический отчет № 549. https://web.stanford.edu/class/ed260/freedman549.pdf
  5. ^ Гельман, Эндрю ; Парк, Дэвид; Шор, Борис; Бафуми, Джозеф; Кортина, Джеронимо (2008). Красный штат, Синий штат, Богатый штат, Бедный штат . Princeton University Press . ISBN 978-0-691-13927-2.
  6. ^ Матоус, Петр (2015). «Социальные сети и управление окружающей средой на нескольких уровнях: сохранение почв на Суматре». Экология и общество . 20 (3): 37. doi : 10.5751/ES-07816-200337 . hdl : 10535/9990 .
  7. ^ Робинсон, WS (1950). «Экологические корреляции и поведение индивидуумов». American Sociological Review . 15 (3): 351– 357. doi :10.2307/2087176. JSTOR  2087176.
  8. Исследовательская заметка об этом любопытном сбое в данных опубликована в Te Grotenhuis, Manfred; Eisinga, Rob; Subramanian, SV (2011). «Экологические корреляции Робинсона и поведение индивидуумов: методологические исправления». Int J Epidemiol . 40 (4): 1123– 1125. doi : 10.1093/ije/dyr081 . hdl : 2066/99678 . PMID  21596762.Данные, которые использовал Робинсон, и исправления доступны по адресу [1].
  9. ^ Сельвин, Ханан К. (1958). « Самоубийство Дюркгейма и проблемы эмпирического исследования». Американский журнал социологии . 63 (6): 607– 619. doi :10.1086/222356. S2CID  143488519.
  10. Джордж Хоуленд-младший (18 мая 2005 г.). «Суд над гаечным ключом: оспаривание Дино Росси результатов выборов 2004 года имеет шаткую правовую основу. Но если он победит, то увидите, как судебные разбирательства станут вариантом в напряженных гонках по всему миру». Seattle Weekly . Архивировано из оригинала 1 декабря 2008 г. Получено 17 декабря 2008 г.
  11. Кристофер Адольф (12 мая 2005 г.). «Отчет о выборах губернатора Вашингтона 2004 г.». Отчет эксперта-свидетеля в Высшем суде округа Челан в деле Borders et al v. King County et al.
  12. Бордерс и др. против округа Кинг и др. Архивировано 18 октября 2008 г. на Wayback Machine , стенограмма решения судьи Верховного суда округа Челан Джона Бриджеса от 6 июня 2005 г., опубликовано 8 июня 2005 г.

Дальнейшее чтение

  • Любински, Д.; Хамфрис, Л. Г. (1996). «Видение леса по деревьям: при прогнозировании поведения или статуса групп коррелируйте средства». Психология, государственная политика и право . 2 (2): 363– 376. doi :10.1037/1076-8971.2.2.363. S2CID  45240767.
  • Роуз, Д.Д. (1973). «Национальные и местные силы в государственной политике: последствия многоуровневого анализа политики». American Political Science Review . 67 (4): 1162– 1173. doi : 10.2307/1956538. JSTOR  1956538. S2CID  147154467.
Взято с "https://en.wikipedia.org/w/index.php?title=Экологическое_заблуждение&oldid=1269955729"