В экспериментах переток — это косвенное воздействие на субъекта, не затронутого экспериментом напрямую. Эти эффекты полезны для анализа политики , но усложняют статистический анализ экспериментов.
Анализ побочных эффектов подразумевает ослабление предположения о невмешательстве, или SUTVA (предположение о стабильной ценности лечения единицы). Это предположение требует, чтобы раскрытие субъектом i своих потенциальных результатов зависело только от собственного статуса лечения этого субъекта i и не было затронуто статусом лечения другого субъекта j . В обычных условиях, когда исследователь стремится оценить средний эффект лечения ( ), нарушение предположения о невмешательстве означает, что традиционные оценщики для ATE, такие как разница в средних значениях, могут быть смещены . Однако существует много реальных случаев, когда раскрытие подразделением потенциальных результатов зависит от назначения лечения другому подразделению, и анализ этих эффектов может быть столь же важным, как и анализ прямого эффекта лечения.
Одним из решений этой проблемы является переопределение причинной оценки интереса путем переопределения потенциальных результатов субъекта с точки зрения собственного статуса лечения и статуса лечения связанных субъектов. Затем исследователь может проанализировать различные оценки интереса по отдельности. Одно важное предположение здесь заключается в том, что этот процесс охватывает все модели перетоков и что не остается никаких немоделированных перетоков (например, перетоки происходят в пределах домохозяйства из двух человек, но не за его пределами).
После того, как потенциальные результаты переопределены, остальная часть статистического анализа включает моделирование вероятностей подвергнуться лечению с учетом определенного графика назначения лечения и использование обратного взвешивания вероятности (IPW) для получения несмещенных (или асимптотически несмещенных) оценок интересующей величины.
Эффекты перетока могут возникать различными способами. Распространенные приложения включают анализ перетоков социальных сетей и географических перетоков. Вот несколько примеров:
В таких примерах лечение в рандомизированном контролируемом исследовании может иметь прямой эффект на тех, кто получает вмешательство, а также побочный эффект на тех, кто не подвергался непосредственному лечению.
Оценка побочных эффектов в экспериментах поднимает три статистических вопроса, которые исследователи должны учитывать.
Одним из ключевых предположений для беспристрастного вывода является предположение о невмешательстве, которое утверждает, что потенциальные результаты индивидуума раскрываются только его собственным назначением лечения, а не назначением лечения других. [7] Это предположение также называется индивидуалистическим ответом на лечение [8] или предположением о стабильной ценности лечения единицы . Невмешательство нарушается, когда субъекты могут общаться друг с другом о своем лечении, решениях или опыте, тем самым влияя на потенциальные результаты друг друга. Если предположение о невмешательстве не выполняется, единицы больше не имеют только два потенциальных результата (леченый и контрольный), а множество других потенциальных результатов, которые зависят от назначений лечения других единиц, [9] что усложняет оценку среднего эффекта лечения .
Оценка эффектов перетока требует ослабления предположения о невмешательстве. Это связано с тем, что результаты подразделения зависят не только от его назначения лечения, но и от назначения лечения его соседей. Исследователь должен установить набор потенциальных результатов, которые ограничивают тип вмешательства. В качестве примера рассмотрим эксперимент, в котором студентам бакалавриата рассылают политическую информацию для повышения их политического участия. Если исследуемая группа состоит из всех студентов, живущих с соседом по комнате в общежитии колледжа, можно представить четыре набора потенциальных результатов в зависимости от того, получил ли информацию студент или его партнер (предположим, что перетока за пределами каждой двухместной комнаты не было):
Теперь на результаты человека влияет как то, получил ли он лечение, так и то, получил ли его сосед по комнате лечение. Мы можем оценить один тип эффекта перелива , посмотрев, как результаты человека изменяются в зависимости от того, получил ли его сосед по комнате лечение или нет, при условии, что человек не получал лечения напрямую. Это будет отражено разницей Y 0,1 - Y 0,0 . Аналогичным образом мы можем измерить, как результаты человека изменяются в зависимости от статуса лечения его соседа по комнате, когда сам человек проходит лечение. Это равносильно взятию разницы Y 1,1 - Y 1,0 .
В то время как исследователи обычно принимают эксперименты , поскольку они требуют менее требовательных предположений, перетоки могут быть «неограниченными по объему и не поддающимися определению по форме». [10] Исследователь должен сделать конкретные предположения о том, какие типы перетоков являются действующими. Можно ослабить предположение о невмешательстве различными способами в зависимости от того, как перетоки, как предполагается, происходят в данной обстановке. Одним из способов моделирования эффектов перетока является бинарный индикатор того, был ли также обработан непосредственный сосед, как в примере выше. Можно также постулировать эффекты перетока, которые зависят от количества непосредственных соседей, которые также были обработаны, также известные как эффекты уровня k. [11]
Следующим шагом после переопределения интересующей нас причинной оценки является характеристика вероятности побочного воздействия для каждого субъекта в анализе с учетом некоторого вектора назначения лечения. Аронов и Самии (2017) [12] представляют метод получения матрицы вероятностей воздействия для каждой единицы в анализе.
Сначала определим диагональную матрицу с вектором вероятностей назначения лечения
Во-вторых, определите матрицу индикаторов того, подвержен ли блок переливу или нет. Это делается с помощью матрицы смежности , как показано справа, где информация о сети может быть преобразована в матрицу индикаторов. Эта результирующая матрица индикаторов будет содержать значения , реализованные значения случайной двоичной переменной , указывающие, подвержен ли блок переливу или нет.
В-третьих, получим сэндвич-продукт , матрицу N × N , содержащую два элемента: индивидуальную вероятность воздействия по диагонали и совместные вероятности воздействия по диагоналям:
Обратите внимание, что диагонали во второй матрице равны 0, поскольку субъект не может одновременно подвергаться воздействию двух различных условий воздействия, точно так же, как субъект не может одновременно выявить два различных потенциальных результата.
Полученные вероятности воздействия затем можно использовать для обратного взвешивания вероятностей (IPW, описано ниже) в оценщике, таком как оценщик Хорвица–Томпсона .
Важное предостережение заключается в том, что эта процедура исключает все единицы, вероятность воздействия которых равна нулю (например, единицы, не связанные ни с какими другими единицами), поскольку эти числа оказываются в знаменателе регрессии IPW.
Оценка эффектов перетока требует дополнительной осторожности: хотя лечение назначается напрямую, статус перетока назначается косвенно и может привести к дифференциальным вероятностям назначения перетока для единиц. Например, субъект с 10 дружескими связями с большей вероятностью будет косвенно подвержен лечению, чем субъект с только одной дружеской связью. Неучет различных вероятностей воздействия перетока может исказить оценки среднего эффекта перетока.
На рисунке 1 показан пример, в котором подразделения имеют различные вероятности назначения в условие перетока. На подрисунке A показана сеть из 25 узлов, в которой подразделения, выделенные зеленым цветом, имеют право на лечение. Перетоки определяются как разделяющие по крайней мере одно ребро с обработанным подразделением. Например, если узел 16 обработан, узлы 11, 17 и 21 будут классифицированы как подразделения перетока. Предположим, что три из этих шести зеленых подразделений выбраны случайным образом для лечения, так что возможны различные наборы назначений лечения. В этом случае на подрисунке B показана вероятность назначения каждого узла условию перетока. Узел 3 назначается в условие перетока в 95% рандомизаций, поскольку он разделяет ребра с тремя обработанными подразделениями. Этот узел будет контрольным узлом только в 5% рандомизаций: то есть, когда три обработанных узла — 14, 16 и 18. Между тем, узел 15 назначается для перетока только в 50% случаев — если узел 14 не подвергается прямой обработке, узел 15 не будет назначен для перетока.
При анализе экспериментов с различными вероятностями назначения следует соблюдать особые меры предосторожности. Эти различия в вероятностях назначения могут быть нейтрализованы регрессией с обратной вероятностью (IPW) , где каждое наблюдение взвешивается обратной величиной его вероятности быть назначенным условию лечения, наблюдаемому с использованием оценщика Хорвица-Томпсона . [13] Этот подход решает проблему смещения , которое может возникнуть, если потенциальные результаты были систематически связаны с вероятностями назначения. Недостатком этого оценщика является то, что он может быть чреват изменчивостью выборки , если некоторым наблюдениям придается большой вес (т. е. единица с низкой вероятностью быть переливом случайно назначается условию перелива).
В некоторых условиях оценка изменчивости эффекта перетока создает дополнительные трудности. Когда исследование имеет фиксированную единицу кластеризации , такую как школа или домохозяйство, исследователи могут использовать традиционные инструменты корректировки стандартных ошибок , такие как кластерно-устойчивые стандартные ошибки, которые допускают корреляции в терминах ошибок внутри кластеров, но не между ними. [14] Однако в других условиях нет фиксированной единицы кластеризации. Для проведения проверки гипотез в этих условиях рекомендуется использовать вывод рандомизации . [15] Этот метод позволяет генерировать p-значения и доверительные интервалы, даже когда перетоки не придерживаются фиксированной единицы кластеризации, но близлежащие единицы, как правило, назначаются аналогичным условиям перетока, как в случае нечеткой кластеризации .