Шрифт:
Интервал:
Закладка:
Оператор Do и критерий черного хода
Чтобы понять, как работает критерий черного хода, лучше сначала интуитивно представить себе, как двигается информация в каузальной диаграмме. Мне нравится представлять связи как трубы, по которым информация распространяется от стартовой точки X до финиша Y. Не забывайте, что распространение информации идет одновременно по двум направлениям — по каузальному и некаузальному, как мы видели в главе 3.
На самом деле некаузальные пути как раз и являются источником конфаундеров. Вспомним, что я определяю их как все, что вынуждает P (Y | do (X)) отличаться от P (Y | X). Оператор do стирает все стрелки, которые входят в X и предотвращает движение информации от X в некаузальном направлении. Таким же эффектом обладает рандомизация. Наконец, к тому же самому приводит введение статистических поправок, если правильно выбрать переменные, по которым эти поправки следует вводить.
В предыдущей главе мы рассмотрели три правила, которые рассказывают нам, как остановить поток информации по любому отдельно взятому соединению. Я повторю их, чтобы подчеркнуть:
а) в соединении типа «цепочка» A → B → C введение поправок по B предотвращает движение информации об А к C и наоборот;
б) в вилке, или вмешивающемся соединении A ← B → C поправки по B также предотвращают движение информации об А к C и наоборот;
в) в коллайдере A → B ← C действуют прямо противоположные правила. Переменные A и C изначально независимы, поэтому информация об А ничего не говорит о C. Но если вы вводите поправки по B, информация начинает распространяться по «трубе», благодаря эффекту объяснения. Мы должны также держать в уме еще одно фундаментальное правило:
г) выравнивание по нисходящей или опосредованной переменной подобно частичному выравниванию по исследуемой переменной. Выравнивание по переменной, нисходящей по отношению к медиатору, частично закрывает трубу; выравнивание по переменной, нисходящей по отношению к точке схождения, частично открывает трубу.
А что же будет в случае более длинных труб с большим числом соединений, вроде такой: A ← B ← C → D ← E → F → → G → H ← I ← J?
Ответ очень прост: если хоть одна связь окажется заблокирована, то J ничего не сможет «узнать» про A по этому пути. Таким образом, у нас множество вариантов прервать сообщение между A и J: вводить поправки по B, по С, не вводить поправки по D (потому что это коллайдер), вводить по E и т. д. Достаточно любого из этих вариантов.
Вот почему обычная статистическая процедура выравнивания по всем параметрам, которые только можно измерить, так ошибочна. На самом деле приведенный выше путь заблокирован даже в том случае, если мы не вводим никаких поправок! Коллайдеры к D и G закрывают путь без посторонней помощи. Введение поправок по D и G откроет этот путь и позволит J «услышать» A.
Итак, чтобы устранить конфаундеры между X и Y, нам необходимо только заблокировать все некаузальные пути между ними, не блокируя и не нарушая каузальные пути. Выражаясь точнее, путь черного хода — это любой путь от X до Y, который начинается со стрелки, входящей в Х. Конфаундеры между X и Y будут устранены, если мы закроем все черные ходы (потому что такие пути допускают ложную корреляцию между X и Y). Если мы делаем это, выравнивая выборку по некоторому набору переменных Z, следует также убедиться, что ни один фактор из Z не является нисходящей переменной по отношению к X на каузальном пути, иначе этот путь полностью или частично закроется.
Вот и все! С этими правилами устранение конфаундеров становится настолько элементарным делом, что можно воспринимать его как игру. Я предлагаю вам несколько примеров, чтобы войти во вкус и увидеть, как это просто. Если вам все еще кажется, что это сложно, будьте уверены, что существуют алгоритмы, решающие все эти задачи в течение наносекунд. В каждом случае цель игры — определить набор переменных, которые устранят конфаундеры между X и Y. Другими словами, они не должны исходить от X и они должны блокировать все черные ходы.
Игра 1
Эта — совсем простая! К X не идет ни одной стрелки, следовательно, черных ходов нет. Нам не нужно вводить никаких поправок.
Тем не менее некоторые исследователи сочтут B конфаундером. Оно связано с X по цепочке X → A → B. Оно связано с Y у особей, у которых X = 0, потому что имеется открытый путь B ← A → Y, не проходящий через Х. И при этом B не находится на каузальном пути X → A → Y. Таким образом, оно проходит трехступенчатое «классическое эпидемиологическое» определение конфаундера, но не соответствует критерию черного хода и поправки, введенные по нему, чреваты неприятностями.
Игра 2
В этом примере следует рассматривать A, B, C и D как «доэкспериментальные» переменные (экспериментальное воздействие, как всегда, обозначено X). Теперь имеется один черный ход X ← A → B ← D → E → Y. Этот путь уже блокирован коллайдером в B, поэтому нам опять не нужно вводить никаких поправок. Многие статистики стали бы выравнивать выборки по B или C, думая, что в этом нет вреда, поскольку они случаются до опыта. Один известный статистик еще совсем недавно писал: «Избегание введения поправок по некоторым наблюдаемым ковариантам… это ненаучная кустарщина». Он неправ: поправки по B или C — плохая идея, потому что они откроют некаузальный путь и создадут конфаундеры между X и Y. Обратите внимание, что в этом случае мы можем снова закрыть этот путь, корректируя по A или D. Этот образец показывает, что доступны различные стратегии устранения конфаундеров. Одни исследователи пойдут легким путем и не будут вводить никаких поправок; более традиционный подход предполагает корректировку по С и D. Оба варианта верны и приведут к одному и тому же результату (если модель верна, а выборка достаточно велика).
Игра 3
В играх 1 и 2 вам не нужно было ничего делать, но теперь придется. Имеется