Шрифт:
Интервал:
Закладка:
Подводя итоги, отметим, что формула поправок черного хода и критерий черного хода как две стороны одной монеты. Критерий черного хода сообщает нам, какие переменные следует использовать, чтобы снять осложнения. Формула поправок непосредственно снимает их. В простейшем случае линейной регрессии коэффициенты частичной регрессии осуществляют поправку черного хода имплицитно. В непараметрических случаях нам придется выполнять поправки эксплицитно либо с помощью формулы поправок черного хода прямо с исходными данными, либо с какой-либо их экстраполированной версией.
Вы могли подумать, что наше восхождение на гору Интервенцию на этом закончилось полнейшим успехом. Однако, к сожалению, поправки не работают совсем, если имеется путь через черный ход, который мы не в состоянии заблокировать, потому что у нас нет требующихся для этого данных. Однако даже в этом случае мы можем использовать определенные приемы. Далее я расскажу вам об одном из моих любимых методов, называемом поправкой парадного входа. Хотя он был описан более 20 лет назад, только горстка исследователей за это время воспользовалась этой короткой дорогой на гору Интервенцию, и я убежден, что его потенциал еще предстоит раскрыть.
Критерий парадного входа
Дебаты о каузальном воздействии курения происходили по крайней мере за два поколения до того, как каузальные диаграммы могли бы в них поучаствовать. Мы уже рассмотрели, как неравенство Корнфилда помогло уверить исследователей, что ген курильщика, или конституциональная гипотеза, — очень неправдоподобное предположение. Однако более радикальный подход с использованием каузальных диаграмм пролил бы больше света на гипотетический ген и, вероятно, полностью исключил его из дальнейшего обсуждения.
Рис. 41. Гипотетическая каузальная диаграмма для связи курения и рака легких, подходящая для поправок парадного входа
Предположим, что исследователи прошлого смогли измерить отложения смол в легких курильщиков. Еще в 1950-х это называлось в качестве одной из промежуточных стадий в развитии рака легких. Предположим также, что мы, совсем как министр здравоохранения, хотим исключить гипотезу Р. Э. Фишера о том, что ген курильщика является конфаундером по отношению к привычке курить и раку легких. Тогда ситуацию выше описывает каузальная диаграмма на рис. 41.
Рисунок 41 включает два очень важных допущения, которые будут важны для целей нашего примера. Первое: ген курильщика не оказывает никакого воздействия на формирование отложений смол, которые зависят исключительно от физического действия сигаретного дыма (это допущение отражено на схеме отсутствием стрелки между геном курильщика и смолой; оно, однако, не исключает случайные факторы, не имеющие отношения к гену курильщика). Второе значительное допущение состоит в том, что курение ведет к раку только через накопления отложений смол. Таким образом, на схеме нет прямой стрелки от курения к раку и нет также других непрямых путей.
Допустим, что мы выполняем исследование на основе наблюдаемых данных и собрали информацию по курению, смоле и раку для каждого из участников. Нам, к сожалению, недоступны данные по гену курильщика, потому что неизвестно, существует ли такой ген. Поскольку таким образом у нас отсутствуют сведения по переменной-конфаундеру, мы не в состоянии заблокировать путь через черный ход курение ← ген курильщика → рак. Таким образом, мы не можем и использовать поправки черного хода для устранения воздействия конфаундера. Поэтому нам придется искать другие способы. Вместо перемещения черным ходом мы пойдем через парадный вход! В приведенном случае это прямой каузальный путь курение → смола → рак, для которого у нас есть данные по всем трем переменным. Интуитивно мы рассуждаем следующим образом. Прежде всего, мы в состоянии оценить средний каузальный эффект влияния курения на смолу, потому что на схеме нет незаблокированных путей через черный ход от курения к раку — путь курение ← ген курильщика → рак ← смола уже заблокирован схождением у переменной рак. Поскольку этот путь уже заблокирован, нам даже не нужна поправка черного хода. Мы просто наблюдаем вероятности P (смола | привычка курить) и P (смола | отсутствие привычки курить), а разница между ними и будет средним каузальным воздействием курения на смолу. Аналогично диаграмма позволяет нам оценить среднее каузальное воздействие смолы на рак. Чтобы сделать это, мы заблокируем путь черного хода от смолы к раку: смола ← курение ← ген курильщика → рак, введя поправки по курению. Здесь пригодятся уроки главы 4: нам нужны только данные по минимальному достаточному набору переменных, снимающих осложнения (здесь — курение). Тогда формула поправки черного хода даст нам вероятности P (рак | do (смола)) и P (рак | do (отсутствие смолы)). Разница между этими двумя вероятностями и будет средним каузальным воздействием смолы на рак.
Теперь нам известно среднее увеличение вероятности отложения смол благодаря курению и среднее увеличение вероятности заболеть раком из-за отложения смол. Можем ли мы как-либо объединить эти вероятности, чтобы получить средний рост заболеваемости раком из-за курения? Да, можем. Рассуждаем мы при этом таким образом: рак возникает двумя путями: при отложении смол и без отложения смол. Если мы заставим кого-либо курить, вероятности этих двух состояний будут соответственно P (смола | do (курение)) и P (отсутствие смолы | do (отсутствие курения)). Однако, если возникнет состояние отсутствия смолы, вероятность рака будет P (рак | do (отсутствие смолы)). Оценив оба сценария по их относительным вероятностям при do (курение), получится рассчитать общую вероятность возникновения рака по причине курения. Те же аргументы действуют, если мы не даем кому-либо курить, — do (отсутствие курения). Разница между результатами дает нам среднее каузальное воздействие курения по сравнению с воздержанием от него на возникновение рака. Как я только что объяснил, мы оцениваем каждую из двух do-вероятностей, обсужденных выше, прямо из данных, т. е. записываем их математически в терминах вероятностей, не использующих оператор do. Таким образом, математика делает для нас то, чего не могли добиться десятилетия споров и свидетельств конгрессов, — количественно оценить каузальное воздействие курения на рак, конечно, при условии, что наши предположения верны.
Процесс, который я только что представил, описывающий вероятность P (рак | (курение)) в терминах вероятностей, исключающих оператор do, называется поправкой парадного входа. От поправки черного хода он отличается тем, что мы вносим поправки для двух переменных (курение и смола) вместо одной, и эти переменные лежат на прямом пути от курения к раку, а не на пути через черный