Шрифт:
Интервал:
Закладка:
Статистика смертей легла в основу невеселой гипотезы Сноу. Кварталы, снабжавшиеся компанией «Саутворк и Воксхолл», особенно сильно страдали от холеры, и смертность в них была в восемь раз выше. Однако, несмотря на это, прямых доказательств под рукой не было. Защитники теории миазмов заявили бы, что ядовитые испарения были гораздо сильнее именно в этих районах, и их невозможно было бы опровергнуть. На языке каузальных диаграмм наша ситуация описывается рис. 47. Мы не в состоянии получить данные по конфаундеру миазмы (или другим конфаундерам, таким как бедность), поэтому мы не вправе ввести по нему поправки по методу черного хода.
Здесь Сноу додумался до поистине блестящей идеи. Он обнаружил, что в тех районах, куда был проведен водопровод из обеих компаний, смертность была все-таки значительно выше в домохозяйствах, получавших воду от «Саутворка». Однако они не отличались от соседних ни по уровню миазмов, ни по уровню бедности. «Водопроводы двух поставщиков переплетаются самым тесным образом, — писал Сноу. — Трубы каждой из двух компаний тянутся по каждой улице и входят почти в каждый двор и переулок. … Обе компании снабжают водой и богатых, и бедных, и большие дома, и маленькие домики: невозможно обнаружить разницы ни в благосостоянии, ни в роде занятий между гражданами, получающими воду от той или иной компании».
Хотя понятие о рандомизированном контролируемом исследовании было еще делом будущего, все выглядело так, будто водопроводные компании поставили на лондонцах РКИ. На самом деле Сноу даже обращает на это внимание: «Невозможно было бы спланировать опыт, который бы лучше выявил воздействие источника воды на распространение холеры, нежели этот, который обстоятельства в готовом виде предоставили наблюдателю. Размах этого опыта так же роскошен: не менее 300 тысяч людей обоих полов, всех возрастов и родов занятий, вне зависимости от чина и благосостояния, от дворянства до нищей бедноты, разделили на две группы без их спроса и в большей части случаев без их ведома».
Одна группа получала чистую воду; другая получала воду, загрязненную канализационными стоками.
Рис. 47. Каузальная диаграмма для холеры (до открытия холерного вибриона)
Наблюдения Сноу добавили к каузальной диаграмме еще одну переменную, и теперь она выглядит как рис. 48. Рискованное детективное исследование доктора Сноу привело к двум важным открытиям: 1) нет стрелки между миазмами и водопроводной компанией (эти две переменные независимы) и 2) есть стрелка между водопроводной компанией и чистотой воды. Третье обстоятельство не было упомянуто доктором Сноу, но не менее важно: 3) отсутствие прямой стрелки от водопроводной компании к холере, что сегодня для нас вполне очевидно, потому что теперь мы знаем, что водопроводные компании не доставляли холеру в дома своих клиентов каким-либо другим путем.
Переменная, которая удовлетворяет таким трем условиям, сегодня называется инструментальной переменной. Совершенно ясно, что Сноу воспринимал эту переменную как подбрасывание монеты, которое симулирует переменную без входящих стрелок. Поскольку во взаимоотношениях между переменными водопроводная компания и холера нет конфаундеров, любая наблюдаемая между ними связь должна быть причинно-следственной. Аналогично, поскольку воздействие водопроводной компании на холеру осуществляется через чистоту воды, мы (как и когда-то Сноу) заключаем, что наблюдаемая ассоциация между чистотой воды и холерой тоже должна быть причинно-следственной. Свой вывод Сноу вынес в недвусмысленных терминах: если компания «Саутворк и Воксхол» перенесет водозабор выше по течению, это спасет тысячи жизней.
В то время на выводы доктора Сноу обратили внимание лишь немногие. Свои результаты он опубликовал в брошюре, изданной за его собственный счет: по рукам разошлись только 56 экземпляров этой брошюры. В наше время эпидемиологи рассматривают ее как основополагающий документ для всей своей дисциплины. Она показала, что старомодное расследование «на подметках ботинок» (эту фразу я позаимствовал у Дэвида Фридмана) вместе с применением каузальных рассуждений позволяют вычислить убийцу.
Хотя теория миазмов в наше время полностью развенчана, бедность в этом примере, несомненно, являлась конфаундером, как, впрочем, и местоположение. Однако, даже не собирая данные по этим переменным (так далеко опросы доктора Сноу не заходили), а используя лишь инструментальную переменную, мы способны вычислить, сколько жизней было бы спасено благодаря чистой воде.
Рис. 48. Диаграмма для холеры после введения инструментальной переменной
Вот как это работает. Для простоты мы вернемся к именам Z, X, Y и U для наших переменных и перерисуем диаграмму рис. 48 так, как на рис. 49. Я добавил путевые коэффициенты (a, b, c, d), отражающие силу каузальных воздействий. Мы, таким образом, предполагаем, что наши переменные исчислимы, а функции, описывающие их, линейны. Вспомним, что путевой коэффициент a означает, что интервенция по увеличению Z на одну стандартную единицу увеличит X на a стандартных единиц (здесь я опущу технические подробности о том, что такое «стандартная единица»).
Поскольку Z и X ничем не осложнены, каузальное воздействие Z на X (т. е. a) можно оценить по наклону rXZ линии регрессии X на Z. Аналогично переменные Z и Y не осложнены, потому что путь Z → X ← U → Y блокируется схождением по X. Следовательно, наклон линии регрессии Z на Y (rZY) будет равен каузальному воздействию на прямом пути Z → X → Y, которое представляет собой произведение путевых коэффициентов: ab. Итак, получаем два уравнения: ab = rZY и a = rZX. Если мы разделим первое уравнение на второе, то получим каузальное воздействие X на Y: b = rZY / rZX.
Вот так инструментальные переменные позволяют выполнить тот же волшебный фокус, который нам удавался с помощью поправок парадного входа: мы нашли воздействие X на Y, даже не будучи в состоянии контролировать осложнитель U или получить по нему данные.
Рис. 49. Общая схема для инструментальных переменных
В итоге мы предоставили лицам, принимающим решения, убедительные аргументы о том,