Шрифт:
Интервал:
Закладка:
Пример с вымышленным лекарством в главе 6 — самая простая из возможных ситуаций: одна экспериментальная переменная (лекарство D), один исход (инфаркт), один конфаундер (пол) и все три переменные бинарны. Этот пример демонстрирует, как мы получаем среднее взвешенное по условным вероятностям P (инфаркт | лекарство) в каждой из страт (пол). Но описанную выше процедуру легко модифицировать так, чтобы она годилась и для более сложных ситуаций, включая множественность конфаундеров и множественность страт.
Однако во многих случаях переменные X, Y или Z принимают численные значения: доход, или рост, или вес при рождении. Мы наблюдали это в визуальном образце с парадоксом Симпсона. Поскольку переменная способна принимать (по крайней мере, для всех практических целей) бесконечное множество возможных значений, мы не в состоянии перечислить их все в таблице, как было сделано в главе 6.
Очевидное решение — распределить численные значения переменной по конечному и удобному в использовании числу категорий. В таком решении нет ничего принципиально неправильного, однако выбор числа категорий оказывается несколько произвольным. Намного хуже, когда переменных, по которым вводятся поправки, оказывается достаточно много, число категорий растет по экспоненте, что делает исчисление по этой процедуре затруднительным; еще хуже, что во многих стратах при этом нет ни одного образца и они не могут, таким образом, дать оценку вероятности.
Статистики изобрели хитроумные методы избавления от этой проблемы «проклятья множественных измерений». В большинстве из них в том или ином виде применяется экстраполяция, когда для данных подбирается соответствующая им гладкая функция, с помощью которой закрываются дыры, оставленные пустыми стратами.
Наиболее часто из всех гладких функций используется, конечно, линейное аппроксимирование; все ХХ столетие оно честно служило рабочей лошадкой в большей части работ, связанных с количественным исчислением, в науках об обществе и поведении. Мы уже видели, как Сьюалл Райт погрузил свои путевые диаграммы в контекст линейных уравнений, и отметили одно преимущество, которое дает это погружение: каждое каузальное воздействие может быть представлено одним числом (путевым коэффициентом). Второе и не менее важное преимущество линейных аппроксимаций — невероятная простота подсчета поправочной формулы. Ранее мы познакомились с изобретенной Фрэнсисом Гальтоном линией регрессии, когда берется облако точек данных и через это облако интерполируется прямая, наиболее соответствующая их распределению. В случае одной экспериментальной (независимой) переменной (X) и одной зависимой (Y) уравнение для линии регрессии выглядит так: Y = aX + b. Параметр a (часто обозначаемый как rYX, коэффициент регрессии Y на X) рассказывает нам о наблюдаемой в среднем тенденции: увеличение Х на 1 приведет в среднем к увеличению Y на a единиц. Если у Х и Y нет конфаундеров, мы можем использовать это выражение как нашу оценку интервенции по увеличению X на 1. Но что же происходит, если имеется конфаундер, Z? В этом случае коэффициент корреляции rYX не сообщает нам средний каузальный эффект: он передает нам только среднюю наблюдаемую тенденцию. В этом была загвоздка у Райта в случае проблемы веса морских свинок при рождении, обсужденной в главе 2: очевидная прибавка в весе (5,66 грамма) за дополнительный день беременности была смещенной оценкой, потому что осложнялась эффектом меньшего размера помета. Но выход все же есть: разместить все данные по трем переменным так, чтобы каждое значение (X, Y, Z) соответствовало одной точке в пространстве в одной системе координат. В этом случае данные образуют облако точек в XYZ-пространстве. Аналогом линии регрессии здесь будет плоскость регрессии, описываемая уравнением Y = aX + bZ + c. Мы с легкостью вычислим a, b и c из этих данных. В этот момент происходит нечто замечательное, о чем Гальтон не догадывался, а Карл Пирсон и Джордж Удни Юл знали точно. Коэффициент а теперь дает нам коэффициент регрессии Y на X уже с поправкой по Z (он называется коэффициентом частичной регрессии и записывается как rYX.Z). Таким образом, мы можем избежать трудоемкой процедуры подсчета регрессии Y на X для каждого уровня Z и исчисления среднего взвешенного для этих коэффициентов регрессии. Природа сама все усредняет за нас! Нам нужно только рассчитать плоскость, лучше всего описывающую наши данные. Статистические пакеты справляются с этим моментально. Коэффициент а в уравнении этой плоскости, Y = aX + bZ + c, автоматически вносит поправку в наблюдаемый тренд Y на X по конфаундеру Z. Если Z — единственный конфаундер, то а — это среднее каузальное воздействие X на Y. Поистине чудесное упрощение!
Эта процедура также легко расширяется для работы со многими переменными. Если набор переменных Z удовлетворяет критерию черного хода, тогда коэффициент при X в уравнении регрессии а оказывается не чем иным, как средним каузальным воздействием X на Y.
По этой причине поколения исследователей верили, что коэффициенты регрессии после введения поправок (иначе — коэффициенты частичной регрессии) каким-то образом наделены каузальной информацией, которой нет в коэффициентах регрессии без поправок. Ничего не может быть дальше от истины. Коэффициенты регрессии, с поправками или без, — это только статистические тенденции, и в них самих по себе каузальная информация не содержится. Коэффициент rYX.Z представляет собой каузальное воздействие X на Y, а rYX — нет исключительно потому, что у нас есть диаграмма, показывающая, что Z — это конфаундер для X и Y.
Короче говоря, иногда коэффициент регрессии представляет собой каузальное воздействие, иногда нет, но для того, чтобы понять разницу, недостаточно одних только данных. Для вооружения rYX.Z причинностной легитимностью нужны еще два ингредиента. Во-первых, путевая диаграмма должна представлять собой правдоподобную картину реальности, и во-вторых, переменные, по которым вводятся поправки, должны соответствовать критерию черного хода.
Вот поэтому проводимое Сьюаллом Райтом разграничение между путевыми коэффициентами (представляющими собой каузальные воздействия) и коэффициентами регрессии (представляющими собой тенденции в распределении данных) было таким принципиальным. Путевые коэффициенты отличаются от коэффициентов регрессии фундаментальным образом, хотя первые часто выводятся из последних. Ни Райту, однако, ни всем, кто занимался эконометрией и путевым анализом после него, не довелось узнать, что его вычисления были неоправданно сложны. Он мог бы получить путевые коэффициенты из коэффициентов частичной корреляции, если бы только знал, что правильный набор переменных, по которым нужна поправка, легко вывести из самой путевой диаграммы.
Следует помнить также, что поправки, основанные на регрессии, работают только для линейных моделей, что означает значительные допущения при выборе модели. В случае линейных моделей мы теряем возможность передавать нелинейные взаимодействия, например, когда воздействие X на Y зависит от уровня