Шрифт:
Интервал:
Закладка:
Однако у Райта было и утешение, был знак, что он на верном пути — понимание, что его метод дает ответы на вопросы, на которые нельзя ответить никак иначе. Одним из таких вопросов было определение относительной силы влияния нескольких факторов. Другой замечательный пример — в его статье «Корреляция и причинность» за 1921 год, где выясняется, как дополнительный день в утробе матери повлияет на вес новорожденной морской свинки. Ниже я разберу ответ Райта детально, чтобы показать красоту его метода и порадовать тех читателей, которые хотели бы видеть, как работает путевой анализ с математической стороны.
Обратим внимание, что мы не ответим на этот вопрос прямо, потому что не в силах взвесить морскую свинку еще в утробе. Мы, однако, способны сравнить вес при рождении у морских свинок, беременность матери которых длилась, скажем, 66 дней, с теми, которые провели в утробе 67 дней. Райт отметил, что, если беременность длилась на один день дольше, новорожденные свинки в среднем весили больше на 5,66 грамма. Можно наивно предположить, что за последний день в животе матери каждый детеныш морской свинки поправляется на эти 5,66 грамма.
«Неверно!» — говорит Райт. Детеныши обычно появляются на свет позже не просто так, а по определенной причине: в таких пометах обычно меньше детенышей. Это значит, что в течении всей беременности условия развития у них были лучше. Новорожденная морская свинка из помета, в котором было только трое детенышей, уже на 66-й день весит больше, чем из помета, в котором их было пятеро. Таким образом, разница в весе при рождении объясняется двумя разными причинами и нам надо их распутать. Сколько из дополнительных 5,66 грамма детеныш набирает за счет того, что проводит в матке на день больше, а сколько — за счет того, что у него меньше конкурентов?
Райт ответил на этот вопрос, начертив путевую диаграмму (рис. 12).
X — это вес детеныша при рождении. P и Q — два фактора, о которых известно, что они влияют на вес детеныша: P — продолжительность беременности, а Q — скорость роста в утробе матери. L — это число детенышей в помете, которое влияет сразу и на P, и на Q (при большом помете детеныши растут медленнее, а беременность длится меньше). Важно обратить внимание, что X, P и L можно измерить для каждого животного в отдельности, а Q — нельзя. Наконец, A и C — внешние причины, по которым у нас нет данных (т. е. наследственные и средовые факторы, влияющие на продолжительность беременности и скорость внутриутробного развития вне зависимости от числа детенышей в помете). Важное предположение, что эти факторы не зависят друг от друга, выражается отсутствием стрелки между ними, равно как и причины, влияющей на оба этих фактора.
Теперь можно сформулировать вопрос, стоявший перед Райтом: каково прямое влияние продолжительности беременности P на вес при рождении X? Данные (5,66 грамма за день) ничего не говорят нам о прямом влиянии — они дают нам только корреляцию, смещенную за счет влияния числа детенышей в помете L. Чтобы найти прямое влияние, мы должны устранить это смещение.
Рис. 12. Диаграмма причинности (путевая) для примера с весом при рождении
На рис. 12 прямое влияние обозначено путевым коэффициентом p, соответствующим пути P → X. Смещение за счет числа детенышей в помете соответствует пути P ← L → Q → X. А теперь в игру вступает магия алгебры: величина смещения равна произведению путевых коэффициентов вдоль по данному пути (иными словами, l умножить на l’ и умножить на q). Общая корреляция тогда равна просто сумме путевых коэффициентов по обоим путям: алгебраически p + (l ∙ l’ ∙ q) = 5,66 грамма в день. Если бы мы знали величину путевых коэффициентов q, l и l’, мы бы могли рассчитать второе слагаемое и вычесть его из 5,66, получив p. Но мы их не знаем, потому что Q, например, невозможно измерить. Но именно здесь и проявляется гениальность метода путевых коэффициентов. Метод Райта расписывает, как выразить каждую из посчитанных корреляций в соответствующих терминах. Сделав это для каждой из измеренных пар (P, X), (L, X) и (L, P), мы получаем три уравнения, которые решаются алгебраически для неизвестных путевых коэффициентов, p, l’ и (l ∙ q). После этого задача решена, желаемая величина p найдена.
Сегодня мы можем обойтись вообще без математики и рассчитываем p посредством беглого изучения диаграммы. Но в 1920 году это был первый случай, когда математику призвали объединить корреляции и причинность. И это сработало! Райт вычислил, что p равно 3,34 грамма в день. Другими словами, если все другие переменные (A, C, L, Q) остаются постоянными и только срок беременности увеличится на один день, средний рост веса при рождении составит 3,34 грамма. Заметим, что этот результат имеет внятный биологический смысл. Он говорит нам, с какой скоростью детеныши растут в каждый день внутриутробного развития. Число 5,66, напротив, биологически бессмысленно, потому что оно смешивает два разных процесса, один из которых не каузальный, а антикаузальный (или диагностический): это связь P ← L.
Приведенный пример преподает нам два урока. Первый: причинный анализ позволяет нам находить численные выражения реальных процессов в реальном мире, а не только структуры данных. Детеныши растут со скоростью 3,34 грамма в день, а не 5,66 грамма в день. Урок второй: следили вы за математикой или нет, но в путевом анализе мы делаем выводы об индивидуальных причинно-следственных отношениях, изучая диаграмму в целом. Чтобы оценить каждый индивидуальный параметр, может понадобиться структура всей диаграммы.
В воображаемом мире, где наука развивается логично, ответ Райта Найлзу должен был бы вызвать всеобщий научный восторг, а затем его методы с энтузиазмом стали бы применять другие ученые и статистики. Но судьба распорядилась иначе. «Одна из загадок истории науки в период с 1920 по 1960 годы — это практически полное отсутствие применения путевого анализа, за исключением самого Райта и селекционеров животных, — писал один из коллег Райта генетик Джеймс Кроу. — Хотя Райт продемонстрировал много примеров возможного применения своего метода, ни