Шрифт:
Интервал:
Закладка:
Как обычно, диаграмма причинности все прояснит и позволит нам вывести результат механически, даже не думая о данных и о том, понижает или повышает это лекарство наше кровяное давление. В этом случае скрытая третья переменная — артериальное давление, и диаграмма выглядит, как показано на рис. 43. Здесь артериальное давление — скорее посредник, чем вмешивающийся фактор. Один взгляд на диаграмму показывает, что на взаимосвязь лекарства и сердечного приступа не действует конфаундер (т. е. нет черного хода), поэтому стратификация данных не требуется. Более того, если учитывать только артериальное давление, мы исключим один из каузальных путей (возможно, основной) для действия лекарства. По обеим этим причинам наш вывод прямо противоположен выводу для препарата D: препарат B работает и совокупные данные подтверждают этот факт.
С исторической точки зрения примечательно, что Симпсон в статье 1951 года, которая вызвала всю эту шумиху, сделал то же самое, что и я. Он представил две истории с абсолютно одинаковыми данными. В одном примере было интуитивно понятно, что агрегирование данных оказалось, как он выразился, «разумной интерпретацией»; в другом более разумным стало разделение данных. Итак, Симпсон понял, что это парадокс, а не просто инверсия. Однако он не предложил никакого решения, кроме как использовать здравый смысл. И самое важное: он не предположил, что, если история содержит дополнительную информацию, которая позволяет различить «разумное» и «неразумное», возможно, статистикам стоит учесть ее при анализе.
Рис. 43. Диаграмма причинности для примера с парадоксом Симпсона (второй вариант)
Деннис Линдли и Мелвин Новик рассмотрели это предположение в 1981 году, но не смогли примириться с гипотезой, что правильное решение зависит от причинной истории, а не от данных. Они признали: «Мы могли бы использовать язык причинно-следственных связей… Мы решили этого не делать и вообще не обсуждать причинность, потому что, хотя это понятие широко используется, у него как будто нет четкого определения». Так они обобщили фрустрацию пяти поколений статистиков, которые понимали, что информация о причинно-следственных связях чрезвычайно необходима, но язык для ее выражения безнадежно отсутствует. В 2009 году, за четыре года до смерти в возрасте 90 лет, Линдли признался мне, что он не написал бы приведенные выше слова, если бы моя книга была доступна в 1981 году.
Некоторые читатели моих книг и статей предположили, что правило, регулирующее агрегирование и разделение данных, основывается на временном приоритете в обработке и скрытой третьей переменной. Они утверждают, что в случае с артериальным давлением данные необходимо агрегировать, потому что измерение давления происходит после того, как пациент принимает лекарство, но в случае с полом данные нужно стратифицировать, потому что пол пациента определен заранее. Хотя это правило работает во многих случаях, его нельзя считать универсальным. Простой случай — M-тип (игра 4 в главе 4). Здесь B может предшествовать A; тем не менее мы все равно не должны ставить условие на B, потому что это нарушит критерий черного хода. Мы должны обратиться к причинно-следственной структуре рассказа, а не к временной информации.
Наконец, вы можете задаться вопросом, возможен ли парадокс Симпсона в реальном мире. Ответ будет положительным. Конечно, он встречается недостаточно часто, чтобы статистики наблюдали его ежедневно, однако он не совсем неизвестен и, вероятно, происходит чаще, чем об этом сообщают статьи в научных журналах. Вот два задокументированных случая.
Наблюдательное исследование, опубликованное в 1996 году, показало, что открытая операция по удалению камней в почках чаще завершалась успехом, чем эндоскопическая операция, которую, делали при небольших камнях. Кроме того, оно продемонстрировало, что, если камни в почках были больше, повышался и процент успеха. Но в целом для открытой операции он был ниже. Как и в нашем первом примере, выбор метода лечения зависел от состояния пациента: если камни были крупнее, открытая хирургическая операция была вероятнее, но прогноз оказывался хуже.
В исследовании заболеваний щитовидной железы, опубликованном в 1995 году, курильщики продемонстрировали более высокий коэффициент выживания (76 %) в течение 20 лет, чем некурящие участники (69 %). Но у некурящих этот показатель был выше в шести из семи возрастных групп, а в седьмой разница оказалось минимальной. Фактор возраста явно повлиял и на курение, и на выживание: средний курильщик был моложе среднего некурящего (возможно, потому что курильщики старшего возраста уже умерли). Разделив данные по возрастным группам, мы пришли к выводу, что курение отрицательно влияет на выживание.
Поскольку парадокс Симпсона настолько плохо поняли, некоторые статистики специально стараются его избежать. Слишком часто они пытаются бороться с симптомом, инверсией Симпсона, ничего не делая с болезнью — конфаундерами. Вместо того чтобы подавлять симптомы, необходимо обращать на них внимание. Парадокс Симпсона предупреждает нас о случаях, когда по крайней мере один из статистических трендов (в агрегированных данных, разделенных или в тех и других) не может отражать причинно-следственное влияние. Есть, конечно, и другие тревожные знаки. Если оценить причинно-следственный эффект в совокупности, получившаяся величина, к примеру, может оказаться выше, чем каждая аналогичная величина в каждой страте. И снова приходится повторять: этого не должно произойти, если мы должным образом учли вмешивающиеся факторы. Однако по сравнению с такими признаками инверсию Симпсона труднее игнорировать именно потому, что это разворот, качественное изменение знака. Идея вредного / вредного / полезного препарата вызовет недоверие даже у трехлетнего ребенка — и совершенно справедливо.
Парадокс Симпсона в картинках
До сего момента большая наши примеры инверсии и парадокса Симпсона в основном включали двоичные переменные: пациент либо принимал Лекарство D, либо нет, и либо переживал сердечный приступ, либо нет. Однако инверсия может возникнуть и с непрерывными переменными, и, возможно, в этом случае она будет понятнее за счет возможности ее проиллюстрировать.
Представьте исследование, в котором измеряют еженедельную физическую активность и уровень холестерина у людей разных возрастных групп. Если нанести количество часов, потраченных на физкультуру, на ось х и уровень холестерина на ось Y, как показано на рис. 44 (a), то для каждой возрастной группе наблюдается наклон вниз, и это, вероятно, означает, что физическая активность понижает уровень холестерина. С другой стороны, если использовать ту же диаграмму рассеяния, но не делить данные по возрастам, как на рисунке 44 (b), то мы увидим выраженную направленность вверх, которая говорит: чем больше люди занимаются физкультурой, тем выше их уровень холестерина. Ситуация с плохим-плохим-хорошим лекарством повторяется, только в его роли выступает Физическая активность. Кажется, что она положительно влияет на каждую возрастную группу, но вредит населению