Шрифт:
Интервал:
Закладка:
Теперь, когда мы знаем P (T), наконец-то можно вычислить обновленную вероятность — шанс женщины заболеть раком груди после того, как результат окажется положительным. Отношение правдоподобия составляет 73 % / 12,1 % ≈ 6. Как я уже говорил, это фактор, на который мы увеличиваем ее априорную вероятность, чтобы вычислить обновленную вероятность рака. Поскольку ее априорная вероятность была равна 1 из 700, ее обновленная вероятность составляет 6 ∙ 1/700 a 1/116. Другими словами, у нее все еще есть вероятность заболеть раком и она составляет менее 1 %.
Вывод поразительный. Я думаю, большинство 40-летних женщин с положительным результатом маммографии были бы изумлены, узнав, что шанс заболеть раком груди у них составляет менее 1 %. Рис. 14 поможет понять причины: крошечное число истинно положительных результатов (т. е. женщин с раком груди) несоизмеримо с огромным числом ложноположительных результатов. Наше удивление по поводу этого явления объясняется общей когнитивной путаницей между прямой вероятностью, которая хорошо изучена и тщательно задокументирована, и обратной вероятностью, необходимой для принятия личного решения.
Конфликт между нашим восприятием и реальностью частично объясняет протесты, возникшие, когда рабочая группа по профилактике болезней (Preventive Services Task Force) в США в 2009 году рекомендовала 40-летним женщинам не проходить ежегодную маммографию. Рабочая группа понимала то, чего не осознавали многие женщины: положительный результат обследования в этом возрасте с большей вероятностью будет ложной тревогой и многие женщины в таких случаях испугаются зря (и получат ненужное лечение).
Рис. 14. В этом примере, основанном на количестве ложноположительных и ложноотрицательных результатов, предоставленных Консорциумом по надзору за раком молочной железы, только 3 из 363 40-летних женщин с положительным результатом обследования на рак груди действительно оказались больны (пропорции не совсем соответствуют тексту из-за округления) (источник: инфографика Маян Харел)
Но все было бы иначе, если бы у нашей пациентки был ген, который подвергал бы ее высокому риску рака груди, скажем с одним шансом из 20 в течение следующего года. Тогда положительный результат повысил бы вероятность почти до одного из трех. Для женщины в этой ситуации шансы, что обследование даст жизненно важную информацию, намного выше. Вот почему рабочая группа рекомендует женщинам из группы высокого риска делать маммограммы ежегодно.
Этот пример показывает, что P (болезнь | обследование) неодинаков для всех; вероятность зависит от контекста. Если вы знаете, что изначально подвержены высокому риску заболевания, правило Байеса позволяет вам учесть эту информацию. Или, если вы знаете, что риска нет, обследование просто не нужно. Напротив, P (обследование | болезнь) не зависит от того, находитесь вы в группе риска или нет. Вероятность устойчива к таким вариациям, что до некоторой степени объясняет, почему врачи систематизируют и передают свои знания с помощью прямых вероятностей. Вариации — это свойства самой болезни, ее стадии развития или чувствительности детекторов; следовательно, они остаются относительно инвариантными к причинам заболевания (эпидемия, диета, гигиена, социально-экономический статус, семейный анамнез). Обратная вероятность P (болезнь | обследование) чувствительна к этим условиям.
Читатель, интересующийся историей, наверняка задастся вопросом, как Байес справился с субъективностью P (L), где L — длина бильярдного стола. Ответ состоит из двух частей. Во-первых, Байеса интересовала не длина стола как таковая, а связанные с ней последствия (т. е. вероятность, что следующий шар окажется в каком-то определенном месте на столе). Во-вторых, Байес предположил, что L определяется механически, когда бильярдный шар отправляют с большего расстояния, скажем, L*. Таким образом, он наделил P (L) объективностью и преобразовал задачу так, что априорные вероятности можно оценить на основе данных, как мы видим в образцах с чайной и маммограммой.
Во многих отношениях правило Байеса — квинтэссенция научного метода. Описание последнего в учебнике выглядит примерно так: 1) сформулируйте гипотезу; 2) выведите проверяемое следствие гипотезы; 3) проведите эксперимент и соберите доказательства и 4) пересмотрите веру в гипотезу. Обычно учебники разбирают простые тесты типа «да или нет» и полученные результаты; доказательства либо подтверждают, либо опровергают гипотезу. Но жизнь и наука не бывают такими простыми! Все полученные данные отличаются некоторой неопределенностью. И правило Байеса показывает нам, как выполнить шаг 4 в реальном мире.
От байесовского правила к байесовским сетям
В начале 1980-х проектирование искусственного интеллекта зашло в тупик. С тех пор как Алан Тьюринг впервые изложил задачу в статье 1950 года «Вычислительные машины и интеллект», ведущим подходом в этой области были так называемые системы на основе правил или экспертные системы, которые организуют человеческое знание как набор конкретных и общих фактов и используют правила логического вывода, чтобы связать их. Например: Сократ — человек (конкретный факт). Все люди смертны (общий факт). Из этой базы знаний мы (или разумная машина) можем вывести тот факт, что Сократ смертен, используя универсальное правило логического вывода: если все A являются B и x является A, то x является B.
Теоретически это был годный подход, но жесткие правила вряд ли могут отразить знания из реальной жизни. На деле мы все время сталкиваемся с исключениями из правил и неопределенностями в данных, даже когда этого не осознаем. К 1980 году стало ясно, что экспертным системам трудно делать правильные выводы из неопределенных знаний. Компьютер не мог воспроизвести процесс, с помощью которого человек-специалист приходит к логическому выводу, потому что сами специалисты не могли выразить свой мыслительный процесс на языке, доступном системе.
Таким образом, конец 1970-х был временем брожения умов: сообщество исследователей ИИ пыталось найти способ справиться с неопределенностью. В идеях недостатка не было. Лотфи Заде из Калифорнийского университета в Беркли предложил «нечеткую логику», в которой утверждения, не являясь ни истинными, ни ложными, принимают ряд возможных значений истинности. Гленн Шейфер из Канзасского университета предложил «функции убеждений», которые приписывают каждому факту две вероятности: одна указывает, насколько вероятно, что он «возможен», другая — насколько вероятно, что он «доказуем». Эдвард Фейгенбаум и его коллеги из Стэнфордского университета попробовали работать с «факторами достоверности», добавив числовые меры неопределенности в детерминистские правила логического вывода.
К сожалению, несмотря на всю изобретательность, эти подходы имели общий недостаток: они моделировали эксперта, а не мир и поэтому нередко давали непредвиденные результаты. Например, они не могли работать одновременно в диагностическом и прогностическом режимах, что является бесспорным преимуществом правила Байеса. При подходе, основанном на факторе определенности, правило «Если огонь,