Шрифт:
Интервал:
Закладка:
• Открыть холодильник.
• Достать из холодильника контейнер со вчерашним пловом.
• Найти на полке нужный контейнер.
• Протянуть руку и вынуть его.
Другой набор сложных взаимодействий связан с подготовкой тарелки, вилки и разогрева. Каждое действие требует поиска объекта, создания целенаправленного движения тела. На ходу принимаются моментальные решения о том, что в какую руку брать, как нести — по отдельности или всё вместе. Каждый шаг подзадачи регулируется целью и выступает подкреплением и основанием для следующего действия, чтобы избавиться от чувства голода. Мы не говорим о том, какую роль в этом процессе играет тело, которое регулирует необходимость утолить чувство голода и определяет предпочтения в еде.
Решения принимаются в зависимости от вероятности получения награды в результате действия. Очевидно, что никто не выберет такую последовательность для утоления голода: взять в руки телефон, полистать ленту социальной сети, выключить телефон.
Гроссмейстер поступает аналогично, принимает решение о следующем ходе в соответствии с тем, как он представляет себе ожидаемое ответное действие оппонента и его реакции. Полагается он при этом на моментальное, интуитивное ощущение ситуации, желаемого итога, который может получиться в результате отдельного перемещения фигуры или серии ходов.
Ребенок впервые встает на ноги, опираясь на предметы, балансирует недалеко от того, что может помочь ему избежать падения, пытается сделать первые шаги, понимая, что ходить лучше, чем когда тебя переносят из одного место в другое. Наградой за многократные падения станет возможность перемещаться самостоятельно.
Так и происходит естественное обучение: природа учит через взаимодействия с объектами среды, подталкивает проверить пределы доступного. Как это ни удивительно, такой же подход лежит в основе многих теорий обучения и развития интеллекта.
Стоит поднять вопрос, почему современные образовательные учреждения не используют подход, при котором обучение происходит в процессе органичного взаимодействия со средой. Учителя впервые видят детей во время практики, а это четвертый курс. Финансисты работают с деньгами только после того, как окончили университет, — и это если повезет. Почему бы не сделать обратный цикл, когда обучаешься во взаимодействии? Мы согласны, что подобный вариант не подходит в тех областях, в которых действия сопряжены с риском и здоровьем, например в медицине. Проблема в том, что подобное не практикуется и там, где можно позволить себе некоторые «вольности».
Через взаимодействие со средой, обучаясь на своих ошибках и успехах, оценку вознаграждения, которое получает лишь в конце партии, AlphaGo научилась играть с человеком на нечеловеческом уровне. Программа принимает решение о каждом следующем ходе, после того как «ощутила» среду, и после многократных попыток понимает, какое действие кажется лучшим. Для программы доска, черные или белые камни, определенное их положение — не отдельные элементы системы. Они расцениваются как целостный механизм, проблемное пространство, в котором ей придется следовать цели, победить, влияя на среду с большим числом неизвестных и высоким уровнем неопределенности. Соответственно, ее задача — изменять своими действиями среду, придавая ей форму, которая увеличит шансы на победу.
Цифровая интуиция
Если спросить игрока после удачной партии о сделанном ходе, часто в ответ можно услышать: «Не знаю, мне показалось это верным» или «Я так чувствовал». Когда наблюдаешь за AlphaGo, складывается впечатление, что компьютер приобрел интуитивное понимание сложных аспектов игры. Машина на «подсознательно-процессорном» уровне фундаментально переосмыслила, что такое преимущество, какой должна быть сфера влияния после каждого сделанного хода, переоценила потенциал выставляемых камней и научилась действовать достаточно агрессивно на тактической фазе, когда оппоненты ведут борьбу за одну клетку игрового поля. Остается только проверить способности программы в игре с профессионалом.
Первой серьезной «жертвой» AlphaGo стал чемпион Европы, обладатель второго дана Фань Хуэй. Однако его уровень, каким бы хорошим игроком он ни был, не сравнится с профессионалами, воспитывающимися в Китае, Южной Корее и Японии. Чтобы действительно проверить предел возможностей AlphaGO, команда Deep Mind предложила матч из пяти игр многократному чемпиону мира Ли Седолю. На момент состязания с компьютером Ли был непобедимым игроком. Победа AlphaGo над ним означала очередную веху в развитии компьютерных технологий и серьезный шаг к созданию полноценного искусственного интеллекта.
Такие технологии не только определят будущее развитие ИИ и компьютера, но и дадут надежду, что мы сможем когда-нибудь дотянуться до скрытого от человека знания. Мы не будем в деталях пересказывать все пять матчей, в четырех из которых программа одержала победу; любой желающий может найти в интернете документальный фильм AlphaGo — The Movie, где подробно показано, что такое го и как проходили матчи. Вместо этого мы сконцентрируемся на двух ходах, 37-м и 78-м; один сделала машина, другой — человек. Оба они фантастически сложные и дают небольшое представление о том, чему машина может научить человека.
Мы сделаем смелое предположение, что именно ход 37 во второй игре и ход 78 в четвертой предопределили будущее развитие технологии ИИ, а также проникновение ее во все сферы деятельности человека: от медицины до работы с текстом. Ход 37 ошеломил лучших игроков по всему миру. То был странный ход, который можно легко счесть ошибочным. Ли же так не думал, ему потребовалось почти пятнадцать минут на ответ.
«Вчера я был удивлен, — говорил Ли Седоль на конференции после поражения. — Но сегодня я лишился дара речи. Если взглянуть на то, как играла машина, это было чистое поражение по моей части. С самого начала не было ни одного момента, когда преимущество в игре было на моей стороне».
Го — это игра за территорию. Так думает человек; у машины на этот счет совсем иное, если можно так сказать, мнение. AlphaGo не расценивает доску, камни, определенные позиции как отдельные элементы, а видит их как единое последовательное действие, которое необходимо для победы. Программе все равно, каков счет, главное — победа. Именно это привнесло в игру, в которой несколько тысяч лет были успешными исключительно люди, новую перспективу. Стиль компьютера совмещает в себе гибкость, открытость, но при этом в нем отсутствуют бытовавшие ранее убеждения и мнения авторитетных игроков о том, какой ход лучше, а какой хуже. Ни один опытный игрок не будет действовать на второй линии, например. Однако в одной из тренировочных игр AlphaGo посчитала, что это будет разумнее, чем стандартный подход, и в итоге создала более выгодную для себя позицию на доске.
Действия машины на доске часто контринтуитивные, но сильные. Многие профессионалы даже не рассматривали бы большинство из них, а AlphaGo удается благодаря им создавать запутанную взаимосвязь различных групп. Связь