Шрифт:
Интервал:
Закладка:
Чтобы понять сложность го по сравнению с другими настольными играми, попробуем рассмотреть ее глубину и ширину в сравнении с шахматами. Тогда мы поймем, почему пересчет комбинаций помог Deep Blue одержать победу на Каспаровым (является инагентом), а в случае с го потерпел неудачу. Для победы над человеком в го компьютеру не хватало некоторых свойств человеческого мышления, а именно умения оценивать множественные аспекты среды и принимать решения, не только анализируя сложившуюся ситуацию, но и полагаясь на «чувства».
Глубина и ширина игры объясняют, почему метод пересчета для победы над человеком не подходит. Взгляните на доски.
Ширина игры на поле шахмат — это примерно 35 возможных стартовых позиций, а у го при размере доски 19 на 19 количество возможных конфигураций на старте — около 250. При этом глубина игры — количество ходов, сделанных попеременно, — в шахматах около 80. В среднем шахматная партия заканчивается на 70-м ходу, а партия в го — на 150-м.
Предположим, мы хотим спрогнозировать конфигурацию досок на четыре хода вперед. Учитывая, что средняя ширина игры в шахматы составляет 35, нам необходимо проделать простую математическую операцию: 35 × 35 × 35 × 35 = 1 500 625 различных положений фигур на доске. А теперь возьмем доску для го и проделаем точно такую же операцию: 250 × 250 × 250 × 250 = 3 906 250 000 возможных вариантов расположения камней. Компьютеру проанализировать такое не под силу. Нужен другой подход.
Естественно, это слишком упрощенная математика, однако стоит помнить, что наша цель — познакомить с игрой го и показать ее сложность. Но было бы ошибкой предположить, что шахматы проще. Отнюдь: игра в шахматы не менее сложная, но значительно меньшая по глубине и ширине.
Го — сложная система взаимодействий камней на доске, с непонятными свойствами, которые проявляются исключительно в процессе игры и проникают во все ее аспекты. Она требует от игрока умения принимать решения в условиях, когда невозможно предугадать результат, и вынуждает полагаться на чувства и действовать в соответствии с изменяющейся средой. Обманчивая простота делает го невообразимо сложной и многогранной. Как научить компьютер играть, если перебор комбинаций не подходит? Научить думать и «чувствовать», принимать решения в зависимости от состояния доски. Иными словами, необходимо научить компьютер мыслить.
Что значит чему-то научиться
В 1948 году Дональд Хебб описал предположения о методе, которым мозг человека тренирует и обучает себя. Тогда это было настоящей революцией, настолько, что гипотеза Хебба превратилась в «обучение Хебба», один из фундаментальных алгоритмов машинного обучения.
Гипотеза Хебба заключается в том, что нейроны головного мозга при взаимодействии возбуждаются друг о друга. Эффективность и длительность возбуждения усиливаются со временем, а связь между двумя нейронами укрепляется, возникают новые шаблоны и модели поведения.
Чтобы обучить AlphaGo, ученым необходимо создать алгоритм, который повторяет работу мозга. Для победы программа должна повторить не только образ мышления живого человека, но еще и интуитивные действия при изменяющихся условиях, коду из ноля и единицы необходимо «ожить». Да, в контролируемой и «узкой» среде доски для игры в го с полем 19 на 19, но все же. Научить выбирать самостоятельно оптимальное действие ради воздействия на среду обитания.
Deep Blue, чтобы научиться перебирать комбинации, потребовалась группа экспертов, а AlphaGo использовала кардинально иной подход. Она научилась играть в го, как это сделал бы человек: методом проб и ошибок. Разработчики загрузили в программу сотню тысяч любительских партий и позволили программе играть против самой себя. Так она училась, училась и училась. До тех пор, пока однажды не победила чемпиона Европы — Фань Хуэя, который на момент матча обладал вторым даном в рейтинге игры.
Игра против себя, разными версиями, позволила программе научиться на собственных ошибках. Идея, заложенная программистами в основу AlphaGo, вдохновила последующие исследования ИИ, но главное — заставила задуматься над тем, что значит быть человеком.
Искусственные нейронные сети, которые стали возможными в том числе благодаря AlphaGo, позволяют современным компьютерам и человеку делать намного больше, чем раньше. Сегодня нейронная сеть может научить себя — пусть и в пределах того, что ей позволит человек, но она на это способна. Тем не менее вопрос, что значит научиться и что такое интеллект, остается открытым. Более того, не просто открытым, а проблемой, к которой пока сложно подступиться.
Кажется, если мы сможем ответить на вопрос, что такое интеллект, то и создать искусственный интеллект не будет проблемой. Ближе всего к этому подобрались Эндрю Барто и Ричард Саттон. В 1998 году они издали книгу «Обучение с подкреплением», в которой формализовали принципы этого подхода. Мы предлагаем применять немного иной термин — «обучение с “сильной” петлей обратной связи».
Любой учитель скажет, что несложно выдать задачи ученикам для самостоятельной отработки, да и проверить любой объем тоже не станет серьезной неприятностью при обучении чему-либо. Проблема возникает в момент, когда необходимо предоставить обратную связь и скорректировать будущие действия. Форма и формат обратной связи от учителя к ученику — одно из узких мест системы обучения. Барто и Саттон пытаются решить проблему интеллекта через «сильную» петлю обратной связи, обучая исполнителя, действующего в определенных условиях, взаимодействовать со средой.
В самом широком смысле средой может быть что угодно. Для трейдера, торгующего на рынке, это график котировок. Учительская среда — класс с учениками. Исследователю для успешной публикации нужна среда научных работ. Писатель учится рисовать миры в безграничной среде своего воображения. Средой игрока в шахматы, го, шашки, нарды становятся поле и фигуры.
Цель очевидна: исполнитель взаимодействует со средой, а та предоставляет обратную связь — то, что можно увидеть или прочувствовать. Однако существует один особый вид обратной связи, который и делает из нее «сильную»: вознаграждение. Чем оно выше в ходе действия, тем корректнее принятое решение.
Отдельно стоит отметить, что в нашем случае не идет речи о теории вознаграждения, скорее о математическом расчете. Трейдеру для принятия решений нужно точно понимать отношение между риском, доходностью и убыточностью сделки. Учителю в школе — «силу» группы и способ обучения. Ученому — возможно, понимание усилий для написания и актуальность темы. Игроку в го — рассчитать ход, который увеличит вероятность победы.
Подобная модель взаимодействия с окружающей средой превосходно переносится на повседневную жизнь. Когда вы проголодались, то обычно решаете разогреть обед, и даже это простое действие имеет