chitay-knigi.com » Разная литература » Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет - Терренс Дж. Сейновски

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 27 28 29 30 31 32 33 34 35 ... 83
Перейти на страницу:
попросить у нее объяснений. Стоит ли нам ждать, что они будут лучше и рациональнее, чем те, что дают люди? Напомним, что сознание не имеет доступа к внутренней работе мозга. Сети глубокого обучения обычно предоставляют не один, а несколько основных прогнозов в порядке убывания, что дает некоторую информацию о достоверности вывода. Показывать вероятность разных ответов более наглядно, чем говорить «да» или «нет».

Контролируемые нейронные сети могут решать только те проблемы, которые попадают в диапазон данных, использованных для обучения сети. Обученная на схожих примерах, нейронная сеть должна хорошо справиться с новыми случаями, распространив на них имеющий опыт. Однако если новые входные данные выходят за пределы обучающего набора, экстраполяция опасна. Это не удивительно, ведь то же ограничение относится и к людям: не следует ожидать, что эксперт в одной из областей физики даст хороший совет по политическому вопросу или даже по вопросу из другой области физики. Однако до тех пор, пока обучающий набор достаточно велик, чтобы охватить весь спектр потенциальных входных данных, обобщение будет хорошо на них распространяться. На практике люди склонны использовать сходство для переноса опыта с области, в которой они разбираются, на новую, но если области коренным образом различаются, это может привести к ложным аналогиям.

Еще одно возражение: нейронная сеть может оптимизировать выгоду в ущерб справедливости. Например, представитель недопредставленного меньшинства обращается за ипотекой и получает отказ от нейронной сети, обученной на миллионах заявок. Входные данные включают текущий адрес и другую связанную с этим меньшинством информацию. Таким образом, хотя и существует закон о запрете явной дискриминации меньшинств, сеть может использовать скрытую информацию против них. Проблема не в нейросети, а в функции стоимости, которую мы дали ей оптимизировать. Если единственная цель сети – получение прибыли, то она будет использовать любую информацию, чтобы ее максимизировать. Решить эту проблему можно, включив равноправие как еще одно условие в функцию затрат. Тогда оптимальным итогом будет баланс между прибылью и справедливостью. Кроме того, компромисс должен быть четко сформулирован в функции затрат, которая требует, чтобы кто-то определил вес каждой цели. В основе этих компромиссов должен лежать этический подход гуманитарных и социальных наук. Но имейте в виду, что у выбора функции затрат, который кажется справедливым, могут быть непредвиденные последствия[211].

Есть ли у природы функция стоимости? Оптимизация затрат в эволюции называется приспособляемость, но это понятие имеет смысл только для конкретного набора ограничений либо со стороны окружающей среды, либо со стороны ищущей выгодной решение системы. В мозге от рождения «запрограммирована» потребность в пище, тепле, безопасности, кислороде и продолжении рода, влияющая на поведение. Но есть ли функция стоимости, которая регулирует внимание? Мы лучше запоминаем то, что привлекло наше внимание, но что управляет им? Если ответим «мы», то попадем в замкнутый круг.

Продвижение

Во время творческого отпуска в 1987 году я выступал в Калтехе в качестве приглашенного профессора нейробиологии и посетил Фрэнсиса Крика в Институте Солка. Крик создавал исследовательскую группу, специализирующуюся на зрении, которым я тоже интересовался. На обеде с преподавателями я включил запись NETtalk, и она вызвала оживленную дискуссию. Вскоре, в 1989 году, я переехал в Ла-Хойя и основал при Институте Солка Лабораторию вычислительной нейробиологии, а также Институт нейронных вычислений при Калифорнийском университете в Сан-Диего. Это был потрясающий переход от младшего научного работника в Университете Хопкинса к ведущему преподавателю в Ла-Хойя, и в одночасье передо мной открылось множество возможностей, включая должность в Медицинском институте Говарда Хьюза, который оказывал щедрую поддержку моим исследованием более 25 лет.

Дэвид Румельхарт, преподававший метод обратного распространения ошибки, в 1987 году сменил Калифорнийский университет в Сан-Диего на Стэнфорд. Когда я перебрался в Сан-Диего, мне было жаль, что Дэвид уехал и мы виделись очень редко. С годами я заметил, что его поведение меняется. В конце концов ему поставили диагноз лобно-височная деменция – прогрессирующая потеря нейронов в лобной коре, влияющая на личность, поведение и речь. Румельхарт умер в 2011 году в возрасте 69 лет, уже не узнавая своих родственников и друзей.

Глава 9. Сверточные сети

К 2000 году одержимость нейронными сетями 1980-х спала, и все вернулось в нормальное русло исследований. Томас Кун однажды охарактеризовал время между научными революциями как регулярную работу ученых, теоретизирующих, наблюдающих и экспериментирующих в рамках устоявшейся парадигмы или объяснительной системы[212]. Джеффри Хинтон перешел в Университет Торонто в 1987 году и продолжил работу над небольшими улучшениями, но ни одно из них не имело такого успеха, как машина Больцмана. Хинтон в 2000-х годах возглавил программу «Нейронные вычисления и адаптивное восприятие» (Neural Computation and Adaptive Perception; NCAP) в Канадском институте перспективных исследований, куда вошли около 25 исследователей из Канады и других стран, сосредоточенных на решении сложных проблем обучения. Я был членом их консультативного совета под председательством Яна Лекуна (рис. 9.1) и участвовал в ежегодных встречах непосредственно перед конференцией NIPS. Изучались новые стратегии обучения нейронных сетей, и прогресс шел медленно, но стабильно. Хотя у нейронных сетей было много полезных применений, высокие ожидания 1980-х годов не оправдались. Но это не поколебало первопроходцев. Оглядываясь назад, можно сказать, что они готовили почву для грандиозного прорыва.

Устойчивый прогресс в машинном обучении

Конференция NIPS обеспечила в 1980-х годах благоприятные условия для развития нейронных сетей и открыла двери для других алгоритмов, которые могут обрабатывать большие многомерные наборы данных. Метод опорных векторов (Support Vector Machine, SVM) ворвался на сцену в 1995 году и начал новый этап в сетях перцептронов, которые теперь называются неглубокими сетями. Мощным классификатором, который теперь в инструментарии каждого, SVM сделал так называемый kernel trick – математическое преобразование, которое эквивалентно прыжкам из пространства данных в гиперпространство, где точки данных перераспределяют, чтобы их было легче разделить. Томазо Поджио разработал иерархическую сеть HMAX с весами, задаваемыми вручную, которая могла классифицировать ограниченное количество объектов. Предположительно это должно было улучшить производительность и более глубоких сетей.

Рис. 9.1. Джеффри Хинтон и Ян Лекун, освоившие глубокое обучение. Фотография сделана примерно в 2000 году на заседании программы NCAP Канадского института перспективных исследований. Эта программа создала благодатную почву для исследования глубокого обучения, и участники на снимке довольны своими успехами

В 2000-х годах разработали графические модели, ставшие частью большого потока вероятностных моделей, называемых байесовскими сетями или сетями доверия. В их основу легло уравнение, выведенное Томасом Байесом в XVIII веке, которое позволяло новым доказательствам изменять

1 ... 27 28 29 30 31 32 33 34 35 ... 83
Перейти на страницу:

Комментарии
Минимальная длина комментария - 25 символов.
Комментариев еще нет. Будьте первым.