Шрифт:
Интервал:
Закладка:
На каждом этаже располагается уютная гостиная, обставленная диванами и стульями ручной работы, обращенными к старомодным школьным доскам, предназначенным для «мозгового штурма». Сеть коридоров соединяет относительно просторные офисы с панорамными окнами с видом на ухоженную лужайку, в каждом из которых висит огромная белая доска. Они обставлены в утилитарном стиле, и во многих офисах, в том числе там, где работал исследователь Роберт Белл, вдоль стены стоят аккуратно сложенные стопки бумаг высотой по пояс.
Белл, застенчивый уроженец Калифорнии, присоединившийся к AT&T в 1998 году, узнал о премии Netflix из электронного письма, которое исполнительный директор по исследованиям Крис Волынски отправил двадцати работникам во Флорхем-Парк через день или два после того, как Netflix объявила о конкурсе. Волынски возглавлял в AT&T группу по интеллектуальному анализу данных, которая более десяти лет работала над крупномасштабными прогнозами того, как поведут себя клиенты: кто, скорее всего, купит iPhone; кто создаст фейковые учетные записи; какие возникнут риски, связанные с клиентской базой США?
Интеллектуальный анализ данных – это процесс определения значимых закономерностей в больших наборах данных, при помощи которых можно составить прогноз: мгновенная сортировка и фильтрация миллиардов веб-сайтов, которые образуют ранжированные результаты Google-поиска; определение аномалий среди нормальных клеток при автоматизированном медицинском сканировании; или подозрительные перемещения группы обладателей визы, которая может свидетельствовать о потенциальной угрозе для США.
Ученые, осваивающие интеллектуальный анализ данных, должны писать алгоритмы, которые анализируют набор данных для поиска важных паттернов, но также и отбрасывают ассоциации, которые могут казаться убедительными, но в итоге никуда не ведут.
Волынски был общительным мужчиной, чья детская страсть к бейсбольной статистике переросла в карьеру эксперта по интеллектуальному анализу данных; он любил конкурсы не только за возможность продемонстрировать, на что способна лаборатория AT&T, но и за азартную конкуренцию с лучшими умами мира в их развивающейся отрасли. Любил Волынски и фильмы, и вместе с Беллом, который также нашел свое призвание благодаря бейсбольной статистике, они оба были в восторге от возможности поэкспериментировать с огромным массивом реальных данных Netflix – набором рейтингов клиентов, который был в сто раз больше, чем любой, что попадался им ранее.
Еще до соревнования Netflix Prize Белл участвовал и выигрывал в конкурсах, но приз в 1 млн долларов и открытость – любой, у кого есть компьютер и Интернет, мог принять участие – придавали конкурсу особое очарование. Он быстро стал главной темой для разговоров в научных и академических кругах, в которые входил Белл, и именно ему выпал счастливый шанс получить кучу денег на глазах своих товарищей.
Около пятнадцати человек пришли на мозговой штурм, организованный Волынски сразу после того, как было объявлено соревнование Netflix Prize, но за пару недель число активных участников сократилось до трех человек, которыми были Белл, Волынский и самый юный их израильский коллега, Иегуда Корен.
Сначала они наблюдали за тем, как на поддерживаемой Netflix доске лидеров высветилась пара сотен решений, и по крайней мере два из них улучшили алгоритмы Cinematch в течение недели. Спустя месяц было уже несколько тысяч команд, лучшие из которых добились четырехпроцентного улучшения Cinematch по сравнению с использованием оригинальных решений. Погоня за призом в 1 млн долларов привлекла не только элиту интеллектуального анализа данных, но и специалистов из сообществ изучения машинного языка и математиков, а также гениальных разработчиков ПО – любителей и даже психологов.
Каждая команда была ограничена одной заявкой в день, но оживленные беседы велись и днем и ночью, так как участники со всего мира подписались на дискуссионный форум, предоставленный Netflix.
Для Корена этот неформальный конклав[27] гениальных умов, собравшихся вокруг одной-единственной задачи, был захватывающим. И дома и на работе он часами возился с их уравнениями и пытался опередить бурный прогресс на доске лидеров. Каждая корректировка уравнения могла украсть неделю и больше времени, которое обычно уходило на решение обычных рабочих задач – день на написание предлагаемого решения, несколько часов для проверки огромного набора данных с помощью мощных компьютеров, еще больше времени на анализ результата и внесение корректировок и еще много часов на повторную проверку данных. Каждый думал о конкурсе в любое, самое неурочное время, возможно, просыпаясь ночью с идеей о постепенном улучшении.
К четвертому месяцу конкурса участники команды BellKor были готовы разместить свою заявку на доске лидеров. После того как Netflix применила конфиденциальный набор данных для проверки их результатов, команда BellKor появилась среди участников конкурса на двадцатом месте. С тех пор Корен стал одержим, подталкивая Волынского и Белла попытаться подняться вверх на доске лидеров. «Посмотрим, попадем ли мы в десятку лучших», – сказал он. Затем в пятерку, а затем и в тройку лидеров.
В апреле 2007 года они ненадолго заняли верхнюю строчку, но только лишь затем, чтоб их вытеснили оттуда несколько дней спустя. Неделями они боролись за лидерство с Dinosaur Planet из Принстона и командой из четырех венгерских исследователей Gravity. На восьмом месяце BellKor снова вырвалась вперед, и на этот раз им удалось удержать свои позиции. Они получили первую награду Progress Prize в размере 50 000 долларов за улучшение Cinematch на 8,4 %. Когда на второй год они снова приняли участие в конкурсе, казалось, что главный приз в пределах их досягаемости.
В 1999 году, когда главные разработчики программного обеспечения Netflix, включая Хастингса, размышляли над созданием механизма рекомендаций, их первый подход был примитивен и включал в себя объединение фильмов по следующим признакам: жанр, актеры, режиссер, время и место действия, счастливый или грустный финал. Когда библиотека фильмов выросла, оказалось, что этот метод неудобный и неточный, потому что не важно, как много атрибутов они выделили в каждом фильме, они не могли понять, почему фильм «Красотка» так сильно отличался, скажем, от «Американского жиголо». В обоих фильмах была показана тема проституции, оба были сняты в главном городе США, а главную роль исполнил Ричард Гир. Но вряд ли они понравились бы одной и той же аудитории.
Первые механизмы рекомендаций были непредсказуемы: одна из известных оплошностей состояла в том, что Walmart пришлось извиниться и отключить свои механизмы рекомендаций после того, как их веб-сайт предложил фильм «Планета обезьян» покупателям, которые искали фильмы, связанные с Месяцем афроамериканской истории[28].
Затем инженеры-программисты