Шрифт:
Интервал:
Закладка:
Выводы, получаемые при анализе больших данных, как правило, основываются исключительно на корреляциях и ничего не говорят о причинах изучаемого феномена. Алгоритм может выяснить, что если A соответствует действительности, то и B, скорее всего, тоже верно. Но он не способен установить причинно-следственную связь между A и B и уж тем более не может установить, обусловлены ли A и B каким-либо иным внешним фактором. Во многих случаях, однако, и в особенности в мире бизнеса, где абсолютным критерием успеха является прибыльность и эффективность, а не глубина понимания, даже простая корреляция сама по себе может представлять очень большую ценность. Большие данные могут стать для менеджмента источником подробнейших сведений по самому широкому кругу вопросов: все — от параметров работы каждого отдельного станка до общих результатов работы международной корпорации — может быть потенциально подвергнуто анализу с такой степенью подробности, которая прежде была просто невозможна.
Непрерывно увеличивающийся в объеме массив данных все чаще рассматривается в качества своего рода ресурса, который, если за него взяться как следует, может стать источником ценной информации, причем не только сейчас, но и в будущем. Глядя на компании в добывающих отраслях (например, нефтегазовой), год за годом с успехом пользующихся плодами технического прогресса, легко представить, как, вооружившись возросшей вычислительной мощью компьютеров, а также усовершенствованным ПО и новыми методами анализа, корпорации во всех секторах экономики препарируют данные, извлекая из них знания, которые сразу превращаются в дополнительную прибыль. Более того, как раз вера инвесторов в то, что все так и будет, судя по всему, и является главным фактором, обуславливающим такую громадную рыночную стоимость компаний, работающих с большими объемами данных, т. е. таких, как Facebook.
Машинное обучение — метод, при котором компьютер перебирает данные и, по сути, пишет собственную программу на основе обнаруженных статистических закономерностей, — является одним из наиболее эффективных средств извлечения самой ценной информации. Как правило, процесс машинного обучения разбивается на два этапа: сначала алгоритм обучается на имеющихся данных, а затем применяется к новой информации для решения похожих задач. Самый очевидный пример использования машинного обучения на практике — фильтры спама в электронной почте. На этапе обучения алгоритм обрабатывает миллионы сообщений, заранее помеченных как спам или не спам. При этом никто не садится и не программирует систему напрямую так, чтобы она могла распознавать все мыслимые способы написания слова «виагра». Вместо этого программа учится самостоятельно распознавать нужную информацию. Результатом обучения является приложение, которое способно автоматически идентифицировать основной массив нежелательной почты и при этом постоянно совершенствоваться и адаптироваться по мере появления новых образцов спама. Алгоритмы машинного обучения, работающие на основе тех же самых принципов, используются и при подборе рекомендуемых книг на Amazon, фильмов — на Netflix и потенциальных партнеров — на Match.
Одним из самых впечатляющих примеров эффективности машинного обучения стал созданный Google онлайн-переводчик. Используемые в нем алгоритмы основаны на подходе, который можно назвать подходом Rosetta Stone[24] и который предполагает анализ и сравнение миллионов страниц текста, который уже был переведен на различные языки. Разработчики Google начали с официальных документов Организации Объединенных Наций, а затем расширили круг исходных текстов, включив в него содержимое Всемирной паутины. Чтобы найти достаточное количество примеров для ненасытных алгоритмов самообучения, они использовали поисковую систему Google. Если судить по одному только количеству документов, использовавшихся в процессе обучения системы, то становится очевидно, что ничего подобного прежде не было. Специалист в области компьютерных вычислений Франц Ок, который руководил проектом, отметил, что его команда выстроила «очень-очень большие языковые модели, намного более масштабные, чем все, что было прежде за всю историю человечества»{124}.
В 2005 г. система Google приняла участие в ежегодном соревновании по машинному переводу, проводимом Национальным бюро стандартов и технологий, подразделением Министерства торговли США, отвечающим за публикацию стандартов измерения. Алгоритмы машинного обучения Google легко обошли всех остальных участников. До этого победа обычно доставалась лингвистам и языковедам, которые тратили немало сил на то, чтобы помочь своим системам перевода не увязнуть в трясине противоречивых и непоследовательных грамматических правил того или иного естественного языка. Главный вывод, который можно сделать из этой победы: даже самые лучшие программисты не способны создать что-нибудь сравнимое с тем объемом знаний, который заключен в наборе данных большого размера. По качеству система Google пока еще не может конкурировать с квалифицированными переводчиками-людьми, но главное ее преимущество — она способна работать более чем с пятьюстами языковыми парами, переводя в обе стороны. Это самая настоящая революция в области общения: впервые в человеческой истории практически любой может мгновенно и совершенно бесплатно получить приблизительный перевод почти любого документа на любом языке.
Существует ряд подходов к машинному обучению, но наиболее эффективной и удивительной является методика, связанная с использованием искусственных нейронных сетей — систем, спроектированных в соответствии с теми же фундаментальными принципами, что лежат в основе работы человеческого мозга. Мозг состоит из 100 млрд нейронных клеток и многих триллионов межклеточных связей, но для построения эффективных обучаемых систем достаточно куда более простой системы искусственных нейронов.
Работу отдельного нейрона можно сравнить с выскакивающими пластиковыми фигурками развивающих игрушек, которые так нравятся малышам. Когда ребенок нажимает клавишу, перед ним появляется цветная фигурка — это может быть, например, персонаж мультфильма или животное. Легкое нажатие на клавишу ни к чему не приводит. Даже если нажать чуть сильнее, все равно ничего не произойдет. Но достаточно достигнуть определенного порога усилия — и фигурка тут как тут. Приблизительно так и работает нейрон, за исключением того, что вместо клавиши для его активации требуется определенная комбинация входных параметров.
Чтобы наглядно представить нейронную сеть, вообразите устройство наподобие машины Руба Голдберга[25], которое состоит из нескольких таких развивающих игрушек, составленных рядами на полу. Над каждой клавишей, приводящей в действие фигурки, три механических пальца. Правда, вместо того, чтобы просто выпрыгивать, фигурки так расположены, что срабатывание одной из них приводит к опусканию нескольких механических пальцев в последующих рядах игрушек и нажатию связанных с ними клавиш. Ключевым фактором, определяющим способность нейронной сети обучаться, является возможность регулирования усилия, с которым палец нажимает на соответствующую клавишу.