Шрифт:
Интервал:
Закладка:
Нигерийцы изумятся: за АФАКом — все боги и богини, почитаемые завсегдатаями клуба New Afrika Shrine.
Анализ. Компьютерное зрение, сверточные нейронные сети; дипфейки; генеративно-состязательные сети (GAN); биометрия; безопасность ИИ
«Боги под масками» — история о визуальном обмане, об обмане зрения. Научившись видеть, распознавать, понимать и синтезировать объекты, ИИ может также манипулировать ими, создавая изображения и видео, неотличимые от реальных. В рассказе описывается будущее, в котором люди больше не смогут полагаться на невооруженный глаз, если наверняка пожелают отличить подлинное видео от тонкого монтажа.
Сайтам и компьютерным приложениям придется (их обяжут законом) использовать антидипфейковый софт (как сегодня используются антивирусные программы), чтобы защитить пользователей от поддельных видео. В нашей истории перетягивание каната между создателями дипфейков и детекторов для их выявления уже переросло в гонку вооружений, и с переменным успехом побеждает тот, у кого больше вычислительных мощностей.
Действие рассказа происходит в 2041 году, но, вполне вероятно, подобная ситуация сложится и раньше — как только развитый мир сможет позволить себе огромные расходы на супердорогие компьютеры, программное обеспечение и ИИ-экспертов, необходимых для создания и обнаружения дипфейков и прочих манипуляций ИИ. И регулирующие эту сферу законы, скорее всего, будут приняты прежде всего в развитых странах. Наша история происходит в стране развивающейся — в ней негативные внешние эффекты дипфейков, по всей вероятности, проявятся несколько позже.
Итак, как же ИИ научается видеть — и через камеры, и через записанные видео? Как используются способности ИИ? Как работает создатель дипфейков, применяющий ИИ? Способны ли люди или ИИ обнаруживать дипфейки? Наполнят ли наши соцсети фейковые видео? Как остановить поток дипфейков? Какими еще дырами в безопасности может быть чреват ИИ? И есть ли что-нибудь полезное в технологии, позволяющей создавать дипфейки?
ЧТО ТАКОЕ КОМПЬЮТЕРНОЕ ЗРЕНИЕ?
В рассказе «Золотой слон» мы увидели потенциальные возможности глубокого обучения при работе с большими данными, в частности в интернете и финансах. Вряд ли вы удивляетесь тому, что ИИ опережает людей по эффективности обработки больших массивов данных. Но вот как насчет способностей, уникальных для человека или прочих живых существ, например восприятия?
Зрение — самый важный из органов чувств человека. Компьютерное (машинное) зрение — это отрасль ИИ, которая обучает компьютеры видеть. Это слово означает здесь не только оцифровку видео или изображения, но и осмысление того, что при этом «видит» компьютер. Алгоритмы компьютерного зрения позволяют реализовать следующие возможности (перечислены в порядке возрастания сложности):
• Получение изображений и их обработка — для реальных 3D-сцен в видео используются камеры и другие приборы-датчики. Каждое видео состоит из последовательности изображений, каждое изображение представляет собой двумерный массив чисел, представляющих конкретный цвет, где каждое число соответствует пикселю.
• Обнаружение объектов и сегментация изображения — изображение разбивается на области и определяется место расположения объектов.
• Распознавание объекта — распознается объект (например, собака) и, возможно, детальная информация (немецкая овчарка, темно-коричневый окрас, и так далее).
• Трекинг объекта — отслеживание движущихся объектов в последовательных изображениях или видео.
• Распознавание жестов и движений — движения идентифицируются, как, например, танцевальные па в игре для Xbox.
• Интерпретация сцены — обеспечивается понимание сцены в целом, включая неявные взаимоотношения и нюансы, например голодная собака, жадно глядящая на кость.
Инструменты для создания дипфейков, использованные Амакой в рассказе, содержат все эти компоненты. Чтобы отредактировать видео с АФАКом, Амаке сначала нужно было разбить его на фрагменты — 60 кадров в секунду, каждый из которых состоит из десятков миллионов пикселей. ИИ считывает эти пиксели и автоматически сегментирует тело АФАКа (или рисует вокруг него границу), которое далее сегментируется на лицо в маске, рот, руки и так далее. И так для каждого видеокадра.
Если видео длится 50 секунд, у нас будет три тысячи кадров (изображений). Кроме того, сопоставляется движение между кадрами, что позволяет выделить связи между объектами. Все это, заметьте, делается до того, как начнется редактирование видео.
Процесс представляется жутко трудоемким, но мы, люди, в своей жизни делаем это на раз-два. Нам достаточно лишь бросить взгляд, и все перечисленное уже проделано — тратится меньше секунды. Кроме того, люди обладают способностью к абстрактной и обобщающей интерпретации, причем даже если один и тот же объект выглядит по-разному под разными углами, при разном освещении, с разных расстояний или даже почти скрыт другими объектами.
Например, увидев человека, сидящего за столом в определенной позе, мы можем сделать вывод, что он держит ручку, нацелившись на лист бумаги, хотя на самом деле не видим ни того, ни другого.
Когда мы что-то «видим», мы, по сути, каждый раз задействуем все накопленные ранее знания о мире — все, что узнали за свою жизнь о перспективе, геометрии, здравом смысле и обо всем том, что видели до этого. У человека это происходит просто и естественно, но научить тому же самому компьютер крайне сложно.
Компьютерное зрение — область исследований, которая пытается преодолеть трудности и сделать так, чтобы компьютеры умели видеть и понимать то, что они видят.
СПОСОБЫ ПРИМЕНЕНИЯ КОМПЬЮТЕРНОГО ЗРЕНИЯ
Уже сегодня мы практически ежедневно соприкасаемся с технологиями компьютерного зрения.
Их можно использовать в режиме реального времени в разнообразных областях — от транспорта до сферы безопасности. Приведу примеры.
• В автомобилях устанавливаются системы помощи водителю «Антисон», не дающие уснуть за рулем.
• Магазины без касс и очередей — типа Amazon Go: установленные в них камеры сами распознают товар, который вы кладете в корзину или возвращаете на полку.
• Охрана аэропортов (подсчет количества людей, распознавание террористов).
• Распознавание жестов (баллы за движения в танцевальных играх для Xbox).
• Распознавание лиц (использование лица пользователя для разблокировки мобильного телефона).
• Смарт-камеры (портретный режим вашего iPhone распознает и выделяет людей на переднем плане, а затем красиво размывает фон для создания эффекта фото, сделанного зеркальным фотоаппаратом).
• Военное дело (определение, кто напротив — солдат противника или мирный житель).
• Автономные системы навигации дронов и автомобилей.
В самом начале рассказа «Боги под масками» мы видели, как системы распознавания лиц используются в реальном времени для автоматической оплаты проезда — путем идентификации пассажиров, проходящих через турникет вокзала. И узнаем, что пешеходы, используя жестикуляцию, могут взаимодействовать с мультяшными животными в уличной рекламе. А смартстрим Амаки использует компьютерное зрение для распознавания городских улиц и указания маршрута, помогает ему добраться до незнакомого пункта назначения.
Кроме того, компьютерное зрение можно применять к изображениям и видео — не такими прямолинейными способами, но не менее полезными и важными. Приведу примеры:
• Интеллектуальное редактирование фотографий и видео (такие