Почему нейросети не заменят актеров

ИИ AI
ИИ AI

Элви Рэй Смит — первопроходец компьютерной анимации, сооснователь компании Pixar, покинувший легендарную студию из-за разногласий со Стивом Джобсом. В книге «Пиксель. История одной точки», перевод которой вышел в издательстве Individuum, он рассказывает, как возникли технологии, изменившие наши представления об искусстве и мире вообще. Публикуем отрывок, посвященный тому, как еще в 2000 году Смиту пришлось успокаивать обеспокоенных прогрессом актеров.  

В 1996 году сотрудники студии Pixar получили специальную техническую награду Американской академии кинематографических искусств и наук, первую из многих, последовавших далее. Технические награды раздают на церемонии, столь же гламурной, как и телевизионная церемония вручения премии «Оскар», — те же смокинги и платья, лимузины и кинозвезды, роскошный банкет и короткие благодарственные речи. Разница только в том, что телевидение не транслирует ее на весь мир и знаменитые журналисты не берут интервью у номинантов на красной ковровой дорожке. Академия вполне обоснованно считает, что широкой публике едва ли интересны генераторы тумана или паутины и другие технические достижения, за которые вручается премия на протяжении многих лет.

Мероприятие всегда ведет кинозвезда. В 1996 году это был Ричард Дрейфус, известный нам по множеству ролей, но особенно по роли Курта в «Американских граффити» Джорджа Лукаса. Я, Эд Катмулл и еще несколько человек из Pixar, номинированные на премию, сидели за одним столиком. Всего несколькими месяцами ранее прошла триумфальная премьера «Истории игрушек».

В начале своей торжественной речи Дрейфус отметил, что актеры и технические специалисты зависят друг от друга и эта другая, не транслируемая по телевидению церемония вручения премии «Оскар» очень важна для таких актеров, как он сам. «Мы все, и актеры, и технари, вместе идем в будущее», — сказал он. Но потом добавил иронии. Он указал на наш столик и сказал: «Заметьте, ребята из Pixar, что я сказал вместе!» По залу пронесся нервный смешок. Многие актеры, очевидно, не раз слышали чрезмерно бойкие заявления от моих коллег по отрасли, что «со дня на день мы заменим живых актеров симуляциями».

В 2000 году мне предложили написать статью для журнала Scientific American как раз на эту тему — о возможности замены живых актеров. В ней я высказал мысль, что в людях есть нечто особенное. Мы еще не можем не то что заменить, а даже объяснить это.

Я называю это творчеством, но термин не совсем точен. Я имею в виду то, что сделали Тьюринг, Котельников и Фурье, что делают программисты, инженеры и разработчики моделей, что делают аниматоры и актеры.

Это то, что сделал Тьюринг, когда изобрел машинные вычисления и компьютер с хранимой в памяти программой, казалось бы, из ничего. Это удивительный творческий скачок, один из величайших за всю историю. Это техническое творчество теоретической разновидности — в башне из слоновой кости. Котельников сделал то же самое, создав теорему отсчетов, совершив еще один великий творческий скачок. И, конечно же, он отталкивался от великой творческой идеи Фурье.

Это то, что делают программисты или что позволяет им создать из очень длинного списка внешне бессмысленных компьютерных инструкций программу, которая делает что-то осмысленное — например, вычисляет «Историю игрушек». Постоянное совершенствование невероятно быстрых компьютеров, описанное законом Мура, — еще один пример этого. Другой пример — создание внутри компьютера сложных моделей, скажем, персонажей, с использованием геометрии и языка затенения.

И это то, что делают аниматоры, когда вдыхают жизнь в своих персонажей и заставляют нас поверить, будто стопка треугольников осознает себя и чувствует боль. Это художественное творчество. Им занимаются и актеры, убеждающие нас, будто в их телах обитает разум, принадлежащий совсем другим людям. На самом деле актеры и аниматоры считают, что используют один и тот же навык. Pixar на собеседовании отбирает аниматоров, обладающих актерскими способностями.

То, что я написал в 2000-м, остается актуальным и сегодня, два десятилетия спустя: мы понятия не имеем, как заменить живых актеров. Но мы можем заменить внешность актера. Образ на экране, воплощающий актера, называется аватаром. Мы можем заменить актера на экране убедительным аватаром — даже на крупном плане, передающем игру эмоций. Я знаю, что это возможно и делалось уже не раз. Посмотрите на Брэда Питта в «Загадочной истории Бенджамина Баттона» (2008), где Брэд Питт — не Брэд Питт, а его аватар, цифровое представление его внешности. Но все дело в том, что аватаром «управляет» великий актер, а именно сам Брэд Питт. Аватар заменил не его или его мастерство, а только его экранную внешность. Убедительные эмоции принадлежат актеру, а не какой-либо компьютерной программе.

Я предсказал в 2000 году, что мы сможем снять фильм с живыми актерами, не используя кинокамеру, если актеры будут контролировать свои аватары. Предсказание, в котором я экстраполировал результаты непрерывного развития компьютерной анимации, сбылось через восемь лет в «Загадочной истории Бенджамина Баттона».

<…>

Тогда, в 2000 году, я сделал несколько магических пассов и предположил, что, поскольку потребовалось 20 лет для перехода от идеи компьютерного анимационного фильма в 1975 году к его реализации в 1995 году, возможно, еще 20 лет потребуется, чтобы прийти к первому фильму «без камеры», но не «без актеров». Итак, 2020 год, когда я вношу последние правки в эту главу, уже наступил, так что, очевидно, мои магические пассы не возымели эффекта. Нет никаких свидетельств, что возможно снять эмоционально убедительный фильм с участием одних только человеческих аватаров, без настоящих людей в кадре. И, конечно же, нет никаких свидетельств близящейся замены актеров или аниматоров их компьютерными симуляциями. Ричард Дрейфус может расслабиться, их не предвидится и в обозримом будущем.

<…>

Пару лет назад, когда я был в Королевском колледже в Кембридже, где моя жена проводила свой научный отпуск, — в том самом, где Алан Тьюринг написал свою основополагающую работу, — ко мне подошел мой старый коллега по играм с пикселями Джон Бронскилл. «Элви, нам больше не нужно будет программировать!» — он ошарашил меня заявлением. Джон сделал себе имя, создавая расширения для графического редактора Adobe Photoshop, пожалуй, самого популярного пиксельного приложения в профессиональном мире.

«Что ты имеешь в виду?» — спросил я. «Прочитай вот это», — сказал он, сунув мне в руки научный журнал. Он был открыт на статье из Исследовательской лаборатории искусственного интеллекта Калифорнийского университета в Беркли. В ней описывалась нейросеть определенного типа, которую обучили с помощью 1000 немаркированных произвольных фотографий лошадей и 1000 немаркированных произвольных фотографий зебр. Фотографии лошадей содержали разное количество лошадей разного цвета, расположенных в произвольном порядке. Фотографии зебр тоже использовались разные, хотя цвета зебр, конечно, не отличались. Все эти фотографии были цифровыми, состоящими из пикселей. После соответствующего обучения (не буду описывать его технологию) сеть научилась проделывать следующий поразительный фокус: получив на входе произвольную фотографию зебры, сеть заменяла каждую зебру на лошадь. На самом деле она просто перекрашивала зебру в цвета лошади или наоборот.

«Как это работает? — спросил я и добавил: — Я даже не думаю, что эта проблема имеет четкое определение». Что такое для компьютера лошадь? Что такое зебра? Как он сопоставляет одно с другим?

Джон просто отмахнулся: «Я не знаю. И никто не знает. Оно просто делает это! Это слишком сложно для обратного проектирования».

Та же нейронная сеть способна и на другие удивительные вещи. Если обучить ее на пейзажных фотографиях и картинах Ван Гога, она сделает из любого снимка природы картину в стиле Ван Гога. Или наоборот. Или в стиле Моне. Или превратит летние пейзажи в зимние. Или наоборот.

Я упоминаю здесь об этом, чтобы задаться вопросом: что будет дальше в Цифровом Свете? Признаюсь, я не понимаю, что происходит и насколько это важно в долгосрочной перспективе. Но давайте немного поразмышляем.

Тьюринг позволил своей универсальной машине Тьюринга — или компьютеру с хранимой в памяти программой — выполнять операции над самой программой, как над данными. Именно в этом и заключается суть его изобретения — компьютера с хранимой в памяти программой. Относится ли работа программы «лошадь-зебра» к числу операций, в которых программа сама модифицирует себя? Тьюринга особенно привлекала подобная возможность, как и перспектива создания искусственного интеллекта. Операционные системы современных компьютеров обычно запрещают программам самомодифицироваться, чтобы не привести к полному хаосу.

Нейронная сеть моделируется на обычном компьютере, поэтому программа, выполняющая моделирование, не модифицирует себя. Но предположим, что нейронная сеть была бы настоящей нейронной сетью, а не просто симуляцией. Можно ли ее истолковать как программу, модифицирующую саму себя? Я думаю, что да. Наш мозг — это, несомненно, нейронная сеть, и, насколько нам известно, в нем нет хранилища программ, отдельного от хранилища данных. И, вероятно, он не делает ничего, выходящего за рамки вычислений Тьюринга. Мы не нашли ни одного иного алгоритмического процесса за 80 лет с момента появления этой концепции.

В 1965 году я поступил в аспирантуру Стэнфорда, потому что он входил в число двух известных мне университетов, где преподавали увлекательный новый предмет — искусственный интеллект (в наши дни его часто сокращенно называют ИИ). Еще его преподавали в Массачусетском технологическом институте. Я учился у Джона Маккарти, отца-основателя искусственного интеллекта в Стэнфорде. И я несколько раз обстоятельно беседовал с Марвином Мински из МТИ, еще одним отцом-основателем этого направления.

Через пару лет я бросил заниматься ИИ, решив, что при моей жизни прорыва в этой области не случится. Возможно, я сделал преждевременный вывод, если учесть, что у меня в запасе, вероятно, есть еще два десятилетия, но тем временем я помог снять первый цифровой фильм. Поскольку я сделал это, у меня теперь есть время вернуться к размышлениям об ИИ. Хотя на самом деле я никогда и не переставал о нем думать.

Меня озадачило замечание Джона Бронскилла. Я всегда предполагал, что, когда мне будут объяснять принцип работы ИИ, я все пойму. Тем не менее передо мной был пример машинного обучения — возможно, недостаточно развитого, чтобы называться ИИ, — и я ничего не понял. Возможно, потому что сеть модифицирует свою собственную программу? Мы знаем, что, как правило, нельзя быть уверенным даже в такой простой вещи, как остановится ли в конце концов программа, — поэтому, вероятно, и нет ничего удивительного в том, что мы не можем понять, как работает эта программа «зебра-лошадь».

Как бы то ни было, ее умение делать зебру из лошади далеко от идеала. В статье, которую мне показал Бронскилл, приводился пример, где в программу загрузили знаменитую фотографию Владимира Путина с голым торсом верхом на лошади. В результате президент России и лошадь слились в двухголового полосатого кентавра.

Сама природа нынешней революции заключается в том, что мы не можем предсказать ее, не можем заглянуть вперед дальше, чем на один порядок величины. Нам просто нужно оседлать волну и увидеть, в какое захватывающее и даже загадочное место она нас вынесет. 

Перевод с английского Алексея Снигирова. Публикуется по изданию: Элви Рэй Смит. Пиксель. История одной точки. Москва: Individuum, 2023.

Подписывайтесь на ForkLog в социальных сетях

Telegram (основной канал) Discord Instagram
Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!

*Ежедневная рассылка — краткая сводка наиболее важных новостей предыдущего дня. Чтение занимает не больше двух минут. Выходит в рабочие дни в 06:00 (UTC)
*Еженедельная рассылка — объясняем, кто и как изменил индустрию за неделю. Идеально подходит для тех, кто не успевает за новостным потоком в течение дня. Выходит в пятницу в 16:00 (UTC).

Мы используем файлы cookie для улучшения качества работы.

Пользуясь сайтом, вы соглашаетесь с Политикой приватности.

OK