Общий ИИ уже наступил: интервью с CEO Pheon Юрой Фицджеральдом
Индустрия искусственного интеллекта стремительно развивается, в том числе и по части принятия технологии среди простых пользователей. Инструменты вроде ChatGPT, Stable Diffusion и ElevenLabs позволили миллионам людей по всему миру взаимодействовать с ИИ.
Проявляет ли ChatGPT интеллект? Оставит ли технология людей без работы? Этично ли использовать ИИ на войне? Об этом и не только ForkLog пообщался с основателем стартапа по цифровому клонированию человека Pheon, а в прошлом — владельцем аутсорсинговой компании Hey Machine Learning, Юрой Фицджеральдом [Jura Fitzgerald].
Про ChatGPT
Богдан: ChatGPT. О нем говорят буквально все. Что ты думаешь по поводу технологии?
Я думаю, это замечательная технология. Она появилась не вчера, к этому долго шли. Эволюция заняла лет пять [с момента появления первой версии GPT]. И сейчас мы в точке, когда есть ChatGPT, GPT 3.5, а скоро и четвертая версия подоспеет.
Google также проводит какие-то опыты со своей языковой моделью. Они, скорее всего, используют LaMDA. Один из удачных экспериментов — применения языковой модели в функции планирования.
То есть, на языковую модель подается задача, например «мне нужно принести бутылку пива». Затем языковая модель генерирует алгоритм действия: «подъехать к холодильнику — поднять руку — открыть дверь — взять бутылку — закрыть дверь — развернуться — привезти бутылку».
Дальше этот алгоритм парсится и выполняется. Результаты получились хорошие.
Богдан: это можно назвать проявлением интеллекта?
Языковые модели, в частности GPT, это вот уже хорошее проявление интеллекта. Лет пять назад, когда ИИ выполнял узкоспециализированные задачи, я говорил: «люди поймут, что искусственный интеллект уже пришел, когда алгоритмы станут выполнять более широкий спектр задач если не лучше человека, то хотя бы на уровне».
ChatGPT и GPT в частности — огромный шаг в этом направлении. По сути, это одна модель, которая хорошо решает множество задач, даже тех, которые не подразумевались.
Это такая мультизадачная штука, которая будет развиваться в сторону мультимодальности, то есть будет совмещать различные алгоритмы в единые системы. Точнее, это уже происходит. Может видели сериал Nothing Forever на Twitch? Где совместили генератор картинок и текстовую модель, которые беспрерывно создают сценарий и отрисовывают изображения.
Богдан: если эти модели существуют давно, в чем секрет успеха ChatGPT?
На мой взгляд, удачный шаг — наличие очень удобного интерфейса для взаимодействия. Это как с [протоколом] HTTP было. Его удобно смотреть и отлаживать, уже потом на него нагородили знакомый всем нам интернет.
OpenAI примечательна тем, что они, по сути, монополисты. Как пионеры технологии, у них отличная команда и практически неограниченные ресурсы от Microsoft [благодаря сделке на $10 млрд].
Я уверен, что там не вся сумма в виде денег. Очень много решает сервис Azure и их сервера, к которым у OpenAI есть безлимитный доступ.
Сейчас это особенно ценно, потому что банально не хватает вычислительных мощностей. У Amazon и Google их нет в достаточном количестве. Даже мы как небольшой стартап — нам много серверов не надо — регулярно сталкиваемся с проблемами. Мол, вот наши деньги, но их не могут взять, потому что нет доступных ресурсов.
И сейчас рядовому стартапу очень сложно конкурировать в фундаментальном направлении диалоговых моделей. Натренировать модельку с нуля — это дорого, очень дорого, и таких ресурсов у рядовых стартапов нет.
Поэтому ChatGPT — очень сильная монополия.
Про синтетических людей
Богдан: раз уж разговор зашел про ваш стартап, Pheon, расскажи о нем поподробнее.
Это digital-cloning стартап. Технология клонирования людей, создания их цифровых копий. По сути, сгенерированное видео, на котором человек выглядит и звучит так же, как в жизни, и говорит приблизительно то же, что и оригинал.
Допустим, клон Илона Маска. На вопрос «где ты работаешь» он ответит: «я CEO Tesla Motors, SpaceX, Neuralink, Twitter», и что там у него еще есть.
Богдан: как у вас родилась такая идея?
Начиналось все с поиска. На этом этапе мы перебирали все возможные варианты ИИ-продуктов с новыми и перспективными технологиями. Насобирали много вариантов, из которых выбрали пять лучших и презентовали по профильным инвесторам.
Идея с цифровыми людьми вызвала наибольший интерес, поэтому решили на ней сфокусироваться.
Кроме этого, о ней давно уже говорят, снимают сериалы вроде «Черного зеркала». К нам [в Hey Machine Learning] приходил заказчик, который хотел что-то подобное сделать — «оживить» покойного дедушку. Мы исследовали возможности и тогда все было плохо.
Сейчас вопрос технологического риска не стоит. В том или ином виде они [необходимые разработки» уже существуют.
Марина: синтетические люди — перспективная ниша?
Это как GPS, когда перестала быть чисто военной системой и «пошла в народ». На ее основе появились сервисы вроде Uber, Glovo, [Google] Maps, получила развитие отрасль дронов.
Вот так и с цифровыми людьми – фундаментальная технология, поверх которой можно строить много разных применений. Можно оцифровывать знаменитостей и связать с образовательными курсами, изучением языков. Например, выучить испанский с Бейонсе.
Это может быть консалтинговая история. Многие юридические кейсы вроде открытия компании по законам штата Делавэр, подачи налоговой декларации и составления отчетов поддаются формализации. С таким объемом работы, который не потянет человек, легко справится цифровой юрист.
Еще пример — коуч-мотиватор, помогающий достигать цели вроде регулярного посещения спортзала. Он сможет напоминать о необходимости ходить на тренировки, контролировать выполнение упражнений на разные части тела, спорить о чем-то.
И есть много применений, о которых мы и не догадываемся. Эта индустрия только-только начинает появляться. Мы сейчас в поиске большого рынка под эту историю.
Богдан: как происходит процесс цифрового клонирования? Допустим, я селебрити, хочу создать свою копию. Что мне для этого нужно сделать?
У нас уже есть решение для селф-онбординга, где можно создать клона. Сейчас это в простом варианте, где ты описываешь краткую биографию человека, важные факты о нем, характер. И загружаешь видео, снятое хоть с селфи-камеры смартфона, где он что-то говорит.
Эти данные используются нейросетями для того, чтобы сгенерировать персонализированные видеоответы.
Богдан: звучит как-то просто. Помню кейс, когда оцифровали словацкого баскетболиста Луку Дончича. Его долго фотографировали в студии под разными углами, записывали образцы голоса и так далее. Ваш подход сильно страдает в отношении качества результата?
В начале у нас тоже были высокие требования к контенту. Для этого надо было арендовать студию, что в Америке не дешево. Оплатить работу оператора, продюсера, несколько часов снимать контент, заботиться об идеальном свете, положении головы в кадре.
Со временем требования к контенту сильно снизились. До селфи-видео на пять секунд.
Марина: у вас есть защита от недобросовестного использования? Чтобы не создавали клонов звезд и не распространяли с их помощью токсичный контент?
Конечно. Наши нейросети фильтруют контент. Есть модель, которая тренируется на таких датасетах, чтобы минимизировать количество непристойного, грубого или токсичного контента. Это в плане текстовых запросов.
В плане видео это все может решаться водяными знаками, дисклеймерами в самом приложении.
Но пока у технологии генерирования есть ряд ограничений. Иногда в каких-то кадрах могут проскочить артефакты, разрешение картинки также ограничено. То есть по таким маркерам можно определить реальный ли контент.
Но это вопрос времени, когда технология в 99% случаев будет неотличима от видео, записанного на камеру.
Богдан: вы фиксировали попытки сгенерировать что-то неприемлемое? Или замечали ошибки самого приложения?
Нередкий случай, когда приходит человек создавать двойника, но вместо своего селфи загружает видео с утятами какими-то. Или записывает YouTube вместе с интерфейсом.
Хоть мы и упростили порог входа, для большого количества пользователей снять качественный контент — не простой процесс. По ряду технических и психологических причин.
Богдан: если кто-то скопирует образ, скажем, Ким Кардашьян, без разрешения. Кто несет ответственность за это?
Если ты делаешь свое приложение и генерируешь контент, то правами на использование образа должен обладать ты.
У нас была ситуация с AppStore, когда мы собрали приложение под одного селебрити. Apple отклонила заявку и запросила документы, подтверждающие права использования образа.
Мы им отправили соответствующие бумаги и в итоге приложение допустили к публикации.
На UGC-площадках ответственность за контент ложится на пользователей. Платформа должна лишь модерировать. При возникновении спорных ситуаций необходимо разбираться, нарушены права или нет.
Про войну
Богдан: основная часть команды у вас была сосредоточена в Харькове. Как начало широкомасштабного вторжения повлияло на работу?
Это риторический вопрос для всех, кто с начала войны был в Украине. Конечно, на нас это повлияло негативно. Нарушились процессы, на первый план вышли вопросы безопасности. Из Харькова пришлось эвакуироваться.
Часть людей разъехалась. А я большой противник удаленки: считаю, что команда должна работать вместе, потому как скорость коммуникации и само общение сильно решают.
Очень много крутых идей появляется в случайных диалогах. Да и банально что-то объяснить, показать, проговорить рабочие вещи – это быстрее делать в формате лицом к лицу.
Богдан: вам удалось сохранить состав команды?
У нас один человек пошел воевать. Остальная команда сохранилась.
Марина: спустя почти год вам удалось вернуть прежний темп работы?
Да, перфоманс вернулся к довоенному уровню. Сложно было первые пару месяцев.
Марина: говоря о войне, как ты считаешь, на сколько этично использовать ИИ на поле боя?
Абсолютно допустимо, почему нет? Почему естественный интеллект этично использовать, а искусственный — нет? Их отличие лишь в том, что естественный — родился, а искусственный — собрали.
И если роботы смогут воевать друг с другом, люди перестанут страдать. Но это такая утопия, мало реалистичная.
Про общий ИИ
Богдан: сейчас ИИ стал массовым явлением, хотя еще совсем недавно он был больше интересен гикам и целевому сообществу. Что поменялось за последние годы?
Лет 5 назад я выступал с презентацией об ИИ в Харьковском национальном университете радиоэлектроники. Впрочем, с тех времен, она не потеряла актуальность. Появились какие-то новые наработки, те же Diffusion или ChatGPT.
Предшественником всего этого стало железо, доступность вычислительных мощностей. Органически растет сообщество, появляется больше специалистов, «звезд» отрасли. Соответственно, это сообщество и делает больше исследований, больше хороших новых инструментов.
Больше становится данных, их стало проще хранить и дешевле обрабатывать. То есть предпосылка — это экономика.
Марина: по-твоему, не было какого-то переломного момента, а все развивалось своим чередом?
А что такое переломный момент?
Марина: произошло нечто такое, что поделило на «до» и «после».
А что такое «до» и что такое «после»?
Марина: например, когда вышла DALL-E и оказалось, что картинки можно генерировать по текстовому запросу.
DALL-E далеко не первая, было много других решений. Они были хуже по качеству, генерировали более «ЛСД-шные» картинки.
Конечно DALL-E, GPT — это майлстоуны. В каком-то роде это все переломные моменты. Но для меня это одна естественная непрерывная эволюция.
Марина: лет пять назад мы обсуждали чат-ботов и говорили, что эта технология уже отходит на задний план. Ты мог тогда представить, что в 2023 году чат-бот будет настолько популярным и востребованным?
Я тогда не задумывался, что чат-бот — это удачный интерфейс к искусственному интеллекту.
Но и сейчас есть небольшая разница между тем, что человек общается с другим человеком или ботом. Даже очень умным ботом.
Тут уже больше барьер в психологии. Дружба это не просто переписка. Это длительный процесс выстраивания отношений, наличие общих моментов, воспоминаний, увлечений.
Общение в формате переписки — одна из составляющих дружбы. И чат-боты ее не заменяют.
Но даже в текущем виде они могут создавать некую привязанность. Особенно это заметно среди одиноких людей, которые ищут поддержку.
Но и все это будет эволюционировать, будет обрастать психологическими факторами. Таким образом боты будут восприниматься более одушевленными.
Марина: а если не в качестве общения, а обслуживания. Если бы тебе подавал блюда в ресторане робот, ты бы себя комфортно чувствовал?
Конечно, есть потребность в человеческом общении, но и одновременно с этим нет претензий к ботам. Я недавно заходил в кафешку, где готовят машины. Там работает, всего один человек, который устанавливает капсулы с макаронами и соусами в этих роботов. Они это все смешивают, подогревают, готовят, а ты наблюдаешь за процессом и через 15 минут у тебя готовый заказ.
Еда по вкусу ничем не отличается от блюд шеф-повара. Это, конечно, не «Мишлен», скорее ближе к домашним макарошкам. Но это обычная, съедобная еда.
Изысканная кухня тоже может к этому прийти в процессе естественной эволюции.
Да, приятно, когда приходит официант, заботится о комфорте гостя. Машины пока не могут их заменить, потому что нет таких технологий. Если вместо человека будет приходить робот – так это только здорово.
Богдан: какие секторы ИИ ты считаешь наиболее перспективными?
Да в целом ИИ очень перспективная область. Как сказал Эндрю Ын, искусственный интеллект – это новое электричество.
Что будет развиваться? Из того что сейчас в тренде, собственно, языковые модели. Они станут фундаментом для ИИ. Если говорить о векторе развития — мультимодальность.
Поверх моделей будут добавляться новые интерфейсы, помимо текстовых. Это могут быть системы принятия решений для роботов, генераторы сценариев для видео, военные технологии.
Богдан: насколько сильно автоматизация повлияет на рынок труда? Останутся ли люди без работы?
Без дела люди не останутся. А работу можно придумать из любой деятельности. Можно переквалифицироваться в другую профессию.
Какие-то области начнут трансформироваться. Из очевидного – копирайтинг.
Несмотря на то, что алгоритмы могут создать большие объемы изображений, дизайнеров они не заменят. Они трансформируют ремесло.
С тем же GPT — запрос необходимо правильно сформировать. Так что может появиться такая работа — промпт-инжиниринг. Специалист, который будет формировать правильную задачу для ИИ.
На данный момент у человека есть большое преимущество. С него можно спросить, когда что-то пошло не так. С чат-бота ты не спросишь. Это еще одна причина, почему люди не скоро останутся без работы.
Мне недавно картинка попалась в интернете, где в магазине с роботами-пылесосами уборщица моет полы. Ее я всегда вспоминаю, когда говорят, что люди останутся без работы.
Богдан: что на счет общего ИИ, как быстро он наступит? И нужен ли он нам вообще?
Он уже появился. Тот же GPT — это AGI.
На тему «что такое общий ИИ» можно спекулировать, потому что нет единого мнения. В моем понимании — это одна система, один мозг, архитектура, которая может решать широкий спектр задач.
ChatGPT является таковой. Она решает широкий спектр задач, которым даже не обучалась. И эта способность будет становиться сильнее и сильнее.
Богдан: в теории ChatGPT смог бы пройти тест Тьюринга, и обычный человек не догадался бы с кем общается?
Даже у нас люди, которые общаются с клоном, спрашивают: «Ты живой человек? Давай созвонимся пообщаемся». И скидывают в чат номер телефона.
Есть у людей зерно сомнения. Так что тест Тьюринга на этом этапе пройден.
Лет пять назад AGI был сильно глупее. Да и сейчас ему далеко до человека. Но пройдет какое-то время и ИИ сравняется с людьми. Это здорово, это продвинет развитие.
Сейчас исследователи и математики очень ограничены в когнитивных способностях. У нас есть барьер: размер мозга, количество нейронов. И мы не можем его преодолеть.
А у продвинутого интеллекта будет преимущество, он сможет находить какие-то более глубокие закономерности, о которых мы даже не подозреваем. Придумывать новые смыслы, недоступные для человеческого разума.
AGI сможет создавать какие-то новые приборы, генерировать новые понятия — и всем от этого будет хорошо.
Если роботы, конечно, нас всех не уничтожат. Но хорошая новость в том, что это вряд ли произойдет при нашей жизни.
Беседовали Богдан Каминский и Марина Глайборода
Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!