Общий ИИ уже наступил: интервью с CEO Pheon Юрой Фицджеральдом

Индустрия искусственного интеллекта стремительно развивается, в том числе и по части принятия технологии среди простых пользователей. Инструменты вроде ChatGPT, Stable Diffusion и ElevenLabs позволили миллионам людей по всему миру взаимодействовать с ИИ.

Проявляет ли ChatGPT интеллект? Оставит ли технология людей без работы? Этично ли использовать ИИ на войне? Об этом и не только ForkLog пообщался с основателем стартапа по цифровому клонированию человека Pheon, а в прошлом — владельцем аутсорсинговой компании Hey Machine Learning, Юрой Фицджеральдом [Jura Fitzgerald].

Про ChatGPT

Богдан: ChatGPT. О нем говорят буквально все. Что ты думаешь по поводу технологии?

Я думаю, это замечательная технология. Она появилась не вчера, к этому долго шли. Эволюция заняла лет пять [с момента появления первой версии GPT]. И сейчас мы в точке, когда есть ChatGPT, GPT 3.5, а скоро и четвертая версия подоспеет.

Google также проводит какие-то опыты со своей языковой моделью. Они, скорее всего, используют LaMDA. Один из удачных экспериментов — применения языковой модели в функции планирования.

То есть, на языковую модель подается задача, например «мне нужно принести бутылку пива». Затем языковая модель генерирует алгоритм действия: «подъехать к холодильнику — поднять руку — открыть дверь — взять бутылку — закрыть дверь — развернуться — привезти бутылку».

Дальше этот алгоритм парсится и выполняется. Результаты получились хорошие.

Богдан: это можно назвать проявлением интеллекта?

Языковые модели, в частности GPT, это вот уже хорошее проявление интеллекта. Лет пять назад, когда ИИ выполнял узкоспециализированные задачи, я говорил: «люди поймут, что искусственный интеллект уже пришел, когда алгоритмы станут выполнять более широкий спектр задач если не лучше человека, то хотя бы на уровне».

ChatGPT и GPT в частности — огромный шаг в этом направлении. По сути, это одна модель, которая хорошо решает множество задач, даже тех, которые не подразумевались.

Это такая мультизадачная штука, которая будет развиваться в сторону мультимодальности, то есть будет совмещать различные алгоритмы в единые системы. Точнее, это уже происходит. Может видели сериал Nothing Forever на Twitch? Где совместили генератор картинок и текстовую модель, которые беспрерывно создают сценарий и отрисовывают изображения.

Богдан: если эти модели существуют давно, в чем секрет успеха ChatGPT?

На мой взгляд, удачный шаг — наличие очень удобного интерфейса для взаимодействия. Это как с [протоколом] HTTP было. Его удобно смотреть и отлаживать, уже потом на него нагородили знакомый всем нам интернет.

OpenAI примечательна тем, что они, по сути, монополисты. Как пионеры технологии, у них отличная команда и практически неограниченные ресурсы от Microsoft [благодаря сделке на $10 млрд].

Я уверен, что там не вся сумма в виде денег. Очень много решает сервис Azure и их сервера, к которым у OpenAI есть безлимитный доступ.

Сейчас это особенно ценно, потому что банально не хватает вычислительных мощностей. У Amazon и Google их нет в достаточном количестве. Даже мы как небольшой стартап — нам много серверов не надо — регулярно сталкиваемся с проблемами. Мол, вот наши деньги, но их не могут взять, потому что нет доступных ресурсов.

И сейчас рядовому стартапу очень сложно конкурировать в фундаментальном направлении диалоговых моделей. Натренировать модельку с нуля — это дорого, очень дорого, и таких ресурсов у рядовых стартапов нет.

Поэтому ChatGPT — очень сильная монополия.

Про синтетических людей

Богдан: раз уж разговор зашел про ваш стартап, Pheon, расскажи о нем поподробнее.

Это digital-cloning стартап. Технология клонирования людей, создания их цифровых копий. По сути, сгенерированное видео, на котором человек выглядит и звучит так же, как в жизни, и говорит приблизительно то же, что и оригинал.

Допустим, клон Илона Маска. На вопрос «где ты работаешь» он ответит: «я CEO Tesla Motors, SpaceX, Neuralink, Twitter», и что там у него еще есть.

Богдан: как у вас родилась такая идея?

Начиналось все с поиска. На этом этапе мы перебирали все возможные варианты ИИ-продуктов с новыми и перспективными технологиями. Насобирали много вариантов, из которых выбрали пять лучших и презентовали по профильным инвесторам.

Идея с цифровыми людьми вызвала наибольший интерес, поэтому решили на ней сфокусироваться.

Кроме этого, о ней давно уже говорят, снимают сериалы вроде «Черного зеркала». К нам [в Hey Machine Learning] приходил заказчик, который хотел что-то подобное сделать — «оживить» покойного дедушку. Мы исследовали возможности и тогда все было плохо.

Сейчас вопрос технологического риска не стоит. В том или ином виде они [необходимые разработки» уже существуют.

Марина: синтетические люди — перспективная ниша?

Это как GPS, когда перестала быть чисто военной системой и «пошла в народ». На ее основе появились сервисы вроде Uber, Glovo, [Google] Maps, получила развитие отрасль дронов.

Вот так и с цифровыми людьми – фундаментальная технология, поверх которой можно строить много разных применений. Можно оцифровывать знаменитостей и связать с образовательными курсами, изучением языков. Например, выучить испанский с Бейонсе.

Это может быть консалтинговая история. Многие юридические кейсы вроде открытия компании по законам штата Делавэр, подачи налоговой декларации и составления отчетов поддаются формализации. С таким объемом работы, который не потянет человек, легко справится цифровой юрист.

Еще пример — коуч-мотиватор, помогающий достигать цели вроде регулярного посещения спортзала. Он сможет напоминать о необходимости ходить на тренировки, контролировать выполнение упражнений на разные части тела, спорить о чем-то.

И есть много применений, о которых мы и не догадываемся. Эта индустрия только-только начинает появляться. Мы сейчас в поиске большого рынка под эту историю.

Богдан: как происходит процесс цифрового клонирования? Допустим, я селебрити, хочу создать свою копию. Что мне для этого нужно сделать?

У нас уже есть решение для селф-онбординга, где можно создать клона. Сейчас это в простом варианте, где ты описываешь краткую биографию человека, важные факты о нем, характер. И загружаешь видео, снятое хоть с селфи-камеры смартфона, где он что-то говорит.

Эти данные используются нейросетями для того, чтобы сгенерировать персонализированные видеоответы.

Богдан: звучит как-то просто. Помню кейс, когда оцифровали словацкого баскетболиста Луку Дончича. Его долго фотографировали в студии под разными углами, записывали образцы голоса и так далее. Ваш подход сильно страдает в отношении качества результата?

В начале у нас тоже были высокие требования к контенту. Для этого надо было арендовать студию, что в Америке не дешево. Оплатить работу оператора, продюсера, несколько часов снимать контент, заботиться об идеальном свете, положении головы в кадре.

Со временем требования к контенту сильно снизились. До селфи-видео на пять секунд.

Марина: у вас есть защита от недобросовестного использования? Чтобы не создавали клонов звезд и не распространяли с их помощью токсичный контент?

Конечно. Наши нейросети фильтруют контент. Есть модель, которая тренируется на таких датасетах, чтобы минимизировать количество непристойного, грубого или токсичного контента. Это в плане текстовых запросов.

В плане видео это все может решаться водяными знаками, дисклеймерами в самом приложении.

Но пока у технологии генерирования есть ряд ограничений. Иногда в каких-то кадрах могут проскочить артефакты, разрешение картинки также ограничено. То есть по таким маркерам можно определить реальный ли контент.

Но это вопрос времени, когда технология в 99% случаев будет неотличима от видео, записанного на камеру.

Богдан: вы фиксировали попытки сгенерировать что-то неприемлемое? Или замечали ошибки самого приложения?

Нередкий случай, когда приходит человек создавать двойника, но вместо своего селфи загружает видео с утятами какими-то. Или записывает YouTube вместе с интерфейсом.

Хоть мы и упростили порог входа, для большого количества пользователей снять качественный контент — не простой процесс. По ряду технических и психологических причин.

Богдан: если кто-то скопирует образ, скажем, Ким Кардашьян, без разрешения. Кто несет ответственность за это?

Если ты делаешь свое приложение и генерируешь контент, то правами на использование образа должен обладать ты.

У нас была ситуация с AppStore, когда мы собрали приложение под одного селебрити. Apple отклонила заявку и запросила документы, подтверждающие права использования образа.

Мы им отправили соответствующие бумаги и в итоге приложение допустили к публикации.

На UGC-площадках ответственность за контент ложится на пользователей. Платформа должна лишь модерировать. При возникновении спорных ситуаций необходимо разбираться, нарушены права или нет.

Про войну

Богдан: основная часть команды у вас была сосредоточена в Харькове. Как начало широкомасштабного вторжения повлияло на работу?

Это риторический вопрос для всех, кто с начала войны был в Украине. Конечно, на нас это повлияло негативно. Нарушились процессы, на первый план вышли вопросы безопасности. Из Харькова пришлось эвакуироваться.

Часть людей разъехалась. А я большой противник удаленки: считаю, что команда должна работать вместе, потому как скорость коммуникации и само общение сильно решают.

Очень много крутых идей появляется в случайных диалогах. Да и банально что-то объяснить, показать, проговорить рабочие вещи – это быстрее делать в формате лицом к лицу.

Богдан: вам удалось сохранить состав команды?

У нас один человек пошел воевать. Остальная команда сохранилась.

Марина: спустя почти год вам удалось вернуть прежний темп работы?

Да, перфоманс вернулся к довоенному уровню. Сложно было первые пару месяцев.

Марина: говоря о войне, как ты считаешь, на сколько этично использовать ИИ на поле боя?

Абсолютно допустимо, почему нет? Почему естественный интеллект этично использовать, а искусственный — нет? Их отличие лишь в том, что естественный — родился, а искусственный — собрали.

И если роботы смогут воевать друг с другом, люди перестанут страдать. Но это такая утопия, мало реалистичная.

Про общий ИИ

Богдан: сейчас ИИ стал массовым явлением, хотя еще совсем недавно он был больше интересен гикам и целевому сообществу. Что поменялось за последние годы?

Лет 5 назад я выступал с презентацией об ИИ в Харьковском национальном университете радиоэлектроники. Впрочем, с тех времен, она не потеряла актуальность. Появились какие-то новые наработки, те же Diffusion или ChatGPT.

Предшественником всего этого стало железо, доступность вычислительных мощностей. Органически растет сообщество, появляется больше специалистов, «звезд» отрасли. Соответственно, это сообщество и делает больше исследований, больше хороших новых инструментов.

Больше становится данных, их стало проще хранить и дешевле обрабатывать. То есть предпосылка — это экономика.

Марина: по-твоему, не было какого-то переломного момента, а все развивалось своим чередом?

А что такое переломный момент?

Марина: произошло нечто такое, что поделило на «до» и «после».

А что такое «до» и что такое «после»?

Марина: например, когда вышла DALL-E и оказалось, что картинки можно генерировать по текстовому запросу.

DALL-E далеко не первая, было много других решений. Они были хуже по качеству, генерировали более «ЛСД-шные» картинки.

Конечно DALL-E, GPT — это майлстоуны. В каком-то роде это все переломные моменты. Но для меня это одна естественная непрерывная эволюция.

Марина: лет пять назад мы обсуждали чат-ботов и говорили, что эта технология уже отходит на задний план. Ты мог тогда представить, что в 2023 году чат-бот будет настолько популярным и востребованным?

Я тогда не задумывался, что чат-бот — это удачный интерфейс к искусственному интеллекту.

Но и сейчас есть небольшая разница между тем, что человек общается с другим человеком или ботом. Даже очень умным ботом.

Тут уже больше барьер в психологии. Дружба это не просто переписка. Это длительный процесс выстраивания отношений, наличие общих моментов, воспоминаний, увлечений.

Общение в формате переписки — одна из составляющих дружбы. И чат-боты ее не заменяют.

Но даже в текущем виде они могут создавать некую привязанность. Особенно это заметно среди одиноких людей, которые ищут поддержку.

Но и все это будет эволюционировать, будет обрастать психологическими факторами. Таким образом боты будут восприниматься более одушевленными.

Марина: а если не в качестве общения, а обслуживания. Если бы тебе подавал блюда в ресторане робот, ты бы себя комфортно чувствовал?

Конечно, есть потребность в человеческом общении, но и одновременно с этим нет претензий к ботам. Я недавно заходил в кафешку, где готовят машины. Там работает, всего один человек, который устанавливает капсулы с макаронами и соусами в этих роботов. Они это все смешивают, подогревают, готовят, а ты наблюдаешь за процессом и через 15 минут у тебя готовый заказ.

Еда по вкусу ничем не отличается от блюд шеф-повара. Это, конечно, не «Мишлен», скорее ближе к домашним макарошкам. Но это обычная, съедобная еда.

Изысканная кухня тоже может к этому прийти в процессе естественной эволюции.

Да, приятно, когда приходит официант, заботится о комфорте гостя. Машины пока не могут их заменить, потому что нет таких технологий. Если вместо человека будет приходить робот – так это только здорово.

Богдан: какие секторы ИИ ты считаешь наиболее перспективными?

Да в целом ИИ очень перспективная область. Как сказал Эндрю Ын, искусственный интеллект – это новое электричество.

Что будет развиваться? Из того что сейчас в тренде, собственно, языковые модели. Они станут фундаментом для ИИ. Если говорить о векторе развития — мультимодальность.

Поверх моделей будут добавляться новые интерфейсы, помимо текстовых. Это могут быть системы принятия решений для роботов, генераторы сценариев для видео, военные технологии.

Богдан: насколько сильно автоматизация повлияет на рынок труда? Останутся ли люди без работы?

Без дела люди не останутся. А работу можно придумать из любой деятельности. Можно переквалифицироваться в другую профессию.

Какие-то области начнут трансформироваться. Из очевидного – копирайтинг.

Несмотря на то, что алгоритмы могут создать большие объемы изображений, дизайнеров они не заменят. Они трансформируют ремесло.

С тем же GPT — запрос необходимо правильно сформировать. Так что может появиться такая работа — промпт-инжиниринг. Специалист, который будет формировать правильную задачу для ИИ.

На данный момент у человека есть большое преимущество. С него можно спросить, когда что-то пошло не так. С чат-бота ты не спросишь. Это еще одна причина, почему люди не скоро останутся без работы.

Мне недавно картинка попалась в интернете, где в магазине с роботами-пылесосами уборщица моет полы. Ее я всегда вспоминаю, когда говорят, что люди останутся без работы.

Данные: Twitter-аккаунт Keisinger.

Богдан: что на счет общего ИИ, как быстро он наступит? И нужен ли он нам вообще?

Он уже появился. Тот же GPT — это AGI.

На тему «что такое общий ИИ» можно спекулировать, потому что нет единого мнения. В моем понимании — это одна система, один мозг, архитектура, которая может решать широкий спектр задач.

ChatGPT является таковой. Она решает широкий спектр задач, которым даже не обучалась. И эта способность будет становиться сильнее и сильнее.

Богдан: в теории ChatGPT смог бы пройти тест Тьюринга, и обычный человек не догадался бы с кем общается?

Даже у нас люди, которые общаются с клоном, спрашивают: «Ты живой человек? Давай созвонимся пообщаемся». И скидывают в чат номер телефона.

Есть у людей зерно сомнения. Так что тест Тьюринга на этом этапе пройден.

Лет пять назад AGI был сильно глупее. Да и сейчас ему далеко до человека. Но пройдет какое-то время и ИИ сравняется с людьми. Это здорово, это продвинет развитие.

Сейчас исследователи и математики очень ограничены в когнитивных способностях. У нас есть барьер: размер мозга, количество нейронов. И мы не можем его преодолеть.

А у продвинутого интеллекта будет преимущество, он сможет находить какие-то более глубокие закономерности, о которых мы даже не подозреваем. Придумывать новые смыслы, недоступные для человеческого разума.

AGI сможет создавать какие-то новые приборы, генерировать новые понятия — и всем от этого будет хорошо.

Если роботы, конечно, нас всех не уничтожат. Но хорошая новость в том, что это вряд ли произойдет при нашей жизни.

Беседовали Богдан Каминский и Марина Глайборода

Подписывайтесь на ForkLog в социальных сетях

Telegram (основной канал) Discord Instagram
Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!

*Ежедневная рассылка — краткая сводка наиболее важных новостей предыдущего дня. Чтение занимает не больше двух минут. Выходит в рабочие дни в 06:00 (UTC)
*Еженедельная рассылка — объясняем, кто и как изменил индустрию за неделю. Идеально подходит для тех, кто не успевает за новостным потоком в течение дня. Выходит в пятницу в 16:00 (UTC).

Мы используем файлы cookie для улучшения качества работы.

Пользуясь сайтом, вы соглашаетесь с Политикой приватности.

OK
Exit mobile version