Meta представила ИИ-модели для обработки фото и видео
Корпорация Meta анонсировала Emu Video и Emu Edit — инструменты на основе генеративного искусственного интеллекта для редактирования и создания контента.
Today we’re sharing two new advances in our generative AI research: Emu Video & Emu Edit.
— AI at Meta (@AIatMeta) November 16, 2023
Details ➡️ https://t.co/qm8aejgNtd
These new models deliver exciting results in high quality, diffusion-based text-to-video generation & controlled image editing w/ text instructions.
🧵 pic.twitter.com/1wF7r773yc
Обе нейросети, за основу для которых взята языковая модель Emu, все еще находятся на стадии тестирования. Согласно заявлению, продукты уже демонстрируют потенциальную пользу для художников, аниматоров и других специалистов творческого направления.
Emu Video способен генерировать видеоклипы на основе введенного текста и прикрепленных изображений в формате 512×512 с частотой 16 кадров в секунду.
Нейросеть обучалась с помощью «факторизованного» подхода, разделив процесс на два этапа, что позволило инструменту реагировать на различные входные данные.
«Сначала [Emu Video] создает изображения с учетом текстовой подсказки, а затем на его основе и текста генерирует видео. Этот “факторизованный” или разделенный подход к генерации позволяет нам эффективно обучать модели для видеороликов», — объяснили в Meta.
Emu Edit позволяет удалять или добавлять фон на фото, выполнять преобразования цвета и геометрии, а также поддерживает локальное и глобальное редактирование.
ИИ обучен на наборе данных из 10 млн образцов, каждый из которых имеет входной вариант изображения и описание задачи, а также целевой результат.
«Хотя Emu Video, Emu Edit и подобные им новые технологии, безусловно, не могут заменить профессиональных художников, они помогут людям выразить себя по-новому: от арт-директора, придумывающего новую концепцию, или видеомонтажера, оживляющего свой последний ролик, до лучшего друга, который делится уникальным поздравлением с днем рождения», — подчеркнули в компании.
Ранее Meta представила набор ИИ-инструментов в виде голосового помощника, нейросети с различными личностями, «умных очков» и генератора стикеров.
Напомним, в августе корпорация анонсировала нейросеть AudioCraft, которая создает звуки и музыку по текстовому описанию.
Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!