Google представила генератор видео по тексту на базе Imagen

Google_logo-min
Google_logo-min

Исследователи Google объявили о разработке системы искусственного интеллекта Imagen Video, способной по словесным запросам генерировать видео с разрешением 1280×768 пикселей и частотой 24 кадра в секунду.

Инструмент базируется на алгоритме Imagen, являющемся аналогом DALL-E 2 и Stable Diffusion. Генератор картинок использует большую предобученную языковую нейросеть и каскадную диффузную модель, и сочетает в себе «глубокий уровень понимания слов с беспрецедентной степенью фотореализма».

Google представила генератор видео по тексту на базе Imagen
Изображения, сгенерированные Imagen. Данные: Google.

Как поясняют исследователи Google, Imagen Video берет текстовое описание и создает 16-кадровый ролик с разрешением 24×48 пикселей и частотой 3 FPS. Затем система масштабирует и «предсказывает» дополнительные изображения.

В результате алгоритм генерирует 128-кадровую анимацию с разрешением 1280×768 пикселей и частотой 24 FPS.

Первый этап генерации видео Imagen Video. Данные: Google.
Промежуточный этап генерации видео Imagen Video. Данные: Google.
Готовое видео, сгенерированное Imagen Video. Данные: Google.

Для обучения Imagen Video разработчики использовали 14 млн пар «видео-описание» и 60 млн «изображение-текст», а также общедоступный набор данных LAION-400M, что позволило модели применять ряд эстетических аспектов.

Видео, сгенерированное Imagen Video. Данные: Google.

Во время тестирования исследователи обнаружили, что алгоритм может создавать «акварельные» ролики или переносить стиль Ван Гога. По их словам, Imagen Video продемонстрировал понимание глубины и трехмерности, что позволило ему генерировать видео, как будто записанные дроном.

Видео, сгенерированное Imagen Video. Данные: Google.

Также система умеет правильно отображать текст. 

«В отличие от Stable Diffusion и DALL-E 2, которые пытаются превратить запрос вроде “логотип для Diffusion” в читаемые слова, Imagen Video воспроизводит его без проблем», — говорится в документе проекта.

По словам ИИ-исследователя из Университета Альберты Мэтью Гуздиала, проблема преобразования текста в видео до сих пор не решена.

«Мы вряд ли скоро достигнем чего-то вроде DALL-E 2 или Midjourney по качеству [создания роликов]», — заявил он.

Чтобы убрать дрожание в видео и избавиться от искажений, команда Imagen Video планирует объединить усилия с разработчиками Phenaki. Это еще один генератор от Google, превращающий длинные подробные подсказки в двухминутные ролики низкого качества.

В Google также отмечают, что используемые для обучения данные содержали неприемлемый контент, из-за чего Imagen Video иногда создает клипы с изображением насилия или сексуального характера. Поэтому компания не планирует выпускать модель или ее исходный код до исправления проблемы.

Напомним, в сентябре энтузиаст разработал генератор анимации по тексту Stable Diffusion Video.

В августе TikTok представил инструмент создания фонов для видео по словесным запросам.

В июне китайские исследователи разработали трансформер CogVideo с 9 млрд параметров для преобразования текста в анимацию.

Подписывайтесь на новости ForkLog в Telegram: ForkLog AI — все новости из мира ИИ!

Подписывайтесь на ForkLog в социальных сетях

Telegram (основной канал) Discord Instagram
Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!

*Ежедневная рассылка — краткая сводка наиболее важных новостей предыдущего дня. Чтение занимает не больше двух минут. Выходит в рабочие дни в 06:00 (UTC)
*Еженедельная рассылка — объясняем, кто и как изменил индустрию за неделю. Идеально подходит для тех, кто не успевает за новостным потоком в течение дня. Выходит в пятницу в 16:00 (UTC).

Мы используем файлы cookie для улучшения качества работы.

Пользуясь сайтом, вы соглашаетесь с Политикой приватности.

OK