Telegram (AI) YouTube Facebook X
En
Туристов предупредили о фишинге с применением ИИ phishing AI

Конкурент Sora научился генерировать видео со сложным монтажом

Китайский разработчик Kuaishou представил третью версию модели для генерации видео Kling AI.

«Kling 3.0 работает на основе глубоко унифицированной обучающей платформы, обеспечивая по-настоящему нативный мультимодальный ввод и вывод. Благодаря бесшовной интеграции аудио и продвинутому контролю согласованности элементов модель наполняет сгенерированную часть более сильным ощущением жизни и целостности», — говорится в анонсе.

Модель объединяет несколько задач: преобразование текста, изображений и референсов в видео, добавление или удаление контента, модификация и трансформация роликов.

Длительность видео увеличилась до 15 секунд. Среди других улучшений — более гибкое управление кадрами и точное следование промптам. Улучшен общий реализм: движения персонажей стали выразительнее и динамичнее.

Сравнение Kling VIDEO 3.0 с Kling VIDEO 2.6. Источник: Kling AI.

Новая функция Multi-Shot анализирует промпт, определяя структуру сцены и типы кадров. Инструмент автоматически настраивает ракурсы камеры и композицию.

Модель поддерживает различные монтажные решения: от классических диалогов по схеме «кадр-контркадр» до параллельного повествования и сцен с закадровым голосом.

«Больше не нужно утомительно резать и монтировать видео — одной генерации достаточно, чтобы получить кинематографический ролик и сделать сложные аудиовизуальные формы доступными для всех создателей», — говорится в анонсе.

Помимо стандартной генерации видео по изображению, Kling 3.0 поддерживает сразу несколько картинок в качестве референсов, а также видео-исходники в роли элементов сцены.

Модель фиксирует характеристики персонажей, предметов и эпизода. Независимо от движения камеры и развития сюжета, ключевые объекты остаются стабильными и согласованными на протяжении всего видео.

Разработчики усовершенствовали нативное аудио: система точнее синхронизирует речь с мимикой, а в сценах с диалогами позволяет вручную указывать конкретного спикера.

Расширен список поддерживаемых языков: китайский, английский, японский, корейский и испанский. Также улучшена передача диалектов и акцентов.

Кроме того, команда обновила мультимодальную модель O1 до Video 3.0 Omni.

Источник: Kling AI.

Есть возможность загрузить аудио с речью от трех секунд и извлечь голос или записать видео с персонажем от трех до восьми секунд для получения его основных характеристик.

Конкуренты Sora наступают

OpenAI представила модель видеогенерации Sora в феврале 2024 года. Инструмент вызвал восторг в соцсетях, однако публичный релиз состоялся лишь в декабре.

Спустя почти год пользователям открыли доступ к генерации видео по текстовым описаниям, «оживлению» изображений и дополнению готовых роликов.

iOS-приложение Sora вышло в сентябре и сразу привлекло внимание аудитории: в первый день его установили более 100 000 раз. Сервис преодолел отметку в 1 млн загрузок быстрее ChatGPT, несмотря на доступ по приглашениям.

Однако вскоре тренд развернулся. В декабре количество скачиваний сократилось на 32% относительно предыдущего месяца. В январе нисходящая динамика сохранилась — приложение загрузили 1,2 млн раз.

Источник: Appfigures.

Спад обусловлен рядом факторов. Во-первых, конкуренцию обострила модель Nano Banana от Google, которая укрепила позиции Gemini.

Sora также соперничает с Meta AI и ее функцией Vibes. В декабре давление на рынок усилил стартап Runway, чья модель Gen 4.5 превзошла аналоги в независимых тестах.

Во-вторых, продукт OpenAI столкнулся с проблемой нарушения авторских прав. Пользователи создавали видео с популярными персонажами вроде «Губки Боба» или «Пикачу», из-за чего компании пришлось усилить ограничения.

В декабре ситуация стабилизировалась после заключения соглашения с Disney, которое позволило юзерам генерировать видео с персонажами студии. Однако это не привело к росту загрузок.

Напомним, в октябре дипфейки с Сэмом Альтманом заполонили Sora.

Подписывайтесь на ForkLog в социальных сетях

Telegram (основной канал) Facebook X
Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!

Мы используем файлы cookie для улучшения качества работы.

Пользуясь сайтом, вы соглашаетесь с Политикой приватности.

OK
Exit mobile version