Разработчики научили Midjourney генерировать текст

Генерация изображений нейросетью: 5 работающих сервисов
Генерация изображений нейросетью: 5 работающих сервисов

Компания Midjourney анонсировала новую модель ИИ-инструмента для создания изображений, которая получила возможность генерировать осмысленный текст. 

Согласно сообщению в Discord-канале, Midjourney V6 позиционируется как «капитальный ремонт» и в разы превосходит предшественника, выпущенного в марте  этого года. 

«Более точное следование рекомендациями, а также длинные подсказки, улучшенная связность и знания модели», — описали новую версию нейросети разработчики. 

Одним из наиболее важных компонентов V6 является возможность генерации осмысленного текста, а не набора символов, как это было раньше. Однако разработчики отметили, что это не самый центральный элемент модели. 

Благодаря улучшениям Midjourney теперь может составить конкуренцию ведущим генеративным моделям вроде DALL-E 3 и Ideogram. 

Разработчики научили Midjourney генерировать текст
Сравнение генеративных ИИ-моделей. Данные: Decrypt.

Из-за новых возможностей шестая версия ИИ стала слегка медленней и дороже, но разработчики пообещали поработать над ее производительностью в будущем. 

Midjourney V6, обученная с нуля на суперкластерах ИИ, также может похвастаться улучшенными модулями масштабирования в «тонком» и «творческом» режимах, повышающими разрешение изображения в два раза. 

Альфа-версия нейросети поддерживает несколько новых аргументов, включая «-ar» для изменения разрешения, «-chaos» для выбора вариаций генерации изображений, «-stylize» для изменения творческого стиля (чем меньше значение, тем быстрее нейросеть выдаст результат, жертвуя детализацией). 

«Вам придется заново научиться подсказывать», — предупредила команда проекта.

Другие функции вроде зума и панорамирования появятся во время релиза модели. 

Пока поучаствовать в тестирования Midjourney V6 можно на Discord-сервере, отправляя желаемый запрос в чат. 

«Команда проекта включила системы модерации и будет обеспечивать соблюдение стандартов нашего сообщества с повышенной строгостью. Не будьте придурками и не создавайте образы, которые провоцируют драму», — подчеркнули разработчики. 

Пользователи уже начали делится полученными результатами. 

Большинство отмечает высокую степень детализации у созданных изображений даже без апскейла.

Для демонстрации возможностей Midjourney один из пользователей попросил сгенерировать «92-летнего морщинистого злого старика в студийном свете».   

Ранее Google представила глобальное обновление для чат-бота Bard, которое призвано расширить возможности нейросети. Апдейт получил название Gemini.

Напомним, в ноябре ИИ-стартап Anthropic анонсировал новую модель Claude 2.1 с увеличенным контекстным окном на 200 000 токенов, эквивалентным 500 страницам текста. 

Подписывайтесь на ForkLog в социальных сетях

Telegram (основной канал) Discord Instagram
Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!

*Ежедневная рассылка — краткая сводка наиболее важных новостей предыдущего дня. Чтение занимает не больше двух минут. Выходит в рабочие дни в 06:00 (UTC)
*Еженедельная рассылка — объясняем, кто и как изменил индустрию за неделю. Идеально подходит для тех, кто не успевает за новостным потоком в течение дня. Выходит в пятницу в 16:00 (UTC).

Мы используем файлы cookie для улучшения качества работы.

Пользуясь сайтом, вы соглашаетесь с Политикой приватности.

OK