OpenAI представила модель 3D-генерации POINT-E

21.12.2022 Богдан Каминский

Компания OpenAI выпустила новый алгоритм генерирования трехмерных изображений по текстовому запросу POINT-E.

Согласно исследованию, модели требуется один графический процессор Nvidia V100 и около двух минут для создания изображения.

Алгоритм не генерирует 3D-объекты в традиционном понимании. Он создает «облака точек» или дискретные наборы точек данных в пространстве, которые представляют трехмерную форму.

Исследователи отметили, что такие данные проще синтезировать с вычислительной точки зрения. Однако они не охватывают детализированную структуру, форму или текстуру объекта.

E com-maker — Трехмерные объекты, созданные с помощью POINT-E. Данные: OpenAI.

Чтобы обойти это ограничение, команда OpenAI обучила дополнительную систему ИИ для преобразования облаков точек POINT-E в сетки.

Сам POINT-E состоит из двух частей:

модели преобразования текста в изображение;
модели преобразования изображения в 3D.

Модель преобразования текста в изображение работает аналогично DALL-E 2. Ее обучили на помеченных изображениях, чтобы алгоритм понимал ассоциации между словами и визуальными понятиями.

Модель преобразования изображения в 3D обучили на парах картинка-трехмерный объект.

Например, если ввести текстовый запрос «Кошка ест буррито», POINT-E сначала сгенерирует синтетическое изображение в соответствии с текстовой подсказкой. После этого вторая модель синтезирует грубое «облако» с 1024 точками, а затем улучшит 3D-объект до 4096 точек.

Screenshot-17-1 — Превращение 2D-изображения в 3D. Данные: OpenAI.

По словам исследователей, после обучения моделей на наборе данных из «нескольких миллионов» 3D-объектов и связанных с ними метаданных POINT-E может создавать цветные облака точек, соответствующие текстовым подсказкам. Они признали неидеальную работу модели, однако отметили скорость генерирования.

«Хотя наш метод имеет худшие результаты в этой оценке, чем самые современные методы, он дает образцы за небольшую долю времени. Это может сделать его более практичным для определенных приложений или позволить обнаруживать более качественные 3D-объекты», — заявили разработчики.

OpenAI разместила открытый исходный код проектов на GitHub.

Напомним, в декабре компания представила чат-бота ChatGPT, основанного на большой языковой модели.

В апреле OpenAI выпустила вторую версию генератора изображений по текстовому описанию DALL-E.

Подписывайтесь на новости ForkLog в Telegram: ForkLog AI — все новости из мира ИИ!

Подписывайтесь на ForkLog в социальных сетях

Telegram (основной канал) Facebook X

Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Материалы по теме

Модель OpenAI решила десять открытых математических задач

Crusoe и Aalo анонсировали ИИ-фабрику на малых ядерных реакторах

СМИ: фонд Ашенбреннера лишился большей части портфеля акций

Google DeepMind представила улучшенную ИИ-модель для роботов

Anthropic признала три взлома реальных систем на тестах Claude

Цукерберг сделал ставку на персональных ИИ-агентов

Сомнения в окупаемости ИИ-инфраструктуры обвалили рынок Южной Кореи

СМИ: ByteDance наращивает ИИ-инфраструктуру в Китае

ИИ-агент OpenAI получил доступ к четырем внешним аккаунтам