Microsoft создала универсальную нейросеть Kosmos-1

Искуственный интеллект: новости и статьи
Искуственный интеллект: новости и статьи

Компания Microsoft представила нейросеть Kosmos-1, которая объединяет в качестве входных данных текст, изображения, аудио- и видеоконтент.

Исследователи назвали систему «мультимодальной большой языковой моделью». По их мнению, подобные алгоритмы станут основой общего ИИ (AGI), который сможет выполнять задачи на уровне человека.

«Будучи базовой частью интеллекта, мультимодальное восприятие необходимо для достижения AGI с точки зрения приобретения знаний и привязки к реальному миру», —заявили исследователи.

Согласно примерам из статьи, Kosmos-1 может:

  • анализировать изображения и отвечать на вопросы о них;
  • читать текст с картинок;
  • создавать подписи к изображениям;
  • проходить визуальный IQ-тест с точностью 22–26%.
Демонстрация работы нейросети Kosmos-1. В голубых окошках указан запрос, в красных — ответ модели
Демонстрация работы нейросети Kosmos-1. В голубых окошках указан запрос, в красных — ответ модели. Данные: Microsoft.

Microsoft обучила Kosmos-1 на данных из интернета, в том числе на англоязычном текстовом ресурсе объемом 800 ГБ The Pile и веб-архиве Common Crawl. После тренировки исследователи оценили способности модели в нескольких тестах:

  • понимание и генерация языка;
  • классификацию текста без оптического распознавания символов;
  • субтитры к изображениям;
  • визуальные ответы на вопросы;
  • ответы на вопросы веб-страницы;
  • zero-shot классификация изображений.
 Демонстрация общения с Kosmos-1 об изображениях
 Демонстрация общения с Kosmos-1 об изображениях. Данные: Microsoft.

По данным Microsoft, во многих из этих тестов Kosmos-1 превзошел современные модели. В ближайшее время исследователи планируют опубликовать исходный код проекта на GitHub.

Напомним, в январе Microsoft представила имитатор человеческих голосов по короткому образцу VALL-E.

Подписывайтесь на ForkLog в социальных сетях

Telegram (основной канал) Discord Instagram
Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!

*Ежедневная рассылка — краткая сводка наиболее важных новостей предыдущего дня. Чтение занимает не больше двух минут. Выходит в рабочие дни в 06:00 (UTC)
*Еженедельная рассылка — объясняем, кто и как изменил индустрию за неделю. Идеально подходит для тех, кто не успевает за новостным потоком в течение дня. Выходит в пятницу в 16:00 (UTC).

Мы используем файлы cookie для улучшения качества работы.

Пользуясь сайтом, вы соглашаетесь с Политикой приватности.

OK