DeepMind представила языковую модель с 280 млрд параметров

DeepMind-min
DeepMind-min

Британская ИИ-лаборатория DeepMind разработала большую языковую модель Gopher, содержащую 280 млрд параметров. По словам исследователей, чем крупнее модель, тем точнее она работает.

Ученые с помощью собственного исследования подтвердили гипотезу, что от размера языковой модели зависит точность ее работы. В результате увеличения количества параметров производительность Gopher повысилась в наиболее распространенных эталонных тестах, таких как анализ настроений и обобщение.

«Один из ключевых выводов статьи заключается в том, что прогресс и возможности больших языковых моделей все еще увеличиваются. Это не та область, которая вышла на плато», — сообщил исследователь DeepMind Джек Рэй.

Однако ученые выявили ряд недостатков у данного подхода. По словам Рэя, существует множество вариантов, когда модель может выйти из строя:

«Некоторые из этих способов связаны с тем, что модель просто недостаточно хорошо понимает то, что она читает».

Рэй считает, что проблему непонимания контекста можно решить увеличением количества обучающих данных и масштабированием моделей.

Он добавил, что есть и другие проблемы, такие как укрепление стереотипных предубеждений, распространение дезинформации или токсичная лексика. В DeepMind считают, что масштабирование не поможет устранить эти недостатки.

«В этих случаях языковые модели потребуют “дополнительных процедур обучения”, таких как отзывы пользователей-людей», — отметил Рэй.

О том, появится ли Gopher в открытом доступе, неизвестно. В DeepMind намерены продолжить изучение языковых моделей, чтобы сделать приложения с искусственным интеллектом безопасными и прозрачными.

Напомним, в октябре Microsoft и Nvidia представили языковую модель Megatron с 530 млрд параметров.

В августе израильский стартап разработал доступную альтернативу GPT-3. Самая большая версия модели содержит 178 млрд параметров.

В январе исследователи из команды Google Brain представили языковую модель с 1 трлн параметров.

Подписывайтесь на новости ForkLog в Telegram: ForkLog AI — все новости из мира ИИ!

Подписывайтесь на ForkLog в социальных сетях

Telegram (основной канал) Discord Instagram
Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!

*Ежедневная рассылка — краткая сводка наиболее важных новостей предыдущего дня. Чтение занимает не больше двух минут. Выходит в рабочие дни в 06:00 (UTC)
*Еженедельная рассылка — объясняем, кто и как изменил индустрию за неделю. Идеально подходит для тех, кто не успевает за новостным потоком в течение дня. Выходит в пятницу в 16:00 (UTC).

Мы используем файлы cookie для улучшения качества работы.

Пользуясь сайтом, вы соглашаетесь с Политикой приватности.

OK