DeepMind создала ИИ-модель для фактчекинга

Чат-боты с искусственным интеллектом
Чат-боты с искусственным интеллектом

DeepMind представила ИИ-модель SAFE, проверяющую факты в ответах LLM лучше людей. 

У всех больших языковых моделей есть одна общая проблема — достоверность сгенерированной информации. Чат-боты подвержены галлюцинациям, которые мешают им верно отвечать на вопросы. Из-за этого каждый результат необходимо проверять вручную, что значительно увеличивает время решения задачи.

Исследователи из DeepMind создали ИИ-модель, автоматически указывающую на неточности. Система получила название Search-Augmented Factuality Evaluator (SAFE) — «Оценщик фактов с расширенным поиском».

Разработчики создали LLM, которая сперва разделяет утверждения или факты в ответе чат-ботов. Затем она используют Google Search для поиска сайтов, верифицирующих утверждения, и производит сравнение.

По словам исследователей, использование ИИ-модели обойдется в 20 раз дешевле, чем проверка фактов людьми. Поскольку объем генерируемой чат-ботами информации стремительно растет, наличие дешевого способа верификации будет востребовано.

Для обучения команда использовала нейросеть для проверки 16 000 фактов, содержащихся в ответах 13 основных языковых моделей из четырех семейств (Gemini, GPT, Claude и PaLM-2). Они сравнили результаты с заключениями живых фактчекеров и обнаружили, что SAFE совпадает с ними в 72% случаев. 

При проверке разногласий между ИИ-моделью и людьми SAFE оказался прав в 76% случаев.

По словам профессора Гэри Маркуса, не совсем корректно утверждать, что ИИ-модель справляется с задачей на «сверхчеловеческом уровне», поскольку неизвестен уровень квалификации людей, которые принимали участие в эксперименте.

Команда DeepMind разместила код SAFE на GitHub.

Напомним, в сентябре 2023 года соучредитель компании Мустафа Сулейман назвал интерактивных ботов, которые могут выполнять задачи за человека, следующим этапом развития ИИ. 

Подписывайтесь на ForkLog в социальных сетях

Telegram (основной канал) Discord Instagram
Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!

*Ежедневная рассылка — краткая сводка наиболее важных новостей предыдущего дня. Чтение занимает не больше двух минут. Выходит в рабочие дни в 06:00 (UTC)
*Еженедельная рассылка — объясняем, кто и как изменил индустрию за неделю. Идеально подходит для тех, кто не успевает за новостным потоком в течение дня. Выходит в пятницу в 16:00 (UTC).

Мы используем файлы cookie для улучшения качества работы.

Пользуясь сайтом, вы соглашаетесь с Политикой приватности.

OK