Эксперты выявили склонность крупных ИИ-моделей к «вранью»


ИИ-модели скорее солгут, нежели признаются в незнании чего-либо. Такое поведение становится все более очевидным по мере роста языковой модели, говорится в исследовании, опубликованном в Nature.
Искусственный интеллект склонен отвечать с уверенностью, даже если ответ фактически неверен, потому что его научили верить в эту информацию. Модели не осознают собственного невежества, отметили авторы.
Более крупные модели обычно демонстрируют улучшенную производительность в ходе выполнения сложных задач, но это не гарантирует постоянную точность, особенно при выполнении простых заданий.
Они заметно реже избегают сложных вопросов, стараясь их решать и иногда давая неверные ответы. На приведенном ниже графике видно, как модели выдают неправильные результаты (красный цвет) вместо того, чтобы уклониться от решения задачи (светло-голубой цвет).
Исследователи отметили, что данный феномен не связан со способностью крупных языковых моделей справляться с простыми задачами. Просто их тренируют лучше решать сложные проблемы. Нейросети, обученные на огромных, сложных массивах данных, более склонны упускать фундаментальные навыки.

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!
Проблема усугубляется уверенностью ИИ. Пользователям зачастую сложно определить, когда он предоставляет точную информацию, а когда дезинформацию.
Эксперты также обнаружили, что в ходе улучшения производительности модели в одной области она может ухудшаться в другой.
«Процент избегающих ответов редко растет быстрее, чем процент неправильных. Вывод очевиден: ошибки по-прежнему встречаются чаще. Это представляет собой инволюцию надежности», — пишут они.
Исследователи подчеркнули минусы современных методов обучения искусственного интеллекта. Настройка с подкреплением и человеческой обратной связью усугубляет проблему, поскольку модель не старается избежать задачи, с которой она не справится.
Напомним, в сентябре OpenAI представила новую большую языковую модель o1, обученную методом с подкреплением для выполнения сложных рассуждений.