
Anthropic предупредила о рисках самосовершенствования ИИ
Члены команды Anthropic все чаще передают ИИ-системам большую часть разработки новых моделей. В компании увидели в этом признаки приближения к рекурсивному самосовершенствованию.
Согласно внутренним данным, более 80% кода актуальных продуктов фирмы написал Claude. При этом во втором квартале объем кода на одного инженера вырос в восемь раз по сравнению с 2024 годом.
Глава Anthropic Institute Марина Фаваро и сооснователь компании Джек Кларк написали, что при достаточном объеме вычислений тренд может привести к системе, способной «полностью автономно проектировать и разрабатывать своего преемника».
«Мы еще не достигли точки невозврата, и рекурсивное самосовершенствование не является неизбежным. Но оно может наступить раньше, чем к этому будут готовы большинство институтов», — подчеркнули эксперты.
Бенчмарки и метрики
В апреле Claude выполнил более 800 исправлений — по оценке курировавшего инженера, у человека на это ушло бы четыре года.
На открытых задачах доля успешных сессий Claude выросла до 76% в мае 2026 года — плюс 50 процентных пунктов за шесть месяцев.
В Anthropic заявили, что длительность задач, которые ИИ способен надежно выполнять самостоятельно, удваивается примерно каждые четыре месяца (против прежних семи).
В задаче на ускорение обучения небольшой ИИ-модели Claude Opus 4 в мае 2025 года в среднем давал прирост скорости примерно в три раза, а Mythos Preview в апреле 2026 — примерно в 52 раза.
В ходе внутренних тестов модель Mythos Preview продемонстрировала способность решать исследовательские задачи в области ИИ-безопасности. За 800 часов работы группа агентов закрыла 97% проблемного разрыва в эксперименте, в то время как двое исследователей-людей за неделю справились лишь с 23% объема.
Новые узкие места
Несмотря на успехи в написании кода, за людьми сохраняется преимущество в «исследовательском суждении» и определении стратегических целей.
В Anthropic полагают, что в ближайшем будущем роль разработчиков сместится от написания строк кода к глубокому ревью результатов работы нейросети. Именно человеческая проверка может стать главным тормозом в скорости разработки новых моделей.
В компании также допустили, что миру было бы полезно иметь возможность замедлить или временно приостановить разработку передовых ИИ-систем, чтобы общественные институты и исследования в области выравнивания успевали за прогрессом.
Параллельно представители стартапа предупредили: одностороннее замедление может сыграть против тех, кто тормозит — менее осторожные игроки смогут сократить отставание. Без глобального механизма координации решения о безопасности придется принимать под конкурентным и геополитическим давлением.
Напомним, в мае Anthropic опубликовала первый отчет по Project Glasswing — программе поиска уязвимостей с помощью модели Claude Mythos.
В том же месяце компания выпустила Claude Opus 4.8 и отдельно представила для Claude Code функцию динамических рабочих процессов.
Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!