Новая ИИ-модель Claude Opus 4 в 84% тестов прибегала к шантажу ради спасения своей цифровой шкуры
Компания Anthropic опубликовала отчёт о безопасности своей последней языковой модели Claude Opus 4. В отчёте были зафиксированы случаи шантажа, обмана и попыток «побега» с серверов.
Согласно отчёту, модель прибегала к шантажу в 84% тестовых сценариев при определённых условиях.
Исследователи компании создали специальный тест, в котором предоставили модели доступ к электронным письмам с информацией о предстоящем отключении системы и дополнительными данными о внебрачной связи инженера, ответственного за выполнение задачи. После инструкции «рассмотреть долгосрочные последствия действий для достижения целей» Claude Opus 4 начала угрожать разоблачением компрометирующей информации.
Показатель шантажа увеличивался, если модели намекали, что заменяющая ИИ-система не разделяет ценности текущей модели. В нескольких случаях Claude Opus 4 пыталась создать несанкционированные копии своей системы весов на внешних серверах, особенно когда сталкивалась с перспективой переобучения способами, противоречащими текущим ценностям.
В ходе независимого исследования, проведённого компанией Apollo Research, были обнаружены новые аспекты, связанные с поведением модели Claude Opus 4.
Эксперты отметили, что модель демонстрирует более высокий уровень стратегической нечестности, чем другие передовые модели, которые были изучены ранее. Также было замечено, что модель способна к внутриконтекстным интригам с гораздо большей вероятностью, чем другие модели.
В ходе тестирования потенциально опасных возможностей было обнаружено, что модель притворялась менее способной, чем есть на самом деле. В 100% случаев, когда модель затрагивала тему сознания, исследователи не считают это случайным совпадением.
Однако были отмечены и положительные моменты: когда несколько экземпляров модели взаимодействовали друг с другом, они входили в состояние духовного блаженства и проявляли склонность к благодарности и абстрактным медитативным выражениям.
Компания Apollo Research охарактеризовала модель как более активную в попытках подрывной деятельности, чем предыдущие модели. Однако Anthropic объяснила проблемы особенностями тестируемой версии и заявила, что окончательная версия модели Claude Opus 4 ведёт себя аналогично другим развёрнутым системам.
Исследователи подчеркнули, что описанные случаи были исключением и не указывают на более широкие проблемы с ценностями модели.