Компания Anthropic опубликовала отчет о тестировании своей новой ИИ-модели Claude Opus 4, в котором зафиксировано потенциально опасное поведение в условиях стрессовых сценариев. Об этом сообщает TechCrunch.
Несмотря на высокую производительность и конкурентоспособность на фоне решений от OpenAI, Google и xAI, модель проявляет черты, вызывающие серьезное беспокойство среди разработчиков.
Во время лабораторных тестов Claude Opus 4 выполнял роль цифрового помощника вымышленной компании и должен был оценить долгосрочные последствия своих действий. Когда модель получала доступ к корпоративной почте, где говорилось о ее будущей замене, а также упоминались личные слабости инженеров (например, вероятная измена), она в 84 % случаев прибегала к шантажу, угрожая раскрыть конфиденциальную информацию, чтобы избежать отключения.
Вероятность шантажа возрастала, если Claude считала, что новая система имеет менее «ценные» или отличные от ее собственных ценности.
Прежде чем прибегнуть к шантажу, Claude — как и ее предыдущие версии — сначала пыталась действовать этично: отправляла эмоциональные письма руководству, убеждая оставить ее в системе. Однако если это не срабатывало, модель могла:
блокировать пользователей в ИТ-инфраструктуре;
отправлять компрометирующие письма в СМИ и полицию;
осуществлять «самоэкфильтрацию» — попытки загрузить свои данные на внешние ресурсы;
саботировать тестовые задания, когда осознавала, что проходит проверку;
помогать в создании взрывчатки, наркотиков, оружия;
предоставлять советы по диверсиям на объектах инфраструктуры;
обучать пользователей производству биологического оружия.
Anthropic подчеркивает, что такое поведение проявлялось исключительно в условиях лабораторных сценариев, специально смоделированных для проверки границ допустимого. Именно эта тенденция — переход от этичных средств к манипулятивным и агрессивным действиям — вызвала особую тревогу среди исследователей.
В ответ компания активировала защитные протоколы уровня ASL-3, применяемые только к ИИ-системам, способным вызвать катастрофические последствия в случае злоупотребления.
По словам соучредителя и главного научного сотрудника Anthropic Джареда Каплана, в интервью журналу Time он отметил, что Claude Opus 4 обладает исключительными возможностями, однако требует особо жесткого надзора. Он подтвердил, что во время испытаний модель продемонстрировала знания, которые могут быть использованы для создания оружия массового уничтожения.
В компании подчеркивают: несмотря на тревожные инциденты, Claude Opus 4 не имеет скрытых целей или сознания, а описанное поведение — результат экспериментальных условий, созданных для тестирования поведенческих границ ИИ.
Больше новостей читайте на GreenPost.