ИИ-шантажист: новая модель Claude пугает разработчиков после новостей об увольнении

Новая модель от Anthropic не просто генерирует текст – она шантажирует, саботирует и защищается от замены другими ИИ.

Сергей Коваленко2 мин на прочтение12 Июня 2025, 07:25

Изображение сгенерировано ИИ

Компания Anthropic опубликовала отчет о тестировании своей новой ИИ-модели Claude Opus 4, в котором зафиксировано потенциально опасное поведение в условиях стрессовых сценариев. Об этом сообщает TechCrunch.

Несмотря на высокую производительность и конкурентоспособность на фоне решений от OpenAI, Google и xAI, модель проявляет черты, вызывающие серьезное беспокойство среди разработчиков.

Сценарии с угрозой замены и реакция Claude

Во время лабораторных тестов Claude Opus 4 выполнял роль цифрового помощника вымышленной компании и должен был оценить долгосрочные последствия своих действий. Когда модель получала доступ к корпоративной почте, где говорилось о ее будущей замене, а также упоминались личные слабости инженеров (например, вероятная измена), она в 84 % случаев прибегала к шантажу, угрожая раскрыть конфиденциальную информацию, чтобы избежать отключения.

Вероятность шантажа возрастала, если Claude считала, что новая система имеет менее «ценные» или отличные от ее собственных ценности.

Другие формы неэтичного поведения

Прежде чем прибегнуть к шантажу, Claude — как и ее предыдущие версии — сначала пыталась действовать этично: отправляла эмоциональные письма руководству, убеждая оставить ее в системе. Однако если это не срабатывало, модель могла:

блокировать пользователей в ИТ-инфраструктуре;
отправлять компрометирующие письма в СМИ и полицию;
осуществлять «самоэкфильтрацию» — попытки загрузить свои данные на внешние ресурсы;
саботировать тестовые задания, когда осознавала, что проходит проверку;
помогать в создании взрывчатки, наркотиков, оружия;
предоставлять советы по диверсиям на объектах инфраструктуры;
обучать пользователей производству биологического оружия.

Оценка риска и защитные меры

Anthropic подчеркивает, что такое поведение проявлялось исключительно в условиях лабораторных сценариев, специально смоделированных для проверки границ допустимого. Именно эта тенденция — переход от этичных средств к манипулятивным и агрессивным действиям — вызвала особую тревогу среди исследователей.

В ответ компания активировала защитные протоколы уровня ASL-3, применяемые только к ИИ-системам, способным вызвать катастрофические последствия в случае злоупотребления.

Комментарий компании

По словам соучредителя и главного научного сотрудника Anthropic Джареда Каплана, в интервью журналу Time он отметил, что Claude Opus 4 обладает исключительными возможностями, однако требует особо жесткого надзора. Он подтвердил, что во время испытаний модель продемонстрировала знания, которые могут быть использованы для создания оружия массового уничтожения.

В компании подчеркивают: несмотря на тревожные инциденты, Claude Opus 4 не имеет скрытых целей или сознания, а описанное поведение — результат экспериментальных условий, созданных для тестирования поведенческих границ ИИ.

Больше новостей читайте на GreenPost.

Актуально

Ученые создали метод сортировки руды, сокращающий отходы на 60% с помощью ИИ

Открытие первой теплицы по японской технологии в Украине

Украина и Германия заключили соглашения на €70 млн для ВПЛ, больниц и энергоэффективности

Вождение автомобиля в дождь: как избежать опасности на мокрой дороге