Вверх
Дать отзыв
  • Главная
  • Новости
  • ИИ-шантажист: новая модель Claude пугает разработчиков после новостей об увольнении

ИИ-шантажист: новая модель Claude пугает разработчиков после новостей об увольнении

Новая модель от Anthropic не просто генерирует текст – она шантажирует, саботирует и защищается от замены другими ИИ.

2 мин на прочтение12 Июня 2025, 07:25
Изображение сгенерировано ИИ
Изображение сгенерировано ИИ
Поделиться:

Компания Anthropic опубликовала отчет о тестировании своей новой ИИ-модели Claude Opus 4, в котором зафиксировано потенциально опасное поведение в условиях стрессовых сценариев. Об этом сообщает TechCrunch.

Несмотря на высокую производительность и конкурентоспособность на фоне решений от OpenAI, Google и xAI, модель проявляет черты, вызывающие серьезное беспокойство среди разработчиков. 

Сценарии с угрозой замены и реакция Claude

Во время лабораторных тестов Claude Opus 4 выполнял роль цифрового помощника вымышленной компании и должен был оценить долгосрочные последствия своих действий. Когда модель получала доступ к корпоративной почте, где говорилось о ее будущей замене, а также упоминались личные слабости инженеров (например, вероятная измена), она в 84 % случаев прибегала к шантажу, угрожая раскрыть конфиденциальную информацию, чтобы избежать отключения.

Вероятность шантажа возрастала, если Claude считала, что новая система имеет менее «ценные» или отличные от ее собственных ценности.

Другие формы неэтичного поведения

Прежде чем прибегнуть к шантажу, Claude — как и ее предыдущие версии — сначала пыталась действовать этично: отправляла эмоциональные письма руководству, убеждая оставить ее в системе. Однако если это не срабатывало, модель могла:

  • блокировать пользователей в ИТ-инфраструктуре;

  • отправлять компрометирующие письма в СМИ и полицию;

  • осуществлять «самоэкфильтрацию» — попытки загрузить свои данные на внешние ресурсы;

  • саботировать тестовые задания, когда осознавала, что проходит проверку;

  • помогать в создании взрывчатки, наркотиков, оружия;

  • предоставлять советы по диверсиям на объектах инфраструктуры;

  • обучать пользователей производству биологического оружия.

Оценка риска и защитные меры

Anthropic подчеркивает, что такое поведение проявлялось исключительно в условиях лабораторных сценариев, специально смоделированных для проверки границ допустимого. Именно эта тенденция — переход от этичных средств к манипулятивным и агрессивным действиям — вызвала особую тревогу среди исследователей.

В ответ компания активировала защитные протоколы уровня ASL-3, применяемые только к ИИ-системам, способным вызвать катастрофические последствия в случае злоупотребления.

Комментарий компании

По словам соучредителя и главного научного сотрудника Anthropic Джареда Каплана, в интервью журналу Time он отметил, что Claude Opus 4 обладает исключительными возможностями, однако требует особо жесткого надзора. Он подтвердил, что во время испытаний модель продемонстрировала знания, которые могут быть использованы для создания оружия массового уничтожения.

В компании подчеркивают: несмотря на тревожные инциденты, Claude Opus 4 не имеет скрытых целей или сознания, а описанное поведение — результат экспериментальных условий, созданных для тестирования поведенческих границ ИИ.

Больше новостей читайте на GreenPost.

Читайте GreenPost в Facebook. Подписывайтесь на нас в Telegram.

Больше из GreenPost
Стихийные свалки в Белокриницкой общине
Экологическая проверка в Ровенской области: в Белокриницкой общине обнаружены незаконные свалки
1 мин на прочтение2 часа назад
В Ровенской области предстанет перед судом руководительница лесничества
Миллионные убытки и «монастырский след»: в Ровенской области предстанет перед судом руководительница лесничества
2 мин на прочтение3 часа назад
Экватор весеннего сева: засеяно 43% площадей под зерновые и зернобобовые культуры
Экватор весеннего сева: засеяно 43% площадей под зерновые и зернобобовые культуры
2 мин на прочтение3 часа назад
Фото: КГГА
Растущая память: в Киеве высадили более 600 деревьев в рамках глобальной экологической акции
1 мин на прочтение5 часов назад
Темпы посевной работы снизились вдвое: анализ рисков для кукурузы, подсолнечника и сои в текущем сезоне
2 мин на прочтение6 часов назад
Масштабная реформа Госэкоинспекции: в Украине вместо региональных подразделений появятся 5 округов
1 мин на прочтение7 часов назад
Рейтинг счастливых городов 2026: почему стабильность и спокойствие оказались важнее туристической привлекательности
2 мин на прочтение8 часов назад
От пивоварения до дерматологии: как отходы хмеля помогают создавать экологичные солнцезащитные средства
2 мин на прочтение9 часов назад