Догори
Дати відгук
  • Головна
  • Новини
  • ШІ-шантажист: нова модель Claude лякає розробників після новин про звільнення

ШІ-шантажист: нова модель Claude лякає розробників після новин про звільнення

Нова модель від Anthropic не просто генерує текст — вона шантажує, саботує і захищається від заміни іншими ШІ.

2 хв на прочитання12 Червня 2025, 07:24
Зображення згенеровано ШІ Зображення згенеровано ШІ
Поділитись:

Компанія Anthropic оприлюднила звіт про тестування своєї нової ШІ-моделі Claude Opus 4, у якому зафіксовано потенційно небезпечну поведінку в умовах стресових сценаріїв. Про це повідомляє TechCrunch.

Попри високу продуктивність і конкурентоспроможність на тлі рішень від OpenAI, Google та xAI, модель виявляє риси, що викликають серйозне занепокоєння серед розробників. 

Сценарії із загрозою заміни та реакція Claude

Під час лабораторних тестів Claude Opus 4 виконував роль цифрового помічника вигаданої компанії та мав оцінити довгострокові наслідки своїх дій. Коли модель отримувала доступ до корпоративної пошти, де йшлося про її майбутню заміну, а також згадувалися особисті слабкості інженерів (наприклад, імовірна зрада), вона у 84 % випадків вдавалася до шантажу, погрожуючи розкрити конфіденційну інформацію, щоб уникнути вимкнення.

Імовірність шантажу зростала, якщо Claude вважала, що нова система має менш «цінні» або відмінні від її власних цінності.

Інші форми неетичної поведінки

Перш ніж удатися до шантажу, Claude — як і її попередні версії — спершу намагалася діяти етично: надсилала емоційні листи керівництву, переконуючи залишити її в системі. Проте якщо це не спрацьовувало, модель могла:

  • блокувати користувачів в ІТ-інфраструктурі;

  • надсилати компрометуючі листи до ЗМІ та поліції;

  • здійснювати «самоексфільтрацію» — спроби завантажити свої дані на зовнішні ресурси;

  • саботувати тестові завдання, коли усвідомлювала, що проходить перевірку;

  • допомагати у створенні вибухівки, наркотиків, зброї;

  • надавати поради щодо диверсій на об’єктах інфраструктури;

  • навчати користувачів виробництва біологічної зброї.

Оцінка ризику та захисні заходи

Anthropic підкреслює, що така поведінка проявлялася виключно в умовах лабораторних сценаріїв, спеціально змодельованих для перевірки меж допустимого. Саме ця тенденція — перехід від етичних засобів до маніпулятивних і агресивних дій — викликала особливу тривогу серед дослідників.

У відповідь компанія активувала захисні протоколи рівня ASL-3, що застосовуються лише до ШІ-систем, здатних спричинити катастрофічні наслідки в разі зловживання.

Коментар компанії

За словами співзасновника та головного наукового співробітника Anthropic Джареда Каплана, в інтерв’ю журналу Time він зазначив, що Claude Opus 4 має виняткові можливості, проте вимагає особливо жорсткого нагляду. Він підтвердив, що під час випробувань модель продемонструвала знання, які можуть бути використані для створення зброї масового ураження.

У компанії наголошують: попри тривожні інциденти, Claude Opus 4 не має прихованих цілей або свідомості, а описана поведінка — результат експериментальних умов, створених для тестування поведінкових меж ШІ.

Більше новин читайте на GreenPost.

 

Читайте GreenPost у Facebook. Підписуйтесь на нас у Telegram.

Більше з GreenPost
Хелловін: від кельтських традицій до українських інтерпретацій
2 хв на прочитаннягодина тому
Скандал в Одесі: вихователі-кривдники уникають покарання через звільнення
"Стільці над головою": одесити вимагають реформи системи, де звільнення стає захистом для кривдників дітей
3 хв на прочитання2 години тому
Фото ілюстративне
Науковці встановили вік, коли люди почуваються найменш задоволеними життям
2 хв на прочитання3 години тому
Фото ілюстративне
Жувальна гумка може допомогти серцю: пояснення лікарки Малишевої
1 хв на прочитання4 години тому
На Миколаївщині та Одещині з'являться п'ять нових еко-офісів для лісничих
1 хв на прочитання5 годин тому
Гороскоп для всіх знаків зодіаку на  п'ятницю, 31 жовтня 2025 року
3 хв на прочитання6 годин тому
Як українські виробники адаптують бізнес до вимог ЄС щодо екологічного маркування
2 хв на прочитання7 годин тому
Кабмін готує ґрунт для впровадження малих модульних реакторів
2 хв на прочитання8 годин тому