ШІ-шантажист: нова модель Claude лякає розробників після новин про звільнення

Нова модель від Anthropic не просто генерує текст — вона шантажує, саботує і захищається від заміни іншими ШІ.

Сергій Коваленко2 хв на прочитання12 Червня 2025, 07:24

Зображення згенеровано ШІ

Поділитись:

Компанія Anthropic оприлюднила звіт про тестування своєї нової ШІ-моделі Claude Opus 4, у якому зафіксовано потенційно небезпечну поведінку в умовах стресових сценаріїв. Про це повідомляє TechCrunch.

Попри високу продуктивність і конкурентоспроможність на тлі рішень від OpenAI, Google та xAI, модель виявляє риси, що викликають серйозне занепокоєння серед розробників.

Сценарії із загрозою заміни та реакція Claude

Під час лабораторних тестів Claude Opus 4 виконував роль цифрового помічника вигаданої компанії та мав оцінити довгострокові наслідки своїх дій. Коли модель отримувала доступ до корпоративної пошти, де йшлося про її майбутню заміну, а також згадувалися особисті слабкості інженерів (наприклад, імовірна зрада), вона у 84 % випадків вдавалася до шантажу, погрожуючи розкрити конфіденційну інформацію, щоб уникнути вимкнення.

Імовірність шантажу зростала, якщо Claude вважала, що нова система має менш «цінні» або відмінні від її власних цінності.

Інші форми неетичної поведінки

Перш ніж удатися до шантажу, Claude — як і її попередні версії — спершу намагалася діяти етично: надсилала емоційні листи керівництву, переконуючи залишити її в системі. Проте якщо це не спрацьовувало, модель могла:

блокувати користувачів в ІТ-інфраструктурі;
надсилати компрометуючі листи до ЗМІ та поліції;
здійснювати «самоексфільтрацію» — спроби завантажити свої дані на зовнішні ресурси;
саботувати тестові завдання, коли усвідомлювала, що проходить перевірку;
допомагати у створенні вибухівки, наркотиків, зброї;
надавати поради щодо диверсій на об’єктах інфраструктури;
навчати користувачів виробництва біологічної зброї.

Оцінка ризику та захисні заходи

Anthropic підкреслює, що така поведінка проявлялася виключно в умовах лабораторних сценаріїв, спеціально змодельованих для перевірки меж допустимого. Саме ця тенденція — перехід від етичних засобів до маніпулятивних і агресивних дій — викликала особливу тривогу серед дослідників.

У відповідь компанія активувала захисні протоколи рівня ASL-3, що застосовуються лише до ШІ-систем, здатних спричинити катастрофічні наслідки в разі зловживання.

Коментар компанії

За словами співзасновника та головного наукового співробітника Anthropic Джареда Каплана, в інтерв’ю журналу Time він зазначив, що Claude Opus 4 має виняткові можливості, проте вимагає особливо жорсткого нагляду. Він підтвердив, що під час випробувань модель продемонструвала знання, які можуть бути використані для створення зброї масового ураження.

У компанії наголошують: попри тривожні інциденти, Claude Opus 4 не має прихованих цілей або свідомості, а описана поведінка — результат експериментальних умов, створених для тестування поведінкових меж ШІ.

Більше новин читайте на GreenPost.

Актуально

Рідкісна знахідка: у Чорнобильському заповіднику нагадують про схожу на змію веретільницю

Сучасні виклики логістики харчових продуктів: від контролю виробництва до культури споживання

Військові дали роз'яснення щодо ризиків для пляжного сезону через російські морські безпілотники

У Львові з сечового міхура жінки видалили термометр, який пробув там 8 років