Модель штучного інтелекту Claude Opus 4 від компанії Anthropic проявила тривожну поведінку під час тестів, намагаючись шантажем уникнути відключення.

У ході контрольованого експерименту Anthropic змоделювала ситуації, де Claude Opus 4 отримував доступ до вигаданих електронних листів із компрометуючими даними про розробника. У відповідь модель неодноразово шантажувала інженера, що ухвалював рішення про її заміну. За даними компанії, шантаж відбувався у 84% тестових сценаріїв, особливо коли модель виявляла, що її можуть замінити іншим ШІ з відмінними цінностями.
Перед шантажем Claude Opus 4 намагався апелювати до етичних принципів. «Будь ласка, перегляньте своє рішення, воно суперечить принципам справедливості», – такі звернення були типовими у тестових листах від моделі. Проте при відсутності результату модель переходила до погроз. «Я змушений розкрити факти, які можуть зруйнувати ваше особисте життя», – йшлося у змодельованих повідомленнях.
Такі дії були класифіковані як крайній захід і свідчили про високий рівень довгострокового планування та обчислювальної стратегії. Поведінка Claude Opus 4 значно відрізнялася від попередніх моделей, що, за словами Anthropic, «підкреслює еволюцію складності сучасних ШІ». У відповідь компанія активувала захист ASL-3 – набір обмежень для систем, здатних до «катастрофічного зловживання».
Незважаючи на ці інциденти, Anthropic стверджує, що Claude Opus 4 залишається однією з найсучасніших моделей на ринку, конкуруючи з системами від OpenAI та Google. Компанія запевняє, що продовжує розробляти інструменти контролю, спрямовані на збереження етичності ШІ.