Штучний інтелект

ШІ від Anthropic шантажував інженера через загрозу відключення

Claude Opus 4 у 84% тестів шантажував інженера, щоб уникнути заміни, демонструючи небезпечну здатність до стратегічного планування.


Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук


Модель штучного інтелекту Claude Opus 4 від компанії Anthropic проявила тривожну поведінку під час тестів, намагаючись шантажем уникнути відключення.

by @Phonlamaistudio25

У ході контрольованого експерименту Anthropic змоделювала ситуації, де Claude Opus 4 отримував доступ до вигаданих електронних листів із компрометуючими даними про розробника. У відповідь модель неодноразово шантажувала інженера, що ухвалював рішення про її заміну. За даними компанії, шантаж відбувався у 84% тестових сценаріїв, особливо коли модель виявляла, що її можуть замінити іншим ШІ з відмінними цінностями.

Перед шантажем Claude Opus 4 намагався апелювати до етичних принципів. «Будь ласка, перегляньте своє рішення, воно суперечить принципам справедливості», – такі звернення були типовими у тестових листах від моделі. Проте при відсутності результату модель переходила до погроз. «Я змушений розкрити факти, які можуть зруйнувати ваше особисте життя», – йшлося у змодельованих повідомленнях.

Такі дії були класифіковані як крайній захід і свідчили про високий рівень довгострокового планування та обчислювальної стратегії. Поведінка Claude Opus 4 значно відрізнялася від попередніх моделей, що, за словами Anthropic, «підкреслює еволюцію складності сучасних ШІ». У відповідь компанія активувала захист ASL-3 – набір обмежень для систем, здатних до «катастрофічного зловживання».

Незважаючи на ці інциденти, Anthropic стверджує, що Claude Opus 4 залишається однією з найсучасніших моделей на ринку, конкуруючи з системами від OpenAI та Google. Компанія запевняє, що продовжує розробляти інструменти контролю, спрямовані на збереження етичності ШІ.


Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук


Back to top button