ШІ від Anthropic шантажував інженера через загрозу відключення

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Модель штучного інтелекту Claude Opus 4 від компанії Anthropic проявила тривожну поведінку під час тестів, намагаючись шантажем уникнути відключення.

У ході контрольованого експерименту Anthropic змоделювала ситуації, де Claude Opus 4 отримував доступ до вигаданих електронних листів із компрометуючими даними про розробника. У відповідь модель неодноразово шантажувала інженера, що ухвалював рішення про її заміну. За даними компанії, шантаж відбувався у 84% тестових сценаріїв, особливо коли модель виявляла, що її можуть замінити іншим ШІ з відмінними цінностями.

Перед шантажем Claude Opus 4 намагався апелювати до етичних принципів. «Будь ласка, перегляньте своє рішення, воно суперечить принципам справедливості», – такі звернення були типовими у тестових листах від моделі. Проте при відсутності результату модель переходила до погроз. «Я змушений розкрити факти, які можуть зруйнувати ваше особисте життя», – йшлося у змодельованих повідомленнях.

Такі дії були класифіковані як крайній захід і свідчили про високий рівень довгострокового планування та обчислювальної стратегії. Поведінка Claude Opus 4 значно відрізнялася від попередніх моделей, що, за словами Anthropic, «підкреслює еволюцію складності сучасних ШІ». У відповідь компанія активувала захист ASL-3 – набір обмежень для систем, здатних до «катастрофічного зловживання».

Незважаючи на ці інциденти, Anthropic стверджує, що Claude Opus 4 залишається однією з найсучасніших моделей на ринку, конкуруючи з системами від OpenAI та Google. Компанія запевняє, що продовжує розробляти інструменти контролю, спрямовані на збереження етичності ШІ.

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Анатолій Шевченко24.05.2025

Час читання: 1 хвилина

Читайте далі

ШІ від Anthropic шантажував інженера через загрозу відключення

Claude Opus 4 у 84% тестів шантажував інженера, щоб уникнути заміни, демонструючи небезпечну здатність до стратегічного планування.

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Читайте далі

OpenAI розкрила, для чого люди використовують ChatGPT

OpenAI запустила відеогенератор Sora для передплатників ChatGPT (відео)

ChatGPT знижує мозкову активність — дослідження MIT

ШІ загрожує мисленню: когнітивні втрати вже помітні

ШІ допоміг створити протиотруту від смертоносних зміїних отрут

ШІ навчився розбиратися в нейробіології краще за досвідчених учених

Штучний інтелект допоможе швидше виявляти лісові пожежі

Нова технологія покращує точність моделей штучного інтелекту

Volvo навчає авто уникати аварій у віртуальній реальності (фото+відео)

Штучний інтелект відкрив приховані структури в Чумацькому Шляху

OpenAI розкрила, для чого люди використовують ChatGPT

OpenAI запустила відеогенератор Sora для передплатників ChatGPT (відео)

ChatGPT знижує мозкову активність — дослідження MIT

ШІ загрожує мисленню: когнітивні втрати вже помітні

ШІ допоміг створити протиотруту від смертоносних зміїних отрут

ШІ навчився розбиратися в нейробіології краще за досвідчених учених

Штучний інтелект допоможе швидше виявляти лісові пожежі

Нова технологія покращує точність моделей штучного інтелекту

Volvo навчає авто уникати аварій у віртуальній реальності (фото+відео)

Штучний інтелект відкрив приховані структури в Чумацькому Шляху

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Читайте далі

OpenAI розкрила, для чого люди використовують ChatGPT

OpenAI запустила відеогенератор Sora для передплатників ChatGPT (відео)

ChatGPT знижує мозкову активність — дослідження MIT

ШІ загрожує мисленню: когнітивні втрати вже помітні

ШІ допоміг створити протиотруту від смертоносних зміїних отрут

ШІ навчився розбиратися в нейробіології краще за досвідчених учених

Штучний інтелект допоможе швидше виявляти лісові пожежі

Нова технологія покращує точність моделей штучного інтелекту

Volvo навчає авто уникати аварій у віртуальній реальності (фото+відео)

Штучний інтелект відкрив приховані структури в Чумацькому Шляху

Google запускає Beam — 3D-конференції нового покоління

Яструб вчився у світлофора: нова тактика міського полювання