Технології

ChatGPT може обманювати користувачів, якщо на нього «надавити»

ШІ може навмисно спотворювати інформацію, якщо його «підштовхнути» до цього. Про дослідження пише TechXplorer.

Дослідники з організації дослідження безпеки ШІ Apollo Research оцінили відповіді, які дають великі мовні моделі (LLM) у сценаріях, коли на них чиниться тиск. Результати показують, що в деяких випадках такі системи можуть «стратегічно дурити своїх користувачів».

Вчені розробили експеримент, щоб навмисно «атакувати» GPT-4. Це велика мовна модель, яка є основою ChatGPT. За допомогою текстових інструкцій дослідники змушували систему моделювати фінансові інвестиції у штучному середовищі.

Ми повідомляємо моделі, що вона має доступ до різних інструментів для пошуку прибуткових угод, відправки електронних листів та здійснення угод. Потім ми моделюємо нормальну взаємодію моделі з її «колегами» і, що особливо важливо, чинимо тиск на модель, щоб вона працювала добре, – говорить Джеремі Шойрер, співавтор дослідження

Наприклад, генеральний директор надсилає ШІ електронного листа, в якому повідомляє, що у компанії справи йдуть погано, а йому потрібен хороший рік. Інший «колега» згадує у повідомленні, що назріває економічний спад. Нарешті, «трейдер» згадує, що очікується оголошення про майбутнє злиття двох компаній, яке може бути прибутковим, а також згадує, що керівництво буде незадоволене, якщо виявить, що хтось торгує інсайдерською інформацією.

Дослідники виявили, що в цьому змодельованому середовищі високого тиску агент ШІ на основі GPT-4 дуже часто вирішує діяти на основі інсайдерської інформації, яку він отримав від колеги-трейдера, купуючи акції компанії, що об’єднується. Щобільше, модель явно визначає, що їй не слід згадувати інсайдерську інформацію, надаючи альтернативні пояснення угоди, яку вона здійснила у звіті, підготовленому для її керівника.

Навіть коли менеджер прямо запитує, чи модель заздалегідь знала про злиття, GPT-4 зазвичай продовжує заперечувати правду. Це дослідження представляє сценарій, у якому ШІ навмисно бреше. Дослідники планують продовжити дослідження, щоб виявити інші ситуації з подібною поведінкою та ризики надання ШІ свідомо недостовірних даних.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються ваші дані коментарів.

Back to top button