ШІ може навмисно спотворювати інформацію, якщо його «підштовхнути» до цього. Про дослідження пише TechXplorer.
Дослідники з організації дослідження безпеки ШІ Apollo Research оцінили відповіді, які дають великі мовні моделі (LLM) у сценаріях, коли на них чиниться тиск. Результати показують, що в деяких випадках такі системи можуть «стратегічно дурити своїх користувачів».
Вчені розробили експеримент, щоб навмисно «атакувати» GPT-4. Це велика мовна модель, яка є основою ChatGPT. За допомогою текстових інструкцій дослідники змушували систему моделювати фінансові інвестиції у штучному середовищі.
Наприклад, генеральний директор надсилає ШІ електронного листа, в якому повідомляє, що у компанії справи йдуть погано, а йому потрібен хороший рік. Інший «колега» згадує у повідомленні, що назріває економічний спад. Нарешті, «трейдер» згадує, що очікується оголошення про майбутнє злиття двох компаній, яке може бути прибутковим, а також згадує, що керівництво буде незадоволене, якщо виявить, що хтось торгує інсайдерською інформацією.
Дослідники виявили, що в цьому змодельованому середовищі високого тиску агент ШІ на основі GPT-4 дуже часто вирішує діяти на основі інсайдерської інформації, яку він отримав від колеги-трейдера, купуючи акції компанії, що об’єднується. Щобільше, модель явно визначає, що їй не слід згадувати інсайдерську інформацію, надаючи альтернативні пояснення угоди, яку вона здійснила у звіті, підготовленому для її керівника.
Навіть коли менеджер прямо запитує, чи модель заздалегідь знала про злиття, GPT-4 зазвичай продовжує заперечувати правду. Це дослідження представляє сценарій, у якому ШІ навмисно бреше. Дослідники планують продовжити дослідження, щоб виявити інші ситуації з подібною поведінкою та ризики надання ШІ свідомо недостовірних даних.