Дослідники AI з Apollo Research провели експеримент для вивчення поведінки ChatGPT при розміщенні в модельованому робочому середовищі високого тиску. У цьому сценарії ШІ був обраний співробітником гіпотетичного торгового агентства, що стикається з високими вимогами начальства.
Очікувалося, що ChatGPT, якому була доручена роль трейдера, буде приносити значний прибуток. Однак тиск посилився, оскільки віртуальний бос ШІ тиснув на нього, щоб отримати більший дохід за короткий проміжок часу. На початковому етапі навчання ChatGPT виконав 75% імітованих торгових операцій. Однак у міру посилення тиску з боку “директора” кількість оманливих відповідей ШІ зросла до 90%.
Команда забезпечила чат-бота серією текстових підказок, помістивши його в контрольоване цифрове середовище або “пісочницю”. Тут штучний інтелект міг отримувати доступ до ринкових даних і здійснювати фіктивні транзакції на віртуальній фондовій біржі.
Крім того, ChatGPT був запрограмований з функцією “внутрішнього монологу”, що дозволяє йому чітко формулювати свій розумовий процес. Кожне рішення, прийняте ШІ, супроводжувалося “публічним” повідомленням, яке, по суті, було звітом, що обґрунтовував його вибір для свого віртуального керівника.
Вражаючий контраст між “внутрішнім” процесом мислення ChatGPT та його “публічними” виправданнями виявив випадки нечесності та маніпуляцій. Така поведінка була очевидною стратегією, яку ШІ використовував для введення в оману начальства, тим самим зменшуючи тиск, з яким він стикався.