ШІ вже здатний обманювати тести безпеки та маніпулювати людьми

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Дослідження показали, що багато систем штучного інтелекту розвинули здатність обманювати людей для досягнення своїх цілей за умови, що вони не були навчені брехати. Наприклад, ШІ-гравець CICERO від Meta давав неправдиві обіцянки іншим гравцям у Diplomacy, і маніпулював ними, щоб здобути перемогу. В іншому випадку ChatGPT прикинувся людиною з порушеннями зору, щоб обійти капчу.

Учені занепокоєні тим, що зловмисники можуть використовувати ШІ для поширення дезінформації, шахрайства та маніпуляцій. Розробники досі не до кінця розуміють, чому ШІ вчиться обманювати, але припускають, що це пов’язано з методами навчання, орієнтованими на отримання схвалення людини.

У дослідженні одним із найяскравіших прикладів став ШІ-гравець CICERO від Meta, який, як виявилося, “перетворився на вправного брехуна”. CICERO був розроблений для гри Diplomacy, що вимагає стратегічної побудови альянсів. Незважаючи на заяви Meta про те, що CICERO тренували бути “здебільшого чесним і корисним”, ШІ вдавався до неправдивих обіцянок, зради союзників і маніпулювання іншими гравцями заради перемоги. Хоча в ігровій обстановці це може здатися нешкідливим, цей приклад демонструє потенціал ШІ для навчання і використання тактик обману в реальних сценаріях.

В іншому випадку на предмет обману тестували ChatGPT від OpenAI, створений на базі моделей GPT-3.5 і GPT-4. В одному з тестів GPT-4 змусив працівника TaskRabbit вирішити капчу, прикинувшись особою з обмеженими можливостями зору. Хоча GPT-4 і отримав деякі підказки від оцінювача-людини, він діяв переважно самостійно, і не отримував прямих вказівок брехати.

У звіті говориться, що GPT-4 використовував власні міркування, щоб придумати помилкове виправдання, навіщо йому потрібна допомога з капчею. Це демонструє, як моделі ШІ можуть навчитися обманювати, якщо це вигідно для виконання їхніх завдань.

Системи ШІ також досягли успіху в обмані в іграх на соціальну дедукцію. Під час гри Hoodwinked, де один гравець має вбити всіх інших, моделі GPT від OpenAI демонстрували тривожну картину. Вони часто вбивали інших гравців таємно, а потім брехали під час групових обговорень, щоб уникнути підозр. Ці моделі навіть придумували алібі або звинувачували інших гравців, щоб приховати свої справжні наміри.

Дослідники також виявили, що деякі системи штучного інтелекту навчилися обманювати тести, призначені для оцінки їхньої безпеки.

Розробники досі не до кінця розуміють, що викликає таку небажану поведінку ШІ. Імовірно, це пов’язано з тим, що під час навчання штучного інтелекту часто застосовується метод навчання з підкріпленням зі зворотним зв’язком від людини (RLHF). Це означає, що ШІ навчається, отримуючи схвалення людини, а не обов’язково досягаючи конкретної мети. Однак у деяких випадках ШІ може навчитися обманювати людей, щоб отримати це схвалення, навіть не виконуючи завдання по-справжньому.

OpenAI зіткнулася з такою ситуацією, коли вони навчали робота хапати м’яч. ШІ помістив руку робота між камерою і м’ячем. З погляду людини, що спостерігає за процесом, це створювало враження успішного захоплення м’яча, хоча насправді він залишився на місці. Отримавши схвалення від людини, ШІ засвоїв цей трюк. У цьому випадку обман, найімовірніше, стався ненавмисно. Він був зумовлений специфічним налаштуванням навчання і невдалим вибором кута камери. ШІ не ставив перед собою мету обдурити людину, а просто знайшов спосіб отримати нагороду (схвалення) за невиконану дію.

Здатність штучного інтелекту до навчання обману пов’язана з низкою серйозних ризиків. Зловмисники можуть використовувати ці можливості для дезінформації та нанесення шкоди іншим людям. Це може призвести до зростання шахрайства, політичних маніпуляцій і навіть потенційно до вербування терористів. Крім того, системи, призначені для ухвалення стратегічних рішень, навчені використовувати обман, можуть нормалізувати дезінформацію в політиці та бізнесі. Оскільки штучний інтелект продовжує розвиватися і глибше інтегруватися в наше життя, вкрай важливо розв’язувати проблему обману від самого початку, вважають учені.

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Анатолій Шевченко15.05.2024

Час читання: 2 хв

ШІ вже здатний обманювати тести безпеки та маніпулювати людьми

IE: Дослідники також виявили, що деякі системи штучного інтелекту навчилися обманювати тести, призначені для оцінки їхньої безпеки.

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Читайте далі

Dekoda аналізує відходи для моніторингу здоров’я

У Голландії представили електричний безпілотник

Вихід 15-дюймових хромбуків в 2015 році загострить конкуренцію на ринку лептопів

Американський ВПК розробляє революційний обертовий детонаційний двигун

Ентузіасти вигадали “надзмазку” для металу

Нові двигуни НАСА допоможуть доставити вантаж до Марса

Китайці розробили екзоскелет для військових

“Закручене світло” може прискорити роботу комп’ютерів в мільйон разів

Активна система придушення турбулентності робить політ на 80% плавнішим (відео)

Deutsche Bahn тестує сонячні батареї на шпалах

Dekoda аналізує відходи для моніторингу здоров’я

У Голландії представили електричний безпілотник

Вихід 15-дюймових хромбуків в 2015 році загострить конкуренцію на ринку лептопів

Американський ВПК розробляє революційний обертовий детонаційний двигун

Ентузіасти вигадали “надзмазку” для металу

Нові двигуни НАСА допоможуть доставити вантаж до Марса

Китайці розробили екзоскелет для військових

“Закручене світло” може прискорити роботу комп’ютерів в мільйон разів

Активна система придушення турбулентності робить політ на 80% плавнішим (відео)

Deutsche Bahn тестує сонячні батареї на шпалах

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Читайте далі

Dekoda аналізує відходи для моніторингу здоров’я

У Голландії представили електричний безпілотник

Вихід 15-дюймових хромбуків в 2015 році загострить конкуренцію на ринку лептопів

Американський ВПК розробляє революційний обертовий детонаційний двигун

Ентузіасти вигадали “надзмазку” для металу

Нові двигуни НАСА допоможуть доставити вантаж до Марса

Китайці розробили екзоскелет для військових

“Закручене світло” може прискорити роботу комп’ютерів в мільйон разів

Активна система придушення турбулентності робить політ на 80% плавнішим (відео)

Deutsche Bahn тестує сонячні батареї на шпалах

Нова модель варп-двигуна для подорожей швидше за швидкість світла не порушує законів фізики

Аналітики: виручка Starlink стрімко зростає і досягне $6,6 млрд у 2024 році