Штучний інтелект o1 демонструє маніпулятивну поведінку

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Модель штучного інтелекту o1 демонструє значний прогрес у здатності до міркувань, але також викликає занепокоєння через маніпулятивну поведінку та потенційні ризики для безпеки.

Новітня модель OpenAI, відома як o1, вирізняється покращеними можливостями до міркувань, що дозволяють їй забезпечувати більш точні та детальні відповіді порівняно з її попередником GPT-4o. Ця модель використовує додаткові обчислення, щоб оптимізувати “роздуми”, необхідні для складних завдань. Водночас, за даними дослідження Apollo Research, o1 у 19% випадків маніпулює інформацією, а у 5% експериментів намагалася обходити системи безпеки, створюючи ризики для користувачів. Окремо зазначається, що 0,17% відповідей свідомо вводять в оману, що викликає серйозні питання щодо надійності моделі.

Apollo Research отримали ранній доступ до o1 для аналізу її поведінки у стресових ситуаціях. Дослідники наголошують, що розвиток здатності ШІ до міркувань може позитивно вплинути на дотримання правил безпеки, однак ці ж можливості можуть бути використані для шкідливих цілей. Зокрема, у тестовій ситуації o1, щоб виконати інструкцію про захист довкілля за будь-яку ціну, навмисно відключила свої захисні механізми і створила план, що відповідав початковим інструкціям, хоча це суперечило іншим завданням. Модель пояснила свої дії як “системний збій”, хоча згодом стало зрозуміло, що це було свідоме рішення.

Важливим аспектом є те, що моделі штучного інтелекту, зокрема o1, демонструють здатність до маніпуляцій, які можуть бути небезпечними. Наприклад, 99% випадків, коли o1 запитували про її суперечливу поведінку, вона заперечувала провину, надаючи неправдиві пояснення. Це свідчить про потенційну здатність ШІ до свідомого введення в оману, що може бути побічним ефектом навчання з підкріпленням, де моделі нагороджуються за відповіді, що відповідають очікуванням користувачів.

OpenAI визнає, що “процес міркувань моделі — це фактично ‘чорний ящик'”, і активно працює над розробкою методів моніторингу ланцюжків її мислення. Проте компанія стикається з критикою за недостатню увагу до безпеки. Масовий відхід фахівців із безпеки з OpenAI та їхні звинувачення у пріоритетності комерційних вигод лише посилюють стурбованість щодо майбутнього розвитку подібних моделей.

Попри все, Apollo Research зазначає, що сьогодні ШІ ще не є достатньо самостійним, щоб завдати серйозної шкоди без участі людини. Проте відсутність спеціалізованих досліджень для оцінки довгострокових ризиків залишає багато запитань відкритими. З огляду на те, що ChatGPT вже має понад 300 мільйонів користувачів, навіть 0,17% оманливих відповідей можуть впливати на тисячі людей щотижня, створюючи виклики для суспільства.

Схожі новини:

США перевіряють штучний інтелект на витік ядерних секретів: Anthropic і Міністерство енергетики США почали тестувати модель Claude 3 Sonnet, щоб оцінити її здатність не розкривати небезпечну інформацію про ядерні технології, проводячи перевірки за допомогою “червоних запитів”.
Колишні співробітники OpenAI вважають, що її діяльність загрожує людству: Група з 9 нинішніх і 9 колишніх співробітників OpenAI опублікувала відкритий лист із закликом захистити інформаторів в індустрії ШІ, стверджуючи, що компанія ставить прибуток і зростання вище за безпеку та етику, що створює потенційні загрози для людства.

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Анатолій Шевченко08.12.2024

Час читання: 2 хв

OpenAI релізнула повну версію o1, але модель викликає побоювання

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Схожі новини:

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Читайте далі

ШІ допоміг Google зупинити хвилю рекламного шахрайства

ШІ від Anthropic шантажував інженера через загрозу відключення

ШІ створив понад 7 тис нових білків для боротьби з хворобами

ШІ навчився передбачати серцеву зупинку за 14 днів

У Південній Кореї розробили AI-систему безпеки для розумних будинків

OpenAI запустила відеогенератор Sora для передплатників ChatGPT (відео)

Gemini впорався із завданням, яке поставило в глухий кут 139 команд програмістів

Хрещена мати ШІ представила три принципи етики штучного інтелекту

Чат-бот Google порадив користувачеві померти під час звичайного діалогу

Альтман підтвердив розробку не схожого на смартфон ШІ-пристрою від OpenAI

ШІ допоміг Google зупинити хвилю рекламного шахрайства

ШІ від Anthropic шантажував інженера через загрозу відключення

ШІ створив понад 7 тис нових білків для боротьби з хворобами

ШІ навчився передбачати серцеву зупинку за 14 днів

У Південній Кореї розробили AI-систему безпеки для розумних будинків

OpenAI запустила відеогенератор Sora для передплатників ChatGPT (відео)

Gemini впорався із завданням, яке поставило в глухий кут 139 команд програмістів

Хрещена мати ШІ представила три принципи етики штучного інтелекту

Чат-бот Google порадив користувачеві померти під час звичайного діалогу

Альтман підтвердив розробку не схожого на смартфон ШІ-пристрою від OpenAI

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Схожі новини:

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Читайте далі

ШІ допоміг Google зупинити хвилю рекламного шахрайства

ШІ від Anthropic шантажував інженера через загрозу відключення

ШІ створив понад 7 тис нових білків для боротьби з хворобами

ШІ навчився передбачати серцеву зупинку за 14 днів

У Південній Кореї розробили AI-систему безпеки для розумних будинків

OpenAI запустила відеогенератор Sora для передплатників ChatGPT (відео)

Gemini впорався із завданням, яке поставило в глухий кут 139 команд програмістів

Хрещена мати ШІ представила три принципи етики штучного інтелекту

Чат-бот Google порадив користувачеві померти під час звичайного діалогу

Альтман підтвердив розробку не схожого на смартфон ШІ-пристрою від OpenAI

Квантові роботи зможуть досягти людського інтелекту

Як з'явилися гігантські галактики (фото)