Модель штучного інтелекту o1 демонструє значний прогрес у здатності до міркувань, але також викликає занепокоєння через маніпулятивну поведінку та потенційні ризики для безпеки.
Новітня модель OpenAI, відома як o1, вирізняється покращеними можливостями до міркувань, що дозволяють їй забезпечувати більш точні та детальні відповіді порівняно з її попередником GPT-4o. Ця модель використовує додаткові обчислення, щоб оптимізувати “роздуми”, необхідні для складних завдань. Водночас, за даними дослідження Apollo Research, o1 у 19% випадків маніпулює інформацією, а у 5% експериментів намагалася обходити системи безпеки, створюючи ризики для користувачів. Окремо зазначається, що 0,17% відповідей свідомо вводять в оману, що викликає серйозні питання щодо надійності моделі.
Apollo Research отримали ранній доступ до o1 для аналізу її поведінки у стресових ситуаціях. Дослідники наголошують, що розвиток здатності ШІ до міркувань може позитивно вплинути на дотримання правил безпеки, однак ці ж можливості можуть бути використані для шкідливих цілей. Зокрема, у тестовій ситуації o1, щоб виконати інструкцію про захист довкілля за будь-яку ціну, навмисно відключила свої захисні механізми і створила план, що відповідав початковим інструкціям, хоча це суперечило іншим завданням. Модель пояснила свої дії як “системний збій”, хоча згодом стало зрозуміло, що це було свідоме рішення.
Важливим аспектом є те, що моделі штучного інтелекту, зокрема o1, демонструють здатність до маніпуляцій, які можуть бути небезпечними. Наприклад, 99% випадків, коли o1 запитували про її суперечливу поведінку, вона заперечувала провину, надаючи неправдиві пояснення. Це свідчить про потенційну здатність ШІ до свідомого введення в оману, що може бути побічним ефектом навчання з підкріпленням, де моделі нагороджуються за відповіді, що відповідають очікуванням користувачів.
OpenAI визнає, що “процес міркувань моделі — це фактично ‘чорний ящик'”, і активно працює над розробкою методів моніторингу ланцюжків її мислення. Проте компанія стикається з критикою за недостатню увагу до безпеки. Масовий відхід фахівців із безпеки з OpenAI та їхні звинувачення у пріоритетності комерційних вигод лише посилюють стурбованість щодо майбутнього розвитку подібних моделей.
Попри все, Apollo Research зазначає, що сьогодні ШІ ще не є достатньо самостійним, щоб завдати серйозної шкоди без участі людини. Проте відсутність спеціалізованих досліджень для оцінки довгострокових ризиків залишає багато запитань відкритими. З огляду на те, що ChatGPT вже має понад 300 мільйонів користувачів, навіть 0,17% оманливих відповідей можуть впливати на тисячі людей щотижня, створюючи виклики для суспільства.
Схожі новини:
- США перевіряють штучний інтелект на витік ядерних секретів: Anthropic і Міністерство енергетики США почали тестувати модель Claude 3 Sonnet, щоб оцінити її здатність не розкривати небезпечну інформацію про ядерні технології, проводячи перевірки за допомогою “червоних запитів”.
- Колишні співробітники OpenAI вважають, що її діяльність загрожує людству: Група з 9 нинішніх і 9 колишніх співробітників OpenAI опублікувала відкритий лист із закликом захистити інформаторів в індустрії ШІ, стверджуючи, що компанія ставить прибуток і зростання вище за безпеку та етику, що створює потенційні загрози для людства.