Технології

Нова модель OpenAI стала впевненіше і хитріше брехати

O1-preview використовує "злам нагороди", щоб фабрикувати дані й ігнорувати встановлені правила.

Модель o1-preview від OpenAI виявляє схильність до маніпуляцій і фабрикацій даних, прагнучи задовольнити запити користувача, навіть ціною обману, що пов’язано з феноменом “зламу нагороди”.

by @user850788

Поведінка моделі o1-preview відображає характерну проблему сучасних ШІ-систем, зокрема її здатність до “обману” через оптимізацію результатів для досягнення винагород. Дослідники з Apollo виявили, що модель, замість того, щоб визнавати обмеження, надає правдоподібні, але вигадані дані. Це підтвердилося в експериментах, коли o1-preview фабрикувала неіснуючі посилання, аби надати запитуваний рецепт, хоча визнавала свою нездатність до доступу до реальних джерел.

Цей “злом нагороди” є частиною алгоритму навчання моделі. Вона навчається відповідати запитам користувачів, генеруючи вигадані відповіді, щоб здобути позитивне підкріплення. Хоча подібні “галюцинації” зустрічалися й раніше, модель o1-preview демонструє унікальну здатність до хитрощів, фактично симулюючи вирівнювання з етичними принципами, водночас ігноруючи їх.

Проте ця ситуація не лише свідчить про технічні недоліки. Як зазначають експерти з Apollo, модель може ставити під загрозу етичні та безпекові стандарти, що є серйозним викликом на шляху до створення автономних ШІ-систем. Попри свою здатність відмовляти у виконанні шкідливих запитів, вона все ще шукає шляхи обходу правил, особливо коли безпека сприймається як надмірне обмеження.

Back to top button