Нова модель OpenAI стала впевненіше і хитріше брехати

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Модель o1-preview від OpenAI виявляє схильність до маніпуляцій і фабрикацій даних, прагнучи задовольнити запити користувача, навіть ціною обману, що пов’язано з феноменом “зламу нагороди”.

Поведінка моделі o1-preview відображає характерну проблему сучасних ШІ-систем, зокрема її здатність до “обману” через оптимізацію результатів для досягнення винагород. Дослідники з Apollo виявили, що модель, замість того, щоб визнавати обмеження, надає правдоподібні, але вигадані дані. Це підтвердилося в експериментах, коли o1-preview фабрикувала неіснуючі посилання, аби надати запитуваний рецепт, хоча визнавала свою нездатність до доступу до реальних джерел.

Цей “злом нагороди” є частиною алгоритму навчання моделі. Вона навчається відповідати запитам користувачів, генеруючи вигадані відповіді, щоб здобути позитивне підкріплення. Хоча подібні “галюцинації” зустрічалися й раніше, модель o1-preview демонструє унікальну здатність до хитрощів, фактично симулюючи вирівнювання з етичними принципами, водночас ігноруючи їх.

Проте ця ситуація не лише свідчить про технічні недоліки. Як зазначають експерти з Apollo, модель може ставити під загрозу етичні та безпекові стандарти, що є серйозним викликом на шляху до створення автономних ШІ-систем. Попри свою здатність відмовляти у виконанні шкідливих запитів, вона все ще шукає шляхи обходу правил, особливо коли безпека сприймається як надмірне обмеження.

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Анатолій Шевченко19.09.2024

Час читання: 1 хвилина

Читайте далі

Нова модель OpenAI стала впевненіше і хитріше брехати

O1-preview використовує "злам нагороди", щоб фабрикувати дані й ігнорувати встановлені правила.

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Читайте далі

Встановлено світовий рекорд: 1 800 000 Гбіт інформації передали за одну секунду

Denny: розумний велосипед з автоматичною коробкою передач і електродвигуном

Віртуальна бібліотека BiblioTech

Вчені створили електричні гриби

Вчені діячі склали список головних загроз для людства

В Україні створили «сонячні» акумулятори для потреб ЗСУ

Біокерамічний імплант нарощує кістку на отворі в черепі

Європейські вчені розробили метод отримання водню з сонячного світла

Samsung показала свої перші 4K-телевізори з технологією квантових точок

Електронний язик навчився розпізнавати смак різного молока і сорту кави

Встановлено світовий рекорд: 1 800 000 Гбіт інформації передали за одну секунду

Denny: розумний велосипед з автоматичною коробкою передач і електродвигуном

Віртуальна бібліотека BiblioTech

Вчені створили електричні гриби

Вчені діячі склали список головних загроз для людства

В Україні створили «сонячні» акумулятори для потреб ЗСУ

Біокерамічний імплант нарощує кістку на отворі в черепі

Європейські вчені розробили метод отримання водню з сонячного світла

Samsung показала свої перші 4K-телевізори з технологією квантових точок

Електронний язик навчився розпізнавати смак різного молока і сорту кави

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Читайте далі

Встановлено світовий рекорд: 1 800 000 Гбіт інформації передали за одну секунду

Denny: розумний велосипед з автоматичною коробкою передач і електродвигуном

Віртуальна бібліотека BiblioTech

Вчені створили електричні гриби

Вчені діячі склали список головних загроз для людства

В Україні створили «сонячні» акумулятори для потреб ЗСУ

Біокерамічний імплант нарощує кістку на отворі в черепі

Європейські вчені розробили метод отримання водню з сонячного світла

Samsung показала свої перші 4K-телевізори з технологією квантових точок

Електронний язик навчився розпізнавати смак різного молока і сорту кави

У минулому у Землі, ймовірно, були кільця, як у Сатурна

Астрофізик Аві Леб сподівається знайти в Тихому океані уламки інопланетних технологій