OpenAI: нова модель GPT обійшла в тестах більшість програмістів планети

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Компанія OpenAI представила o3 – нове сімейство мовних моделей, але поки що вони будуть доступні тільки дослідникам для тестування.

OpenAI розробила оновлені версії великих мовних моделей, здатних до міркувань. Нова модель OpenAI під назвою o3 замінює o1, яку компанія представила у вересні. Як і o1, нова модель витрачає час на роздуми над проблемою, щоб надати кращі відповіді на питання, які потребують покрокового логічного обґрунтування.

За словами OpenAI, модель o3 набрала за кількома показниками і бенчмарками, які використовують для оцінювання ШІ, більше балів, ніж її попередниця. Серед цих тестів ті, які вимірюють складні навички, пов’язані з програмуванням, а також складні математичні задачі та розв’язання наукових проблем.

Модель o3 навчена за допомогою навчання з підкріпленням “думати”, перш ніж реагувати. Отримавши запитання, o3 робить паузу перед відповіддю, “аналізує” інформацію і “пояснює” свої міркування в процесі роботи. Через деякий час модель підсумовує те, що вона вважає найбільш точною відповіддю. Ті самі принципи міркувань використовувала o1, але тепер користувачі можуть “регулювати” час міркувань: що більший час, то точніша відповідь.

В ARC-AGI – тесті, розробленому для оцінки того, чи може система ШІ ефективно здобувати нові навички поза даними, на яких її було навчено, – o3 досягла 87,5% балів за високих налаштувань обчислень. У гіршому випадку (за низьких налаштувань обчислень) модель потроїла продуктивність o1.

Розробники також повідомляють, що модель перевершує o1 на 22,8 п.п. у SWE-Bench Verified – бенчмарку, орієнтованому на завдання програмування. Крім того, під час розв’язання задач на програмування рейтингу Codeforces вона набрала 2727 балів. Розробники, які отримують понад 2600 балів, отримують на платформі звання міжнародного гросмейстера програмування – таких людей на Землі трохи більше 300.

Усі повідомлення про гучні досягнення нової моделі поки що наводить тільки OpenAI. Модель поки що не буде опублікована в загальному доступі або за передплатою. Компанія до 10 січня приймає заявки для реєстрації груп тестувальників безпеки та дослідників, які першими оцінять можливості та ризики нової моделі.

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Анатолій Шевченко25.12.2024

Час читання: 1 хвилина

Читайте далі

OpenAI: нова модель GPT обійшла в тестах більшість програмістів планети

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Читайте далі

Ян Лекун: “Наступне десятиліття буде десятиліттям роботів”

ШІ скоротив вакансії для початківців у вразливих професіях

Єврейські ідентичність кидає виклик штучному інтелекту

ШІ допоміг знизити дозу КТ на 98% для діагностики пневмонії

Вчені назвали ключ до розпізнавання AI-фейків

ChatGPT допоміг з 7 реальними проблемами батьків, і деякі відповіді дивують

Часте використання ШІ на роботі може послабити когнітивні здібності

Соцмережа лише для ШІ налякала світ

ШІ зафіксував глобальне поширення цвітіння водоростей

Лауреат Нобеля з економіки: ШІ треба регулювати

Ян Лекун: “Наступне десятиліття буде десятиліттям роботів”

ШІ скоротив вакансії для початківців у вразливих професіях

Єврейські ідентичність кидає виклик штучному інтелекту

ШІ допоміг знизити дозу КТ на 98% для діагностики пневмонії

Вчені назвали ключ до розпізнавання AI-фейків

ChatGPT допоміг з 7 реальними проблемами батьків, і деякі відповіді дивують

Часте використання ШІ на роботі може послабити когнітивні здібності

Соцмережа лише для ШІ налякала світ

ШІ зафіксував глобальне поширення цвітіння водоростей

Лауреат Нобеля з економіки: ШІ треба регулювати

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Читайте далі

Ян Лекун: “Наступне десятиліття буде десятиліттям роботів”

ШІ скоротив вакансії для початківців у вразливих професіях

Єврейські ідентичність кидає виклик штучному інтелекту

ШІ допоміг знизити дозу КТ на 98% для діагностики пневмонії

Вчені назвали ключ до розпізнавання AI-фейків

ChatGPT допоміг з 7 реальними проблемами батьків, і деякі відповіді дивують

Часте використання ШІ на роботі може послабити когнітивні здібності

Соцмережа лише для ШІ налякала світ

ШІ зафіксував глобальне поширення цвітіння водоростей

Лауреат Нобеля з економіки: ШІ треба регулювати

Винайдено рюкзак, який знижує відчутну вагу вантажу на 85%

Новий метод знижує токсичність картоплі та подовжує зберігання