Google презентував нову модель Gemini наступного покоління. Представники компанії стверджують, що їх ШІ перевершує GPT-4 OpenAI, а також людей-експертів майже у всіх основних тестах. Він розуміє зображення, відео та аудіо, текст та код.
Gemini пройшов тест MMLU (масове багатозадачне розуміння мови) на 90%. Це перша модель, що перевершує експертів-людей (89,8%), а також GPT-4 (86,4%) у низці завдань зі знань та вирішення проблем у 57 предметах, включаючи математику, фізику, історію, право, медицину та етику.
Також нова ШІ-модель здатна розуміти та генерувати код такими мовами програмування, як Python, Java, C++ та Go.
Особливість Gemini — здатність ефективно працювати на різному обладнанні: від центрів обробки даних (ЦОД) до звичайних смартфонів. Модель Gemini 1.0 реалізують у кількох варіантах: Gemini Ultra — найбільша і найпотужніша версія, стане в нагоді для вирішення складних завдань, Gemini Pro — версія середнього рівня для ширшого спектру завдань та Gemini Nano — підійде для мобільних пристроїв.
Gemini — мультимодальна система, а значить, її оригінальний набір тренувальних даних містив масу інших засобів масової інформації на додаток до тексту. Там, де інші мовні моделі, як правило, «думають» у форматі тексту під час перегляду відео та зображень, Gemini зберігає весь тон та нюанси вихідних джерел відео, аудіо та зображень. Тому його вже називають «вбивцею» ChatGPT-4.
Публічний запуск Gemini Ultra заплановано наступного року, після всіх перевірок на безпеку.