Технології

Компанія Маска випустила першу мультимодальну ШІ-модель – Grok 1.5 Vision

Компанія Ілона Маска xAI, що займається штучним інтелектом, представила свою першу мультимодальну модель Grok 1.5 Vision, яка конкуруватиме з OpenAI. Крім розуміння тексту, модель також може працювати з документами, діаграмами, скріншотами і фотографіями. Нова версія здатна перетворювати інформацію із зображень у різні формати, писати творчі тексти і навіть давати поради щодо ремонту будинку. За даними компанії, Grok 1.5V перевершує інші ШІ-моделі в різних тестах.

by @freepik

Минулого листопада компанія представила першу версію своєї моделі штучного інтелекту Grok. Крім того, минулого місяця вона підкреслила прагнення до відкритості, зробивши доступними вихідні коди ваг базової моделі та архітектуру мережі. Темп роботи компанії очевидний: її перша мультимодальна модель ШІ з’явилася всього через місяць після того, як архітектура Grok стала відкритою.

Згідно з веб-сайтом, Grok 1.5V “з’єднує фізичний і цифровий світи”. Компанія навела сім прикладів, щоб пояснити, як працює мультимодальна модель. Так, користувач може поділитися з Grok зображенням блок-схеми, а модель ШІ переведе її в код Python. Показавши етикетку з харчовою цінністю, користувач може дізнатися, скільки калорій він отримає від певної порції продукту. Модель також може взяти дитячий малюнок і побудувати на його основі цілу казку на ніч. Якщо показати Grok мем, модель пояснить, чому він смішний, і надасть контекст, необхідний для його розуміння.

Grok може перетворити таблицю у формат CSV або допомогти виправити неробочий фрагмент коду. Якщо потрібна порада з ремонту будинку, достатньо поділитися зображеннями ділянки, і модель дасть рекомендації.

xAI також випустила новий тест під назвою RealWorldQA для оцінювання просторового розуміння, яке демонструють мультимодальні моделі. Судячи з прикладів, наданих компанією, Grok 1.5V може переглядати зображення і розрізняти порівняно великі об’єкти, а також давати поради з водіння. Згідно з даними компанії, Grok 1,5V також значно перевершує інші моделі штучного інтелекту в цьому та інших тестах.

Ілон Маск пророкує, що штучний інтелект перевершить людський до кінця 2025 року. xAI ставить собі за мету розробку корисного штучного загального інтелекту (AGI), здатного розуміти всесвіт. Компанія оголосила про значні поліпшення в можливостях своїх моделей у таких галузях, як опрацювання аудіо, голосу та відео, які буде реалізовано найближчими місяцями.

Grok 1,5V скоро стане доступний для тестувальників і користувачів, додала компанія в блозі.

Back to top button