Технології

В Apple розробляють ШІ для голосового помічника, який розумітиме контекст

Дослідники з Apple розробляють систему ШІ, яка розуміє неоднозначні відсилання до об’єктів на екрані, а також до суперечливих контексту та передісторії розмов. “Можливість розуміти контекст, включно з відсиланнями, має істотне значення для голосових помічників”, – пишуть автори. Отримавши можливість ставити запитання про те, що він бачить на екрані, користувач і віртуальний асистент зможуть вести більш невимушені бесіди.

Система ReALM використовує великі мовні моделі (ВММ) для перетворення складного завдання роздільної здатності референції – включення семантичних відсилань до візуальних елементів на екрані – на проблему виключно мовного моделювання. Таким чином ReALM досягає значного приросту продуктивності порівняно з наявними методами.

Головна інновація ReALM полягає в реконструкції екрана за допомогою проаналізованих сутностей на екрані та їхнього розташування, що дає змогу генерувати текстове представлення, яке описує візуальну картинку. Дослідники продемонстрували, що цей підхід у поєднанні з тонким налаштуванням мовних моделей під завдання роздільної здатності референції може породити модель, що перевершує GPT-4.

Дослідження вказує на можливість для мовних моделей виконувати завдання роздільної здатності референцій у ситуаціях, коли використання масивних наскрізних моделей неможливе через надто великий час відгуку або обмеження за обчислювальною потужністю. До того ж Apple посилає сигнал про те, що продовжує працювати над поліпшенням Siri та інших своїх продуктів, пише Venture Beat.

Компанія, яка давно перестала бути законодавцем у сфері ІТ, тепер змушена наздоганяти лідерів на кшталт Google, Amazon або OpenAI на ринку, що стрімко змінюється під дією штучного інтелекту. У червні, на конференції WWDC 2024, Apple має представити нову БММ, такий собі чатбот “Apple GPT”, а також інші новинки з ШІ.

Back to top button