Компанія 1X, яку підтримує OpenAI, представила відео, на якому її роботи на колесах виконують різні завдання в офісі, реагуючи на голосові команди. Керують ними, віддаючи команди звичайною, природною мовою. Багатофункціональні роботи поки що повільно, але цілком упевнено справляються із завданнями і переходять від одного завдання до іншого. 1X встояла перед спокусою відредагувати демонстраційне відео, тому в ньому показана реальна швидкість роботи її роботів.
Компанія Halodi Robotics, заснована 2014 року в Норвегії, спочатку займалася розробкою універсальних роботів для роботи поруч із людьми. У 2019 році компанія відкрила другий офіс у Каліфорнії, де була представлена передсерійна версія робота-гуманоїда на ім’я Eve. У 2022 році Halodi перейменувалася на “1X” і почала співпрацю з “OpenAI”, щоб об’єднати робототехніку і ШІ. Це допоможе виробляти роботів здатних до самонавчання.
Зараз компанія навчає Eve виконувати корисні завдання в офісі. Роботи повинні розуміти як природну мову, так і фізичний простір, щоб виконувати реальні завдання. У березні 1X повідомила про розробку автономної моделі, здатної виконувати безліч завдань, як-от розпакування сумок, прибирання розлитих рідин і складання сорочок.
Розробники зазначили, що наразі успіхи в одному типі завдань можуть негативно впливати на виконання інших. Збільшення кількості параметрів могло б вирішити цю проблему, але при цьому розтягнуло б час навчання. Впровадження голосового інтерфейсу дає змогу операторам комбінувати окремі завдання в складніші комплексні дії, створюючи цілі ланцюжки пов’язаних завдань.
Ерік Джанг з компанії 1X у блозі пояснив, що керування роботами через високорівневий мовний інтерфейс відкриває нові можливості для збору даних. Замість використання VR для управління одним роботом оператор тепер може віддавати команди одразу декільком на високому рівні, а низькорівневі алгоритми будуть виконувати конкретні дії для досягнення цих високорівневих цілей. Оскільки команди високого рівня подаються рідко, оператори можуть навіть керувати роботами віддалено.
Роботи Eve у представленому відео повністю контролюються нейронною мережею. Воно знято без використання графіки, прискореної зйомки або заздалегідь запрограмованих траєкторій. Наступним кроком у розвитку стане інтеграція моделей, таких як GPT-4o, VILA і Gemini Vision у роботів, щоб підвищити їхню функціональність і точність.