Американські вчені створили систему нейромереж, яка компілює короткі ролики з героями мультсеріалу «Флінстоуни» з текстового опису.
Розробники з Інституту штучного інтелекту Аллена і Іллінойського університету створили систему CRAFT (Composition, and Retrieval Fusion Network), завдання якої — генерувати анімовану картинку з текстового опису. За основу взяли мультсеріал «Флінстоуни». Тексти, доступні розумінню нейромережі, шаблонні: у них повинна бути описана обстановка (наприклад, кухня або вітальня) і перераховані персонажі та їхні дії (сидить, стоїть, йде, читає книжку, каже).
Нейромережі, що входять в систему CRAFT, навчали на 25 тисячах вручну оброблених роликах з мультсеріалу «Флінстоуни». Обробка полягала в розмітці кадрів (у кожному ролику їх було 75); вчені виділяли на них персонажів, фон і їх дії. Система підбирає відповідний текстовий опис фрагменти з цієї бібліотеки і компілює з них нові відео. Іноді CRAFT помиляється — плутає дії або розгортає героїв не в ту сторону обличчям.
Препринт статті з описом системи CRAFT доступний в репозиторії arXiv.org.
Натхнення: www.popmech.ru