Компанія OpenAI розробила нову генеративну модель sCM, що забезпечує створення високоякісних мультимедійних зразків у 50 разів швидше порівняно зі звичайними дифузійними моделями.
Традиційні дифузійні моделі показали високу ефективність у генерації зображень, аудіо та відео, проте для створення одного зразка вони потребують десятків або навіть сотень кроків, що значно уповільнює процес. Нова модель sCM розв’язує цю проблему, генеруючи зображення лише за один-два кроки шумозаглушення, що дозволяє скоротити час обчислень до 0,11 секунди на одному процесорі GPU A100. Це значне прискорення робить можливим використання штучного інтелекту для задач у реальному часі, таких як миттєва генерація контенту для інтерактивних додатків.
Модель sCM, навчена на наборі даних ImageNet 512-512, має 1,5 мільярда параметрів і демонструє високу якість генерації зображень, яка майже не поступається дифузійним моделям. За метрикою FID (Frechet Inception Distance), що використовується для оцінки якості згенерованих зразків, модель sCM досягла значення 1,88 на цьому наборі даних, що свідчить про високий рівень реалізму. При цьому sCM використовує набагато менше обчислювальних ресурсів, що робить її привабливою для широкого кола застосувань.
Значна перевага моделі sCM полягає в її здатності до масштабування, зберігаючи якість генерації, наближену до результатів «вчителя» — дифузійної моделі, яка передає їй знання. Збільшення розміру моделі або кількості кроків вибірки допомагає ще більше скоротити різницю в якості між sCM і традиційними дифузійними моделями. Завдяки цьому sCM забезпечує ефективне поєднання високої швидкості і точності, що є важливим проривом у генеративному штучному інтелекті.
Перспективи застосування моделей sCM охоплюють різноманітні галузі — від синтезу зображень у реальному часі до генерації аудіо та відеоконтенту. Нова технологія може стати основою для інноваційних рішень у сферах розваг, медіа, дизайну та навіть наукових симуляцій, де швидка генерація контенту є критично важливою.