Новий ШІ генерує картинки за один крок і в 30 разів швидше

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Дослідники Лабораторії комп’ютерних наук і штучного інтелекту Массачусетського технологічного інституту представили нову структуру, яка спрощує багатоетапні процеси традиційних дифузійних моделей ШІ до одного кроку, усуваючи попередні обмеження. Це дало змогу прискорити наявні моделі дифузії, як-от Stable Diffusion і DALLE-3, у 30 разів, при цьому якість візуального контенту залишилася на високому рівні.

Підхід учених під назвою Distribution matching distillation (DMD) об’єднує принципи генеративно-змагальних мереж із принципами дифузійних моделей. Генеративно-змагальні мережі складаються з генератора, який створює нові дані, і дискримінатора, який намагається визначити, чи є ці дані реальними або згенерованими. Дифузійні моделі працюють шляхом додавання шуму до доступних навчальних даних, а потім обертають процес для відновлення даних.

DMD складається з двох компонентів. Перший упорядковує зображення, роблячи їхні властивості та характеристики більш передбачуваними. У результаті навчання стає стабільнішим. Другий гарантує, що ймовірність генерації певного зображення моделлю-“учнем” відповідає тому, як часто таке зображення зустрічається в реальному світі. Для цього використовуються спеціальні моделі дифузії, які допомагають системі відрізнити справжні зображення від згенерованих.

Система досягає більш швидкої генерації, оскільки мережа-“учень” навчається мінімізувати розбіжності між згенерованими нею зображеннями та зображеннями з навчального набору даних, що використовується традиційними моделями дифузії.

Вчені скопіювали і налаштували параметри вихідних моделей, що дало їм змогу швидко навчити нову модель-“учня”. Так, як “вчителя” використовували Stable Diffusion v1.5. Дослідники ніби стиснули знання складнішої моделі-“вчителя” в простішу і швидшу модель, обходячи проблеми, властиві генеративно-змагальним мережам. Використовуючи ту саму архітектуру, ця модель могла генерувати високоякісні зображення. Комбінуючи різні методи оптимізації на основі оригінальної архітектури, можна було прискорити генерацію.

Новий метод дозволив генерувати візуальний контент за один крок. За словами авторів дослідження, зменшення кількості ітерацій було “Святим Граалем” дифузійних моделей з моменту їхнього створення. Порівнюючи зі звичайними методами з використанням безлічі тестів DMD показав стабільну продуктивність. Це перший метод одноетапної генерації, який створює зображення практично на одному рівні із зображеннями вихідних, складніших моделей. Крім того, DMD справляється з перетворенням тексту в зображення в промисловому масштабі. Однак у складніших завданнях перетворення тексту в картинки все ще існує невелика різниця в якості.

Ще одна проблема полягає в тому, що якість зображень, створених за допомогою DMD, переймає недоліки моделі-“вчителя”, використовуваної в процесі навчання. У поточній формі, де в якості “вчителя” виступала Stable Diffusion v1.5, модель-“учень” успадковує обмеження в детальній візуалізації тексту та облич. Тому зображення, згенеровані DMD, можна додатково поліпшити за допомогою більш просунутих моделей-“вчителів”.

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Анатолій Шевченко25.03.2024

Час читання: 2 хв

Читайте далі

Новий ШІ генерує картинки за один крок і в 30 разів швидше

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Читайте далі

Як зарядити батарею Galaxy S5 на 50% всього за 30 секунд?

Нова технологія скоротить час заряджання акумуляторів

Інженери створили «квантові композити» для електричних і оптичних інновацій

Японська компанія все ще планує побудувати космічний ліфт до 2050 року

Сонячну електростанцію розміром зі стадіон можна розгорнути за день (відео)

Луска акул володіє відмінною аеродинамікою

Штучний інтелект навчить людей кодувати інформацію

Стартап розробляє компактний ядерний реактор для дата-центрів

Легко нанести, легко змити: розчинний тіоефірний гідроґель для “закриття” ран

Роботи-гуманоїди, що фінансуються OpenAI, виконують безліч завдань автономно (відео)

Як зарядити батарею Galaxy S5 на 50% всього за 30 секунд?

Нова технологія скоротить час заряджання акумуляторів

Інженери створили «квантові композити» для електричних і оптичних інновацій

Японська компанія все ще планує побудувати космічний ліфт до 2050 року

Сонячну електростанцію розміром зі стадіон можна розгорнути за день (відео)

Луска акул володіє відмінною аеродинамікою

Штучний інтелект навчить людей кодувати інформацію

Стартап розробляє компактний ядерний реактор для дата-центрів

Легко нанести, легко змити: розчинний тіоефірний гідроґель для “закриття” ран

Роботи-гуманоїди, що фінансуються OpenAI, виконують безліч завдань автономно (відео)

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Читайте далі

Як зарядити батарею Galaxy S5 на 50% всього за 30 секунд?

Нова технологія скоротить час заряджання акумуляторів

Інженери створили «квантові композити» для електричних і оптичних інновацій

Японська компанія все ще планує побудувати космічний ліфт до 2050 року

Сонячну електростанцію розміром зі стадіон можна розгорнути за день (відео)

Луска акул володіє відмінною аеродинамікою

Штучний інтелект навчить людей кодувати інформацію

Стартап розробляє компактний ядерний реактор для дата-центрів

Легко нанести, легко змити: розчинний тіоефірний гідроґель для “закриття” ран

Роботи-гуманоїди, що фінансуються OpenAI, виконують безліч завдань автономно (відео)

Близько 3,6 млрд людей у світі живуть на територіях, схильних до кліматичних ризиків

Кліматичні моделі не можуть пояснити температурну аномалію 2023 року