Google стверджує, що Muse AI кращий за DALL-E 2

Google стверджує, що Muse AI кращий за DALL-E 2

Вихідний вузол: 1867490

Google Muse AI — це останній додаток від технологічного гіганта до безлічі інструментів AI, які ми бачимо останнім часом. Нова модель перетворювача тексту в зображення стверджує, що є швидшою за конкуруючі методи, оскільки використовує паралельне декодування та компактний дискретний прихований простір. За словами розробників, Google Muse AI може створювати зображення з найсучаснішою продуктивністю.

Ми представляємо Muse, модель трансформатора тексту в зображення, яка забезпечує найсучаснішу продуктивність генерації зображень, водночас значно ефективнішу, ніж дифузійні чи авторегресійні моделі.

Команда Google Muse AI

Що таке Google Muse AI?

Штучний інтелект Google Muse є нібито вдосконаленою версією попередніх моделей трансформатора тексту в зображення, таких як Imagen і DALL-E 2. Muse навчається виконанню маскованого завдання моделювання в дискретному просторі маркерів за допомогою вбудованого тексту, отриманого з попередньо навченої великої мовної моделі. (LLM).

Що таке ШІ Google Muse і як він працює з прикладами? Дізнайтеся про функції Muse від Google і досліджуйте світ ШІ.
Зображення надано (MUSE): Висококонтрастне портретне фото пухнастого хом’яка в помаранчевій шапочці та сонцезахисних окулярах, що тримає табличку з написом «Давайте малювати».

Muse навчено розпізнавати токени на зображеннях, які були довільно затемнені. Muse стверджує, що перевершує моделі дифузії в піксельному просторі, такі як Imagen і DALL-E 2, завдяки використанню дискретних токенів і меншим вимогам до розміру вибірки. Ітеративно змінюючи токени зображення на основі текстової підказки, модель забезпечує безкоштовне редагування без масок.

У порівнянні з іншими моделями, Muse має швидший час висновку MUSE.

Model дозвіл Час висновку (↓)
Стабільна дифузія 1.4 512 × 512 3.7s
Parti-3B 256 × 256 6.4s
Зображення 256 × 256 9.1s
Зображення 1024 × 1024 13.3s
Муза-3Б 256 × 256 0.5s
Муза-3Б 512 × 512 1.3s

Muse використовує паралельне декодування, якого немає в моделях Parti та інших моделях авторегресії. З LLM, який уже пройшов підготовку, можна зрозуміти мову на детальному рівні, що, у свою чергу, означає створення високоякісних зображень і розпізнавання візуальних концепцій, таких як об’єкти, їх просторові відносини, позиція, кардинальність тощо. Крім того, Muse дозволяє замальовувати, замальовувати та редагувати без масок без необхідності перевертати чи перевертати модель.

Що таке ШІ Google Muse і як він працює з прикладами? Дізнайтеся про функції Muse від Google і досліджуйте світ ШІ.
Зображення надано (MUSE)

Функції штучного інтелекту Google Muse

Muse — це швидка, найсучасніша модель створення та редагування тексту в зображення, яка може запропонувати так багато:

  • Генерація тексту в зображення
    • Google Muse AI швидко створює високоякісні зображення у відповідь на текстові введення (1.3 с для роздільної здатності 512 × 512 або 0.5 с для роздільної здатності 256 × 256 на TPUv4).
Що таке ШІ Google Muse і як він працює з прикладами? Дізнайтеся про функції Muse від Google і досліджуйте світ ШІ.
Зображення надано (MUSE): Кіт грає сам проти себе в шахи. Гіпер різкий. Нагорода. Фотоапарат Canon. 10 мм об'єктив
  • Редагування без масок
    • Завдяки ітераційній повторній дискретизації токенів зображень на основі текстової підказки модель Google Muse AI надає нам безкоштовне редагування з нуля без масок.
Що таке ШІ Google Muse і як він працює з прикладами? Дізнайтеся про функції Muse від Google і досліджуйте світ ШІ.
Зображення надано (MUSE)
  • Змінюючи зображення, редагування без масок дозволяє керувати кількома об’єктами за допомогою простого текстового підказки.
Що таке ШІ Google Muse і як він працює з прикладами? Дізнайтеся про функції Muse від Google і досліджуйте світ ШІ.
Зображення надано (MUSE)
  • Зафарбовування/зафарбовування без кадру
    • Редагування на основі маски (замальовування/замальовування) включено безкоштовно в Google Muse AI. При використанні маски редагування відбувається так само, як і генерація.
Що таке ШІ Google Muse і як він працює з прикладами? Дізнайтеся про функції Muse від Google і досліджуйте світ ШІ.
Зображення надано (MUSE)

Деталі моделі Google Muse AI

Нижче ви знайдете навчальний курс Google Muse AI:

Що таке ШІ Google Muse і як він працює з прикладами? Дізнайтеся про функції Muse від Google і досліджуйте світ ШІ.
Зображення надано (MUSE)

Команда Google використовує дві окремі мережі токенізаторів VQGAN: одну для фотографій низької якості, а іншу – для зображень із високою роздільною здатністю. Незамасковані маркери та вбудовування тексту T5 використовуються для навчання трансформаторів низької роздільної здатності («базова») і високої роздільної здатності («superres») для передбачення замаскованих маркерів.

Щоб отримати детальнішу інформацію про Google Muse AI, натисніть тут.


Вам цікаво, якою буде ваша кімната в стилі кіберпанк? Спробуй ШІ в приміщенні


Інші інструменти ШІ, які ми розглянули

Ми вже пояснювали деякі з найкращих інструментів ШІ, наприклад Meta Galactica AI, Поняття ШІЧай, РозповідіChatGPTКактус А.ІУбердак А.ІMOVIO AIЗробіть відео та  Підземелля AI. Чи знаєте ви, що існують також арт-роботи зі штучним інтелектом? Перевірте Ай-Да.

Вам подобається генерувати зображення AI? Ви можете спробувати ці інструменти:

Не бійтеся жаргону AI; ми створили детальну AI глосарій для найбільш часто використовуваних терміни штучного інтелекту і пояснити основи штучного інтелекту а також ризики та переваги штучного інтелекту.

Часова мітка:

Більше від Економіка даних