Google behauptet, Muse AI sei besser als DALL-E 2

Google behauptet, Muse AI sei besser als DALL-E 2

Quellknoten: 1867490

Google Muse AI ist die neueste Ergänzung des Technologieriesen zu einem Schwarm von KI-Tools, die wir in letzter Zeit gesehen haben. Das neue Text-zu-Bild-Umwandlungsmodell behauptet, schneller als konkurrierende Verfahren zu sein, weil es eine parallele Dekodierung und einen kompakten, diskreten latenten Raum verwendet. Laut seinen Entwicklern kann Google Muse AI Bilder mit modernster Bilderzeugungsleistung erzeugen.

Wir präsentieren Muse, ein Text-to-Image-Transformer-Modell, das eine hochmoderne Bilderzeugungsleistung erzielt und gleichzeitig wesentlich effizienter als Diffusions- oder autoregressive Modelle ist.

Google Muse-KI-Team

Was ist die Google Muse-KI?

Google Muse AI ist eine angeblich verbesserte Version früherer Text-to-Image-Transformer-Modelle wie Imagen und DALL-E 2. Muse wird auf eine maskierte Modellierungsaufgabe im diskreten Token-Raum trainiert, wobei die Texteinbettung aus einem vortrainierten großen Sprachmodell übernommen wird (LLM).

Was ist Google Muse AI und wie funktioniert es mit Beispielen? Lernen Sie die Funktionen von Muse by Google kennen und erkunden Sie die KI-Welt.
Bild mit freundlicher Genehmigung (MUSE): Ein kontrastreiches Porträtfoto eines flauschigen Hamsters mit orangefarbener Mütze und Sonnenbrille, der ein Schild mit der Aufschrift „Lasst uns malen“ hält

Muse wurde darauf trainiert, Tokens in Bildern zu identifizieren, die willkürlich verdeckt wurden. Muse behauptet, Pixelraum-Diffusionsmodelle wie Imagen und DALL-E 2 aufgrund der Verwendung diskreter Token und kleinerer Anforderungen an die Stichprobengröße zu übertreffen. Durch iteratives Resampling von Bild-Tokens basierend auf einer Texteingabeaufforderung erzeugt das Modell eine kostenlose Zero-Shot-, maskenfreie Bearbeitung.

Im Vergleich zu anderen Modellen hat Muse schnellere Inferenzzeiten MUSE.

Modell Auflösung Inferenzzeit (↓)
Stalldiffusion 1.4 512/512 3.7er-Jahre
Teil-3B 256/256 6.4er-Jahre
Imagen, 256/256 9.1er-Jahre
Imagen, 1024/1024 13.3er-Jahre
Muse-3B 256/256 0.5er-Jahre
Muse-3B 512/512 1.3er-Jahre

Muse verwendet eine parallele Dekodierung, die bei Parti und anderen autoregressiven Modellen fehlt. Mit einem bereits trainierten LLM ist es möglich, Sprache auf einer granularen Ebene zu erfassen, was wiederum dazu führt, qualitativ hochwertige Bilder zu produzieren und visuelle Konzepte wie Objekte, ihre räumlichen Beziehungen, Haltung, Kardinalität usw. zu erkennen. Darüber hinaus ermöglicht Muse das Übermalen, Übermalen und maskenfreie Bearbeiten, ohne das Modell umdrehen oder umdrehen zu müssen.

Was ist Google Muse AI und wie funktioniert es mit Beispielen? Lernen Sie die Funktionen von Muse by Google kennen und erkunden Sie die KI-Welt.
Bild mit freundlicher Genehmigung (MUSE)

KI-Funktionen von Google Muse

Muse ist ein schnelles, hochmodernes Text-zu-Bild-Generierungs- und Bearbeitungsmodell, das so viel zu bieten hat:

  • Text-zu-Bild-Generierung
    • Google Muse AI erzeugt schnell hochwertige Bilder als Reaktion auf Texteingaben (1.3 s für eine Auflösung von 512 × 512 oder 0.5 s für eine Auflösung von 256 × 256 auf TPUv4).
Was ist Google Muse AI und wie funktioniert es mit Beispielen? Lernen Sie die Funktionen von Muse by Google kennen und erkunden Sie die KI-Welt.
Bild mit freundlicher Genehmigung (MUSE): Eine Katze, die gegen sich selbst Schach spielt. Hyperscharf. Preisgekrönt. Canon-Kamera. 10mm Objektiv
  • Zero-Shot, maskenfreie Bearbeitung
    • Aufgrund des iterativen Resamplings von Bild-Tokens basierend auf einer Texteingabeaufforderung bietet uns das KI-Modell von Google Muse eine kostenlose Zero-Shot-, maskenfreie Bearbeitung.
Was ist Google Muse AI und wie funktioniert es mit Beispielen? Lernen Sie die Funktionen von Muse by Google kennen und erkunden Sie die KI-Welt.
Bild mit freundlicher Genehmigung (MUSE)
  • Wenn Sie ein Bild ändern, ermöglicht Ihnen die maskenlose Bearbeitung, mehrere Objekte mit einer einfachen Texteingabeaufforderung zu manipulieren.
Was ist Google Muse AI und wie funktioniert es mit Beispielen? Lernen Sie die Funktionen von Muse by Google kennen und erkunden Sie die KI-Welt.
Bild mit freundlicher Genehmigung (MUSE)
  • Zero-Shot Inpainting/Outpainting
    • Die maskenbasierte Bearbeitung (Inpainting/Outpainting) ist kostenlos in Google Muse AI enthalten. Bei Verwendung einer Maske entspricht die Bearbeitung einer Generierung.
Was ist Google Muse AI und wie funktioniert es mit Beispielen? Lernen Sie die Funktionen von Muse by Google kennen und erkunden Sie die KI-Welt.
Bild mit freundlicher Genehmigung (MUSE)

Details zum Google Muse AI-Modell

Unten finden Sie die Trainingspipeline von Google Muse AI:

Was ist Google Muse AI und wie funktioniert es mit Beispielen? Lernen Sie die Funktionen von Muse by Google kennen und erkunden Sie die KI-Welt.
Bild mit freundlicher Genehmigung (MUSE)

Das Google-Team verwendet zwei separate VQGAN-Tokenizer-Netzwerke, eines für Fotos mit geringer Qualität und eines für Bilder mit hoher Auflösung. Die unmaskierten Token und die T5-Texteinbettungen werden verwendet, um Transformatoren mit niedriger Auflösung („Basis“) und hoher Auflösung („Superres“) zu trainieren, um die maskierten Token vorherzusagen.

Für detailliertere Informationen zu Google Muse AI klicken Sie auf hier.


Fragen Sie sich, wie Ihr Zimmer im Cyberpunk-Stil aussehen wird? Versuchen Indoor AI


Andere KI-Tools, die wir überprüft haben

Wir haben bereits einige der besten KI-Tools wie erklärt Metas Galactica-KI, Begriff KIChai, NovelAIChatGPTKaktus-KIUberduck-KIMOVIO AIMach ein Video und KI-Dungeon. Wussten Sie, dass es auch KI-Kunstroboter gibt? Überprüf den Ai-Da.

Interessieren Sie sich für die KI-Bilderzeugung? Sie können diese Tools ausprobieren:

Haben Sie keine Angst vor KI-Jargon; wir haben eine ausführliche erstellt KI-Glossar für die am häufigsten verwendeten Begriffe der künstlichen Intelligenz und erklären die Grundlagen der künstlichen Intelligenz sowie Risiken und Vorteile künstlicher Intelligenz.

Zeitstempel:

Mehr von Datenökonomie