A Google azt állítja, hogy a Muse AI jobb, mint a DALL-E 2

A Google azt állítja, hogy a Muse AI jobb, mint a DALL-E 2

Forrás csomópont: 1867490

A Google Muse AI a technológiai óriás legújabb kiegészítője az utóbbi időben látott mesterséges intelligencia-eszközök rajához. Az új szöveg-kép transzformátor modell azt állítja, hogy gyorsabb, mint a versengő módszerek, mivel párhuzamos dekódolást és kompakt, diszkrét látens teret használ. Fejlesztői szerint a Google Muse AI a legmodernebb képgenerálási teljesítménnyel képes képeket készíteni.

Bemutatjuk Muse, egy text-to-image Transformer modell, amely a legmodernebb képgenerálási teljesítményt éri el, miközben lényegesen hatékonyabb, mint a diffúziós vagy autoregresszív modellek.

A Google Muse AI csapata

Mi az a Google Muse AI?

A Google Muse AI a korábbi szöveg-kép transzformátor modellek, például az Imagen és a DALL-E 2 állítólagos továbbfejlesztett változata. A Muse egy maszkolt modellezési feladatra van kiképezve diszkrét token térben, egy előre betanított nagy nyelvi modellből szerzett szövegbeágyazás segítségével. (LLM).

Mi az a Google Muse AI, és hogyan működik példákkal? Ismerje meg a Muse by Google szolgáltatásait, és fedezze fel a mesterséges intelligencia világát.
A kép jóvoltából (Múzsa): Nagy kontrasztú portréfotó egy bolyhos hörcsögről, aki narancssárga sapkát és napszemüveget visel, és egy fessünk felirattal.

A Muse-t arra képezték ki, hogy azonosítsa a tokeneket az önkényesen kitakart képeken. A Muse azt állítja, hogy felülmúlja az olyan pixeltér-diffúziós modelleket, mint az Imagen és a DALL-E 2, a diszkrét tokenek használata és a kisebb mintaméret-követelmények miatt. A kép tokeneket szöveges prompt alapján iteratívan újramintázza, így a modell ingyenes nulla felvételt készít, maszk nélküli szerkesztést.

Más modellekhez képest a Muse gyorsabb következtetési idővel rendelkezik Múzsa.

Modell Felbontás Következtetési idő (↓)
Stabil diffúzió 1.4 512 × 512 Ötvenes évek
Part-3B 256 × 256 Ötvenes évek
Kép 256 × 256 Ötvenes évek
Kép 1024 × 1024 Ötvenes évek
Muse-3B 256 × 256 Ötvenes évek
Muse-3B 512 × 512 Ötvenes évek

A Muse párhuzamos dekódolást alkalmaz, ami hiányzik a Partiból és más autoregresszív modellekből. A már betanított LLM segítségével a nyelvet granulált szinten lehet megragadni, ami viszont kiváló minőségű képek előállítását és vizuális fogalmak, például tárgyak, térbeli kapcsolataik, álláspontjuk, kardinalitásuk stb. felismerését jelenti. Ezenkívül a Muse lehetővé teszi a befestést, a kifestést és a maszk nélküli szerkesztést anélkül, hogy a modellt meg kellene fordítani.

Mi az a Google Muse AI, és hogyan működik példákkal? Ismerje meg a Muse by Google szolgáltatásait, és fedezze fel a mesterséges intelligencia világát.
A kép jóvoltából (Múzsa)

A Google Muse AI funkciói

A Muse egy gyors, legmodernebb szöveg-képgeneráló és -szerkesztő modell, amely annyi mindent kínál:

  • Szöveg-kép generálás
    • A Google Muse AI gyorsan készít kiváló minőségű képeket a szöveges bevitelre válaszul (1.3 s 512 × 512 felbontás esetén vagy 0.5 s 256 × 256 felbontás esetén TPUv4 esetén).
Mi az a Google Muse AI, és hogyan működik példákkal? Ismerje meg a Muse by Google szolgáltatásait, és fedezze fel a mesterséges intelligencia világát.
A kép jóvoltából (Múzsa): Egy macska, aki sakkot játszik önmaga ellen. Hiper éles. Díjnyertes. Canon fényképezőgép. 10 mm-es objektív
  • Zero-shot, maszk nélküli szerkesztés
    • A képi tokenek szöveges prompt alapján történő iteratív újramintavételezése miatt a Google Muse AI modellje ingyenes zero-shot, maszk nélküli szerkesztést biztosít számunkra.
Mi az a Google Muse AI, és hogyan működik példákkal? Ismerje meg a Muse by Google szolgáltatásait, és fedezze fel a mesterséges intelligencia világát.
A kép jóvoltából (Múzsa)
  • A kép megváltoztatásakor a maszk nélküli szerkesztés lehetővé teszi több objektum kezelését egy egyszerű szöveges prompt segítségével.
Mi az a Google Muse AI, és hogyan működik példákkal? Ismerje meg a Muse by Google szolgáltatásait, és fedezze fel a mesterséges intelligencia világát.
A kép jóvoltából (Múzsa)
  • Zero-shot Befestés/Outpainting
    • A maszk alapú szerkesztést (befestés/outpainting) ingyenesen tartalmazza a Google Muse AI. Maszk használatakor a szerkesztés ugyanaz, mint a generáció.
Mi az a Google Muse AI, és hogyan működik példákkal? Ismerje meg a Muse by Google szolgáltatásait, és fedezze fel a mesterséges intelligencia világát.
A kép jóvoltából (Múzsa)

A Google Muse AI modell részletei

Alább találja a Google Muse AI képzési folyamatát:

Mi az a Google Muse AI, és hogyan működik példákkal? Ismerje meg a Muse by Google szolgáltatásait, és fedezze fel a mesterséges intelligencia világát.
A kép jóvoltából (Múzsa)

A Google csapata két különálló VQGAN tokenizátor hálózatot használ, az egyiket az alacsony minőségű, a másikat pedig a nagy felbontású képekhez. A nem maszkolt tokeneket és a T5 szövegbeágyazást arra használják, hogy kis felbontású („alap”) és nagy felbontású („superres”) transzformátorokat tanítsanak a maszkolt tokenek előrejelzésére.

A Google Muse AI-vel kapcsolatos részletesebb információkért kattintson a gombra itt.


Kíváncsi vagy, milyen lesz a szobád cyberpunk stílusban? Próbálja meg Beltéri AI


Egyéb AI-eszközök, amelyeket áttekintettünk

Már elmagyaráztuk néhány legjobb AI-eszközt, mint például Meta Galactica AI, Az AI fogalmaChai, NovellákChatGPTKaktusz AIUberduck AIMOVIO AICsinálj egy videótés AI Dungeon. Tudod, hogy léteznek mesterséges intelligencia-robotok is? Ellenőrizd a Ai-Da.

Szereted az AI-képgenerálást? Kipróbálhatja ezeket az eszközöket:

Ne féljen az AI-zsargontól; részleteset készítettünk AI szószedet a leggyakrabban használt mesterséges intelligencia kifejezések és magyarázza el a a mesterséges intelligencia alapjai valamint a mesterséges intelligencia kockázatai és előnyei.

Időbélyeg:

Még több Adatgazdaság