Google hävdar att Muse AI är bättre än DALL-E 2

Återutgiven av Platon

anhängare: 0

Google Muse AI är det senaste tillägget från teknikjätten till en svärm av AI-verktyg vi har sett på sistone. Den nya text-till-bild-transformatormodellen påstår sig vara snabbare än konkurrerande metoder, eftersom den använder parallell avkodning och ett kompakt, diskret latent utrymme. Enligt dess utvecklare kan Google Muse AI producera bilder med toppmodern bildgenereringsprestanda.

Vi presenterar Musa, en text-till-bild Transformer-modell som uppnår toppmodern bildgenereringsprestanda samtidigt som den är betydligt effektivare än diffusions- eller autoregressiva modeller.

Google Muse AI-team

Vad är Google Muse AI?

Google Muse AI är en påstådd förbättrad version av tidigare text-till-bild-transformatormodeller som Imagen och DALL-E 2. Muse tränas på en maskerad modelleringsuppgift i diskret token-utrymme med hjälp av textinbäddning som erhållits från en förtränad storspråksmodell (LLM).

Muse har tränats i att identifiera tokens i bilder som har blivit godtyckligt förtäckta. Muse hävdar att de överträffar pixel-space-diffusionsmodeller som Imagen och DALL-E 2 på grund av dess användning av diskreta tokens och krav på mindre provstorlek. Iterativt omsampling av bildtokens baserat på en textuppmaning, producerar modellen en gratis noll-shot, maskfri redigering.

Jämfört med andra modeller har Muse snabbare slutledningstider, enligt MUSE.

Modell	Upplösning	Slutledningstid (↓)
Stabil diffusion 1.4	512 × 512	3.7s
Parti-3B	256 × 256	6.4s
Bild	256 × 256	9.1s
Bild	1024 × 1024	13.3s
Muse-3B	256 × 256	0.5s
Muse-3B	512 × 512	1.3s

Muse använder parallell avkodning, vilket saknas i Parti och andra autoregressiva modeller. Med en LLM som redan har utbildats är det möjligt att förstå språket på en granulär nivå, vilket i sin tur leder till att producera högkvalitativa bilder och känna igen visuella koncept som objekt, deras rumsliga relationer, ställning, kardinalitet och så vidare. Dessutom möjliggör Muse inmålning, ommålning och maskfri redigering utan att behöva vända eller vända modellen.

Google Muse AI-funktioner

Muse är en snabb, toppmodern text-till-bild-generering och redigeringsmodell som har så mycket att erbjuda:

Text-till-bild generering
- Google Muse AI producerar snabbt bilder av hög kvalitet som svar på textinmatningar (1.3 s för 512×512 upplösning eller 0.5s för 256×256 upplösning på TPUv4).

Noll-shot, maskfri redigering
- På grund av den iterativa omsamplingen av bildtokens baserat på en textuppmaning ger Google Muse AI-modellen oss gratis nollbilder, maskfri redigering.

När du ändrar en bild låter maskfri redigering dig manipulera flera objekt med en enkel textuppmaning.

Zero-shot Inpainting/Outpainting
- Maskbaserad redigering (inpainting/outpainting) ingår gratis i Google Muse AI. När du använder en mask är redigering detsamma som en generation.

Google Muse AI-modelldetaljer

Nedan hittar du Google Muse AI:s utbildningspipeline:

Google-teamet använder två separata VQGAN-tokenizernätverk, ett för foton av låg kvalitet och ett för högupplösta bilder. De omaskerade tokens och T5-textinbäddningar används för att träna lågupplösta (”bas”) och högupplösta (”superres”) transformatorer för att förutsäga de maskerade tokens.

För mer detaljerad information om Google Muse AI, klicka här..

Undrar du hur ditt rum kommer att bli i cyberpunkstil? Prova Inomhus AI