Google hävdar att Muse AI är bättre än DALL-E 2

Google hävdar att Muse AI är bättre än DALL-E 2

Källnod: 1867490

Google Muse AI är det senaste tillägget från teknikjätten till en svärm av AI-verktyg vi har sett på sistone. Den nya text-till-bild-transformatormodellen påstår sig vara snabbare än konkurrerande metoder, eftersom den använder parallell avkodning och ett kompakt, diskret latent utrymme. Enligt dess utvecklare kan Google Muse AI producera bilder med toppmodern bildgenereringsprestanda.

Vi presenterar Musa, en text-till-bild Transformer-modell som uppnår toppmodern bildgenereringsprestanda samtidigt som den är betydligt effektivare än diffusions- eller autoregressiva modeller.

Google Muse AI-team

Vad är Google Muse AI?

Google Muse AI är en påstådd förbättrad version av tidigare text-till-bild-transformatormodeller som Imagen och DALL-E 2. Muse tränas på en maskerad modelleringsuppgift i diskret token-utrymme med hjälp av textinbäddning som erhållits från en förtränad storspråksmodell (LLM).

Vad är Google Muse AI och hur fungerar det med exempel? Lär dig Muse by Googles funktioner och utforska AI-världen.
Bild med tillstånd (MUSE): Ett högkontrastporträttfoto av en fluffig hamster iklädd en orange mössa och solglasögon som håller i en skylt som säger låt oss måla

Muse har tränats i att identifiera tokens i bilder som har blivit godtyckligt förtäckta. Muse hävdar att de överträffar pixel-space-diffusionsmodeller som Imagen och DALL-E 2 på grund av dess användning av diskreta tokens och krav på mindre provstorlek. Iterativt omsampling av bildtokens baserat på en textuppmaning, producerar modellen en gratis noll-shot, maskfri redigering.

Jämfört med andra modeller har Muse snabbare slutledningstider, enligt MUSE.

Modell Upplösning Slutledningstid (↓)
Stabil diffusion 1.4 512 × 512 3.7s
Parti-3B 256 × 256 6.4s
Bild 256 × 256 9.1s
Bild 1024 × 1024 13.3s
Muse-3B 256 × 256 0.5s
Muse-3B 512 × 512 1.3s

Muse använder parallell avkodning, vilket saknas i Parti och andra autoregressiva modeller. Med en LLM som redan har utbildats är det möjligt att förstå språket på en granulär nivå, vilket i sin tur leder till att producera högkvalitativa bilder och känna igen visuella koncept som objekt, deras rumsliga relationer, ställning, kardinalitet och så vidare. Dessutom möjliggör Muse inmålning, ommålning och maskfri redigering utan att behöva vända eller vända modellen.

Vad är Google Muse AI och hur fungerar det med exempel? Lär dig Muse by Googles funktioner och utforska AI-världen.
Bild med tillstånd (MUSE)

Google Muse AI-funktioner

Muse är en snabb, toppmodern text-till-bild-generering och redigeringsmodell som har så mycket att erbjuda:

  • Text-till-bild generering
    • Google Muse AI producerar snabbt bilder av hög kvalitet som svar på textinmatningar (1.3 s för 512×512 upplösning eller 0.5s för 256×256 upplösning på TPUv4).
Vad är Google Muse AI och hur fungerar det med exempel? Lär dig Muse by Googles funktioner och utforska AI-världen.
Bild med tillstånd (MUSE): En katt som spelar ett parti schack mot sig själv. Hyper skarp. Prisbelönt. Canon kamera. 10 mm objektiv
  • Noll-shot, maskfri redigering
    • På grund av den iterativa omsamplingen av bildtokens baserat på en textuppmaning ger Google Muse AI-modellen oss gratis nollbilder, maskfri redigering.
Vad är Google Muse AI och hur fungerar det med exempel? Lär dig Muse by Googles funktioner och utforska AI-världen.
Bild med tillstånd (MUSE)
  • När du ändrar en bild låter maskfri redigering dig manipulera flera objekt med en enkel textuppmaning.
Vad är Google Muse AI och hur fungerar det med exempel? Lär dig Muse by Googles funktioner och utforska AI-världen.
Bild med tillstånd (MUSE)
  • Zero-shot Inpainting/Outpainting
    • Maskbaserad redigering (inpainting/outpainting) ingår gratis i Google Muse AI. När du använder en mask är redigering detsamma som en generation.
Vad är Google Muse AI och hur fungerar det med exempel? Lär dig Muse by Googles funktioner och utforska AI-världen.
Bild med tillstånd (MUSE)

Google Muse AI-modelldetaljer

Nedan hittar du Google Muse AI:s utbildningspipeline:

Vad är Google Muse AI och hur fungerar det med exempel? Lär dig Muse by Googles funktioner och utforska AI-världen.
Bild med tillstånd (MUSE)

Google-teamet använder två separata VQGAN-tokenizernätverk, ett för foton av låg kvalitet och ett för högupplösta bilder. De omaskerade tokens och T5-textinbäddningar används för att träna lågupplösta (”bas”) och högupplösta (”superres”) transformatorer för att förutsäga de maskerade tokens.

För mer detaljerad information om Google Muse AI, klicka här..


Undrar du hur ditt rum kommer att bli i cyberpunkstil? Prova Inomhus AI


Andra AI-verktyg som vi har granskat

Vi har redan förklarat några av de bästa AI-verktygen som Metas Galactica AI, Begreppet AIChai, Korta historierChatGPTCactus AIUberduck AIMOVIO AIGöra en videooch AI Dungeon. Vet du att det också finns AI-konstrobotar? Kolla Ai-Da.

Gillar du AI-bildgenerering? Du kan prova dessa verktyg:

Var inte rädd för AI-jargong; vi har skapat en detaljerad AI-ordlista för de vanligaste artificiell intelligens och förklara grunderna i artificiell intelligens samt risker och fördelar med artificiell intelligens.

Tidsstämpel:

Mer från Datakonomi