Google hevder at Muse AI er bedre enn DALL-E 2

Google hevder at Muse AI er bedre enn DALL-E 2

Kilde node: 1867490

Google Muse AI er det siste tillegget fra teknologigiganten til en sverm av AI-verktøy vi har sett i det siste. Den nye tekst-til-bilde-transformatormodellen hevder å være raskere enn konkurrerende metoder, fordi den bruker parallell dekoding og et kompakt, diskret latent rom. Ifølge utviklerne kan Google Muse AI produsere bilder med toppmoderne bildegenereringsytelse.

Vi presenterer Muse, en tekst-til-bilde transformatormodell som oppnår toppmoderne bildegenereringsytelse samtidig som den er betydelig mer effektiv enn diffusjons- eller autoregressive modeller.

Google Muse AI-team

Hva er Google Muse AI?

Google Muse AI er en angivelig forbedret versjon av tidligere tekst-til-bilde-transformatormodeller som Imagen og DALL-E 2. Muse trenes på en maskert modelleringsoppgave i diskret token-rom ved å bruke tekstinnbyggingen hentet fra en forhåndstrent stor språkmodell (LLM).

Hva er Google Muse AI og hvordan fungerer det med eksempler? Lær Muse by Googles funksjoner og utforsk AI-verdenen.
Bilde med tillatelse (MUSE): Et portrettbilde med høy kontrast av en fluffy hamster iført en oransje lue og solbriller som holder et skilt som sier la oss male

Muse har blitt opplært til å identifisere tokens i bilder som har blitt vilkårlig skjult. Muse hevder å overgå pixel-space diffusjonsmodeller som Imagen og DALL-E 2 på grunn av bruken av diskrete tokens og krav til mindre prøvestørrelse. Iterativt resampling av bildetokens basert på en tekstmelding, produserer modellen en gratis null-shot, maskefri redigering.

Sammenlignet med andre modeller har Muse raskere slutningstider, ifølge MUSE.

Modell oppløsning Inferenstid (↓)
Stabil diffusjon 1.4 512 × 512 3.7s
Parti-3B 256 × 256 6.4s
Bilde 256 × 256 9.1s
Bilde 1024 × 1024 13.3s
Muse-3B 256 × 256 0.5s
Muse-3B 512 × 512 1.3s

Muse bruker parallell dekoding, som mangler fra Parti og andre autoregressive modeller. Med en LLM som allerede er trent, er det mulig å forstå språk på et granulært nivå, som igjen betyr å produsere bilder av høy kvalitet og gjenkjenne visuelle konsepter som objekter, deres romlige forhold, holdning, kardinalitet og så videre. Videre tillater Muse innpainting, outpainting og maskefri redigering uten å måtte snu eller snu modellen.

Hva er Google Muse AI og hvordan fungerer det med eksempler? Lær Muse by Googles funksjoner og utforsk AI-verdenen.
Bilde med tillatelse (MUSE)

Google Muse AI-funksjoner

Muse er en rask, toppmoderne tekst-til-bilde generering og redigeringsmodell som har så mye å tilby:

  • Tekst-til-bilde generering
    • Google Muse AI produserer raskt bilder av høy kvalitet som svar på tekstinndata (1.3s for 512×512 oppløsning eller 0.5s for 256×256 oppløsning på TPUv4).
Hva er Google Muse AI og hvordan fungerer det med eksempler? Lær Muse by Googles funksjoner og utforsk AI-verdenen.
Bilde med tillatelse (MUSE): En katt som spiller et parti sjakk mot seg selv. Hyper skarp. Prisvinnende. Canon kamera. 10 mm objektiv
  • Null-shot, maskefri redigering
    • På grunn av den iterative resamplingen av bildetokens basert på en tekstmelding, gir Google Muse AI-modellen oss gratis null-shot, maskefri redigering.
Hva er Google Muse AI og hvordan fungerer det med eksempler? Lær Muse by Googles funksjoner og utforsk AI-verdenen.
Bilde med tillatelse (MUSE)
  • Når du endrer et bilde, lar maskefri redigering deg manipulere flere objekter med en enkel tekstmelding.
Hva er Google Muse AI og hvordan fungerer det med eksempler? Lær Muse by Googles funksjoner og utforsk AI-verdenen.
Bilde med tillatelse (MUSE)
  • Zero-shot Inpainting/Outpainting
    • Maskebasert redigering (inpainting/outpainting) er inkludert gratis i Google Muse AI. Når du bruker en maske, er redigering det samme som en generasjon.
Hva er Google Muse AI og hvordan fungerer det med eksempler? Lær Muse by Googles funksjoner og utforsk AI-verdenen.
Bilde med tillatelse (MUSE)

Google Muse AI-modelldetaljer

Nedenfor finner du treningspipeline til Google Muse AI:

Hva er Google Muse AI og hvordan fungerer det med eksempler? Lær Muse by Googles funksjoner og utforsk AI-verdenen.
Bilde med tillatelse (MUSE)

Google-teamet bruker to separate VQGAN tokenizer-nettverk, ett for bilder av lav kvalitet og ett for bilder med høy oppløsning. De demaskerte tokenene og T5-tekstinnbyggingene brukes til å trene transformatorer med lav oppløsning ("base") og høyoppløselig ("superres") for å forutsi de maskerte tokenene.

For mer detaljert informasjon om Google Muse AI, klikk her..


Lurer du på hvordan rommet ditt blir i cyberpunk-stil? Prøve Innendørs AI


Andre AI-verktøy vi har gjennomgått

Vi har allerede forklart noen av de beste AI-verktøyene som Metas Galactica AI, Forestillingen AIChai, NovellerChatGPTKaktus AIUberduck AIMOVIO AILag en videoog AI Dungeon. Vet du at det også finnes AI-kunstroboter? Undersøk Ai-Da.

Er du interessert i AI-bildegenerering? Du kan prøve disse verktøyene:

Ikke vær redd for AI-sjargong; vi har laget en detaljert AI-ordliste for de mest brukte termer for kunstig intelligens og forklare grunnleggende om kunstig intelligens samt risikoer og fordeler ved kunstig intelligens.

Tidstempel:

Mer fra Datakonomi