Google Muse AI är det senaste tillägget från teknikjätten till en svärm av AI-verktyg vi har sett på sistone. Den nya text-till-bild-transformatormodellen påstår sig vara snabbare än konkurrerande metoder, eftersom den använder parallell avkodning och ett kompakt, diskret latent utrymme. Enligt dess utvecklare kan Google Muse AI producera bilder med toppmodern bildgenereringsprestanda.
Vi presenterar Musa, en text-till-bild Transformer-modell som uppnår toppmodern bildgenereringsprestanda samtidigt som den är betydligt effektivare än diffusions- eller autoregressiva modeller.
Google Muse AI-team
Vad är Google Muse AI?
Google Muse AI är en påstådd förbättrad version av tidigare text-till-bild-transformatormodeller som Imagen och DALL-E 2. Muse tränas på en maskerad modelleringsuppgift i diskret token-utrymme med hjälp av textinbäddning som erhållits från en förtränad storspråksmodell (LLM).
Muse har tränats i att identifiera tokens i bilder som har blivit godtyckligt förtäckta. Muse hävdar att de överträffar pixel-space-diffusionsmodeller som Imagen och DALL-E 2 på grund av dess användning av diskreta tokens och krav på mindre provstorlek. Iterativt omsampling av bildtokens baserat på en textuppmaning, producerar modellen en gratis noll-shot, maskfri redigering.
Jämfört med andra modeller har Muse snabbare slutledningstider, enligt MUSE.
Modell | Upplösning | Slutledningstid (↓) |
Stabil diffusion 1.4 | 512 × 512 | 3.7s |
Parti-3B | 256 × 256 | 6.4s |
Bild | 256 × 256 | 9.1s |
Bild | 1024 × 1024 | 13.3s |
Muse-3B | 256 × 256 | 0.5s |
Muse-3B | 512 × 512 | 1.3s |
Muse använder parallell avkodning, vilket saknas i Parti och andra autoregressiva modeller. Med en LLM som redan har utbildats är det möjligt att förstå språket på en granulär nivå, vilket i sin tur leder till att producera högkvalitativa bilder och känna igen visuella koncept som objekt, deras rumsliga relationer, ställning, kardinalitet och så vidare. Dessutom möjliggör Muse inmålning, ommålning och maskfri redigering utan att behöva vända eller vända modellen.
Google Muse AI-funktioner
Muse är en snabb, toppmodern text-till-bild-generering och redigeringsmodell som har så mycket att erbjuda:
- Text-till-bild generering
- Google Muse AI producerar snabbt bilder av hög kvalitet som svar på textinmatningar (1.3 s för 512×512 upplösning eller 0.5s för 256×256 upplösning på TPUv4).
- Noll-shot, maskfri redigering
- På grund av den iterativa omsamplingen av bildtokens baserat på en textuppmaning ger Google Muse AI-modellen oss gratis nollbilder, maskfri redigering.
- När du ändrar en bild låter maskfri redigering dig manipulera flera objekt med en enkel textuppmaning.
- Zero-shot Inpainting/Outpainting
- Maskbaserad redigering (inpainting/outpainting) ingår gratis i Google Muse AI. När du använder en mask är redigering detsamma som en generation.
Google Muse AI-modelldetaljer
Nedan hittar du Google Muse AI:s utbildningspipeline:
Google-teamet använder två separata VQGAN-tokenizernätverk, ett för foton av låg kvalitet och ett för högupplösta bilder. De omaskerade tokens och T5-textinbäddningar används för att träna lågupplösta (”bas”) och högupplösta (”superres”) transformatorer för att förutsäga de maskerade tokens.
För mer detaljerad information om Google Muse AI, klicka här..
Undrar du hur ditt rum kommer att bli i cyberpunkstil? Prova Inomhus AI
Andra AI-verktyg som vi har granskat
Vi har redan förklarat några av de bästa AI-verktygen som Metas Galactica AI, Begreppet AI, Chai, Korta historier, ChatGPT, Cactus AI, Uberduck AI, MOVIO AI, Göra en videooch AI Dungeon. Vet du att det också finns AI-konstrobotar? Kolla Ai-Da.
Gillar du AI-bildgenerering? Du kan prova dessa verktyg:
Var inte rädd för AI-jargong; vi har skapat en detaljerad AI-ordlista för de vanligaste artificiell intelligens och förklara grunderna i artificiell intelligens samt risker och fördelar med artificiell intelligens.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
- Källa: https://dataconomy.com/2023/01/google-muse-ai-explained-how-does-it-work/
- 1
- 7
- a
- Om oss
- Enligt
- förvärvade
- mot
- AI
- ai konst
- påstås
- tillåter
- redan
- och
- Konst
- konstgjord
- utmärkelse
- baserat
- därför att
- Där vi får lov att vara utan att konstant prestera,
- Fördelarna
- BÄST
- Bättre
- rum
- KATT
- ta
- schack
- hävdar
- klass
- vanligen
- jämfört
- tävlande
- Begreppen
- skapas
- cyberpunk
- dalls
- avkodning
- detaljerad
- utvecklare
- Tidigare
- effektiv
- sysselsätter
- Eter (ETH)
- exempel
- Förklara
- förklarade
- utforska
- SNABB
- snabbare
- Funktioner
- hitta
- Flip
- Fri
- från
- ytterligare
- lek
- generering
- jätte
- GitHub
- grepp
- Hamster
- har
- hög kvalitet
- hög upplösning
- innehav
- Hur ser din drömresa ut
- HTTPS
- identifiera
- bild
- bildgenerering
- bilder
- förbättras
- in
- ingår
- informationen
- Intelligens
- IT
- sig
- jargong
- Vet
- språk
- Large
- senaste
- LÄRA SIG
- Nivå
- mask
- metoder
- saknas
- modell
- modellering
- modeller
- mer
- mer effektiv
- mest
- MUSE
- nätverk
- Nya
- objekt
- skyms
- erbjudanden
- ONE
- Orange
- Övriga
- Överträffa
- Parallell
- prestanda
- Bild
- rörledning
- plato
- Platon Data Intelligence
- PlatonData
- i
- porträtt
- möjlig
- förutse
- producera
- ger
- snabbare
- snabbt
- Förhållanden
- Krav
- Upplösning
- respons
- robotar
- Rum
- Samma
- rädd
- se
- flera
- signera
- signifikant
- Enkelt
- Storlek
- mindre
- So
- några
- Utrymme
- rumsliga
- state-of-the-art
- stil
- Swarm
- uppgift
- grupp
- tech
- Smakämnen
- deras
- tid
- gånger
- till
- token
- tokens
- verktyg
- Tåg
- tränad
- Utbildning
- transformatorer
- SVÄNG
- us
- Användning
- version
- Vad
- Vad är
- som
- medan
- kommer
- vinna
- utan
- undrar
- Arbete
- världen
- Din
- zephyrnet