Google afferma che Muse AI è migliore di DALL-E 2

Google afferma che Muse AI è migliore di DALL-E 2

Nodo di origine: 1867490

Google Muse AI è l'ultima aggiunta del gigante della tecnologia a uno sciame di strumenti di intelligenza artificiale che abbiamo visto di recente. Il nuovo modello di trasformazione da testo a immagine afferma di essere più veloce dei metodi concorrenti, perché utilizza la decodifica parallela e uno spazio latente compatto e discreto. Secondo i suoi sviluppatori, Google Muse AI può produrre immagini con prestazioni di generazione di immagini all'avanguardia.

Noi presentiamo Muse, un modello Transformer da testo a immagine che raggiunge prestazioni di generazione di immagini all'avanguardia pur essendo significativamente più efficiente rispetto ai modelli di diffusione o autoregressivi.

Il team AI di Google Muse

Che cos'è l'IA di Google Muse?

Google Muse AI è una versione presumibilmente migliorata dei precedenti modelli di trasformazione da testo a immagine come Imagen e DALL-E 2. Muse viene addestrato su un'attività di modellazione mascherata in uno spazio token discreto utilizzando l'incorporamento del testo acquisito da un modello di linguaggio di grandi dimensioni pre-addestrato (LLM).

Cos'è Google Muse AI e come funziona con gli esempi? Scopri le funzionalità di Muse by Google ed esplora il mondo dell'IA.
Immagine per gentile concessione (MUSE): una foto ritratto ad alto contrasto di un soffice criceto che indossa un berretto arancione e occhiali da sole con in mano un cartello che dice dipingiamo

Muse è stato addestrato per identificare i token nelle immagini che sono state arbitrariamente oscurate. Muse afferma di superare i modelli di diffusione dello spazio dei pixel come Imagen e DALL-E 2 grazie al suo utilizzo di token discreti e requisiti di dimensioni del campione inferiori. Ricampionando in modo iterativo i token delle immagini in base a un prompt di testo, il modello produce un editing gratuito zero-shot e senza maschera.

Rispetto ad altri modelli, Muse ha tempi di inferenza più rapidi, secondo MUSE.

Modello Risoluzione Tempo di inferenza (↓)
Diffusione stabile 1.4 512 × 512 3.7 secondi
Parte-3B 256 × 256 6.4 secondi
Immagine 256 × 256 9.1 secondi
Immagine 1024 × 1024 13.3 secondi
Musa-3B 256 × 256 0.5 secondi
Musa-3B 512 × 512 1.3 secondi

Muse utilizza la decodifica parallela, che manca a Parti e ad altri modelli autoregressivi. Con un LLM che è già stato addestrato, è possibile cogliere il linguaggio a un livello granulare, che a sua volta si traduce nella produzione di immagini di alta qualità e nel riconoscimento di concetti visivi come oggetti, le loro relazioni spaziali, la posizione, la cardinalità e così via. Inoltre, Muse consente l'inpainting, l'outpainting e l'editing senza maschera senza dover capovolgere o capovolgere il modello.

Cos'è Google Muse AI e come funziona con gli esempi? Scopri le funzionalità di Muse by Google ed esplora il mondo dell'IA.
Immagine per gentile concessione (MUSE)

Funzionalità AI di Google Muse

Muse è un modello di generazione e modifica da testo a immagine rapido e all'avanguardia che ha così tanto da offrire:

  • Generazione di testo in immagine
    • Google Muse AI produce rapidamente immagini di alta qualità in risposta a input testuali (1.3 s per risoluzione 512×512 o 0.5 s per risoluzione 256×256 su TPUv4).
Cos'è Google Muse AI e come funziona con gli esempi? Scopri le funzionalità di Muse by Google ed esplora il mondo dell'IA.
Immagine per gentile concessione (MUSE): Un gatto che gioca a scacchi contro se stesso. Iper tagliente. Premiato. Fotocamera Canon. Obiettivo da 10 mm
  • Editing a scatto zero e senza maschera
    • A causa del ricampionamento iterativo dei token di immagini basato su un prompt di testo, il modello AI di Google Muse ci offre un editing gratuito zero-shot e senza maschera.
Cos'è Google Muse AI e come funziona con gli esempi? Scopri le funzionalità di Muse by Google ed esplora il mondo dell'IA.
Immagine per gentile concessione (MUSE)
  • Quando si modifica un'immagine, la modifica senza maschera consente di manipolare diversi oggetti con un semplice prompt di testo.
Cos'è Google Muse AI e come funziona con gli esempi? Scopri le funzionalità di Muse by Google ed esplora il mondo dell'IA.
Immagine per gentile concessione (MUSE)
  • Inpainting/Outpainting Zero-shot
    • L'editing basato su maschere (inpainting/outpainting) è incluso gratuitamente in Google Muse AI. Quando si utilizza una maschera, la modifica è la stessa di una generazione.
Cos'è Google Muse AI e come funziona con gli esempi? Scopri le funzionalità di Muse by Google ed esplora il mondo dell'IA.
Immagine per gentile concessione (MUSE)

Dettagli del modello AI di Google Muse

Di seguito trovi la pipeline di formazione di Google Muse AI:

Cos'è Google Muse AI e come funziona con gli esempi? Scopri le funzionalità di Muse by Google ed esplora il mondo dell'IA.
Immagine per gentile concessione (MUSE)

Il team di Google utilizza due reti tokenizer VQGAN separate, una per le foto di bassa qualità e una per le immagini ad alta risoluzione. I token non mascherati e gli incorporamenti di testo T5 vengono utilizzati per addestrare i trasformatori a bassa risoluzione ("base") e ad alta risoluzione ("superres") per prevedere i token mascherati.

Per informazioni più dettagliate su Google Muse AI, fare clic su qui.


Ti stai chiedendo come sarà la tua stanza in stile cyberpunk? Provare IA indoor


Altri strumenti di intelligenza artificiale che abbiamo esaminato

Abbiamo già spiegato alcuni dei migliori strumenti di intelligenza artificiale come Galactica IA di Meta, Nozione AICai, Romanzo AIChatGPTCactus AIIA di UberduckFILM AIFare un videoIA Dungeon. Sai che ci sono anche robot artistici AI? Controlla il Ai-Da.

Ti piace la generazione di immagini AI? Puoi provare questi strumenti:

Non aver paura del gergo dell'IA; abbiamo creato un dettagliato Glossario dell'IA per il più comunemente usato termini di intelligenza artificiale e spiegare il basi dell'intelligenza artificiale nonché rischi e benefici dell'intelligenza artificiale.

Timestamp:

Di più da Economia dei dati