Google twierdzi, że Muse AI jest lepsze niż DALL-E 2

Google twierdzi, że Muse AI jest lepsze niż DALL-E 2

Węzeł źródłowy: 1867490

Google Muse AI to najnowszy dodatek giganta technologicznego do roju narzędzi AI, które ostatnio widzieliśmy. Nowy model transformatora tekstu na obraz ma być szybszy niż konkurencyjne metody, ponieważ wykorzystuje dekodowanie równoległe i zwartą, dyskretną przestrzeń ukrytą. Według twórców Google Muse AI może tworzyć obrazy z najnowocześniejszą wydajnością generowania obrazów.

Prezentujemy muza, model przekształcania tekstu na obraz, który osiąga najnowocześniejszą wydajność generowania obrazu, a jednocześnie jest znacznie bardziej wydajny niż modele dyfuzyjne lub autoregresyjne.

Zespół sztucznej inteligencji Google Muse

Co to jest sztuczna inteligencja Google Muse?

Google Muse AI to rzekomo ulepszona wersja wcześniejszych modeli przekształcania tekstu na obraz, takich jak Imagen i DALL-E 2. Muse jest szkolony w zakresie zadania modelowania zamaskowanego w dyskretnej przestrzeni tokenów przy użyciu osadzania tekstu uzyskanego z wcześniej wytrenowanego modelu dużego języka (LLM).

Co to jest sztuczna inteligencja Google Muse i jak działa na przykładach? Poznaj funkcje Muse by Google i poznaj świat sztucznej inteligencji.
Zdjęcie dzięki uprzejmości (MUSE): Kontrastowe zdjęcie portretowe przedstawiające puszystego chomika w pomarańczowej czapce i okularach przeciwsłonecznych trzymającego tabliczkę z napisem „Pomalujmy”

Program Muse został przeszkolony w rozpoznawaniu tokenów na obrazach, które zostały arbitralnie zasłonięte. Muse twierdzi, że przewyższa modele dyfuzji w przestrzeni pikseli, takie jak Imagen i DALL-E 2, ze względu na wykorzystanie dyskretnych tokenów i mniejsze wymagania dotyczące rozmiaru próbki. Iteracyjnie ponownie próbkując tokeny obrazu w oparciu o monit tekstowy, model tworzy bezpłatną edycję bez masek.

W porównaniu z innymi modelami Muse ma krótsze czasy wnioskowania MUSE.

Model Rozkład Czas wnioskowania (↓)
Stabilna dyfuzja 1.4 512 × 512 3.7s
Część-3B 256 × 256 6.4s
Obraz 256 × 256 9.1s
Obraz 1024 × 1024 13.3s
Muse-3B 256 × 256 0.5s
Muse-3B 512 × 512 1.3s

Muse stosuje dekodowanie równoległe, którego brakuje w Parti i innych modelach autoregresyjnych. Dzięki wyszkolonemu LLM możliwe jest uchwycenie języka na poziomie szczegółowym, co z kolei przekłada się na tworzenie wysokiej jakości obrazów i rozpoznawanie pojęć wizualnych, takich jak obiekty, ich relacje przestrzenne, postawa, liczność i tak dalej. Co więcej, Muse umożliwia malowanie, odmalowywanie i edycję bez masek bez konieczności odwracania lub odwracania modelu.

Co to jest sztuczna inteligencja Google Muse i jak działa na przykładach? Poznaj funkcje Muse by Google i poznaj świat sztucznej inteligencji.
Zdjęcie dzięki uprzejmości (MUSE)

Funkcje sztucznej inteligencji Google Muse

Muse to szybki, najnowocześniejszy model generowania i edytowania tekstu na obraz, który ma tak wiele do zaoferowania:

  • Generowanie tekstu na obraz
    • Sztuczna inteligencja Google Muse szybko tworzy wysokiej jakości obrazy w odpowiedzi na dane tekstowe (1.3 s dla rozdzielczości 512×512 lub 0.5 s dla rozdzielczości 256×256 na TPUv4).
Co to jest sztuczna inteligencja Google Muse i jak działa na przykładach? Poznaj funkcje Muse by Google i poznaj świat sztucznej inteligencji.
Zdjęcie dzięki uprzejmości (MUSE): Kot grający w szachy przeciwko sobie. Bardzo ostry. Nagradzany. Aparat Canona. Obiektyw 10mm
  • Zero-shot, edycja bez maski
    • Ze względu na iteracyjne ponowne próbkowanie tokenów obrazu w oparciu o monit tekstowy, model sztucznej inteligencji Google Muse zapewnia nam bezpłatną edycję zerową i bez masek.
Co to jest sztuczna inteligencja Google Muse i jak działa na przykładach? Poznaj funkcje Muse by Google i poznaj świat sztucznej inteligencji.
Zdjęcie dzięki uprzejmości (MUSE)
  • Edycja bez masek podczas modyfikowania obrazu umożliwia manipulowanie kilkoma obiektami za pomocą prostego monitu tekstowego.
Co to jest sztuczna inteligencja Google Muse i jak działa na przykładach? Poznaj funkcje Muse by Google i poznaj świat sztucznej inteligencji.
Zdjęcie dzięki uprzejmości (MUSE)
  • Malowanie/odmalowywanie bez strzału
    • Edycja oparta na maskach (inpainting/outpainting) jest dostępna bezpłatnie w Google Muse AI. Podczas korzystania z maski edycja jest taka sama jak generowanie.
Co to jest sztuczna inteligencja Google Muse i jak działa na przykładach? Poznaj funkcje Muse by Google i poznaj świat sztucznej inteligencji.
Zdjęcie dzięki uprzejmości (MUSE)

Szczegóły modelu Google Muse AI

Poniżej znajdziesz listę szkoleń Google Muse AI:

Co to jest sztuczna inteligencja Google Muse i jak działa na przykładach? Poznaj funkcje Muse by Google i poznaj świat sztucznej inteligencji.
Zdjęcie dzięki uprzejmości (MUSE)

Zespół Google korzysta z dwóch oddzielnych sieci tokenizerów VQGAN, jednej dla zdjęć niskiej jakości, a drugiej dla obrazów o wysokiej rozdzielczości. Niemaskowane tokeny i osadzanie tekstu T5 są używane do trenowania transformatorów o niskiej rozdzielczości („podstawowej”) i wysokiej rozdzielczości („superres”) w celu przewidywania zamaskowanych tokenów.

Aby uzyskać bardziej szczegółowe informacje na temat Google Muse AI, kliknij tutaj.


Zastanawiasz się, jak będzie wyglądał Twój pokój w cyberpunkowym stylu? Próbować AI w pomieszczeniach


Inne sprawdzone przez nas narzędzia AI

Wyjaśniliśmy już niektóre z najlepszych narzędzi AI, takich jak sztuczna inteligencja Galactica Meta, Pojęcie AICzaj, PowieśćAIChatGPTKaktusowa sztuczna inteligencjaUberkacz AIFILM AIZrób wideoPodziemia AI. Czy wiesz, że istnieją również roboty artystyczne AI? Sprawdź Ai-Da.

Czy interesujesz się generowaniem obrazów AI? Możesz wypróbować te narzędzia:

Nie bój się żargonu AI; stworzyliśmy szczegółowy Słowniczek AI dla najczęściej używanych terminy dotyczące sztucznej inteligencji i wyjaśnij podstawy sztucznej inteligencji jak również ryzyka i korzyści sztucznej inteligencji.

Znak czasu:

Więcej z Oszczędność danych