Google afirma que Muse AI es mejor que DALL-E 2

Google afirma que Muse AI es mejor que DALL-E 2

Nodo de origen: 1867490

Google Muse AI es la última adición del gigante tecnológico a un enjambre de herramientas de IA que hemos estado viendo últimamente. El nuevo modelo de transformador de texto a imagen afirma ser más rápido que los métodos de la competencia, ya que utiliza decodificación paralela y un espacio latente discreto y compacto. Según sus desarrolladores, Google Muse AI puede producir imágenes con un rendimiento de generación de imágenes de última generación.

Nosotros presentamos Musa, un modelo de transformación de texto a imagen que logra un rendimiento de generación de imágenes de última generación y es significativamente más eficiente que los modelos autorregresivos o de difusión.

Equipo de IA de Google Muse

¿Qué es la IA de Google Muse?

Google Muse AI es una versión supuestamente mejorada de modelos de transformadores de texto a imagen anteriores como Imagen y DALL-E 2. Muse está entrenado en una tarea de modelado enmascarado en un espacio de token discreto utilizando la incrustación de texto adquirida de un modelo de lenguaje grande previamente entrenado (LLM).

¿Qué es Google Muse AI y cómo funciona con ejemplos? Aprenda las funciones de Muse by Google y explore el mundo de la IA.
Imagen de cortesía (MUSE): una foto de retrato de alto contraste de un hámster esponjoso con un gorro naranja y gafas de sol con un cartel que dice vamos a pintar

Muse ha sido entrenado para identificar tokens en imágenes que se han oscurecido arbitrariamente. Muse afirma superar a los modelos de difusión de espacio de píxeles como Imagen y DALL-E 2 debido a su uso de tokens discretos y requisitos de tamaño de muestra más pequeños. Al volver a muestrear de forma iterativa tokens de imagen en función de un mensaje de texto, el modelo produce una edición sin máscara y sin tomas cero.

En comparación con otros modelos, Muse tiene tiempos de inferencia más rápidos, según MUSE.

Modelo Resolución Tiempo de inferencia (↓)
Difusión estable 1.4 512 × 512 Los 3.7s
Parte-3B 256 × 256 Los 6.4s
Imagen 256 × 256 Los 9.1s
Imagen 1024 × 1024 Los 13.3s
Musa-3B 256 × 256 Los 0.5s
Musa-3B 512 × 512 Los 1.3s

Muse emplea la decodificación paralela, que falta en Parti y otros modelos autorregresivos. Con un LLM que ya ha sido entrenado, es posible comprender el lenguaje a un nivel granular, lo que a su vez se traduce en la producción de imágenes de alta calidad y el reconocimiento de conceptos visuales como objetos, sus relaciones espaciales, postura, cardinalidad, etc. Además, Muse permite la edición sin máscara, sin pintura y sin tener que voltear o voltear el modelo.

¿Qué es Google Muse AI y cómo funciona con ejemplos? Aprenda las funciones de Muse by Google y explore el mundo de la IA.
Imagen de cortesía (MUSE)

Funciones de IA de Google Muse

Muse es un modelo de edición y generación de texto a imagen rápido y de última generación que tiene mucho que ofrecer:

  • Generación de texto a imagen
    • Google Muse AI produce rápidamente imágenes de alta calidad en respuesta a entradas de texto (1.3 s para una resolución de 512 × 512 o 0.5 s para una resolución de 256 × 256 en TPUv4).
¿Qué es Google Muse AI y cómo funciona con ejemplos? Aprenda las funciones de Muse by Google y explore el mundo de la IA.
Imagen de cortesía (MUSE): Un gato jugando una partida de ajedrez contra sí mismo. Hiper afilado. Ganador de premios. cámara canon. lente de 10 mm
  • Edición sin máscara y sin tomas
    • Debido al remuestreo iterativo de los tokens de imágenes en función de un mensaje de texto, el modelo de IA de Google Muse nos brinda una edición gratuita sin tomas y sin máscaras.
¿Qué es Google Muse AI y cómo funciona con ejemplos? Aprenda las funciones de Muse by Google y explore el mundo de la IA.
Imagen de cortesía (MUSE)
  • Al modificar una imagen, la edición sin máscara le permite manipular varios objetos con un mensaje de texto simple.
¿Qué es Google Muse AI y cómo funciona con ejemplos? Aprenda las funciones de Muse by Google y explore el mundo de la IA.
Imagen de cortesía (MUSE)
  • Repintado/Repintado de tiro cero
    • La edición basada en máscaras (inpintura/exterior) se incluye de forma gratuita en Google Muse AI. Al usar una máscara, la edición es lo mismo que una generación.
¿Qué es Google Muse AI y cómo funciona con ejemplos? Aprenda las funciones de Muse by Google y explore el mundo de la IA.
Imagen de cortesía (MUSE)

Detalles del modelo de IA de Google Muse

A continuación, encontrará la canalización de capacitación de Google Muse AI:

¿Qué es Google Muse AI y cómo funciona con ejemplos? Aprenda las funciones de Muse by Google y explore el mundo de la IA.
Imagen de cortesía (MUSE)

El equipo de Google utiliza dos redes tokenizadoras VQGAN separadas, una para fotos de baja calidad y otra para imágenes de alta resolución. Los tokens desenmascarados y las incrustaciones de texto T5 se utilizan para entrenar transformadores de baja resolución ("base") y alta resolución ("superres") para predecir los tokens enmascarados.

Para obtener información más detallada sobre Google Muse AI, haga clic en esta página.


¿Te preguntas cómo quedará tu habitación al estilo cyberpunk? Probar IA interior


Otras herramientas de IA que hemos revisado

Ya hemos explicado algunas de las mejores herramientas de IA como La IA Galáctica de Meta, noción IAchai, Novela AIChatGPTCaktus IAIA de UberduckIA DE PELÍCULAHacer un vídeoMazmorra AI. ¿Sabes que también hay robots de arte con IA? Compruebe el Ai Da.

¿Te gusta la generación de imágenes de IA? Puedes probar estas herramientas:

No tengas miedo de la jerga de la IA; hemos creado un detallado glosario de IA para los más utilizados terminos de inteligencia artificial y explicar el fundamentos de la inteligencia artificial así como la riesgos y beneficios de la inteligencia artificial.

Sello de tiempo:

Mas de Dataconomía