Joscha Bach: https://twitter.com/Plinz/status/1529013919682994176
Los derechos de fanfarronear están en constante cambio, al parecer. En cuanto a si esos modelos de IA multimodal hacen algo para abordar las críticas sobre la utilización de recursos y el sesgo, aunque no se sabe mucho en este momento, basado en lo que se sabe las respuestas parecen ser "probablemente no" y "más o menos", respectivamente. ¿Y qué pasa con la parte de inteligencia real? Miremos debajo del capó por un momento.
OpenAI señala que “DALL·E 2 ha aprendido la relación entre las imágenes y el texto utilizado para describirlas. Utiliza un proceso llamado “difusión”, que comienza con un patrón de puntos aleatorios y altera gradualmente ese patrón hacia una imagen cuando reconoce aspectos específicos de esa imagen”.
Google señala que su "descubrimiento clave es que los LLM genéricos (por ejemplo, T5), entrenados previamente en corpus de solo texto, son sorprendentemente efectivos en la codificación de texto para la síntesis de imágenes: aumentar el tamaño del modelo de lenguaje en Imagen aumenta tanto la fidelidad de la muestra como la imagen". -la alineación del texto mucho más que aumentar el tamaño del modelo de difusión de la imagen”.
Si bien Imagen parece depender en gran medida de los LLM, el proceso es diferente para DALL-E 2. Sin embargo, tanto la gente de OpenAI como la de Google, así como expertos independientes, afirman que esos modelos muestran una forma de "comprensión" que se superpone con la comprensión humana. La revisión de MIT Technology llegó incluso a llamar al astronauta a caballo, la imagen que se ha vuelto icónica para DALL-E 2, un hito en el viaje de AI para dar sentido al mundo.
Gary Marcus, sin embargo, sigue sin estar convencido. Marcus, científico, autor de best-sellers y empresario, es bien conocido en los círculos de IA por su crítica sobre una serie de temas, incluida la naturaleza de la inteligencia y lo que está mal con el aprendizaje profundo. Se apresuró a señalar las deficiencias tanto en DALL-E 2 como en Imagen, y entablar un diálogo público, incluso con personas de Google.
Marcus comparte sus ideas en un acertadamente titulado Ensayo “Paseos a caballo astronauta”. Su conclusión es que esperar que esos modelos sean completamente sensibles a la semántica en lo que respecta a la estructura sintáctica es una ilusión y que la incapacidad de razonar es un punto de falla general de los métodos modernos de aprendizaje automático y un lugar clave para buscar nuevas ideas.
Por último, pero no menos importante, en mayo de 2022, DeepMind anunció a Gato, un modelo de IA generalista. Como ZDNet's propias notas de Tiernan Ray, Gato es un tipo diferente de modelo de IA multimodal. Gato puede trabajar con múltiples tipos de datos para realizar múltiples tipos de tareas, como jugar videojuegos, chatear, escribir composiciones, subtitular imágenes y controlar bloques de apilamiento de brazos robóticos.
Como Ray también señala, Gato hace un trabajo regular en muchas cosas. Sin embargo, eso no impidió que la gente del equipo de DeepMind que construyó Gato exclamara que “¡El juego ha terminado! Se trata de hacer que estos modelos sean más grandes, más seguros, más eficientes en computación, más rápidos en el muestreo, una memoria más inteligente, más modalidades”.
Lenguaje, objetivos y el poder de mercado de unos pocos
Entonces, ¿dónde nos deja todo eso? Dejando a un lado las exageraciones, las creencias metafísicas y los arrebatos entusiastas, el estado actual de la IA debe examinarse con sobriedad. Si bien los modelos que se han lanzado en los últimos meses son hazañas de ingeniería realmente impresionantes y, en ocasiones, pueden producir resultados sorprendentes, la inteligencia a la que apuntan no es realmente artificial.
La inteligencia humana está detrás de la impresionante ingeniería que genera esos modelos. Es la inteligencia humana la que ha construido modelos que están mejorando cada vez más en el artículo fundacional de Alan Turing, Computing Machinery and Intelligence llamado “el juego de la imitación”, que se ha llegado a conocer popularmente como “la prueba de Turing”.
Como Directora Ejecutiva del Centro de Privacidad y Tecnología (CPT) en Georgetown Law Emily Tucker escribe, Turing reemplazó la pregunta "¿pueden pensar las máquinas?" con la pregunta de si un humano puede confundir una computadora con otro humano.
Turing no ofrece la última pregunta con el espíritu de una heurística útil para la primera pregunta; no dice que piense que estas dos preguntas son versiones una de la otra. Más bien, expresa la creencia de que la pregunta "¿pueden pensar las máquinas?" no tiene ningún valor, y parece esperar afirmativamente un futuro próximo en el que, de hecho, sea muy difícil, si no imposible, que los seres humanos se hagan la pregunta.
De alguna manera, ese futuro puede estar acercándose rápidamente. Modelos como Imagen y DALL-E se rompen cuando se les presentan indicaciones que requieren inteligencia del tipo que poseen los humanos para poder procesar. Sin embargo, para la mayoría de los intentos y propósitos, estos pueden considerarse casos extremos. Lo que los DALL-Es del mundo son capaces de generar está a la par de los artistas más hábiles.
La pregunta entonces es, ¿cuál es el propósito de todo esto? Como objetivo en sí mismo, gastar el tiempo y los recursos que requiere algo como Imagen para poder generar imágenes geniales a voluntad parece bastante fuera de lugar.
Ver esto como un objetivo intermedio hacia la creación de una IA "real" puede estar más justificado, pero solo si estamos dispuestos a suscribir la noción de que hacer lo mismo a una escala cada vez mayor conducirá de alguna manera a resultados diferentes.
En este sentido, la intención declarada de Tucker de ser lo más específico posible sobre qué es la tecnología en cuestión y cómo funciona, en lugar de usar términos como "inteligencia artificial y" aprendizaje automático ", comienza a tener sentido en algún nivel.
Por ejemplo, escribe Tucker, en lugar de decir "el reconocimiento facial usa inteligencia artificial", podríamos decir algo así como "las empresas tecnológicas usan conjuntos de datos masivos para entrenar algoritmos para que coincidan con imágenes de rostros humanos". Cuando una explicación completa interrumpa el argumento más amplio, o esté más allá de la experiencia de CPT, dirigirán a los lectores a fuentes externas.
A decir verdad, eso no suena muy práctico en términos de legibilidad. Sin embargo, es bueno tener en cuenta que cuando decimos "IA", en realidad es una convención, no algo que deba tomarse al pie de la letra. Realmente son las empresas de tecnología las que utilizan conjuntos de datos masivos para entrenar algoritmos para realizar, a veces útiles y/o impresionantes, imitaciones de la inteligencia humana.
Lo que inevitablemente lleva a más preguntas, tales como: hacer qué y en beneficio de quién. Como Erik Brynjolfsson, economista de formación y director del Stanford Digital Economy Lab escribe, el enfoque excesivo en la IA similar a la humana reduce los salarios de la mayoría de las personas "incluso cuando amplifica el poder de mercado de unos pocos" que poseen y controlan las tecnologías.
A ese respecto, La IA no es diferente a otras tecnologías que la precedieron. Lo que puede ser diferente esta vez es la velocidad a la que se desarrollan las cosas y el grado de amplificación del poder de unos pocos.
Inteligencia artificial
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
- PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
- PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
- PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
- Fuente: https://www.zdnet.com/article/resisting-the-urge-to-be-impressed-and-knowing-what-we-are-talking-about-when-we-talk-about-ai/#ftag=RSSbaffb68