GPT-4 de OpenAI no ejecutará DOOM, pero jugará mal

Reeditado por Platón

seguidores: 0

Es posible que te encuentres viviendo en una choza de escopetas. Y es posible que se encuentre trabajando con GPT-4. Y quizás te preguntes: "¿GPT-4 ejecutará DOOM?" Y quizás te preguntes: “¿Estoy en lo cierto? ¿Me equivoco?"

Adrian de Wynter, científico aplicado principal de Microsoft e investigador de la Universidad de York en Inglaterra, planteó estas preguntas en un artículo de investigación reciente: “¿GPT-4 ejecutará DOOM?"

Lamentablemente, GPT-4, un modelo de lenguaje grande de OpenAI respaldado por Microsoft, carece de la capacidad para ejecutar el código fuente de DOOM directamente.

Pero su variante multimodal, GPT-4V, que puede aceptar imágenes como entrada además de texto, exhibe la misma subcompetencia entrañable. CONDENAR como los complicados modelos basados en texto que han lanzado innumerables empresas emergentes de IA.

“Según la configuración del documento, GPT-4 (y GPT-4 con visión, o GPT-4V) realmente no pueden ejecutar Doom por sí solo, porque está limitado por su tamaño de entrada (y, obviamente, probablemente simplemente inventará cosas). ; realmente no quieres que tu compilador tenga alucinaciones cada cinco minutos)”, escribió de Wynter en una explicación nota sobre su artículo. “Dicho esto, definitivamente puede actuar como un proxy para el motor, no muy diferente a otros '¿ejecutará Doom?' implementaciones, como E. Coli or Bloc de notas."

Es decir, GPT-4V no ejecutará DOOM. como un tractor John Deere pero jugará DOOM sin entrenamiento específico.

Para gestionar esto, de Wynter diseñó un componente Vision llamado GPT-4V, que captura capturas de pantalla del motor del juego y devuelve descripciones estructurales del estado del juego. Y combinó eso con un modelo de Agente que llama a GPT-4 para tomar decisiones basadas en la información visual y el historial previo. Al modelo Agente se le ha pedido que traduzca sus respuestas en comandos de pulsación de teclas que tengan significado para el motor del juego.

Las interacciones se manejan a través de una capa de Administrador que consta de un enlace Python de código abierto al Motor C Doom ejecutándose en Matplotlib.

Un gráfico que muestra el diseño del sistema GPT-4V para jugar a DOOM

Diagrama de De Wynter que muestra el diseño del sistema GPT-4V para jugar DOOM... Haz clic para ampliar

Esta combinación de códigos y modelos de IA puede abrir puertas, luchar contra enemigos y disparar armas, según el artículo. Y puede ejecutar un conjunto más amplio de instrucciones, como un recorrido de nivel, para mejorar su propio rendimiento.

El principal defecto de este sistema basado en GPT-4V es la falta de permanencia de los objetos: se olvida de los zombis del juego cuando salen de la pantalla.

GPT-4 se olvida del zombie y sigue adelante

“Por ejemplo, sería muy común que el modelo viera un zombie en la pantalla y comenzara a dispararle hasta que lo impactara (o muriera)”, explica de Wynter. “Ahora bien, esta es una IA escrita para funcionar con hardware de 1993, así que supongo que no tiene un árbol de decisión muy profundo. Entonces el zombie te dispara y luego comienza a correr por la habitación.

“¿Cuál es el problema aquí? Bueno, primero que el zombie se pierda de vista. Peor aún, todavía está vivo y te matará en algún momento. Entonces tienes que ir tras ello, ¿verdad? Después de todo, en Doom, es golpear o ser golpeado.

“Resulta que GPT-4 se olvida del zombi y sigue adelante. Nota: el mensaje le dice explícitamente al modelo qué hacer si está recibiendo daño y no puede ver a un enemigo. Mejor aún, simplemente sigue su camino alegremente, se atasca en un rincón y muere. Dio la vuelta un par de veces, pero en casi 50 o 60 carreras, lo observé... dos veces, quiero decir”.

Además, GPT-4 no puede razonar muy bien. Cuando se le pidió que explicara sus acciones que generalmente eran correctas en contexto, sus explicaciones fueron deficientes y a menudo incluían alucinaciones (también conocidas como información incorrecta).

No obstante, De Wynter considera notable que GPT-4 sea capaz de jugar DOOM sin entrenamiento previo.

Al mismo tiempo, esto le resulta preocupante.

“En el departamento de ética, es bastante preocupante lo fácil que fue para (a) mí crear código para lograr que el modelo filmara algo; y (b) que el modelo fotografíe algo con precisión sin dudar de las instrucciones”, escribió en su publicación resumida.

“Entonces, si bien esta es una exploración muy interesante en torno a la planificación y el razonamiento, y podría tener aplicaciones en las pruebas automatizadas de videojuegos, es bastante obvio que este modelo no es consciente de lo que está haciendo. Insto encarecidamente a todos a pensar en lo que [implica] el despliegue de estos modelos para la sociedad y su posible uso indebido”.

Y puedes decirte a ti mismo: “Dios mío, ¿qué he hecho?” ®