La investigadora de IA que le da a su campo su medicina amarga

Nodo de origen: 1644765

Anima Anandkumar, profesora Bren de computación en el Instituto de Tecnología de California y directora senior de investigación de aprendizaje automático en Nvidia, tiene un problema con la matriz. Sus dudas no tienen que ver con las películas de ciencia ficción, sino con las matrices matemáticas: cuadrículas de números o variables utilizadas en la informática. Si bien los investigadores suelen utilizar matrices para estudiar las relaciones y los patrones ocultos en grandes conjuntos de datos, estas herramientas son más adecuadas para las relaciones bidireccionales. Los procesos complicados como la dinámica social, por otro lado, implican interacciones de orden superior.

Afortunadamente, Anandkumar ha saboreado durante mucho tiempo tales desafíos. Cuando recuerda Ugadi, un festival de año nuevo que celebró cuando era niña en Mysore (ahora Mysuru), India, se destacan dos sabores: jaggery, un azúcar sin refinar que representa la dulzura de la vida, y neem, flores amargas que representan los contratiempos y las dificultades de la vida. “Es una de las cosas más amargas en las que puedes pensar”, dijo.

Por lo general, se llenaba de neem, dijo. “Quiero desafíos”.

Este apetito por el esfuerzo la impulsó a estudiar ingeniería eléctrica en el Instituto Indio de Tecnología en Madrás. Obtuvo su doctorado en la Universidad de Cornell y realizó un posdoctorado en el Instituto de Tecnología de Massachusetts. Luego comenzó su propio grupo como profesora asistente en la Universidad de California, Irvine, centrándose en el aprendizaje automático, un subconjunto de inteligencia artificial en el que una computadora puede obtener conocimiento sin programación explícita. En Irvine, Anandkumar se sumergió en el mundo del "modelado de temas", un tipo de aprendizaje automático en el que una computadora intenta extraer temas importantes de los datos; un ejemplo sería un algoritmo en Twitter que identifica tendencias ocultas. Pero la conexión entre las palabras es una de esas interacciones de orden superior demasiado sutiles para las relaciones matriciales: las palabras pueden tener múltiples significados, varias palabras pueden referirse al mismo tema y el lenguaje evoluciona tan rápido que nada permanece estable por mucho tiempo.

Esto llevó a Anandkumar a desafiar la confianza de la IA en los métodos matriciales. Ella dedujo que para mantener un algoritmo lo suficientemente observador como para aprender en medio de tal caos, los investigadores deben diseñarlo para comprender el álgebra de dimensiones superiores. Así que recurrió a lo que durante mucho tiempo había sido una herramienta infrautilizada en álgebra llamada tensor. Los tensores son como matrices, pero pueden extenderse a cualquier dimensión, yendo más allá de las dos dimensiones de filas y columnas de una matriz. Como resultado, los tensores son herramientas más generales, lo que los hace menos susceptibles al "sobreajuste", cuando los modelos coinciden estrechamente con los datos de entrenamiento pero no pueden acomodar nuevos datos. Por ejemplo, si disfruta de muchos géneros musicales pero solo transmite canciones de jazz, la IA de su plataforma de transmisión podría aprender a predecir qué canciones de jazz disfrutaría, pero sus predicciones de R&B no tendrían fundamento. Anandkumar cree que los tensores hacen que el aprendizaje automático sea más adaptable.

No es el único desafío que ha aceptado. Anandkumar es un mentor y un defensor de los cambios en los sistemas que expulsan a los grupos marginados del campo. En 2018, organizó una petición para cambiar el nombre de la conferencia anual de Sistemas de procesamiento de información neuronal de su campo de un acrónimo directo a "NeurIPS". La junta de la conferencia rechazó la petición en octubre. Pero Anandkumar y sus compañeros se negaron a ceder y, semanas después, la junta cambió de rumbo.

¿Cuánto habló con Anandkumar en su oficina en Pasadena sobre su educación, los tensores y los desafíos éticos que enfrenta la IA. La entrevista ha sido condensada y editada para mayor claridad.

¿Cómo influyeron tus padres en tu percepción de las máquinas?

A principios de la década de 1990, fueron de los primeros en traer máquinas de fabricación programables a Mysore. En ese momento se vio como algo extraño: “Podemos contratar operadores humanos para hacer esto, entonces, ¿cuál es la necesidad de automatización?” Mis padres vieron que puede haber grandes eficiencias y que pueden hacerlo mucho más rápido en comparación con las máquinas operadas por humanos.

¿Fue esa su introducción a la automatización?

Sí. Y programación. Veía la pantalla verde donde mi papá escribiría el programa, y ​​eso movería la torreta y las herramientas. Fue realmente fascinante de ver: comprender la geometría, comprender cómo debería moverse la herramienta. Ves el lado de la ingeniería de cómo una máquina tan masiva puede hacer esto.

¿Cuál fue la experiencia de su madre en ingeniería? 

 Mi mamá fue una pionera en cierto sentido. Fue una de las primeras en su comunidad y antecedentes familiares en estudiar ingeniería. Muchos otros parientes aconsejaron a mi abuelo que no la enviara, diciendo que no se casaría fácilmente. Mi abuelo vaciló. Fue entonces cuando mi mamá se puso en huelga de hambre durante tres días.

Como resultado, nunca vi como algo raro que las mujeres se interesaran por la ingeniería. Mi madre nos inculcó esa apreciación por las matemáticas y las ciencias desde muy temprano. Tener eso como una parte natural de lo que soy desde la primera infancia fue muy útil. Si mi mamá alguna vez vio sexismo, lo señalaría y diría: "No, no aceptes esto". Eso realmente ayudó.

¿Algo más te entusiasmó con las matemáticas y las ciencias?

Antes de la escuela secundaria, todas las matemáticas que se enseñan son deterministas. Suma, multiplicación, todo lo que haces, hay una respuesta. En la escuela secundaria, comencé a aprender sobre probabilidad y que podemos razonar sobre cosas con aleatoriedad. Para mí tiene más sentido, porque hay mucho más en la naturaleza. Hay aleatoriedad e incluso caos.

Hay tanto en nuestras propias vidas que no podemos predecir. Pero no debemos “sobreadaptarnos” a experiencias previas que no nos permitirán adaptarnos a nuevas condiciones en nuestras vidas. Me di cuenta de que con la IA, deberías tener flexibilidad para generalizar cosas nuevas, aprender nuevas habilidades.

¿Y es por eso que comenzó a cuestionar las operaciones matriciales en el aprendizaje automático?

En la práctica, los métodos de matriz en el aprendizaje automático no pueden capturar de manera efectiva las relaciones de orden superior. Esencialmente, no puedes aprender nada. Así que preguntamos: ¿Qué pasa si miramos [operaciones] de orden superior? Eso nos llevó al álgebra tensorial.

Con sus múltiples dimensiones y flexibilidad, los tensores parecen una opción natural para problemas de orden superior en IA. ¿Por qué nadie los había usado antes?

Estaba seguro de que la gente habría pensado en esto. Después de que se nos ocurrió un método, volvimos a hacer una búsqueda bibliográfica y lo vimos. De hecho, en 1927 hubo un artículo de psicometría que sugería que para analizar diferentes formas de inteligencia, deberías hacer estas operaciones de tensor. Así que la gente ha estado proponiendo estas ideas por un tiempo.

Pero los cálculos del tiempo no pudieron manejar estas [operaciones] de orden superior, lo que significa generalmente correlaciones entre al menos tres partes. Tampoco teníamos suficientes datos. El tiempo era importante. Tener el hardware más reciente, más datos, nos ayudará ahora a pasar a métodos de orden superior.

Si logra que la IA sea más flexible, ¿qué sucede entonces?

Repensar los cimientos de la propia IA.

Por ejemplo, en muchos dominios científicos no puedo forzar que mis datos estén en una cuadrícula fija. Los solucionadores numéricos son flexibles: si usa un solucionador tradicional, puede encontrar fácilmente una solución en cualquier punto del espacio. Pero los modelos estándar de aprendizaje automático no se construyen de esa manera. ImageNet [una base de datos utilizada para entrenar a la IA para que reconozca imágenes] tiene un tamaño de imagen fijo o resolución. Entrena una red en esa resolución, por lo que la prueba en la misma resolución. Si ahora usa esta red pero cambia la resolución, falla por completo. No es útil en aplicaciones reales. Los científicos quieren flexibilidad.

Hemos desarrollado operadores neuronales que no tienen esta deficiencia. Eso ha llevado a aceleraciones significativas mientras se mantiene la precisión. Por ejemplo, podemos predecir con precisión la dinámica de fluidos en tiempo real y planeamos implementar esto en drones que pueden volar en condiciones de viento fuerte en una instalación de prueba de viento de drones en Caltech.

Como estudiante, hizo una pasantía en IBM y ahora, además de su trabajo en Caltech, trabaja con Nvidia. ¿Por qué mezcla teoría académica y aplicación industrial?

Mis padres son emprendedores. Pero mi tatarabuelo por parte de mi padre fue el erudito que redescubrió este antiguo texto llamado el Arthashastra. Ese fue el primer libro conocido sobre economía, del año 300 a. Entonces, mientras crecía, siempre me preguntaba: ¿Cómo puedo unirme a estos dos mundos?

Creo que aquí es donde esta era actual es tan genial. Estamos viendo mucha apertura en la forma en que empresas como Nvidia están invirtiendo en investigación abierta.

Mencionaste querer una especie de juramento hipocrático para la investigación de IA. ¿Por qué?

Siempre es importante preguntarse cómo va a impactar nuestro trabajo en el mundo. Puede ser un desafío, especialmente en una empresa grande, porque está construyendo una parte de este enorme sistema. Pero gran parte de la forma en que enseñamos en las universidades se deriva de la escuela militar. La ingeniería provino de ese trasfondo, y algo de eso persiste. Como pensar que los científicos e ingenieros deberían centrarse en las cosas técnicas y dejar que otros se encarguen del resto. Está incorrecto. Todos necesitamos un pensamiento humano.

¿Cómo contribuyen los algoritmos inflexibles de hoy en día a estos problemas éticos?

Los humanos han sido condicionados a pensar que pueden confiar en las máquinas. Antes, si le pedías a una máquina que multiplicara, siempre acertaba. Mientras que los humanos pueden estar equivocados, al igual que nuestros datos. Ahora, cuando los datos de entrenamiento de una IA tienen sesgos raciales, nos ajustamos a las suposiciones de los datos de entrenamiento. No solo podemos tener respuestas incorrectas, sino también respuestas incorrectas con mucha confianza. Eso es peligroso.

Entonces, ¿cómo avanzamos?

En términos de construir mejores algoritmos, al menos debemos preguntar: ¿Podemos dar el nivel de confianza correcto? Si otro ser humano dice: "Tal vez estoy 60% seguro de que esta es la respuesta correcta", entonces tómalo en cuenta.

Entonces, si miro por la ventana y veo un animal parecido a un gato del tamaño de un edificio, puedo pensar: "Sí, parece un gato, pero aún no estoy seguro de qué es esa cosa en realidad".

Exactamente. Porque ahí es cuando estos modelos tienen el problema del exceso de confianza. En el entrenamiento estándar, los está incentivando para que tengan mucha confianza.

Has sido mentor de Programa WAVE Fellows de Caltech, que atrae a estudiantes de entornos subrepresentados para investigar. ¿Cuál crees que es el papel de la tutoría en la IA?

Una de las mujeres más importantes en el campo una vez me lamentó que las mujeres sentimos que somos como islas. Estamos tan desconectados. No sabemos lo que está pasando con los demás. No sabemos de escalas salariales, ni nada. Es este sentimiento de desconexión, que no eres parte del sistema. No sientes que perteneces aquí. Creo que es muy importante corregir eso al mostrar que hay más que solo grupos de afinidad, como WIML y Negro en IA. Hay un conjunto más amplio de mentores y personas que están comprometidas con estos esfuerzos.

¿Está eso relacionado con su experiencia con el cambio de nombre de NeurIPS? ¿Por qué esa pelea fue tan importante para ti?

Para mucha gente, fue como, "Oh, un cambio de nombre tonto". Pero trajo toxicidad. No esperaba que hubiera largos hilos de Reddit burlándose de nosotros y de nuestra apariencia, y todo tipo de amenazas, todo tipo de intentos de engañar a la gente. Mucho de esto estaba bajo tierra. Y expuso a las personas a lo que las mujeres enfrentarían en estas conferencias.

En última instancia, diría que unió a la comunidad. Atrajo al redil al grupo moderado de personas que no estaban al tanto. Y eso realmente ha ayudado a mejorar nuestra diversidad e inclusión.

A pesar de que estás acostumbrado a desafiar a la gente, me imagino que todavía era difícil hablar.

Fue realmente difícil. Soy una persona privada, pero cuando comencé a hablar en las redes sociales, incluso publicando el trabajo que estamos haciendo o algo muy benigno, los comentarios no se filtraron. Había toda esta naturaleza de “Evitemos hablar de cosas negativas. Enterrémoslo. Pero soy de la mentalidad de que tenemos que sacar esto a la luz y tenemos que responsabilizarnos.

¿Que la gente necesita comer su neem?

Exactamente. Tienes que aceptar la amarga verdad.

Sello de tiempo:

Mas de Revista Quanta