Desempaquetando la "caja negra" para construir mejores modelos de IA

Desempaquetando la "caja negra" para construir mejores modelos de IA

Nodo de origen: 1885922

Cuando los modelos de aprendizaje profundo se implementan en el mundo real, tal vez para detectar el fraude financiero de la actividad de la tarjeta de crédito o identificar el cáncer en las imágenes médicas, a menudo pueden superar a los humanos.

Pero, ¿qué están aprendiendo exactamente estos modelos de aprendizaje profundo? Un modelo entrenado para detectar cáncer de piel en imágenes clínicas, por ejemplo, ¿realmente aprende los colores y texturas del tejido canceroso, o está señalando algunas otras características o patrones?

Estos poderosos modelos de aprendizaje automático generalmente se basan en redes neuronales artificiales que puede tener millones de nodos que procesan datos para hacer predicciones. Debido a su complejidad, los investigadores a menudo llaman a estos modelos "cajas negras" porque incluso los científicos que los construyen no entienden todo lo que sucede debajo del capó.

Stefanie Jegelka no está satisfecha con esa explicación de "caja negra". Jegelka, profesora asociada recién titular en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT, está profundizando en el aprendizaje profundo para comprender qué pueden aprender estos modelos y cómo se comportan, y cómo incorporar cierta información previa en estos modelos.

“Al final del día, lo que aprenderá un modelo de aprendizaje profundo depende de muchos factores. Pero desarrollar una comprensión que sea relevante en la práctica nos ayudará a diseñar mejores modelos y también nos ayudará a comprender lo que sucede dentro de ellos para saber cuándo podemos implementar un modelo y cuándo no. Eso es de vital importancia”, dice Jegelka, quien también es miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y del Instituto de Datos, Sistemas y Sociedad (IDSS).

Jegelka está particularmente interesado en optimizar los modelos de aprendizaje automático cuando los datos de entrada están en forma de gráficos. Los datos gráficos plantean desafíos específicos: por ejemplo, la información en los datos consiste en información sobre nodos y bordes individuales, así como la estructura: qué está conectado a qué. Además, los gráficos tienen simetrías matemáticas que el modelo de aprendizaje automático debe respetar para que, por ejemplo, el mismo gráfico siempre lleve a la misma predicción. Construir tales simetrías en un modelo de aprendizaje automático no suele ser fácil.

Tome las moléculas, por ejemplo. Las moléculas se pueden representar como gráficos, con vértices que corresponden a átomos y bordes que corresponden a enlaces químicos entre ellos. Las compañías farmacéuticas pueden querer usar el aprendizaje profundo para predecir rápidamente las propiedades de muchas moléculas, reduciendo el número que deben probar físicamente en el laboratorio.

Jegelka estudia métodos para construir modelos matemáticos de aprendizaje automático que pueden tomar datos de gráficos como entrada y salida de otra cosa, en este caso una predicción de las propiedades químicas de una molécula. Esto es particularmente desafiante ya que las propiedades de una molécula están determinadas no solo por los átomos dentro de ella, sino también por las conexiones entre ellos.  

Otros ejemplos de aprendizaje automático en gráficos incluyen enrutamiento de tráfico, diseño de chips y sistemas de recomendación.

El diseño de estos modelos se hace aún más difícil por el hecho de que los datos utilizados para entrenarlos a menudo son diferentes de los datos que los modelos ven en la práctica. Quizás el modelo se entrenó usando gráficos moleculares pequeños o redes de tráfico, pero los gráficos que ve una vez implementados son más grandes o más complejos.

En este caso, ¿qué pueden esperar los investigadores que aprenda este modelo? ¿Seguirá funcionando en la práctica si los datos del mundo real son diferentes?

“Su modelo no podrá aprender todo debido a algunos problemas de dureza en informática, pero lo que puede aprender y lo que no puede aprender depende de cómo configure el modelo”, dice Jegelka.

Ella aborda esta pregunta combinando su pasión por los algoritmos y las matemáticas discretas con su entusiasmo por el aprendizaje automático.

De las mariposas a la bioinformática

Jegelka creció en un pequeño pueblo de Alemania y se interesó por la ciencia cuando era estudiante de secundaria; un maestro que la apoyó la animó a participar en una competencia científica internacional. Ella y sus compañeros de equipo de EE. UU. y Singapur ganaron un premio por un sitio web que crearon sobre mariposas, en tres idiomas.

“Para nuestro proyecto, tomamos imágenes de alas con un microscopio electrónico de barrido en una universidad local de ciencias aplicadas. También tuve la oportunidad de usar una cámara de alta velocidad en Mercedes Benz, esta cámara generalmente filmaba motores de combustión, que usé para capturar un video en cámara lenta del movimiento de las alas de una mariposa. Esa fue la primera vez que entré realmente en contacto con la ciencia y la exploración”, recuerda.

Intrigado por la biología y las matemáticas, Jegelka decidió estudiar bioinformática en la Universidad de Tübingen y la Universidad de Texas en Austin. Tuvo algunas oportunidades de realizar investigaciones como estudiante, incluida una pasantía en neurociencia computacional en la Universidad de Georgetown, pero no estaba segura de qué carrera seguir.

Cuando regresó para su último año de universidad, Jegelka se mudó con dos compañeros de cuarto que trabajaban como asistentes de investigación en el Instituto Max Planck en Tübingen.

“Estaban trabajando en el aprendizaje automático y eso me pareció genial. Tenía que escribir mi tesis de licenciatura, así que pregunté en el instituto si tenían un proyecto para mí. Empecé a trabajar en aprendizaje automático en el Instituto Max Planck y me encantó. Aprendí mucho allí, y fue un gran lugar para la investigación”, dice ella.

Se quedó en el Instituto Max Planck para completar una tesis de maestría y luego se embarcó en un doctorado en aprendizaje automático en el Instituto Max Planck y el Instituto Federal Suizo de Tecnología..

Durante su doctorado, exploró cómo los conceptos de las matemáticas discretas pueden ayudar a mejorar las técnicas de aprendizaje automático.

Modelos de enseñanza para aprender

Cuanto más aprendía Jegelka sobre el aprendizaje automático, más intrigada estaba por los desafíos de comprender cómo se comportan los modelos y cómo dirigir este comportamiento.

“Puede hacer mucho con el aprendizaje automático, pero solo si tiene el modelo y los datos correctos. No es solo una cosa de caja negra donde lo arrojas a los datos y funciona. En realidad, tienes que pensar en él, en sus propiedades y en lo que quieres que el modelo aprenda y haga”, dice.

Después de completar un posdoctorado en la Universidad de California en Berkeley, Jegelka se enganchó a la investigación y decidió seguir una carrera académica. Se unió a la facultad del MIT en 2015 como profesora asistente.

“Lo que realmente me encantó del MIT, desde el principio, fue que la gente realmente se preocupa profundamente por la investigación y la creatividad. Eso es lo que más aprecio del MIT. La gente aquí realmente valora la originalidad y la profundidad en la investigación”, dice.

Ese enfoque en la creatividad ha permitido a Jegelka explorar una amplia gama de temas.

En colaboración con otros profesores del MIT, estudia aplicaciones de aprendizaje automático en biología, imágenes, visión artificial y ciencia de los materiales.

Pero lo que realmente impulsa a Jegelka es investigar los fundamentos del aprendizaje automático y, más recientemente, el tema de la robustez. A menudo, un modelo funciona bien con datos de entrenamiento, pero su rendimiento se deteriora cuando se implementa con datos ligeramente diferentes. Agregar conocimiento previo a un modelo puede hacerlo más confiable, pero comprender qué información necesita el modelo para tener éxito y cómo incorporarlo no es tan simple, dice.

También está explorando métodos para mejorar el rendimiento de los modelos de aprendizaje automático para la clasificación de imágenes.

Los modelos de clasificación de imágenes están en todas partes, desde los sistemas de reconocimiento facial en los teléfonos móviles hasta las herramientas que identifican cuentas falsas en las redes sociales. Estos modelos necesitan cantidades masivas de datos para el entrenamiento, pero dado que es costoso para los humanos etiquetar a mano millones de imágenes, los investigadores a menudo usan conjuntos de datos sin etiquetar para entrenar modelos previamente.

Estos modelos luego reutilizan las representaciones que han aprendido cuando se ajustan más tarde para una tarea específica.

Idealmente, los investigadores quieren que el modelo aprenda todo lo que pueda durante el entrenamiento previo, para que pueda aplicar ese conocimiento a su tarea posterior. Pero en la práctica, estos modelos a menudo aprenden solo unas pocas correlaciones simples, como que una imagen tiene luz solar y otra tiene sombra, y usan estos "atajos" para clasificar las imágenes.

“Demostramos que este es un problema en el 'aprendizaje contrastivo', que es una técnica estándar para el pre-entrenamiento, tanto teórica como empíricamente. Pero también mostramos que puede influir en los tipos de información que el modelo aprenderá a representar modificando los tipos de datos que muestra el modelo. Este es un paso hacia la comprensión de lo que realmente van a hacer los modelos en la práctica”, dice.

Los investigadores aún no entienden todo lo que sucede dentro de un modelo de aprendizaje profundo, o los detalles sobre cómo pueden influir en lo que aprende un modelo y cómo se comporta, pero Jegelka espera continuar explorando estos temas.

“A menudo, en el aprendizaje automático, vemos que algo sucede en la práctica y tratamos de entenderlo teóricamente. Este es un gran desafío. Desea construir una comprensión que coincida con lo que ve en la práctica, para que pueda hacerlo mejor. Todavía estamos al principio de entender esto”, dice ella.

Fuera del laboratorio, Jegelka es fanática de la música, el arte, los viajes y el ciclismo. Pero en estos días, disfruta pasar la mayor parte de su tiempo libre con su hija en edad preescolar.

<!–
->

Sello de tiempo:

Mas de Consultores Blockchain