La nueva IA de Meta está investigando las proteínas más misteriosas de la Tierra

Reeditado por Platón

seguidores: 0

La carrera para resolver cada estructura de proteína acaba de dar la bienvenida a otro gigante tecnológico: Meta AI.

Una rama de investigación de Meta, conocida por Facebook e Instagram, el equipo entró en la escena de la predicción de formas de proteínas con un objetivo ambicioso: descifrar la "materia oscura" del universo de las proteínas. Estas proteínas, que a menudo se encuentran en bacterias, virus y otros microorganismos, se encuentran en nuestro entorno cotidiano, pero son un completo misterio para la ciencia.

“Estas son las estructuras de las que menos sabemos. Estas son proteínas increíblemente misteriosas. Creo que ofrecen el potencial para una gran comprensión de la biología”. dijo autor principal Dr. Alexander Rives para Naturaleza.

En otras palabras, son un tesoro de inspiración para la biotecnología. Ocultas en sus formas secretas hay claves para diseñar biocombustibles eficientes, antibióticos, enzimas CRISPR-Cas, o incluso organismos completamente nuevos. A su vez, los datos de las predicciones de proteínas podrían entrenar aún más los modelos de IA.

En el corazón de la nueva IA de Meta, denominada ESMFold, se encuentra un gran modelo de lenguaje. Puede sonar familiar. Estos algoritmos de aprendizaje automático han conquistado el mundo con ChatGPT, el chatbot de rockstar. Conocido por su capacidad para generar hermosos ensayos, poemas y letras con instrucciones simples, ChatGPT y el recientemente lanzado GPT-4— están capacitados con millones de textos disponibles públicamente. Eventualmente, la IA aprende a predecir letras, palabras e incluso escribir párrafos completos y, en el caso del chatbot similar de Bing, mantener conversaciones que a veces se vuelven un poco desconcertantes.

El nuevo estudio, publicado en Ciencia:, une el modelo de IA con la biología. Las proteínas están hechas de 20 "letras". Gracias a la evolución, la secuencia de letras ayuda a generar sus formas definitivas. Si los grandes modelos de lenguaje pueden interpretar fácilmente las 26 letras del alfabeto inglés en mensajes coherentes, ¿por qué no pueden funcionar también para las proteínas?

Spoiler: lo hacen. ESM-2 superó aproximadamente 600 millones de predicciones de estructuras de proteínas en solo dos semanas utilizando 2,000 unidades de procesamiento gráfico (GPU). En comparación con intentos anteriores, la IA hizo que el proceso fuera hasta 60 veces más rápido. Los autores pusieron cada estructura en el Atlas metagenómico de ESM, que puede explorar esta página.

Para el Dr. Alfonso Valencia del Centro Nacional de Supercomputación de Barcelona (BCS), que no participó en el trabajo, la belleza de usar grandes sistemas de lenguaje es un “simplicidad conceptual.” Con un mayor desarrollo, la IA puede predecir "la estructura de proteínas no naturales, expandiendo el universo conocido más allá de lo que han explorado los procesos evolutivos".

Hablemos de Evolución

ESMFold sigue una pauta simple: la secuencia predice la estructura.

Retrocedamos. Las proteínas están hechas de 20 aminoácidos, cada uno de ellos una "letra", y se ensartan como cuentas puntiagudas en una cuerda. Luego, nuestras células les dan forma en rasgos delicados: algunas parecen sábanas arrugadas, otras como un bastón de caramelo en espiral o cintas sueltas. Luego, las proteínas pueden agarrarse entre sí para formar un multiplex, por ejemplo, un túnel que cruza la membrana de la célula cerebral que controla sus acciones y, a su vez, controla cómo pensamos y recordamos.

Los científicos saben desde hace mucho tiempo que las letras de aminoácidos ayudan a dar forma a la estructura final de una proteína. Al igual que las letras o los caracteres de un idioma, solo algunos cuando se unen tienen sentido. En el caso de las proteínas, estas secuencias las hacen funcionales.

“Las propiedades biológicas de una proteína limitan las mutaciones a su secuencia que se seleccionan a través de la evolución”, dijeron los autores.

Al igual que las diferentes letras del alfabeto convergen para crear palabras, oraciones y párrafos sin sonar como un completo galimatías, las letras de proteínas hacen lo mismo. Existe una especie de "diccionario evolutivo" que ayuda a encadenar los aminoácidos en estructuras que el cuerpo puede comprender.

“La lógica de la sucesión de aminoácidos en las proteínas conocidas es el resultado de un proceso evolutivo que las ha llevado a tener la estructura específica con la que realizan una determinada función”, dijo Valencia.

Sr. AI, hágame una proteína

El diccionario relativamente limitado de la vida es buenas noticias para modelos de lenguaje grande.

Estos modelos de IA examinan textos fácilmente disponibles para aprender y crear predicciones de la siguiente palabra. El resultado final, como se ve en GPT-3 y ChatGPT, son conversaciones sorprendentemente naturales e imágenes artísticas fantásticas.

Meta AI usó el mismo concepto, pero reescribió el libro de jugadas para las predicciones de estructura de proteínas. En lugar de alimentar el algoritmo con textos, le dieron al programa secuencias de proteínas conocidas.

El modelo de IA, llamado modelo de lenguaje de proteína transformadora, aprendió la arquitectura general de las proteínas utilizando hasta 15 mil millones de "configuraciones". Vio aproximadamente 65 millones de secuencias de proteínas diferentes en general.

En su siguiente paso, el equipo escondió ciertas letras de la IA, incitándola a completar los espacios en blanco. En lo que equivale a autocompletar, el programa eventualmente aprendió cómo los diferentes aminoácidos se conectan (o repelen) entre sí. Al final, la IA formó una comprensión intuitiva de las secuencias de proteínas evolutivas y cómo funcionan juntas para hacer proteínas funcionales.

Hacia lo desconocido

Como prueba de concepto, el equipo probó ESMFold utilizando dos conjuntos de prueba conocidos. Uno, CAMEO, involucró casi 200 estructuras; el otro, CASP14, tiene 51 formas de proteínas publicadas públicamente.

En general, la IA "proporciona una precisión de predicción de estructura de última generación", dijo el equipo, "igualando el rendimiento de AlphaFold2 en más de la mitad de las proteínas". También abordó de manera confiable grandes complejos de proteínas, por ejemplo, los canales en las neuronas que controlan sus acciones.

Luego, el equipo llevó su IA un paso más allá, aventurándose en el mundo de la metagenómica.

Los metagenomas son lo que parecen: una mezcolanza de material de ADN. Normalmente, estos provienen de fuentes ambientales, como la suciedad debajo de los pies, el agua de mar o incluso las fuentes térmicas normalmente inhóspitas. La mayoría de los microbios no se pueden cultivar artificialmente en laboratorios, pero algunos tienen superpoderes, como resistir el calor volcánico, lo que los convierte en una materia oscura biológica aún por explorar.

Cuando se publicó el artículo, la IA había predicho más de 600 millones de estas proteínas. El recuento ahora supera los 700 millones con el último lanzamiento. Las predicciones llegaron rápido y furioso en aproximadamente dos semanas. Por el contrario, los intentos de modelado anteriores tomaron hasta 10 minutos para una sola proteína.

Aproximadamente un tercio de las predicciones de proteínas fueron de alta confianza, con suficiente detalle para acercarse a la escala de nivel atómico. Debido a que las predicciones de proteínas se basaron únicamente en sus secuencias, aparecieron millones de "alienígenas", estructuras que no se parecen a nada en las bases de datos establecidas o probadas previamente.

“Es interesante que más del 10 por ciento de las predicciones son para proteínas que no se parecen a otras proteínas conocidas”, dijo Valencia. Podría deberse a la magia de los modelos de lenguaje, que son mucho más flexibles para explorar, y potencialmente generar, secuencias nunca antes vistas que forman proteínas funcionales. “Este es un nuevo espacio para el diseño de proteínas con nuevas secuencias y propiedades bioquímicas con aplicaciones en biotecnología y biomedicina”, dijo.

Como ejemplo, ESMFold podría potencialmente ayudar a descubrir las consecuencias de los cambios de una sola letra en una proteína. Llamadas mutaciones puntuales, estas ediciones aparentemente benignas causan estragos en el cuerpo y causan síndromes metabólicos devastadores, anemia de células falciformes y cáncer. Una IA esbelta, media y relativamente simple brinda resultados al laboratorio de investigación biomédica promedio, mientras aumenta las predicciones de forma de proteína gracias a la velocidad de la IA.

Dejando a un lado la biomedicina, otra idea fascinante es que las proteínas pueden ayudar a entrenar grandes modelos de lenguaje de una manera que los textos no pueden. Como explica Valencia, “por un lado, las secuencias de proteínas son más abundantes que los textos, tienen tamaños más definidos y un mayor grado de variabilidad. Por otro lado, las proteínas tienen un fuerte 'significado' interno, es decir, una fuerte relación entre secuencia y estructura, un significado o coherencia que es mucho más difuso en los textos”, uniendo los dos campos en un circuito de retroalimentación virtuoso.

Crédito de la imagen: Meta IA