A nova IA da Meta está investigando as proteínas mais misteriosas da Terra

Republicado por Platão

seguidores: 0

A corrida para resolver cada estrutura de proteína acaba de dar as boas-vindas a outro gigante da tecnologia: Meta AI.

Uma ramificação de pesquisa da Meta, conhecida pelo Facebook e Instagram, a equipe entrou no cenário de previsão da forma da proteína com um objetivo ambicioso: decifrar a “matéria escura” do universo da proteína. Frequentemente encontradas em bactérias, vírus e outros microorganismos, essas proteínas permanecem em nossos ambientes cotidianos, mas são mistérios completos para a ciência.

“Essas são as estruturas que menos conhecemos. Estas são proteínas incrivelmente misteriosas. Acho que eles oferecem o potencial para uma grande compreensão da biologia”, dito autor sênior Dr. Alexander Rives para Natureza.

Em outras palavras, eles são um tesouro de inspiração para a biotecnologia. Escondidas em suas formas secretas estão as chaves para projetar biocombustíveis eficientes, antibióticos, enzimas, ou mesmo organismos inteiramente novos. Por sua vez, os dados das previsões de proteínas podem treinar ainda mais os modelos de IA.

No coração da nova IA da Meta, apelidada de ESMFold, está um grande modelo de linguagem. Pode soar familiar. Esses algoritmos de aprendizado de máquina conquistaram o mundo com o chatbot rockstar ChatGPT. Conhecido por sua capacidade de gerar belos ensaios, poemas e letras com prompts simples, o ChatGPT - e o recém-lançado GPT-4—são treinados com milhões de textos disponíveis publicamente. Eventualmente, a IA aprende a prever letras, palavras e até mesmo escrever parágrafos inteiros e, no caso do chatbot semelhante do Bing, segurar conversas que às vezes se tornam um pouco enervantes.

O novo estudo, publicado em Ciência, conecta o modelo de IA com a biologia. As proteínas são feitas de 20 “letras”. Graças à evolução, a sequência de letras ajuda a gerar suas formas finais. Se grandes modelos de linguagem podem facilmente transformar as 26 letras do alfabeto inglês em mensagens coerentes, por que eles também não podem funcionar para proteínas?

Spoiler: eles fazem. O ESM-2 passou por cerca de 600 milhões de previsões de estruturas de proteínas em apenas duas semanas usando 2,000 unidades de processamento gráfico (GPUs). Em comparação com as tentativas anteriores, a IA tornou o processo até 60 vezes mais rápido. Os autores colocam todas as estruturas no ESM Metagenômica Atlas, que você pode explorar SUA PARTICIPAÇÃO FAZ A DIFERENÇA.

Para o Dr. Alfonso Valencia do Centro Nacional de Supercomputação (BCS) de Barcelona, que não participou do trabalho, a beleza de usar grandes sistemas de linguagem é um “simplicidade conceitual.” Com mais desenvolvimento, a IA pode prever “a estrutura de proteínas não naturais, expandindo o universo conhecido além do que os processos evolutivos exploraram”.

Vamos Falar de Evolução

O ESMFold segue uma diretriz simples: a sequência prevê a estrutura.

Vamos voltar atrás. As proteínas são feitas de 20 aminoácidos – cada um uma “letra” – e amarradas como contas pontiagudas em uma corda. Nossas células então as moldam em feições delicadas: algumas parecem lençóis amarrotados, outras como um bastão de doces ou fitas soltas. As proteínas podem então se agarrar umas às outras para formar um multiplex – por exemplo, um túnel que atravessa a membrana da célula cerebral que controla suas ações e, por sua vez, controla como pensamos e lembramos.

Os cientistas sabem há muito tempo que as letras dos aminoácidos ajudam a moldar a estrutura final de uma proteína. Semelhante a letras ou caracteres em um idioma, apenas alguns quando agrupados fazem sentido. No caso das proteínas, essas sequências as tornam funcionais.

“As propriedades biológicas de uma proteína restringem as mutações à sua sequência que são selecionadas pela evolução”, disseram os autores.

Semelhante a como as diferentes letras do alfabeto convergem para criar palavras, frases e parágrafos sem soar como um jargão completo, as letras de proteína fazem o mesmo. Existe uma espécie de “dicionário evolutivo” que ajuda a agrupar os aminoácidos em estruturas que o corpo pode compreender.

“A lógica da sucessão de aminoácidos nas proteínas conhecidas é resultado de um processo evolutivo que as levou a ter a estrutura específica com a qual desempenham determinada função”, disse Valencia.

Sr. AI, faça-me uma proteína

O dicionário relativamente limitado da vida é ótimas notícias para modelos de linguagem grandes.

Esses modelos de IA vasculham textos prontamente disponíveis para aprender e criar previsões da próxima palavra. O resultado final, como visto no GPT-3 e no ChatGPT, são conversas incrivelmente naturais e imagens artísticas fantásticas.

Meta AI usou o mesmo conceito, mas reescreveu o manual para previsões de estruturas de proteínas. Em vez de alimentar o algoritmo com textos, eles forneceram ao programa sequências de proteínas conhecidas.

O modelo de IA – chamado de modelo de linguagem de proteína transformadora – aprendeu a arquitetura geral de proteínas usando até 15 bilhões de “configurações”. Ele viu cerca de 65 milhões de sequências diferentes de proteínas no geral.

Em sua próxima etapa, a equipe escondeu certas letras da IA, solicitando que ela preenchesse os espaços em branco. No que diz respeito ao preenchimento automático, o programa acabou aprendendo como diferentes aminoácidos se conectam (ou se repelem). No final, a IA formou uma compreensão intuitiva das sequências de proteínas evolutivas – e como elas trabalham juntas para produzir proteínas funcionais.

No desconhecido

Como prova de conceito, a equipe testou o ESMFold usando dois conjuntos de teste bem conhecidos. Um, CAMEO, envolveu cerca de 200 estruturas; o outro, CASP14, tem 51 formas de proteína divulgadas publicamente.

No geral, a IA “fornece precisão de previsão de estrutura de última geração”, disse a equipe, “combinando o desempenho do AlphaFold2 em mais da metade das proteínas”. Também abordou de forma confiável grandes complexos de proteínas – por exemplo, os canais nos neurônios que controlam suas ações.

A equipe então levou sua IA um passo adiante, aventurando-se no mundo da metagenômica.

Os metagenomas são o que parecem: uma miscelânea de material de DNA. Normalmente, eles vêm de fontes ambientais, como sujeira sob seus pés, água do mar ou até fontes termais normalmente inóspitas. A maioria dos micróbios não pode ser cultivada artificialmente em laboratórios, mas alguns têm superpoderes, como resistir ao calor em nível vulcânico, tornando-os uma matéria escura biológica ainda a ser explorada.

Na época em que o artigo foi publicado, a IA havia previsto mais de 600 milhões dessas proteínas. A contagem agora é de mais de 700 milhões com o último lançamento. As previsões vieram rápidas e furiosas em cerca de duas semanas. Em contraste, as tentativas anteriores de modelagem levaram até 10 minutos para apenas uma única proteína.

Aproximadamente um terço das previsões de proteínas eram de alta confiança, com detalhes suficientes para ampliar a escala de nível atômico. Como as previsões de proteínas foram baseadas apenas em suas sequências, milhões de “alienígenas” surgiram – estruturas diferentes de tudo em bancos de dados estabelecidos ou testados anteriormente.

“É interessante que mais de 10 por cento das previsões são para proteínas que não têm nenhuma semelhança com outras proteínas conhecidas”, disse Valencia. Pode ser devido à magia dos modelos de linguagem, que são muito mais flexíveis em explorar – e potencialmente gerar – sequências inéditas que compõem proteínas funcionais. “Este é um novo espaço para o desenho de proteínas com novas sequências e propriedades bioquímicas com aplicações em biotecnologia e biomedicina”, afirmou.

Por exemplo, o ESMFold poderia potencialmente ajudar a descobrir as consequências das mudanças de uma única letra em uma proteína. Chamadas de mutações pontuais, essas edições aparentemente benignas causam estragos no corpo, causando síndromes metabólicas devastadoras, anemia falciforme e câncer. Uma IA enxuta, média e relativamente simples traz resultados para o laboratório médio de pesquisa biomédica, ao mesmo tempo em que amplia as previsões de formato de proteína graças à velocidade da IA.

Deixando a biomedicina de lado, outra ideia fascinante é que as proteínas podem ajudar a treinar grandes modelos de linguagem de uma forma que os textos não conseguem. Como explicou Valencia, “Por um lado, as sequências de proteínas são mais abundantes que os textos, têm tamanhos mais definidos e um maior grau de variabilidade. Por outro lado, as proteínas têm um forte 'significado' interno – isto é, uma forte relação entre sequência e estrutura, um significado ou coerência muito mais difuso em textos”, ligando os dois campos em um ciclo virtuoso de retroalimentação.

Crédito de imagem: Meta IA