AI Baru Meta Menggali Protein Paling Misterius di Bumi

AI Baru Meta Menggali Protein Paling Misterius di Bumi

Node Sumber: 2022738

Perlombaan untuk memecahkan setiap struktur protein baru saja menyambut raksasa teknologi lainnya: Meta AI.

Sebuah cabang penelitian dari Meta, yang dikenal dengan Facebook dan Instagram, tim datang ke adegan prediksi bentuk protein dengan tujuan yang ambisius: untuk menguraikan "materi gelap" dari alam semesta protein. Sering ditemukan pada bakteri, virus, dan mikroorganisme lainnya, protein ini berada di lingkungan kita sehari-hari tetapi merupakan misteri yang lengkap bagi sains.

“Ini adalah struktur yang paling tidak kita ketahui. Ini adalah protein yang sangat misterius. Saya pikir mereka menawarkan potensi wawasan yang bagus ke dalam biologi, ” tersebut penulis senior Dr. Alexander Rives to Alam.

Dengan kata lain, mereka adalah harta karun inspirasi untuk bioteknologi. Tersembunyi dalam bentuknya yang rahasia adalah kunci untuk mendesain biofuel yang efisien, antibiotik, enzim, atau bahkan organisme yang sama sekali baru. Pada gilirannya, data dari prediksi protein selanjutnya dapat melatih model AI.

Inti dari AI baru Meta, yang dijuluki ESMFold, adalah model bahasa yang besar. Mungkin terdengar familiar. Algoritme pembelajaran mesin ini telah menggemparkan dunia dengan chatbot rockstar ChatGPT. Dikenal karena kemampuannya menghasilkan esai, puisi, dan lirik yang indah dengan petunjuk sederhana, ChatGPT—dan yang baru diluncurkan GPT-4—dilatih dengan jutaan teks yang tersedia untuk umum. Akhirnya AI belajar memprediksi huruf, kata, dan bahkan menulis seluruh paragraf dan, dalam kasus chatbot serupa Bing, tahan percakapan yang terkadang berubah sedikit menakutkan.

Studi baru, diterbitkan dalam Ilmu, menjembatani model AI dengan biologi. Protein terbuat dari 20 "huruf". Berkat evolusi, urutan huruf membantu menghasilkan bentuk akhirnya. Jika model bahasa besar dapat dengan mudah menginterpretasikan 26 huruf abjad Inggris menjadi pesan yang koheren, mengapa mereka tidak bisa bekerja untuk protein juga?

Spoiler: mereka melakukannya. ESM-2 meledakkan sekitar 600 juta prediksi struktur protein hanya dalam dua minggu menggunakan 2,000 unit pemrosesan grafis (GPU). Dibandingkan upaya sebelumnya, AI membuat prosesnya 60 kali lebih cepat. Penulis memasukkan setiap struktur ke dalam ESM Metagenomic Atlas, yang dapat Anda jelajahi di sini.

Kepada Dr. Alfonso Valencia di Barcelona National Supercomputing Center (BCS), yang tidak terlibat dalam pekerjaan ini, keindahan menggunakan sistem bahasa besar adalah “kesederhanaan konseptual.” Dengan pengembangan lebih lanjut, AI dapat memprediksi "struktur protein non-alami, memperluas alam semesta yang diketahui melampaui apa yang telah dieksplorasi oleh proses evolusi."

Mari Bicara Evolusi

ESMFold mengikuti pedoman sederhana: urutan memprediksi struktur.

Mari mundur. Protein dibuat dari 20 asam amino—masing-masing merupakan “huruf”—dan dirangkai seperti manik-manik runcing pada seutas tali. Sel-sel kita kemudian membentuknya menjadi fitur-fitur halus: beberapa terlihat seperti seprai kusut, yang lain seperti tongkat permen yang berputar-putar atau pita yang longgar. Protein kemudian dapat saling berpegangan untuk membentuk multipleks — misalnya, terowongan yang melintasi membran sel otak yang mengontrol tindakannya, dan pada gilirannya mengontrol cara kita berpikir dan mengingat.

Para ilmuwan telah lama mengetahui bahwa huruf asam amino membantu membentuk struktur akhir protein. Mirip dengan huruf atau karakter dalam suatu bahasa, hanya huruf atau karakter tertentu yang jika dirangkai menjadi masuk akal. Dalam kasus protein, urutan ini membuatnya fungsional.

“Sifat biologis protein membatasi mutasi pada urutannya yang dipilih melalui evolusi,” kata para penulis.

Mirip dengan bagaimana berbagai huruf dalam alfabet bertemu untuk membuat kata, kalimat, dan paragraf tanpa terdengar seperti omong kosong, huruf protein melakukan hal yang sama. Ada semacam "kamus evolusi" yang membantu merangkai asam amino menjadi struktur yang dapat dipahami tubuh.

“Logika suksesi asam amino dalam protein yang diketahui adalah hasil dari proses evolusi yang membuat mereka memiliki struktur spesifik yang dengannya mereka melakukan fungsi tertentu,” kata Valencia.

Pak AI, Jadikan Saya Protein

Kamus hidup yang relatif terbatas adalah berita bagus untuk model bahasa besar.

Model AI ini menjelajahi teks yang tersedia untuk dipelajari dan membangun prediksi kata berikutnya. Hasil akhirnya, seperti yang terlihat di GPT-3 dan ChatGPT, adalah percakapan yang sangat alami dan gambar artistik yang fantastis.

Meta AI menggunakan konsep yang sama, tetapi menulis ulang pedoman untuk prediksi struktur protein. Alih-alih memberi makan algoritme dengan teks, mereka memberikan urutan program dari protein yang diketahui.

Model AI — disebut model bahasa protein transformator — mempelajari arsitektur umum protein menggunakan hingga 15 miliar "pengaturan". Itu melihat sekitar 65 juta urutan protein yang berbeda secara keseluruhan.

Pada langkah selanjutnya, tim menyembunyikan surat-surat tertentu dari AI, mendorongnya untuk mengisi bagian yang kosong. Dalam jumlah yang melengkapi otomatis, program tersebut akhirnya mempelajari bagaimana asam amino yang berbeda terhubung (atau menolak) satu sama lain. Pada akhirnya, AI membentuk pemahaman intuitif tentang sekuens protein evolusioner—dan bagaimana mereka bekerja sama untuk membuat protein fungsional.

Ke Yang Tidak Diketahui

Sebagai pembuktian konsep, tim menguji ESMFold menggunakan dua set pengujian terkenal. Satu, CAMEO, melibatkan hampir 200 struktur; yang lainnya, CASP14, memiliki 51 bentuk protein yang dirilis untuk umum.

Secara keseluruhan, AI "memberikan akurasi prediksi struktur yang canggih," kata tim, "menyamai kinerja AlphaFold2 pada lebih dari setengah protein." Ia juga dengan andal menangani kompleks protein besar—misalnya, saluran pada neuron yang mengontrol tindakan mereka.

Tim kemudian membawa AI mereka selangkah lebih maju, menjelajah ke dunia metagenomik.

Metagenom adalah seperti apa bunyinya: gado-gado bahan DNA. Biasanya ini berasal dari sumber lingkungan seperti kotoran di bawah kaki Anda, air laut, atau bahkan ventilasi termal yang biasanya tidak ramah. Sebagian besar mikroba tidak dapat ditanam secara artifisial di laboratorium, namun beberapa memiliki kekuatan super seperti menahan panas tingkat vulkanik, menjadikannya materi gelap biologis yang belum dieksplorasi.

Pada saat makalah diterbitkan, AI telah memprediksi lebih dari 600 juta protein ini. Hitungannya sekarang mencapai lebih dari 700 juta dengan rilis terbaru. Prediksi datang dengan cepat dan hebat dalam waktu sekitar dua minggu. Sebaliknya, upaya pemodelan sebelumnya memakan waktu hingga 10 menit hanya untuk satu protein.

Kira-kira sepertiga dari prediksi protein memiliki keyakinan tinggi, dengan detail yang cukup untuk memperbesar skala tingkat atom. Karena prediksi protein hanya didasarkan pada urutannya, jutaan "alien" muncul — struktur yang tidak seperti apa pun di database yang ada atau yang telah diuji sebelumnya.

“Sangat menarik bahwa lebih dari 10 persen prediksi adalah untuk protein yang tidak memiliki kemiripan dengan protein lain yang diketahui,” kata Valencia. Ini mungkin karena keajaiban model bahasa, yang jauh lebih fleksibel dalam mengeksplorasi—dan berpotensi menghasilkan—sekuens penyusun protein fungsional yang sebelumnya tidak pernah terdengar. “Ini adalah ruang baru untuk desain protein dengan sekuens dan sifat biokimia baru dengan aplikasi dalam bioteknologi dan biomedis,” katanya.

Sebagai contoh, ESMFold berpotensi membantu memilah konsekuensi dari perubahan huruf tunggal pada protein. Disebut mutasi titik, suntingan yang tampaknya jinak ini mendatangkan malapetaka pada tubuh, menyebabkan sindrom metabolik yang menghancurkan, anemia sel sabit, dan kanker. AI yang ramping, rata-rata, dan relatif sederhana membawa hasil ke laboratorium penelitian biomedis rata-rata, sekaligus meningkatkan prediksi bentuk protein berkat kecepatan AI.

Selain biomedis, ide menarik lainnya adalah bahwa protein dapat membantu melatih model bahasa besar dengan cara yang tidak bisa dilakukan teks. Seperti yang dijelaskan Valencia, “Di satu sisi, urutan protein lebih banyak daripada teks, memiliki ukuran yang lebih jelas, dan tingkat variabilitas yang lebih tinggi. Di sisi lain, protein memiliki 'makna' internal yang kuat—yakni, hubungan yang kuat antara urutan dan struktur, sebuah makna atau koherensi yang jauh lebih tersebar dalam teks,” menjembatani dua bidang ke dalam lingkaran umpan balik yang baik.

Gambar Kredit: Meta AI

Stempel Waktu:

Lebih dari Hub Singularity