AI ใหม่ของ Meta กำลังขุดค้นโปรตีนที่ลึกลับที่สุดในโลก

AI ใหม่ของ Meta กำลังขุดค้นโปรตีนที่ลึกลับที่สุดในโลก

โหนดต้นทาง: 2022738

การแข่งขันเพื่อแก้ไขทุกโครงสร้างโปรตีนเพิ่งต้อนรับยักษ์ใหญ่ด้านเทคโนโลยีรายอื่น: Meta AI

ทีมวิจัยที่ต่อยอดจาก Meta ซึ่งเป็นที่รู้จักจาก Facebook และ Instagram เข้ามาในฉากการทำนายรูปร่างของโปรตีนด้วยเป้าหมายอันทะเยอทะยาน นั่นคือการถอดรหัส "สสารมืด" ของจักรวาลโปรตีน มักพบในแบคทีเรีย ไวรัส และจุลินทรีย์อื่นๆ โปรตีนเหล่านี้มีอยู่ทั่วไปในสภาพแวดล้อมประจำวันของเราแต่เป็นความลึกลับทางวิทยาศาสตร์

“นี่คือโครงสร้างที่เรารู้น้อยที่สุด เหล่านี้เป็นโปรตีนที่ลึกลับอย่างไม่น่าเชื่อ ฉันคิดว่าพวกเขามีศักยภาพในการทำความเข้าใจอย่างลึกซึ้งเกี่ยวกับชีววิทยา” กล่าวว่า ผู้เขียนอาวุโส Dr. Alexander Rives to ธรรมชาติ

กล่าวอีกนัยหนึ่งคือขุมทรัพย์แห่งแรงบันดาลใจสำหรับเทคโนโลยีชีวภาพ ที่ซ่อนอยู่ในรูปทรงที่เป็นความลับคือกุญแจสำคัญในการออกแบบ เชื้อเพลิงชีวภาพที่มีประสิทธิภาพ, ยาปฏิชีวนะ, เอนไซม์, หรือแม้กระทั่ง สิ่งมีชีวิตใหม่ทั้งหมด. ในทางกลับกัน ข้อมูลจากการทำนายโปรตีนสามารถฝึกโมเดล AI ต่อไปได้

หัวใจของ AI ใหม่ของ Meta ที่เรียกว่า ESMFold คือโมเดลภาษาขนาดใหญ่ มันอาจจะฟังดูคุ้นเคย อัลกอริทึมแมชชีนเลิร์นนิงเหล่านี้ทำให้โลกต้องตกตะลึงด้วย Chatbot ของ Rockstar ChatGPT ChatGPT—และที่เพิ่งเปิดตัวเมื่อเร็วๆ จีพีที-4- ได้รับการฝึกอบรมด้วยข้อความหลายล้านฉบับที่เผยแพร่สู่สาธารณะ ในที่สุด AI จะเรียนรู้ที่จะคาดเดาตัวอักษร คำ หรือแม้แต่เขียนทั้งย่อหน้า และในกรณีของแชทบอทที่คล้ายกันของ Bing การสนทนา ที่บางครั้งก็ทำให้ตกใจเล็กน้อย

การศึกษาใหม่, ตีพิมพ์ใน วิทยาศาสตร์เชื่อมโยงแบบจำลอง AI กับชีววิทยา โปรตีนประกอบด้วย "ตัวอักษร" 20 ตัว ต้องขอบคุณวิวัฒนาการ ลำดับของตัวอักษรช่วยสร้างรูปร่างที่ดีที่สุด หากแบบจำลองภาษาขนาดใหญ่สามารถแปลงตัวอักษรภาษาอังกฤษ 26 ตัวเป็นข้อความที่เชื่อมโยงกันได้อย่างง่ายดาย เหตุใดจึงไม่สามารถทำงานกับโปรตีนได้เช่นกัน

สปอยเลอร์: พวกเขาทำ ESM-2 ทำลายการคาดการณ์โครงสร้างโปรตีนประมาณ 600 ล้านรายการในเวลาเพียงสองสัปดาห์โดยใช้หน่วยประมวลผลกราฟิก (GPU) 2,000 หน่วย เมื่อเทียบกับความพยายามครั้งก่อน AI ทำให้กระบวนการเร็วขึ้นถึง 60 เท่า ผู้เขียนใส่โครงสร้างทั้งหมดลงใน ESM Metagenomic Atlas ซึ่งคุณสามารถสำรวจได้ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม.

ถึง Dr. Alfonso Valencia จาก Barcelona National Supercomputing Center (BCS) ซึ่งไม่ได้มีส่วนร่วมในงานนี้ ความสวยงามของการใช้ระบบภาษาขนาดใหญ่คือ "ความเรียบง่ายของแนวคิด” ด้วยการพัฒนาเพิ่มเติม AI สามารถทำนาย "โครงสร้างของโปรตีนที่ไม่ใช่ธรรมชาติ ขยายขอบเขตของจักรวาลที่รู้จักเกินกว่าที่กระบวนการวิวัฒนาการได้สำรวจ"

Let 's Talk วิวัฒนาการ

ESMFold ปฏิบัติตามแนวทางง่ายๆ: ลำดับทำนายโครงสร้าง

ย้อนกลับกันเถอะ โปรตีนสร้างจากกรดอะมิโน 20 ชนิด ซึ่งแต่ละชนิดเป็น "ตัวอักษร" และนำมาร้อยเป็นเกลียวคล้ายลูกปัดแหลมคม จากนั้นเซลล์ของเราจะมีรูปร่างเป็นลักษณะที่ละเอียดอ่อน บางเซลล์มีลักษณะเหมือนผ้าปูเตียงยับยู่ยี่ บางเซลล์มีลักษณะเหมือนลูกกวาดหมุนวนหรือริบบิ้นหลวมๆ จากนั้นโปรตีนสามารถจับกันเพื่อสร้างมัลติเพล็กซ์ ตัวอย่างเช่น อุโมงค์ที่ตัดผ่านเยื่อหุ้มเซลล์สมองที่ควบคุมการทำงานของมัน และในทางกลับกันก็ควบคุมวิธีที่เราคิดและจดจำ

นักวิทยาศาสตร์รู้มานานแล้วว่าตัวอักษรของกรดอะมิโนช่วยกำหนดโครงสร้างสุดท้ายของโปรตีน คล้ายกับตัวอักษรหรืออักขระในภาษา เฉพาะบางตัวเท่านั้นที่ร้อยเข้าด้วยกันจึงจะสมเหตุสมผล ในกรณีของโปรตีน ลำดับเหล่านี้ทำให้มันทำงานได้

"คุณสมบัติทางชีววิทยาของโปรตีนจำกัดการกลายพันธุ์ตามลำดับที่คัดเลือกโดยวิวัฒนาการ" ผู้เขียนกล่าว

คล้ายกับการที่ตัวอักษรต่างๆ ในตัวอักษรมาบรรจบกันเพื่อสร้างคำ ประโยค และย่อหน้าโดยไม่ทำให้เกิดเสียงเหมือนพูดพล่อยๆ ตัวอักษรโปรตีนก็ทำเช่นเดียวกัน มี "พจนานุกรมวิวัฒนาการ" หลายประเภทที่ช่วยให้กรดอะมิโนกลายเป็นโครงสร้างที่ร่างกายสามารถเข้าใจได้

วาเลนเซียกล่าวว่า "ตรรกะของการสืบทอดกรดอะมิโนในโปรตีนที่รู้จักเป็นผลมาจากกระบวนการวิวัฒนาการที่ทำให้พวกเขามีโครงสร้างเฉพาะที่ทำหน้าที่เฉพาะ" วาเลนเซียกล่าว

นาย AI สร้างโปรตีนให้ฉัน

พจนานุกรมที่ค่อนข้างจำกัดของชีวิตคือ ข่าวดีสำหรับโมเดลภาษาขนาดใหญ่.

โมเดล AI เหล่านี้ค้นหาข้อความที่มีอยู่เพื่อเรียนรู้และสร้างการคาดคะเนของคำถัดไป ผลลัพธ์สุดท้าย ดังที่เห็นใน GPT-3 และ ChatGPT คือบทสนทนาที่เป็นธรรมชาติและภาพศิลปะที่น่าอัศจรรย์

Meta AI ใช้แนวคิดเดียวกัน แต่เขียน playbook ใหม่สำหรับการทำนายโครงสร้างโปรตีน แทนที่จะป้อนข้อความให้กับอัลกอริทึม พวกเขาให้ลำดับโปรแกรมของโปรตีนที่รู้จัก

โมเดล AI ซึ่งเรียกว่าโมเดลภาษาโปรตีนทรานส์ฟอร์มได้เรียนรู้สถาปัตยกรรมทั่วไปของโปรตีนโดยใช้ "การตั้งค่า" มากถึง 15 หมื่นล้านรายการ มันเห็นลำดับโปรตีนที่แตกต่างกันประมาณ 65 ล้านลำดับโดยรวม

ในขั้นตอนต่อไป ทีมได้ซ่อนจดหมายบางฉบับจาก AI โดยแจ้งให้เติมคำในช่องว่าง ในการเติมข้อความอัตโนมัติในจำนวนเท่าใด ในที่สุดโปรแกรมก็เรียนรู้ว่ากรดอะมิโนต่างๆ เชื่อมต่อ (หรือขับไล่) ซึ่งกันและกันอย่างไร ในท้ายที่สุด AI ได้สร้างความเข้าใจโดยสัญชาตญาณเกี่ยวกับลำดับโปรตีนวิวัฒนาการ และวิธีที่พวกมันทำงานร่วมกันเพื่อสร้างโปรตีนที่ใช้งานได้

สู่ความไม่รู้จัก

เพื่อเป็นการพิสูจน์แนวคิด ทีมทดสอบ ESMFold โดยใช้ชุดทดสอบที่รู้จักกันดีสองชุด หนึ่ง CAMEO เกี่ยวข้องกับเกือบ 200 โครงสร้าง; อีกอันคือ CASP14 มีโปรตีน 51 รูปร่างที่เผยแพร่สู่สาธารณะ

โดยรวมแล้ว AI "ให้ความแม่นยำในการทำนายโครงสร้างที่ล้ำสมัย" ทีมงานกล่าว "จับคู่ประสิทธิภาพของ AlphaFold2 บนโปรตีนมากกว่าครึ่ง" นอกจากนี้ยังจัดการกับคอมเพล็กซ์โปรตีนขนาดใหญ่ได้อย่างน่าเชื่อถือ ตัวอย่างเช่น ช่องบนเซลล์ประสาทที่ควบคุมการทำงานของพวกมัน

จากนั้นทีมก็พัฒนา AI ไปอีกขั้นโดยเข้าสู่โลกแห่งเมตาโกโนมิกส์

Metagenomes คือสิ่งที่ดูเหมือน: การผสมผสานของวัสดุ DNA โดยปกติสิ่งเหล่านี้จะมาจากแหล่งสิ่งแวดล้อม เช่น สิ่งสกปรกใต้ฝ่าเท้า น้ำทะเล หรือแม้แต่ช่องระบายความร้อนที่ไม่เอื้ออำนวย จุลินทรีย์ส่วนใหญ่ไม่สามารถเติบโตได้ในห้องแล็บ แต่บางชนิดก็มีพลังพิเศษ เช่น ต้านทานความร้อนระดับภูเขาไฟ ทำให้พวกมันกลายเป็นสสารมืดทางชีววิทยาที่ยังไม่ได้รับการสำรวจ

ในขณะที่เผยแพร่บทความนี้ AI ได้ทำนายโปรตีนเหล่านี้มากกว่า 600 ล้านตัว ยอดตอนนี้สูงถึงกว่า 700 ล้านแล้วกับการเปิดตัวครั้งล่าสุด การคาดการณ์เกิดขึ้นอย่างรวดเร็วและรุนแรงในเวลาประมาณสองสัปดาห์ ในทางตรงกันข้าม ความพยายามในการสร้างแบบจำลองก่อนหน้านี้ใช้เวลานานถึง 10 นาทีสำหรับโปรตีนเพียงตัวเดียว

ประมาณหนึ่งในสามของการคาดคะเนโปรตีนมีความมั่นใจสูง โดยมีรายละเอียดมากพอที่จะซูมเข้าไปในมาตราส่วนระดับอะตอม เนื่องจากการคาดคะเนโปรตีนขึ้นอยู่กับลำดับของพวกมันเท่านั้น "เอเลี่ยน" นับล้านจึงโผล่ขึ้นมา ซึ่งเป็นโครงสร้างที่ไม่เหมือนสิ่งใดในฐานข้อมูลที่จัดตั้งขึ้นหรือที่ทดสอบก่อนหน้านี้

“เป็นเรื่องน่าสนใจที่มากกว่า 10 เปอร์เซ็นต์ของการคาดคะเนเป็นโปรตีนที่ไม่มีความคล้ายคลึงกับโปรตีนอื่นๆ ที่รู้จัก” วาเลนเซียกล่าว อาจเป็นเพราะความมหัศจรรย์ของแบบจำลองภาษาซึ่งมีความยืดหยุ่นมากกว่าในการสำรวจและอาจสร้างลำดับที่ไม่เคยได้ยินมาก่อนซึ่งประกอบขึ้นเป็นโปรตีนที่ใช้งานได้ "นี่เป็นพื้นที่ใหม่สำหรับการออกแบบโปรตีนที่มีลำดับใหม่และคุณสมบัติทางชีวเคมีกับการประยุกต์ใช้ในเทคโนโลยีชีวภาพและชีวเวชศาสตร์" เขากล่าว

ตัวอย่างเช่น ESMFold อาจช่วยให้ทราบถึงผลที่ตามมาของการเปลี่ยนแปลงตัวอักษรเดี่ยวในโปรตีน เรียกว่าการกลายพันธุ์แบบจุด การแก้ไขที่ดูเหมือนจะไม่เป็นอันตรายเหล่านี้สร้างความหายนะในร่างกาย ทำให้เกิดกลุ่มอาการเมตาบอลิซึมที่ทำลายล้าง โรคโลหิตจางเซลล์รูปเคียว และมะเร็ง AI แบบลีน ค่าเฉลี่ย และค่อนข้างเรียบง่ายจะนำผลลัพธ์มาสู่ห้องปฏิบัติการวิจัยทางชีวการแพทย์โดยเฉลี่ย ขณะเดียวกันก็เพิ่มการคาดการณ์รูปร่างของโปรตีนด้วยความเร็วของ AI

นอกจากชีวเวชศาสตร์แล้ว แนวคิดที่น่าสนใจอีกประการหนึ่งก็คือโปรตีนอาจช่วยฝึกโมเดลภาษาขนาดใหญ่ในแบบที่ตำราไม่สามารถทำได้ ดังที่วาเลนเซียอธิบายว่า “ในแง่หนึ่ง ลำดับโปรตีนมีมากมายกว่าข้อความ มีขนาดที่กำหนดไว้มากกว่า และมีความแปรปรวนในระดับที่สูงกว่า ในทางกลับกัน โปรตีนมี 'ความหมาย' ภายในที่แข็งแกร่ง นั่นคือความสัมพันธ์ที่แน่นแฟ้นระหว่างลำดับและโครงสร้าง ความหมายหรือความเชื่อมโยงที่กระจายอยู่ในข้อความมากกว่ามาก

เครดิตภาพ: เมตาเอไอ

ประทับเวลา:

เพิ่มเติมจาก Hub เอกพจน์

นกกระตั้วของ Goffin เข้าร่วมกับมนุษย์และชิมแปนซีในฐานะสายพันธุ์ที่สามซึ่งแสดงให้เห็นว่ามีชุดเครื่องมือสำหรับงานในอนาคต

โหนดต้นทาง: 1954575
ประทับเวลา: กุมภาพันธ์ 12, 2023