الذكاء الاصطناعي الجديد في Meta يحفر في البروتينات الأكثر غموضًا على وجه الأرض

الذكاء الاصطناعي الجديد في Meta يحفر في البروتينات الأكثر غموضًا على وجه الأرض

عقدة المصدر: 2022738

السباق لحل كل بنية بروتينية رحب للتو بعملاق تقني آخر: Meta AI.

فرع بحثي من Meta ، معروف بفيسبوك وإنستغرام ، جاء الفريق إلى مشهد التنبؤ بأشكال البروتين بهدف طموح: فك شفرة "المادة المظلمة" لكون البروتين. غالبًا ما توجد هذه البروتينات في البكتيريا والفيروسات والكائنات الدقيقة الأخرى ، وهي موجودة في بيئاتنا اليومية ولكنها ألغاز كاملة للعلم.

"هذه هي الهياكل التي نعرف عنها أقل قدر ممكن. هذه بروتينات غامضة بشكل لا يصدق. أعتقد أنها توفر إمكانية الحصول على نظرة ثاقبة في علم الأحياء ، " محمد كبير المؤلفين الدكتور الكسندر رايفز ل طبيعة.

بمعنى آخر ، إنها كنز دفين للإلهام للتكنولوجيا الحيوية. مخبأة في أشكالها السرية هي مفاتيح التصميم وقود حيوي فعال, مضادات حيوية, الانزيمات، او حتى كائنات جديدة تمامًا. في المقابل ، يمكن للبيانات المستمدة من تنبؤات البروتين أن تدرب نماذج الذكاء الاصطناعي بشكل أكبر.

في قلب نظام الذكاء الاصطناعي الجديد في Meta ، الملقب بـ ESMFold ، يوجد نموذج لغوي كبير. قد يبدو مألوفًا. استحوذت خوارزميات التعلم الآلي هذه على العالم من خلال روبوت الدردشة Rockstar ChatGPT. معروف بقدرته على إنشاء مقالات وقصائد وكلمات جميلة بمطالبات بسيطة ، ChatGPT - والإصدار الذي تم إطلاقه مؤخرًا GPT-4—تم تدريبه باستخدام ملايين النصوص المتاحة للجمهور. في النهاية ، يتعلم الذكاء الاصطناعي التنبؤ بالحروف والكلمات وحتى كتابة فقرات كاملة ، وفي حالة روبوت الدردشة المماثل لـ Bing ، اضغط على المحادثات التي تتحول في بعض الأحيان إلى بعض القلق.

الدراسة الجديدة نشرت في علوم، يربط نموذج الذكاء الاصطناعي بالبيولوجيا. تتكون البروتينات من 20 "حرفًا". بفضل التطور ، يساعد تسلسل الحروف في تكوين أشكالها النهائية. إذا كانت النماذج اللغوية الكبيرة يمكنها بسهولة تفسير 26 حرفًا من الأبجدية الإنجليزية إلى رسائل متماسكة ، فلماذا لا تعمل أيضًا مع البروتينات؟

المفسد: يفعلون. أطلق ESM-2 ما يقرب من 600 مليون تنبؤ ببنية البروتين في أسبوعين فقط باستخدام 2,000 وحدة معالجة رسومية (GPUs). مقارنة بالمحاولات السابقة ، جعلت منظمة العفو الدولية العملية أسرع بما يصل إلى 60 مرة. وضع المؤلفون كل هيكل في ESM Metagenomic Atlas ، والذي يمكنك استكشافه هنا.

بالنسبة للدكتور ألفونسو فالنسيا في المركز الوطني للحوسبة الفائقة (BCS) في برشلونة ، والذي لم يشارك في العمل ، فإن جمال استخدام أنظمة اللغة الكبيرة هو "البساطة المفاهيمية. " مع مزيد من التطوير ، يمكن للذكاء الاصطناعي أن يتنبأ "ببنية البروتينات غير الطبيعية ، مما يوسع الكون المعروف بما يتجاوز ما استكشفته العمليات التطورية."

لنتحدث عن التطور

يتبع ESMFold إرشادات بسيطة: التسلسل يتنبأ بالبنية.

دعونا نتراجع. تتكون البروتينات من 20 حمضًا أمينيًا - كل واحد منها "حرف" - ومربوط مثل خرز شائك على خيط. ثم تقوم خلايانا بتشكيلها في ميزات دقيقة: بعضها يشبه ملاءات السرير المجعدة ، والبعض الآخر مثل قصب الحلوى أو شرائط فضفاضة. يمكن للبروتينات بعد ذلك أن تلتصق ببعضها البعض لتشكيل تعدد الإرسال - على سبيل المثال ، نفق يعبر غشاء خلية الدماغ الذي يتحكم في أفعاله ، وبالتالي يتحكم في طريقة تفكيرنا وتذكرنا.

لقد عرف العلماء منذ فترة طويلة أن أحرف الأحماض الأمينية تساعد في تشكيل الهيكل النهائي للبروتين. على غرار الحروف أو الأحرف في اللغة ، فإن بعض الأحرف فقط عندما يتم دمجها معًا يكون لها معنى. في حالة البروتينات ، تجعل هذه التسلسلات وظيفية.

قال المؤلفون: "الخصائص البيولوجية للبروتين تقيد الطفرات في تسلسلها الذي يتم اختياره من خلال التطور".

على غرار كيفية تقارب الأحرف المختلفة في الأبجدية لإنشاء كلمات وجمل وفقرات دون أن تبدو مثل رطانة كاملة ، فإن أحرف البروتين تفعل الشيء نفسه. يوجد "قاموس تطوري" من الأنواع التي تساعد على ربط الأحماض الأمينية في هياكل يمكن للجسم استيعابها.

قال فالنسيا: "إن منطق تعاقب الأحماض الأمينية في البروتينات المعروفة هو نتيجة لعملية تطورية أدت بها إلى الحصول على البنية المحددة التي تؤدي بها وظيفة معينة".

السيد AI ، اجعلني بروتين

قاموس الحياة المحدود نسبيًا أخبار رائعة لنماذج اللغات الكبيرة.

تبحث نماذج الذكاء الاصطناعي هذه عن النصوص المتاحة بسهولة للتعلم وبناء تنبؤات بالكلمة التالية. النتيجة النهائية ، كما رأينا في GPT-3 و ChatGPT ، هي محادثات طبيعية بشكل مذهل وصور فنية خيالية.

استخدمت Meta AI نفس المفهوم ، لكنها أعادت كتابة قواعد اللعبة لتنبؤات بنية البروتين. وبدلاً من تغذية الخوارزمية بالنصوص ، قاموا بإعطاء تسلسل البرنامج للبروتينات المعروفة.

تعلم نموذج الذكاء الاصطناعي - المسمى بنموذج لغة بروتين المحولات - البنية العامة للبروتينات باستخدام ما يصل إلى 15 مليار "إعداد". وشهدت ما يقرب من 65 مليون تسلسل بروتين مختلف بشكل عام.

في خطوتهم التالية ، أخفى الفريق أحرفًا معينة من الذكاء الاصطناعي ، مما دفعه لملء الفراغات. في ما يرقى إلى الإكمال التلقائي ، تعلم البرنامج في النهاية كيف تتصل الأحماض الأمينية المختلفة (أو تتنافر) مع بعضها البعض. في النهاية ، شكل الذكاء الاصطناعي فهمًا بديهيًا لتسلسلات البروتين التطوري - وكيف تعمل معًا لصنع بروتينات وظيفية.

في المجهول

كدليل على المفهوم ، اختبر الفريق ESMFold باستخدام مجموعتين من الاختبارات المعروفة. واحدة ، CAMEO ، تضم ما يقرب من 200 بناء ؛ الآخر ، CASP14 ، يحتوي على 51 شكلاً بروتينيًا تم إصداره للجمهور.

بشكل عام ، يوفر الذكاء الاصطناعي "دقة تنبؤًا بأحدث الهياكل ،" كما قال الفريق ، "مطابقة أداء AlphaFold2 على أكثر من نصف البروتينات." كما تعامل بشكل موثوق مع المجمعات البروتينية الكبيرة - على سبيل المثال ، القنوات الموجودة على الخلايا العصبية التي تتحكم في أفعالها.

ثم اتخذ الفريق خطوة أخرى للذكاء الاصطناعي ، مغامرًا في عالم الميتاجينوميات.

الميتاجينوم هو ما يبدو عليه: خليط من مادة الحمض النووي. عادةً ما تأتي هذه من مصادر بيئية مثل الأوساخ الموجودة تحت قدميك أو مياه البحر أو حتى الفتحات الحرارية غير الملائمة عادةً. لا يمكن زراعة معظم الميكروبات صناعياً في المختبرات ، ومع ذلك فإن بعضها يمتلك قوى خارقة مثل مقاومة الحرارة البركانية ، مما يجعلها مادة مظلمة بيولوجية لم يتم استكشافها بعد.

في الوقت الذي نُشرت فيه الورقة البحثية ، توقعت منظمة العفو الدولية أكثر من 600 مليون من هذه البروتينات. يصل العدد الآن إلى أكثر من 700 مليون مع الإصدار الأخير. جاءت التوقعات سريعة وغاضبة في غضون أسبوعين تقريبًا. في المقابل ، استغرقت محاولات النمذجة السابقة ما يصل إلى 10 دقائق لبروتين واحد فقط.

ما يقرب من ثلث توقعات البروتين كانت ذات ثقة عالية ، مع تفاصيل كافية للتكبير في مقياس المستوى الذري. ولأن تنبؤات البروتين كانت تستند فقط إلى تسلسلها ، فقد ظهرت ملايين "الكائنات الفضائية" ـ هياكل لا تشبه أي شيء في قواعد البيانات المعمول بها أو تلك التي تم اختبارها سابقًا.

قال فالنسيا: "من المثير للاهتمام أن أكثر من 10 في المائة من التوقعات تتعلق ببروتينات لا تشبه البروتينات الأخرى المعروفة". قد يكون ذلك بسبب سحر النماذج اللغوية ، التي هي أكثر مرونة بكثير في استكشاف - وربما توليد - متواليات لم يسمع بها من قبل من قبل تشكل بروتينات وظيفية. قال "هذه مساحة جديدة لتصميم البروتينات بتسلسلات جديدة وخصائص كيميائية حيوية مع تطبيقات في التكنولوجيا الحيوية والطب الحيوي".

على سبيل المثال ، يمكن أن يساعد ESMFold في اكتشاف عواقب التغييرات أحادية الحرف في البروتين. تسمى الطفرات النقطية ، هذه التعديلات التي تبدو حميدة تعيث فسادا في الجسم ، وتسبب متلازمات أيضية مدمرة ، وفقر الدم المنجلي ، والسرطان. يوفر الذكاء الاصطناعي الخفيف والمتوسط ​​والبسيط نسبيًا النتائج لمختبر البحوث الطبية الحيوية المتوسط ​​، مع زيادة تنبؤات شكل البروتين بفضل سرعة الذكاء الاصطناعي.

وبغض النظر عن الطب الحيوي ، هناك فكرة رائعة أخرى وهي أن البروتينات قد تساعد في تدريب نماذج لغوية كبيرة بطريقة لا تستطيع النصوص القيام بها. كما أوضحت فالنسيا ، "من ناحية أخرى ، تكون تسلسلات البروتين أكثر وفرة من النصوص ، ولها أحجام أكثر تحديدًا ، ودرجة أعلى من التباين. من ناحية أخرى ، تمتلك البروتينات "معنى" داخليًا قويًا - أي علاقة قوية بين التسلسل والبنية ، وهو معنى أو تماسك أكثر انتشارًا في النصوص "، مما يربط بين الحقلين في حلقة تغذية راجعة حميدة.

الصورة الائتمان: ميتا AI

الطابع الزمني:

اكثر من التفرد المحور