Meta’s New AI Is Digging Into The Most Mysterious Proteins On Earth

بازنشر افلاطون

دنبال: 0

مسابقه برای حل هر ساختار پروتئینی به تازگی از یک غول فناوری دیگر استقبال کرد: Meta AI.

این تیم که شاخه تحقیقاتی متا است که برای فیس بوک و اینستاگرام شناخته می شود، با یک هدف بلندپروازانه وارد صحنه پیش بینی شکل پروتئین شد: رمزگشایی از "ماده تاریک" جهان پروتئین. این پروتئین‌ها که اغلب در باکتری‌ها، ویروس‌ها و سایر میکروارگانیسم‌ها یافت می‌شوند، در محیط‌های روزمره زندگی می‌کنند، اما رازهای کاملی برای علم هستند.

«اینها ساختارهایی هستند که ما کمتر از آن می دانیم. اینها پروتئین های فوق العاده مرموزی هستند. من فکر می کنم که آنها پتانسیلی برای بینش عالی در مورد زیست شناسی ارائه می دهند. گفت: نویسنده ارشد دکتر الکساندر ریوز به طبیعت.

به عبارت دیگر، آنها گنجینه ای از الهام بخش بیوتکنولوژی هستند. در شکل های مخفی آنها کلیدهایی برای طراحی پنهان است سوخت های زیستی کارآمد, آنتی بیوتیک ها, آنزیم ها، یا حتی موجودات کاملاً جدید. به نوبه خود، داده های حاصل از پیش بینی های پروتئین می تواند مدل های هوش مصنوعی را بیشتر آموزش دهد.

در قلب هوش مصنوعی جدید متا، با نام ESMFold، یک مدل زبان بزرگ وجود دارد. ممکن است آشنا به نظر برسد. این الگوریتم‌های یادگیری ماشینی با ربات چت راک استار ChatGPT، دنیا را به طوفان برده‌اند. به دلیل توانایی خود در تولید مقالات، اشعار و اشعار زیبا با اعلان های ساده، ChatGPT و اخیراً راه اندازی شده شناخته شده است. GPT-4- با میلیون ها متن در دسترس عموم آموزش داده شده اند. در نهایت هوش مصنوعی یاد می گیرد که حروف، کلمات را پیش بینی کند و حتی کل پاراگراف ها را بنویسد و در مورد چت بات مشابه بینگ، آن را نگه دارد. گفتگو که گاهی کمی آزاردهنده می شوند.

مطالعه جدید ، منتشر شده در علم، مدل هوش مصنوعی را با زیست شناسی پل می کند. پروتئین ها از 20 "حرف" ساخته شده اند. به لطف تکامل، توالی حروف به ایجاد شکل نهایی آنها کمک می کند. اگر مدل های زبان بزرگ می توانند به راحتی 26 حرف الفبای انگلیسی را به پیام های منسجم تبدیل کنند، چرا نمی توانند برای پروتئین ها نیز کار کنند؟

اسپویلر: آنها انجام می دهند. ESM-2 با استفاده از 600 واحد پردازش گرافیکی (GPU) حدود 2,000 میلیون پیش‌بینی ساختار پروتئین را تنها در دو هفته انجام داد. در مقایسه با تلاش‌های قبلی، هوش مصنوعی این فرآیند را تا 60 برابر سریع‌تر کرد. نویسندگان هر ساختاری را در ESM Metagenomic Atlas قرار داده‌اند که می‌توانید آن را بررسی کنید اینجا کلیک نمایید.

برای دکتر آلفونسو والنسیا در مرکز ملی ابرکامپیوتر بارسلونا (BCS) که در این کار دخالتی نداشت، زیبایی استفاده از سیستم‌های زبان بزرگ این است.سادگی مفهومی" با توسعه بیشتر، هوش مصنوعی می‌تواند «ساختار پروتئین‌های غیرطبیعی را پیش‌بینی کند و جهان شناخته‌شده را فراتر از آنچه فرآیندهای تکاملی کشف کرده‌اند، گسترش دهد».

بیایید درباره تکامل صحبت کنیم

ESMFold از یک دستورالعمل ساده پیروی می کند: توالی ساختار را پیش بینی می کند.

بیایید به عقب برگردیم. پروتئین ها از 20 اسید آمینه ساخته می شوند - هر کدام یک "حرف" - و مانند مهره های سیخ دار روی یک ریسمان قرار می گیرند. سلول‌های ما سپس آن‌ها را به شکل ویژگی‌های ظریف در می‌آورند: برخی شبیه ملحفه‌های چروکیده به نظر می‌رسند، برخی دیگر مانند یک عصا آب نبات چرخان یا روبان‌های گشاد. سپس پروتئین‌ها می‌توانند روی یکدیگر چنگ بزنند و یک مولتی پلکس را تشکیل دهند - برای مثال، تونلی که از غشای سلول مغز عبور می‌کند و اعمال آن را کنترل می‌کند و به نوبه خود نحوه تفکر و یادآوری ما را کنترل می‌کند.

دانشمندان مدت‌هاست که می‌دانند حروف اسید آمینه به شکل‌دهی ساختار نهایی پروتئین کمک می‌کنند. مشابه حروف یا نویسه‌ها در یک زبان، فقط برخی از حروف زمانی که در کنار هم قرار می‌گیرند معنا پیدا می‌کنند. در مورد پروتئین ها، این توالی ها آنها را کاربردی می کنند.

نویسندگان می‌گویند: «خواص بیولوژیکی یک پروتئین، جهش‌ها را در توالی آن که از طریق تکامل انتخاب می‌شوند، محدود می‌کند».

حروف پروتئینی، مشابه نحوه همگرایی حروف مختلف در الفبا برای ایجاد کلمات، جملات، و پاراگراف‌ها بدون اینکه به نظر بیهوده باشند، همین کار را می‌کنند. یک "فرهنگ لغت تکاملی" وجود دارد که به ترکیب آمینو اسیدها در ساختارهایی که بدن می تواند درک کند کمک می کند.

والنسیا می گوید: منطق توالی آمینو اسیدها در پروتئین های شناخته شده نتیجه یک فرآیند تکاملی است که باعث شده آنها ساختار خاصی داشته باشند که با آن عملکرد خاصی را انجام می دهند.

آقای هوش مصنوعی، مرا یک پروتئین بساز

فرهنگ لغت نسبتا محدود زندگی است خبر عالی برای مدل های زبان بزرگ.

این مدل‌های هوش مصنوعی متون در دسترس را برای یادگیری و پیش‌بینی کلمه بعدی جستجو می‌کنند. نتیجه نهایی، همانطور که در GPT-3 و ChatGPT دیده می شود، مکالمات طبیعی و تصاویر هنری خارق العاده است.

هوش مصنوعی متا از همین مفهوم استفاده کرد، اما کتاب بازی را برای پیش‌بینی ساختار پروتئین بازنویسی کرد. آنها به جای تغذیه الگوریتم با متون، توالی هایی از پروتئین های شناخته شده را به برنامه دادند.

مدل هوش مصنوعی - که مدل زبان پروتئین ترانسفورماتور نامیده می شود - معماری کلی پروتئین ها را با استفاده از حداکثر 15 میلیارد "تنظیمات" یاد گرفت. به طور کلی حدود 65 میلیون توالی پروتئین مختلف را مشاهده کرد.

در مرحله بعدی تیم حروف خاصی را از هوش مصنوعی مخفی کرد و باعث شد که جاهای خالی را پر کند. در مقدار تکمیل خودکار، برنامه در نهایت یاد گرفت که چگونه اسیدهای آمینه مختلف به یکدیگر متصل می شوند (یا دفع می کنند). در پایان، هوش مصنوعی درک شهودی از توالی‌های پروتئینی تکاملی و نحوه کار آنها برای ساخت پروتئین‌های کاربردی با هم ایجاد کرد.

به ناشناخته

به عنوان اثبات مفهوم، تیم ESMFold را با استفاده از دو مجموعه تست معروف آزمایش کرد. یکی، CAMEO، شامل نزدیک به 200 ساختار بود. دیگری، CASP14، دارای 51 شکل پروتئینی است که به صورت عمومی منتشر شده است.

به گفته این تیم، به طور کلی، هوش مصنوعی «دقت پیش‌بینی ساختار پیشرفته‌ای را ارائه می‌کند»، «با عملکرد AlphaFold2 در بیش از نیمی از پروتئین‌ها مطابقت دارد». همچنین به طور قابل اعتمادی با کمپلکس‌های پروتئینی بزرگ مقابله کرد - به عنوان مثال، کانال‌های روی نورون‌ها که اعمال آنها را کنترل می‌کنند.

سپس این تیم هوش مصنوعی خود را یک قدم جلوتر بردند و به دنیای متاژنومیکس وارد شدند.

متاژنوم ها همان چیزی هستند که به نظر می رسند: توده ای از مواد DNA. معمولاً اینها از منابع محیطی مانند کثیفی زیر پای شما، آب دریا یا حتی دریچه‌های حرارتی غیر قابل مهمان‌نواز می‌آیند. بسیاری از میکروب‌ها را نمی‌توان به‌طور مصنوعی در آزمایشگاه‌ها رشد داد، با این حال برخی از آن‌ها دارای قدرت‌های فوق‌العاده‌ای مانند مقاومت در برابر حرارت در سطح آتشفشانی هستند که آنها را به یک ماده تاریک بیولوژیکی تبدیل می‌کند که هنوز کشف نشده است.

در زمان انتشار مقاله، هوش مصنوعی بیش از 600 میلیون از این پروتئین ها را پیش بینی کرده بود. این تعداد در حال حاضر با آخرین نسخه به بیش از 700 میلیون رسیده است. پیش‌بینی‌ها در عرض دو هفته سریع و خشمگینانه انجام شد. در مقابل، تلاش‌های مدل‌سازی قبلی تنها برای یک پروتئین تنها 10 دقیقه طول می‌کشید.

تقریباً یک سوم از پیش‌بینی‌های پروتئین از اطمینان بالایی برخوردار بودند و جزئیات کافی برای بزرگ‌نمایی در مقیاس سطح اتمی داشتند. از آنجایی که پیش‌بینی‌های پروتئین صرفاً بر اساس توالی‌های آن‌ها بود، میلیون‌ها «بیگانه» ظاهر شدند – ساختارهایی که شبیه هر چیزی در پایگاه‌های داده‌ای تأسیس‌شده یا آن‌هایی که قبلاً آزمایش شده بودند، نداشتند.

والنسیا گفت: «جالب است که بیش از 10 درصد از پیش‌بینی‌ها مربوط به پروتئین‌هایی است که هیچ شباهتی به پروتئین‌های شناخته‌شده دیگر ندارند». این ممکن است به دلیل جادوی مدل‌های زبانی باشد که در کاوش - و به طور بالقوه تولید - بسیار انعطاف‌پذیرتر هستند که قبلاً توالی‌هایی که پروتئین‌های کاربردی را می‌سازند شنیده نشده بود. او گفت: «این فضای جدیدی برای طراحی پروتئین‌ها با توالی‌های جدید و خواص بیوشیمیایی با کاربرد در بیوتکنولوژی و زیست‌پزشکی است.»

به عنوان مثال، ESMFold می تواند به طور بالقوه به بررسی پیامدهای تغییرات تک حرفی در پروتئین کمک کند. این ویرایش‌های به ظاهر خوش‌خیم که جهش‌های نقطه‌ای نامیده می‌شوند، در بدن ویران می‌کنند و باعث سندرم‌های متابولیک ویرانگر، کم خونی سلول داسی شکل و سرطان می‌شوند. یک هوش مصنوعی ضعیف، متوسط و نسبتا ساده نتایج را برای آزمایشگاه تحقیقاتی زیست پزشکی متوسط به ارمغان می آورد، در حالی که به لطف سرعت هوش مصنوعی، پیش بینی های شکل پروتئین را افزایش می دهد.

گذشته از بیوپزشکی، ایده جذاب دیگر این است که پروتئین ها ممکن است به آموزش مدل های زبانی بزرگ به گونه ای که متون نمی توانند کمک کنند. همانطور که والنسیا توضیح داد، "از یک طرف، توالی های پروتئینی فراوان تر از متون هستند، اندازه های تعریف شده تر و درجه تنوع بالاتری دارند. از سوی دیگر، پروتئین‌ها یک "معنا" درونی قوی دارند - یعنی یک رابطه قوی بین توالی و ساختار، معنا یا انسجامی که در متون بسیار پراکنده‌تر است.

تصویر های اعتباری: هوش مصنوعی متا