Meta’s New AI Is Digging Into The Most Mysterious Proteins On Earth

הועלה מחדש על ידי אפלטון

עוקב: 0

המירוץ לפתרון כל מבנה חלבון רק קיבל בברכה ענקית טכנולוגיה נוספת: Meta AI.

נצר מחקר של Meta, הידוע בפייסבוק ובאינסטגרם, הצוות הגיע לזירת חיזוי צורת החלבון במטרה שאפתנית: לפענח את "החומר האפל" של יקום החלבון. חלבונים אלה נמצאים לעתים קרובות בחיידקים, וירוסים ומיקרואורגניזמים אחרים, והם שוכנים בסביבות היומיומיות שלנו, אך הם תעלומות מוחלטות למדע.

"אלה המבנים שאנחנו הכי פחות יודעים עליהם. אלו חלבונים מסתוריים להפליא. אני חושב שהם מציעים פוטנציאל לתובנה גדולה בביולוגיה", אמר הסופר הבכיר ד"ר אלכסנדר ריבס ל טבע.

במילים אחרות, הם אוצר של השראה לביוטכנולוגיה. בצורות החשאיות שלהם מסתתרים מפתחות לעיצוב דלק ביולוגי יעיל, אַנְטִיבִּיוֹטִיקָה, אנזימים, או אפילו אורגניזמים חדשים לגמרי. בתורו, הנתונים מחיזוי חלבון יכולים לאמן עוד מודלים של AI.

בלב ה-AI החדש של Meta, המכונה ESMFold, נמצא מודל שפה גדול. זה אולי נשמע מוכר. האלגוריתמים האלה של למידת מכונה כבשו את העולם בסערה עם צ'אטבוט הרוקסטאר ChatGPT. ידוע ביכולתו ליצור חיבורים, שירים ומילים יפים בעזרת הנחיות פשוטות, ChatGPT - והשק לאחרונה GPT-4- מאומנים עם מיליוני טקסטים הזמינים לציבור. בסופו של דבר ה-AI לומד לחזות אותיות, מילים ואפילו לכתוב פסקאות שלמות, ובמקרה של הצ'אטבוט הדומה של בינג, להחזיק שיחות שלפעמים הופכים מעט מטרידים.

המחקר החדש, פורסם ב מדע, מגשר בין מודל הבינה המלאכותית לביולוגיה. חלבונים עשויים מ-20 "אותיות". הודות לאבולוציה, רצף האותיות עוזר ליצור את הצורות האולטימטיביות שלהן. אם מודלים של שפה גדולים יכולים לפרש בקלות את 26 האותיות של האלפבית האנגלי למסרים קוהרנטיים, מדוע הם לא יכולים לעבוד גם עבור חלבונים?

ספוילר: הם כן. ESM-2 עבר כ-600 מיליון תחזיות של מבנה חלבון תוך שבועיים בלבד תוך שימוש ב-2,000 יחידות עיבוד גרפיות (GPU). בהשוואה לניסיונות קודמים, הבינה המלאכותית הפכה את התהליך למהיר עד פי 60. המחברים הכניסו כל מבנה ל-ESM Metagenomic Atlas, אותו תוכלו לחקור כאן.

לד"ר אלפונסו ולנסיה במרכז המחשוב הלאומי של ברצלונה (BCS), שלא היה מעורב בעבודה, היופי בשימוש במערכות שפה גדולות הוא "פשטות מושגית." עם פיתוח נוסף, הבינה המלאכותית יכולה לחזות "את המבנה של חלבונים לא טבעיים, ולהרחיב את היקום הידוע מעבר למה שחקרו תהליכים אבולוציוניים".

בואו נדבר אבולוציה

ESMFold עוקב אחר קו מנחה פשוט: רצף מנבא מבנה.

בואו נחזור אחורה. חלבונים עשויים מ-20 חומצות אמינו - כל אחת מהן "אות" - ונמתחים כמו חרוזים קוצניים על חוט. לאחר מכן, התאים שלנו מעצבים אותם למאפיינים עדינים: חלקם נראים כמו סדינים מקומטים, אחרים כמו מקל ממתקים מתערבל או סרטים רופפים. לאחר מכן החלבונים יכולים לתפוס זה את זה כדי ליצור מרובה - לדוגמה, מנהרה שחוצה את קרום תאי המוח השולטת בפעולותיו, ובתמורה שולטת כיצד אנו חושבים וזוכרים.

מדענים יודעים זה מכבר שאותיות חומצות אמינו עוזרות לעצב את המבנה הסופי של חלבון. בדומה לאותיות או תווים בשפה, רק חלקים מסוימים כשהם מחוברים זה לזה הגיוניים. במקרה של חלבונים, הרצפים הללו הופכים אותם לתפקודיים.

"התכונות הביולוגיות של חלבון מגבילות את המוטציות לרצף שלו שנבחרות באמצעות האבולוציה", אמרו המחברים.

בדומה לאופן שבו אותיות שונות באלפבית מתכנסות ליצירת מילים, משפטים ופסקאות מבלי להישמע כמו ג'יבריש מוחלט, אותיות החלבון עושות את אותו הדבר. יש "מילון אבולוציוני" מסוגים שעוזר לחבר חומצות אמינו למבנים שהגוף יכול להבין.

"ההיגיון של רצף חומצות האמינו בחלבונים ידועים הוא תוצאה של תהליך אבולוציוני שהוביל להם את המבנה הספציפי שבו הם מבצעים תפקיד מסוים", אמר ולנסיה.

מר AI, עשה לי חלבון

המילון המצומצם יחסית של החיים הוא חדשות נהדרות עבור דגמי שפות גדולים.

מודלים אלה של AI סורקים טקסטים זמינים כדי ללמוד ולבנות תחזיות של המילה הבאה. התוצאה הסופית, כפי שניתן לראות ב-GPT-3 וב-ChatGPT, הן שיחות טבעיות להפליא ותמונות אמנותיות פנטסטיות.

Meta AI השתמש באותו מושג, אבל כתב מחדש את ספר המשחקים לחיזוי מבנה חלבון. במקום להאכיל את האלגוריתם בטקסטים, הם נתנו לתוכנית רצפים של חלבונים ידועים.

מודל הבינה המלאכותית - הנקרא מודל שפת חלבון שנאי - למד את הארכיטקטורה הכללית של חלבונים באמצעות עד 15 מיליארד "הגדרות". זה ראה בערך 65 מיליון רצפי חלבונים שונים בסך הכל.

בשלב הבא הצוות החביא מכתבים מסוימים מה-AI, מה שהנחה אותו למלא את החסר. במה שמסתכם בהשלמה אוטומטית, התוכנית למדה בסופו של דבר כיצד חומצות אמינו שונות מתחברים (או דוחים) זו את זו. בסופו של דבר, הבינה המלאכותית יצרה הבנה אינטואיטיבית של רצפי חלבונים אבולוציוניים - וכיצד הם פועלים יחד כדי ליצור חלבונים פונקציונליים.

אל הלא נודע

כהוכחה לקונספט, הצוות בדק את ESMFold באמצעות שני ערכות בדיקה ידועות. אחד, CAMEO, כלל כמעט 200 מבנים; השני, CASP14, יש 51 צורות חלבון שפורסמו לציבור.

בסך הכל, הבינה המלאכותית "מספקת דיוק חיזוי מבנה מתקדם", אמר הצוות, "התאמת ביצועים של AlphaFold2 על יותר ממחצית החלבונים". הוא גם התמודד בצורה מהימנה עם קומפלקסים חלבונים גדולים - למשל, הערוצים על נוירונים השולטים בפעולות שלהם.

לאחר מכן, הצוות לקח את הבינה המלאכותית שלהם צעד קדימה, תוך שהוא יוצא לעולם המטגנומיקה.

מטאנומים הם מה שהם נשמעים: צרור של חומר DNA. בדרך כלל אלה מגיעים ממקורות סביבתיים כגון הלכלוך מתחת לרגליים, מי ים, או אפילו פתחים תרמיים בלתי מסבירי פנים. רוב החיידקים אינם ניתנים לגידול מלאכותי במעבדות, אך לחלקם יש כוחות-על כגון התנגדות לחום ברמה געשית, מה שהופך אותם לחומר אפל ביולוגי שטרם נחקר.

בזמן פרסום המאמר, ה-AI חזה למעלה מ-600 מיליון חלבונים אלה. הספירה היא כעת למעלה מ-700 מיליון עם המהדורה האחרונה. התחזיות הגיעו במהירות ובזעם תוך כשבועיים. לעומת זאת, ניסיונות דוגמנות קודמים ארכו עד 10 דקות עבור חלבון בודד בלבד.

בערך שליש מתחזיות החלבון היו בעלות ביטחון גבוה, עם מספיק פרטים כדי להתקרב לסולם ברמה האטומית. מכיוון שחיזוי החלבון התבססו אך ורק על הרצפים שלהם, צצו מיליוני "חייזרים" - מבנים שלא דומים לשום דבר בבסיסי נתונים מבוססים או כאלה שנבדקו בעבר.

"מעניין שיותר מ-10 אחוז מהתחזיות מיועדות לחלבונים שאינם דומים לחלבונים ידועים אחרים", אמר ולנסיה. ייתכן שזה נובע מהקסם של מודלים של שפה, שהם הרבה יותר גמישים בחקר - ואפשר ליצור - רצפים שלא נשמעו בעבר שמרכיבים חלבונים פונקציונליים. "זהו מרחב חדש לעיצוב של חלבונים עם רצפים חדשים ותכונות ביוכימיות עם יישומים בביוטכנולוגיה וביורפואה", אמר.

כדוגמה, ESMFold עשוי לעזור לבחון את ההשלכות של שינויים באות אחת בחלבון. הנקראות מוטציות נקודתיות, העריכות השפירות הללו גוררות הרס בגוף, וגורמות לתסמונות מטבוליות הרסניות, אנמיה חרמשית וסרטן. בינה מלאכותית רזה, מרושעת ופשוטה יחסית מביאה תוצאות למעבדת המחקר הביו-רפואי הממוצעת, תוך כדי קנה המידה של תחזיות צורת החלבון הודות למהירות ה-AI.

מלבד ביו-רפואה, רעיון מרתק נוסף הוא שחלבונים עשויים לעזור לאמן מודלים של שפות גדולות באופן שבו טקסטים לא יכולים. כפי שהסביר ולנסיה, "מצד אחד, רצפי חלבון הם בשפע יותר מטקסטים, יש להם גדלים מוגדרים יותר ודרגה גבוהה יותר של שונות. מצד שני, לחלבונים יש 'משמעות' פנימית חזקה - כלומר, קשר חזק בין רצף למבנה, משמעות או קוהרנטיות הרבה יותר מפוזרת בטקסטים", המגשרת בין שני השדות ללולאת משוב סגולה.

תמונת אשראי: מטא AI