Meta の新しい AI は地球上で最も謎に満ちたタンパク質を解明しています

プラトン再発行

フォロワー： 0

すべてのタンパク質構造を解明する競争に、もう XNUMX つの技術巨人、Meta AI が登場しました。

Facebook や Instagram で知られる Meta の研究分派であるチームは、タンパク質の宇宙の「暗黒物質」を解読するという野心的な目標を持って、タンパク質の形状予測シーンに参入しました。バクテリア、ウイルス、その他の微生物によく見られるこれらのタンパク質は、私たちの日常の環境でくつろいでいますが、科学にとって完全な謎です.

「これらは、私たちが最もよく知らない構造です。これらは信じられないほど神秘的なタンパク質です。それらは生物学への素晴らしい洞察の可能性を提供すると思います。」とシニアオーサーのアレクサンダー・リヴェス博士 自然。

つまり、バイオテクノロジーのインスピレーションの宝庫です。秘密の形に隠されたデザインの鍵効率的なバイオ燃料, 抗生物質, 酵素、あるいはまったく新しい生物. 次に、タンパク質予測からのデータは、AI モデルをさらにトレーニングする可能性があります。

ESMFold と呼ばれる Meta の新しい AI の中心にあるのは、大規模な言語モデルです。聞き覚えがあるかもしれません。これらの機械学習アルゴリズムは、ロックスターチャットボット ChatGPT で世界を席巻しました。シンプルなプロンプトで美しいエッセイ、詩、歌詞を生成できることで知られる ChatGPT と、最近リリースされた GPT-4—公開されている数百万のテキストでトレーニングされています。最終的に、AI は文字、単語を予測し、段落全体を書くことさえ学習します。Bing の同様のチャットボットの場合は、会話それは時々少し不安になります。

新しい研究、に発表され科学、AI モデルを生物学と橋渡しします。タンパク質は20個の「文字」でできています。進化のおかげで、一連の文字は究極の形を生み出すのに役立ちます. 大規模な言語モデルが、英語のアルファベットの 26 文字を首尾一貫したメッセージに簡単に解釈できるのであれば、タンパク質に対しても機能しないのはなぜでしょうか?

ネタバレ：そうです。 ESM-2 は、600 のグラフィックプロセッシングユニット (GPU) を使用して、わずか 2,000 週間で約 60 億のタンパク質構造予測を実行しました。以前の試みと比較して、AI はプロセスを最大 XNUMX 倍高速化しました。著者は、すべての構造を ESM メタゲノムアトラスにまとめました。こちら.

バルセロナ国立スーパーコンピューティングセンター (BCS) の Alfonso Valencia 博士は、この作業には関与していませんが、大規模な言語システムを使用することの美しさは「概念的なシンプルさ」さらなる開発により、AI は「非天然タンパク質の構造を予測し、既知の宇宙を進化プロセスが探求したものを超えて拡大する」ことができます。

進化について話しましょう

ESMFold は単純なガイドラインに従います: シーケンスは構造を予測します。

後戻りしましょう。タンパク質は 20 個のアミノ酸 (それぞれが「文字」) からできており、ひもにとがったビーズのように張り巡らされています。私たちの細胞はそれらを繊細な形に形作ります。あるものはしわくちゃのベッドシーツのように見え、あるものは渦巻き状のキャンディー杖やゆるいリボンのように見えます. 次に、タンパク質は互いにくっついてマルチプレックスを形成します。たとえば、脳細胞の膜を横切るトンネルがその作用を制御し、次に私たちの思考や記憶の仕方を制御します。

科学者たちは、アミノ酸文字がタンパク質の最終構造を形成するのに役立つことを長い間知っていました. 言語の文字や文字と同様に、特定の文字を組み合わせたときにのみ意味をなします。タンパク質の場合、これらの配列がタンパク質を機能させます。

「タンパク質の生物学的特性は、進化を通じて選択されたその配列への突然変異を制限します」と著者らは述べています。

アルファベットのさまざまな文字が収束して単語、文章、および段落を作成するのと同様に、完全な意味不明のように聞こえることはありませんが、タンパク質文字も同じことを行います. 体が理解できる構造にアミノ酸をつなぎ合わせるのに役立つ一種の「進化辞書」があります.

「既知のタンパク質におけるアミノ酸の連続の論理は、それらが特定の機能を果たす特定の構造を持つように導いた進化過程の結果です」とバレンシアは言いました.

AIさん、私をプロテインにしてください

人生の比較的限られた辞書は大規模な言語モデルにとって朗報.

これらの AI モデルは、すぐに利用できるテキストを精査して学習し、次の単語の予測を構築します。 GPT-3 や ChatGPT で見られるように、最終的な結果は驚くほど自然な会話と幻想的な芸術的なイメージです。

メタ AI は同じ概念を使用しましたが、タンパク質構造予測のプレイブックを書き直しました。アルゴリズムにテキストを入力するのではなく、既知のタンパク質のプログラムシーケンスを与えました。

トランスフォーマータンパク質言語モデルと呼ばれる AI モデルは、最大 15 億の「設定」を使用して、タンパク質の一般的な構造を学習しました。全体で約 65 万の異なるタンパク質配列が見られました。

次のステップで、チームは AI から特定の文字を隠し、空欄を埋めるよう促しました。オートコンプリートに相当するもので、プログラムは最終的に、さまざまなアミノ酸がどのように互いに接続 (または反発) するかを学習しました。最終的に、AI は進化上のタンパク質配列と、それらがどのように連携して機能的なタンパク質を作るかについての直感的な理解を形成しました。

未知へ

概念実証として、チームは 200 つのよく知られたテストセットを使用して ESMFold をテストしました。 14 つは CAMEO で、51 近くの構造物が関係していました。もう XNUMX つの CASPXNUMX には、公開された XNUMX のタンパク質形状があります。

全体として、AI は「最先端の構造予測精度を提供します」とチームは言い、「半分以上のタンパク質で AlphaFold2 のパフォーマンスに匹敵します」と述べています。また、大きなタンパク質複合体、たとえば、ニューロンの活動を制御するニューロンのチャネルにも確実に取り組みました。

その後、チームは AI をさらに一歩進め、メタゲノミクスの世界に足を踏み入れました。

メタゲノムとは、その名の通り、DNA 物質の寄せ集めです。通常、これらは足元の汚れ、海水、または通常は不快な通気孔などの環境源から発生します. ほとんどの微生物は実験室で人工的に培養することはできませんが、中には火山レベルの熱に抵抗するなどの超能力を持っているものもあり、まだ調査されていない生物学的暗黒物質となっています。

この論文が発表された時点で、AI はこれらのタンパク質を 600 億個以上予測していました。その数は、最新のリリースで 700 億を超えています。予測は、約 10 週間で猛烈な速さで実現しました。対照的に、以前のモデリングの試みでは、単一のタンパク質だけで最大 XNUMX 分かかりました。

タンパク質予測の約 XNUMX 分の XNUMX は信頼性が高く、原子レベルのスケールにズームするのに十分な詳細がありました。タンパク質の予測はその配列のみに基づいていたため、確立されたデータベースや以前にテストされたものとは異なる構造である、何百万もの「エイリアン」が現れました。

「予測の 10% 以上が、他の既知のタンパク質とは似ていないタンパク質に関するものであることは興味深いことです」と Valencia 氏は述べています。これは、言語モデルの魔法によるものかもしれません。言語モデルは、機能性タンパク質を構成するこれまで聞いたことのない配列を探索し、潜在的に生成する際にはるかに柔軟です。「これは、バイオテクノロジーと生物医学への応用を伴う、新しい配列と生化学的特性を備えたタンパク質の設計のための新しい空間です」と彼は言いました.

例として、ESMFold は、タンパク質の XNUMX 文字の変化の結果を推測するのに役立つ可能性があります。点突然変異と呼ばれるこれらの一見良性の編集は、壊滅的なメタボリックシンドローム、鎌状赤血球貧血、および癌を引き起こし、身体に大混乱をもたらします。無駄がなく平均的で比較的単純な AI は、平均的な生物医学研究ラボに結果をもたらす一方で、AI の速度のおかげでタンパク質の形状予測をスケールアップします。

生物医学はさておき、もう XNUMX つの興味深いアイデアは、テキストではできない方法で、タンパク質が大規模な言語モデルのトレーニングに役立つ可能性があるというものです。 Valencia 氏は次のように説明しています。一方、タンパク質は強い内部の「意味」を持っています。つまり、配列と構造の間に強い関係があり、意味や一貫性がテキストでははるかに拡散しています。」

画像のクレジット：メタAI