Το νέο AI της Meta σκάβει στις πιο μυστηριώδεις πρωτεΐνες στη Γη

Το νέο AI της Meta σκάβει στις πιο μυστηριώδεις πρωτεΐνες στη Γη

Κόμβος πηγής: 2022738

Ο αγώνας για την επίλυση κάθε δομής πρωτεΐνης μόλις καλωσόρισε έναν άλλο τεχνολογικό γίγαντα: το Meta AI.

Ένα ερευνητικό παρακλάδι του Meta, γνωστό για το Facebook και το Instagram, η ομάδα ήρθε στη σκηνή πρόβλεψης σχήματος πρωτεΐνης με έναν φιλόδοξο στόχο: να αποκρυπτογραφήσει τη «σκοτεινή ύλη» του πρωτεϊνικού σύμπαντος. Αυτές οι πρωτεΐνες που βρίσκονται συχνά σε βακτήρια, ιούς και άλλους μικροοργανισμούς, βρίσκονται στο καθημερινό μας περιβάλλον, αλλά αποτελούν εντελώς μυστήρια για την επιστήμη.

«Αυτές είναι οι δομές για τις οποίες γνωρίζουμε λιγότερο. Αυτές είναι απίστευτα μυστηριώδεις πρωτεΐνες. Νομίζω ότι προσφέρουν τη δυνατότητα για μεγάλη εικόνα της βιολογίας.» είπε ανώτερος συγγραφέας Δρ. Alexander Rives να Φύση.

Με άλλα λόγια, είναι ένας θησαυρός έμπνευσης για τη βιοτεχνολογία. Στα μυστικά τους σχήματα κρύβονται τα κλειδιά για το σχεδιασμό αποδοτικά βιοκαύσιμα, αντιβιοτικά, ένζυμα, ή ακόμη και εντελώς νέους οργανισμούς. Με τη σειρά τους, τα δεδομένα από τις προβλέψεις πρωτεϊνών θα μπορούσαν να εκπαιδεύσουν περαιτέρω τα μοντέλα AI.

Στην καρδιά του νέου AI της Meta, που ονομάστηκε ESMFold, βρίσκεται ένα μεγάλο μοντέλο γλώσσας. Μπορεί να ακούγεται οικείο. Αυτοί οι αλγόριθμοι μηχανικής μάθησης έχουν κατακλύσει τον κόσμο με το rockstar chatbot ChatGPT. Γνωστό για την ικανότητά του να δημιουργεί όμορφα δοκίμια, ποιήματα και στίχους με απλές προτροπές, το ChatGPT—και το πρόσφατα κυκλοφόρησε GPT-4— εκπαιδεύονται με εκατομμύρια δημόσια διαθέσιμα κείμενα. Τελικά το AI μαθαίνει να προβλέπει γράμματα, λέξεις, ακόμη και να γράφει ολόκληρες παραγράφους και, στην περίπτωση του παρόμοιου chatbot του Bing, κρατά συνομιλίες που μερικές φορές γίνονται ελαφρώς εκνευριστικά.

Η νέα μελέτη, δημοσιευτηκε σε Επιστήμη, γεφυρώνει το μοντέλο AI με τη βιολογία. Οι πρωτεΐνες αποτελούνται από 20 «γράμματα». Χάρη στην εξέλιξη, η αλληλουχία των γραμμάτων βοηθά στη δημιουργία των απόλυτων σχημάτων τους. Εάν τα μεγάλα γλωσσικά μοντέλα μπορούν εύκολα να ερμηνεύσουν τα 26 γράμματα του αγγλικού αλφαβήτου σε συνεκτικά μηνύματα, γιατί δεν μπορούν να λειτουργήσουν και για τις πρωτεΐνες;

Spoiler: το κάνουν. Το ESM-2 πραγματοποίησε περίπου 600 εκατομμύρια προβλέψεις δομής πρωτεϊνών σε μόλις δύο εβδομάδες χρησιμοποιώντας 2,000 μονάδες επεξεργασίας γραφικών (GPUs). Σε σύγκριση με προηγούμενες προσπάθειες, το AI έκανε τη διαδικασία έως και 60 φορές πιο γρήγορη. Οι συγγραφείς τοποθετούν κάθε δομή στον Μεταγονιδιωματικό Άτλαντα του ESM, τον οποίο μπορείτε να εξερευνήσετε εδώ.

Για τον Δρ. Alfonso Valencia στο Εθνικό Κέντρο Υπερυπολογιστών της Βαρκελώνης (BCS), ο οποίος δεν συμμετείχε στην εργασία, η ομορφιά της χρήσης μεγάλων γλωσσικών συστημάτων είναι μια «εννοιολογική απλότητα.» Με περαιτέρω ανάπτυξη, το AI μπορεί να προβλέψει «τη δομή των μη φυσικών πρωτεϊνών, επεκτείνοντας το γνωστό σύμπαν πέρα ​​από αυτό που έχουν εξερευνήσει οι εξελικτικές διαδικασίες».

Ας μιλήσουμε για την εξέλιξη

Το ESMFold ακολουθεί μια απλή οδηγία: η ακολουθία προβλέπει τη δομή.

Ας κάνουμε πίσω. Οι πρωτεΐνες είναι φτιαγμένες από 20 αμινοξέα - το καθένα ένα «γράμμα» - και δένονται σαν αιχμηρές χάντρες σε ένα κορδόνι. Τα κύτταρά μας στη συνέχεια τα διαμορφώνουν σε ευαίσθητα χαρακτηριστικά: μερικά μοιάζουν με τσαλακωμένα σεντόνια, άλλα σαν στροβιλιζόμενα μπαστούνια από ζαχαρωτά ή χαλαρές κορδέλες. Οι πρωτεΐνες μπορούν στη συνέχεια να αρπάξουν η μία την άλλη για να σχηματίσουν ένα πολυπλέκτη - για παράδειγμα, μια σήραγγα που διασχίζει τη μεμβράνη των εγκεφαλικών κυττάρων που ελέγχει τις ενέργειές της και με τη σειρά της ελέγχει τον τρόπο σκέψης και μνήμης.

Οι επιστήμονες γνώριζαν από καιρό ότι τα γράμματα αμινοξέων βοηθούν στη διαμόρφωση της τελικής δομής μιας πρωτεΐνης. Παρόμοια με τα γράμματα ή τους χαρακτήρες σε μια γλώσσα, μόνο ορισμένοι όταν συνδυάζονται έχουν νόημα. Στην περίπτωση των πρωτεϊνών, αυτές οι αλληλουχίες τις καθιστούν λειτουργικές.

«Οι βιολογικές ιδιότητες μιας πρωτεΐνης περιορίζουν τις μεταλλάξεις στην αλληλουχία της που επιλέγονται μέσω της εξέλιξης», είπαν οι συγγραφείς.

Παρόμοια με το πώς συγκλίνουν διαφορετικά γράμματα στο αλφάβητο για να δημιουργήσουν λέξεις, προτάσεις και παραγράφους χωρίς να ακούγονται σαν εντελώς ασυναρτησίες, τα πρωτεϊνικά γράμματα κάνουν το ίδιο. Υπάρχει ένα είδος «εξελικτικού λεξικού» που βοηθά στη συγκέντρωση αμινοξέων σε δομές που μπορεί να κατανοήσει το σώμα.

«Η λογική της διαδοχής των αμινοξέων σε γνωστές πρωτεΐνες είναι το αποτέλεσμα μιας εξελικτικής διαδικασίας που τις οδήγησε να έχουν τη συγκεκριμένη δομή με την οποία εκτελούν μια συγκεκριμένη λειτουργία», είπε η Βαλένθια.

Κύριε AI, Make Me a Protein

Το σχετικά περιορισμένο λεξικό της Life είναι σπουδαία νέα για μεγάλα γλωσσικά μοντέλα.

Αυτά τα μοντέλα τεχνητής νοημοσύνης αναζητούν άμεσα διαθέσιμα κείμενα για να μάθουν και να δημιουργήσουν προβλέψεις για την επόμενη λέξη. Το τελικό αποτέλεσμα, όπως φαίνεται στο GPT-3 και στο ChatGPT, είναι εντυπωσιακά φυσικές συνομιλίες και φανταστικές καλλιτεχνικές εικόνες.

Η Meta AI χρησιμοποίησε την ίδια ιδέα, αλλά ξανάγραψε το βιβλίο για προβλέψεις δομής πρωτεΐνης. Αντί να τροφοδοτούν τον αλγόριθμο με κείμενα, έδωσαν στο πρόγραμμα αλληλουχίες γνωστών πρωτεϊνών.

Το μοντέλο AI - που ονομάζεται μοντέλο γλώσσας πρωτεΐνης μετασχηματιστή - έμαθε τη γενική αρχιτεκτονική των πρωτεϊνών χρησιμοποιώντας έως και 15 δισεκατομμύρια "ρυθμίσεις". Είδε περίπου 65 εκατομμύρια διαφορετικές αλληλουχίες πρωτεϊνών συνολικά.

Στο επόμενο βήμα, η ομάδα έκρυψε ορισμένα γράμματα από το AI, με αποτέλεσμα να συμπληρώσει τα κενά. Σε τι ισοδυναμεί με αυτόματη συμπλήρωση, το πρόγραμμα τελικά έμαθε πώς διαφορετικά αμινοξέα συνδέονται (ή απωθούν) μεταξύ τους. Στο τέλος, η τεχνητή νοημοσύνη σχημάτισε μια διαισθητική κατανόηση των εξελικτικών αλληλουχιών πρωτεϊνών - και πώς συνεργάζονται για να δημιουργήσουν λειτουργικές πρωτεΐνες.

Στο Άγνωστο

Ως απόδειξη της ιδέας, η ομάδα δοκίμασε το ESMFold χρησιμοποιώντας δύο γνωστά σετ δοκιμών. Ένα, το CAMEO, περιλάμβανε σχεδόν 200 δομές. το άλλο, το CASP14, έχει 51 σχήματα πρωτεϊνών που κυκλοφόρησαν δημόσια.

Συνολικά, η τεχνητή νοημοσύνη «παρέχει υπερσύγχρονη ακρίβεια πρόβλεψης δομής», είπε η ομάδα, «ταιριάζοντας την απόδοση του AlphaFold2 σε περισσότερες από τις μισές πρωτεΐνες». Αντιμετώπισε επίσης αξιόπιστα μεγάλα συμπλέγματα πρωτεϊνών - για παράδειγμα, τα κανάλια στους νευρώνες που ελέγχουν τις ενέργειές τους.

Στη συνέχεια, η ομάδα πήγε το AI της ένα βήμα παραπέρα, μπαίνοντας στον κόσμο της μεταγονιδιωματικής.

Τα μεταγονιδιώματα είναι αυτό που ακούγονται: μια συστοιχία υλικού DNA. Κανονικά αυτά προέρχονται από περιβαλλοντικές πηγές, όπως η βρωμιά κάτω από τα πόδια σας, το θαλασσινό νερό ή ακόμα και οι συνήθως αφιλόξενοι θερμικοί αεραγωγοί. Τα περισσότερα από τα μικρόβια δεν μπορούν να αναπτυχθούν τεχνητά σε εργαστήρια, ωστόσο ορισμένα έχουν υπερδυνάμεις όπως η αντίσταση στη θερμότητα σε επίπεδο ηφαιστείου, καθιστώντας τα μια βιολογική σκοτεινή ύλη που δεν έχει ακόμη εξερευνηθεί.

Την εποχή που δημοσιεύτηκε το έγγραφο, η τεχνητή νοημοσύνη είχε προβλέψει πάνω από 600 εκατομμύρια από αυτές τις πρωτεΐνες. Ο αριθμός είναι πλέον πάνω από 700 εκατομμύρια με την τελευταία κυκλοφορία. Οι προβλέψεις ήρθαν γρήγορα και εξαγριωμένες σε περίπου δύο εβδομάδες. Αντίθετα, οι προηγούμενες προσπάθειες μοντελοποίησης χρειάστηκαν έως και 10 λεπτά για μία μόνο πρωτεΐνη.

Περίπου το ένα τρίτο των προβλέψεων πρωτεΐνης ήταν υψηλής εμπιστοσύνης, με αρκετή λεπτομέρεια για μεγέθυνση στην κλίμακα ατομικού επιπέδου. Επειδή οι προβλέψεις πρωτεϊνών βασίστηκαν αποκλειστικά στις αλληλουχίες τους, εκατομμύρια «εξωγήινοι» εμφανίστηκαν - δομές που δεν μοιάζουν με τίποτα σε καθιερωμένες βάσεις δεδομένων ή σε αυτές που είχαν δοκιμαστεί προηγουμένως.

«Είναι ενδιαφέρον ότι περισσότερο από το 10 τοις εκατό των προβλέψεων αφορά πρωτεΐνες που δεν έχουν καμία ομοιότητα με άλλες γνωστές πρωτεΐνες», δήλωσε η Βαλένθια. Θα μπορούσε να οφείλεται στη μαγεία των γλωσσικών μοντέλων, τα οποία είναι πολύ πιο ευέλικτα στην εξερεύνηση -και δυνητικά να δημιουργήσουν- σειρές που δεν είχαν ακουστεί στο παρελθόν που συνθέτουν λειτουργικές πρωτεΐνες. «Αυτός είναι ένας νέος χώρος για το σχεδιασμό πρωτεϊνών με νέες αλληλουχίες και βιοχημικές ιδιότητες με εφαρμογές στη βιοτεχνολογία και τη βιοϊατρική», είπε.

Για παράδειγμα, το ESMFold θα μπορούσε ενδεχομένως να βοηθήσει στον εντοπισμό των συνεπειών των αλλαγών ενός γράμματος σε μια πρωτεΐνη. Αυτές οι φαινομενικά καλοήθεις τροποποιήσεις, που ονομάζονται σημειακές μεταλλάξεις, προκαλούν όλεθρο στο σώμα, προκαλώντας καταστροφικά μεταβολικά σύνδρομα, δρεπανοκυτταρική αναιμία και καρκίνο. Μια λιτή, μέτρια και σχετικά απλή τεχνητή νοημοσύνη φέρνει αποτελέσματα στο μέσο εργαστήριο βιοϊατρικής έρευνας, ενώ κλιμακώνει τις προβλέψεις σχήματος πρωτεΐνης χάρη στην ταχύτητα του AI.

Πέρα από τη βιοϊατρική, μια άλλη συναρπαστική ιδέα είναι ότι οι πρωτεΐνες μπορεί να βοηθήσουν στην εκπαίδευση μεγάλων γλωσσικών μοντέλων με τρόπο που τα κείμενα δεν μπορούν. Όπως εξήγησε η Βαλένθια, «Από τη μια πλευρά, οι αλληλουχίες πρωτεϊνών είναι πιο άφθονες από τα κείμενα, έχουν πιο καθορισμένα μεγέθη και υψηλότερο βαθμό μεταβλητότητας. Από την άλλη πλευρά, οι πρωτεΐνες έχουν ένα ισχυρό εσωτερικό «νόημα»—δηλαδή μια ισχυρή σχέση μεταξύ αλληλουχίας και δομής, ένα νόημα ή συνοχή που είναι πολύ πιο διάχυτη στα κείμενα», γεφυρώνοντας τα δύο πεδία σε έναν ενάρετο βρόχο ανατροφοδότησης.

Image Credit: Meta AI

Σφραγίδα ώρας:

Περισσότερα από Κέντρο μοναδικότητας