Εκμάθηση ντοπαμίνης και χρονικής διαφοράς: Μια γόνιμη σχέση μεταξύ της νευροεπιστήμης και της τεχνητής νοημοσύνης

Κόμβος πηγής: 748169

Η μάθηση και τα κίνητρα οδηγούνται από εσωτερικές και εξωτερικές ανταμοιβές. Πολλές από τις καθημερινές μας συμπεριφορές καθοδηγούνται από την πρόβλεψη ή την πρόβλεψη, εάν μια δεδομένη ενέργεια θα οδηγήσει σε ένα θετικό (δηλαδή, ανταποδοτικό) αποτέλεσμα. Η μελέτη του τρόπου με τον οποίο οι οργανισμοί μαθαίνουν από την εμπειρία για να προβλέπουν σωστά τις ανταμοιβές ήταν ένα παραγωγικό ερευνητικό πεδίο για περισσότερο από έναν αιώνα, από τη θεμελιώδη ψυχολογική εργασία του Ivan Pavlov. Στο πιο διάσημο πείραμά του, τα σκυλιά εκπαιδεύτηκαν να περιμένουν φαγητό λίγη ώρα αφότου ακούστηκε ένα βομβητή. Αυτά τα σκυλιά άρχισαν να τρέχουν σάλια μόλις άκουσαν τον ήχο, πριν φτάσει το φαγητό, κάτι που δείχνει ότι είχαν μάθει να προβλέπουν την ανταμοιβή. Στο αρχικό πείραμα, ο Pavlov υπολόγισε την προσμονή των σκύλων μετρώντας τον όγκο του σάλιου που παρήγαγαν. Αλλά τις τελευταίες δεκαετίες, οι επιστήμονες έχουν αρχίσει να αποκρυπτογραφούν τις εσωτερικές λειτουργίες του τρόπου με τον οποίο ο εγκέφαλος μαθαίνει αυτές τις προσδοκίες. Εν τω μεταξύ, σε στενή επαφή με αυτή τη μελέτη της μάθησης ανταμοιβής σε ζώα, επιστήμονες υπολογιστών ανέπτυξαν αλγόριθμους για την ενίσχυση της μάθησης σε τεχνητά συστήματα. Αυτοί οι αλγόριθμοι επιτρέπουν στα συστήματα τεχνητής νοημοσύνης να μαθαίνουν πολύπλοκες στρατηγικές χωρίς εξωτερική οδηγία, καθοδηγούμενες από προβλέψεις ανταμοιβής. 

Η συμβολή της νέας μας δουλειάς, δημοσιεύθηκε στο Nature (PDF), διαπιστώνει ότι μια πρόσφατη εξέλιξη στην επιστήμη των υπολογιστών – η οποία αποφέρει σημαντικές βελτιώσεις στην απόδοση σε προβλήματα ενίσχυσης μάθησης – μπορεί να παρέχει μια βαθιά, φειδωλή εξήγηση για πολλά ανεξήγητα προηγουμένως χαρακτηριστικά της μάθησης ανταμοιβής στον εγκέφαλο και ανοίγει νέους δρόμους έρευνας σε το σύστημα ντοπαμίνης του εγκεφάλου, με πιθανές επιπτώσεις για διαταραχές μάθησης και κινήτρων.

Μια αλυσίδα πρόβλεψης: μάθηση χρονικής διαφοράς

Η ενισχυτική μάθηση είναι μια από τις παλαιότερες και πιο ισχυρές ιδέες που συνδέουν τη νευροεπιστήμη και την τεχνητή νοημοσύνη. Στα τέλη της δεκαετίας του 1980, ερευνητές της επιστήμης των υπολογιστών προσπαθούσαν να αναπτύξουν αλγόριθμους που θα μπορούσαν να μάθουν πώς να εκτελούν σύνθετες συμπεριφορές μόνοι τους, χρησιμοποιώντας μόνο ανταμοιβές και τιμωρίες ως διδακτικό σήμα. Αυτές οι ανταμοιβές θα χρησίμευαν για να ενισχύσουν όποιες συμπεριφορές οδήγησαν στην απόκτησή τους. Για να λύσετε ένα δεδομένο πρόβλημα, είναι απαραίτητο να κατανοήσετε πώς οι τρέχουσες ενέργειες οδηγούν σε μελλοντικές ανταμοιβές. Για παράδειγμα, ένας μαθητής μπορεί να μάθει μέσω της ενίσχυσης ότι η μελέτη για μια εξέταση οδηγεί σε καλύτερες βαθμολογίες στα τεστ. Για να προβλέψετε τη συνολική μελλοντική ανταμοιβή που θα προκύψει από μια ενέργεια, είναι συχνά απαραίτητο να αιτιολογήσετε πολλά βήματα στο μέλλον. 

Μια σημαντική ανακάλυψη στην επίλυση του προβλήματος της πρόβλεψης ανταμοιβής ήταν η αλγόριθμος εκμάθησης χρονικής διαφοράς (TD).. Το TD χρησιμοποιεί ένα μαθηματικό τέχνασμα για να αντικαταστήσει τη σύνθετη λογική για το μέλλον με μια πολύ απλή διαδικασία μάθησης που μπορεί να παράγει τα ίδια αποτελέσματα. Αυτό είναι το κόλπο: αντί να προσπαθεί να υπολογίσει τη συνολική μελλοντική ανταμοιβή, η TD απλώς προσπαθεί να προβλέψει τον συνδυασμό της άμεσης ανταμοιβής και τη δική του πρόβλεψη ανταμοιβής την επόμενη χρονική στιγμή. Στη συνέχεια, όταν έρθει η επόμενη στιγμή, που φέρει νέες πληροφορίες, η νέα πρόβλεψη συγκρίνεται με αυτό που αναμενόταν να είναι. Εάν είναι διαφορετικά, ο αλγόριθμος υπολογίζει πόσο διαφορετικά είναι και χρησιμοποιεί αυτή τη «χρονική διαφορά» για να προσαρμόσει την παλιά πρόβλεψη προς τη νέα πρόβλεψη. Προσπαθώντας πάντα να φέρνουμε αυτούς τους αριθμούς πιο κοντά σε κάθε στιγμή – ταιριάζοντας τις προσδοκίες στην πραγματικότητα – ολόκληρη η αλυσίδα πρόβλεψης γίνεται σταδιακά πιο ακριβής. 

Περίπου την ίδια εποχή, στα τέλη της δεκαετίας του '80 και στις αρχές της δεκαετίας του '90, ήταν νευροεπιστήμονες αγωνίζονται να κατανοήσουν τη συμπεριφορά των νευρώνων ντοπαμίνης. Οι νευρώνες ντοπαμίνης συγκεντρώνονται στον μεσαίο εγκέφαλο, αλλά στέλνουν προβολές σε πολλές περιοχές του εγκεφάλου, μεταδίδοντας ενδεχομένως κάποιο παγκόσμιο σχετικό μήνυμα. Ήταν σαφές ότι η εκτόξευση αυτών των νευρώνων είχε κάποια σχέση με την ανταμοιβή, αλλά οι αποκρίσεις τους εξαρτιόνταν επίσης από την αισθητηριακή είσοδο και άλλαζαν καθώς τα ζώα έγιναν πιο έμπειρα σε μια δεδομένη εργασία.

Τυχαία, ορισμένοι ερευνητές ήταν έμπειροι στις πρόσφατες εξελίξεις τόσο της νευροεπιστήμης όσο και της τεχνητής νοημοσύνης. Αυτοί οι επιστήμονες παρατηρήσει, στα μέσα της δεκαετίας του 1990, ότι οι αποκρίσεις σε ορισμένους νευρώνες ντοπαμίνης αντιπροσώπευαν σφάλματα πρόβλεψης ανταμοιβής – η πυροδότηση τους σήμανε όταν το ζώο έλαβε περισσότερη ανταμοιβή ή λιγότερη ανταμοιβή από ό,τι είχε εκπαιδευτεί να περίμενε. Ως εκ τούτου, αυτοί οι ερευνητές πρότειναν ότι ο εγκέφαλος χρησιμοποιεί έναν αλγόριθμο μάθησης TD: υπολογίζεται ένα σφάλμα πρόβλεψης ανταμοιβής, μεταδίδεται στον εγκέφαλο μέσω του σήματος ντοπαμίνης και χρησιμοποιείται για την προώθηση της μάθησης. Από τότε, το θεωρία σφάλματος πρόβλεψης ανταμοιβής της ντοπαμίνης έχει δοκιμαστεί και επικυρωθεί σε χιλιάδες πειράματα και έχει γίνει μια από τις πιο επιτυχημένες ποσοτικές θεωρίες στη νευροεπιστήμη.

Ενίσχυση της διανομής

Πηγή: https://deepmind.com/blog/article/Dopamine-and-temporal-difference-learning-A-fruitful-relationship-between-neuroscience-and-AI

Σφραγίδα ώρας:

Περισσότερα από Deep Mind - Τελευταία ανάρτηση