Αποσυσκευασία του «μαύρου κουτιού» για τη δημιουργία καλύτερων μοντέλων AI

Αποσυσκευασία του «μαύρου κουτιού» για τη δημιουργία καλύτερων μοντέλων AI

Κόμβος πηγής: 1885922

Όταν τα μοντέλα βαθιάς μάθησης αναπτύσσονται στον πραγματικό κόσμο, ίσως για την ανίχνευση οικονομικής απάτης από τη δραστηριότητα πιστωτικών καρτών ή τον εντοπισμό του καρκίνου σε ιατρικές εικόνες, είναι συχνά σε θέση να ξεπεράσουν τους ανθρώπους.

Αλλά τι ακριβώς μαθαίνουν αυτά τα μοντέλα βαθιάς μάθησης; Ένα μοντέλο που έχει εκπαιδευτεί να εντοπίζει τον καρκίνο του δέρματος σε κλινικές εικόνες, για παράδειγμα, μαθαίνει πραγματικά τα χρώματα και τις υφές του καρκινικού ιστού ή επισημαίνει κάποια άλλα χαρακτηριστικά ή μοτίβα;

Αυτά τα ισχυρά μοντέλα μηχανικής μάθησης βασίζονται συνήθως σε τεχνητά νευρωνικά δίκτυα που μπορεί να έχει εκατομμύρια κόμβους που επεξεργάζονται δεδομένα για να κάνουν προβλέψεις. Λόγω της πολυπλοκότητάς τους, οι ερευνητές συχνά αποκαλούν αυτά τα μοντέλα «μαύρα κουτιά», επειδή ακόμη και οι επιστήμονες που τα κατασκεύασαν δεν καταλαβαίνουν όλα όσα συμβαίνουν κάτω από την κουκούλα.

Η Stefanie Jegelka δεν είναι ικανοποιημένη με αυτή την εξήγηση του «μαύρου κουτιού». Ο Jegelka, πρόσφατα αναπληρωτής καθηγητής στο Τμήμα Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών του MIT, σκάβει βαθιά στη βαθιά μάθηση για να κατανοήσει τι μπορούν να μάθουν αυτά τα μοντέλα και πώς συμπεριφέρονται και πώς να ενσωματώσουν ορισμένες προηγούμενες πληροφορίες σε αυτά τα μοντέλα.

«Στο τέλος της ημέρας, το τι θα μάθει ένα μοντέλο βαθιάς μάθησης εξαρτάται από τόσους πολλούς παράγοντες. Αλλά η οικοδόμηση μιας κατανόησης που να είναι σχετική στην πράξη θα μας βοηθήσει να σχεδιάσουμε καλύτερα μοντέλα και επίσης να κατανοήσουμε τι συμβαίνει μέσα σε αυτά, ώστε να γνωρίζουμε πότε μπορούμε να αναπτύξουμε ένα μοντέλο και πότε όχι. Αυτό είναι εξαιρετικά σημαντικό», λέει ο Jegelka, ο οποίος είναι επίσης μέλος του Computer Science and Artificial Intelligence Laboratory (CSAIL) και του Institute for Data, Systems and Society (IDSS).

Ο Jegelka ενδιαφέρεται ιδιαίτερα για τη βελτιστοποίηση των μοντέλων μηχανικής μάθησης όταν τα δεδομένα εισόδου έχουν τη μορφή γραφημάτων. Τα δεδομένα γραφήματος θέτουν συγκεκριμένες προκλήσεις: Για παράδειγμα, οι πληροφορίες στα δεδομένα αποτελούνται τόσο από πληροφορίες για μεμονωμένους κόμβους και ακμές, όσο και από τη δομή — τι συνδέεται με τι. Επιπλέον, τα γραφήματα έχουν μαθηματικές συμμετρίες που πρέπει να τηρούνται από το μοντέλο μηχανικής μάθησης, έτσι ώστε, για παράδειγμα, το ίδιο γράφημα να οδηγεί πάντα στην ίδια πρόβλεψη. Η δημιουργία τέτοιων συμμετριών σε ένα μοντέλο μηχανικής μάθησης συνήθως δεν είναι εύκολη.

Πάρτε μόρια, για παράδειγμα. Τα μόρια μπορούν να αναπαρασταθούν ως γραφήματα, με κορυφές που αντιστοιχούν σε άτομα και ακμές που αντιστοιχούν σε χημικούς δεσμούς μεταξύ τους. Οι εταιρείες φαρμάκων μπορεί να θέλουν να χρησιμοποιήσουν τη βαθιά μάθηση για να προβλέψουν γρήγορα τις ιδιότητες πολλών μορίων, περιορίζοντας τον αριθμό που πρέπει να δοκιμάσουν φυσικά στο εργαστήριο.

Ο Jegelka μελετά μεθόδους για την κατασκευή μαθηματικών μοντέλων μηχανικής μάθησης που μπορούν να λάβουν αποτελεσματικά δεδομένα γραφήματος ως είσοδο και να εξάγουν κάτι άλλο, σε αυτή την περίπτωση μια πρόβλεψη των χημικών ιδιοτήτων ενός μορίου. Αυτό είναι ιδιαίτερα δύσκολο αφού οι ιδιότητες ενός μορίου καθορίζονται όχι μόνο από τα άτομα μέσα σε αυτό, αλλά και από τις μεταξύ τους συνδέσεις.  

Άλλα παραδείγματα μηχανικής εκμάθησης σε γραφήματα περιλαμβάνουν τη δρομολόγηση κυκλοφορίας, τη σχεδίαση τσιπ και τα συστήματα συστάσεων.

Ο σχεδιασμός αυτών των μοντέλων γίνεται ακόμη πιο δύσκολος από το γεγονός ότι τα δεδομένα που χρησιμοποιούνται για την εκπαίδευσή τους είναι συχνά διαφορετικά από τα δεδομένα που βλέπουν τα μοντέλα στην πράξη. Ίσως το μοντέλο να εκπαιδεύτηκε χρησιμοποιώντας μικρά μοριακά γραφήματα ή δίκτυα κυκλοφορίας, αλλά τα γραφήματα που βλέπει μόλις αναπτυχθούν είναι μεγαλύτερα ή πιο περίπλοκα.

Σε αυτήν την περίπτωση, τι μπορούν να περιμένουν οι ερευνητές να μάθει αυτό το μοντέλο και θα συνεχίσει να λειτουργεί στην πράξη εάν τα δεδομένα του πραγματικού κόσμου είναι διαφορετικά;

«Το μοντέλο σας δεν πρόκειται να μπορεί να μάθει τα πάντα λόγω ορισμένων προβλημάτων σκληρότητας στην επιστήμη των υπολογιστών, αλλά τι μπορείτε να μάθετε και τι δεν μπορείτε να μάθετε εξαρτάται από το πώς ρυθμίζετε το μοντέλο», λέει η Jegelka.

Προσεγγίζει αυτό το ερώτημα συνδυάζοντας το πάθος της για τους αλγόριθμους και τα διακριτά μαθηματικά με τον ενθουσιασμό της για τη μηχανική μάθηση.

Από τις πεταλούδες στη βιοπληροφορική

Η Jegelka μεγάλωσε σε μια μικρή πόλη της Γερμανίας και άρχισε να ενδιαφέρεται για την επιστήμη όταν ήταν μαθήτρια γυμνασίου. ένας υποστηρικτικός δάσκαλος την ενθάρρυνε να συμμετάσχει σε έναν διεθνή επιστημονικό διαγωνισμό. Αυτή και οι συμπαίκτες της από τις ΗΠΑ και τη Σιγκαπούρη κέρδισαν ένα βραβείο για έναν ιστότοπο που δημιούργησαν για τις πεταλούδες, σε τρεις γλώσσες.

«Για το έργο μας, τραβήξαμε εικόνες φτερών με ηλεκτρονικό μικροσκόπιο σάρωσης σε ένα τοπικό πανεπιστήμιο εφαρμοσμένων επιστημών. Είχα επίσης την ευκαιρία να χρησιμοποιήσω μια κάμερα υψηλής ταχύτητας στη Mercedes Benz - αυτή η κάμερα συνήθως τραβούσε κινητήρες εσωτερικής καύσης - την οποία χρησιμοποίησα για να τραβήξω ένα βίντεο αργής κίνησης με την κίνηση των φτερών μιας πεταλούδας. Ήταν η πρώτη φορά που ήρθα πραγματικά σε επαφή με την επιστήμη και την εξερεύνηση», θυμάται.

Ενδιαφερόμενος τόσο από τη βιολογία όσο και από τα μαθηματικά, η Jegelka αποφάσισε να σπουδάσει βιοπληροφορική στο Πανεπιστήμιο του Tübingen και στο Πανεπιστήμιο του Τέξας στο Austin. Είχε μερικές ευκαιρίες να διεξάγει έρευνα ως προπτυχιακός, συμπεριλαμβανομένης μιας πρακτικής άσκησης στην υπολογιστική νευροεπιστήμη στο Πανεπιστήμιο Georgetown, αλλά δεν ήταν σίγουρη ποια καριέρα θα ακολουθούσε.

Όταν επέστρεψε για το τελευταίο της έτος στο κολέγιο, η Jegelka μετακόμισε με δύο συγκάτοικοι που εργάζονταν ως βοηθοί ερευνητές στο Ινστιτούτο Max Planck στο Tübingen.

«Εργάζονταν στη μηχανική εκμάθηση και αυτό μου φάνηκε πολύ ωραίο. Έπρεπε να γράψω την πτυχιακή μου διατριβή, οπότε ρώτησα στο ινστιτούτο αν είχαν κάποιο έργο για μένα. Άρχισα να εργάζομαι στη μηχανική μάθηση στο Ινστιτούτο Max Planck και μου άρεσε. Έμαθα τόσα πολλά εκεί και ήταν ένα εξαιρετικό μέρος για έρευνα», λέει.

Έμεινε στο Ινστιτούτο Max Planck για να ολοκληρώσει μια μεταπτυχιακή διατριβή και στη συνέχεια ξεκίνησε διδακτορικό στη μηχανική μάθηση στο Ινστιτούτο Max Planck και στο Ελβετικό Ομοσπονδιακό Ινστιτούτο Τεχνολογίας.

Κατά τη διάρκεια του διδακτορικού της, διερεύνησε πώς οι έννοιες από τα διακριτά μαθηματικά μπορούν να βοηθήσουν στη βελτίωση των τεχνικών μηχανικής μάθησης.

Διδασκαλία μοντέλων για μάθηση

Όσο περισσότερα η Jegelka μάθαινε για τη μηχανική μάθηση, τόσο πιο πολύ της ιντριγκάριζαν οι προκλήσεις να κατανοήσει πώς συμπεριφέρονται τα μοντέλα και πώς να κατευθύνει αυτή τη συμπεριφορά.

«Μπορείτε να κάνετε τόσα πολλά με τη μηχανική μάθηση, αλλά μόνο εάν έχετε το σωστό μοντέλο και δεδομένα. Δεν είναι απλώς ένα θέμα μαύρου κουτιού όπου το ρίχνεις στα δεδομένα και λειτουργεί. Πρέπει πραγματικά να το σκεφτείς, τις ιδιότητές του και τι θέλεις να μάθει και να κάνει το μοντέλο», λέει.

Μετά την ολοκλήρωση του μεταδιδακτορικού στο Πανεπιστήμιο της Καλιφόρνια στο Μπέρκλεϋ, η Τζέγκελκα αγκιστρώθηκε στην έρευνα και αποφάσισε να ακολουθήσει μια καριέρα στον ακαδημαϊκό χώρο. Εισήχθη στη σχολή του MIT το 2015 ως επίκουρη καθηγήτρια.

«Αυτό που μου άρεσε πραγματικά στο MIT, από την αρχή, ήταν ότι οι άνθρωποι ενδιαφέρονται πολύ για την έρευνα και τη δημιουργικότητα. Αυτό είναι που εκτιμώ περισσότερο στο MIT. Οι άνθρωποι εδώ εκτιμούν πραγματικά την πρωτοτυπία και το βάθος στην έρευνα», λέει.

Αυτή η εστίαση στη δημιουργικότητα επέτρεψε στην Jegelka να εξερευνήσει ένα ευρύ φάσμα θεμάτων.

Σε συνεργασία με άλλες σχολές στο MIT, μελετά εφαρμογές μηχανικής μάθησης στη βιολογία, την απεικόνιση, την όραση υπολογιστών και την επιστήμη των υλικών.

Αλλά αυτό που πραγματικά οδηγεί τον Jegelka είναι η διερεύνηση των θεμελιωδών στοιχείων της μηχανικής μάθησης και πιο πρόσφατα, το ζήτημα της ευρωστίας. Συχνά, ένα μοντέλο αποδίδει καλά σε δεδομένα εκπαίδευσης, αλλά η απόδοσή του επιδεινώνεται όταν αναπτύσσεται σε ελαφρώς διαφορετικά δεδομένα. Η ενσωμάτωση προηγούμενης γνώσης σε ένα μοντέλο μπορεί να το κάνει πιο αξιόπιστο, αλλά η κατανόηση ποιες πληροφορίες χρειάζεται το μοντέλο για να είναι επιτυχημένο και πώς να το ενσωματώσεις δεν είναι τόσο απλό, λέει.

Διερευνά επίσης μεθόδους για τη βελτίωση της απόδοσης των μοντέλων μηχανικής μάθησης για ταξινόμηση εικόνων.

Τα μοντέλα ταξινόμησης εικόνων υπάρχουν παντού, από τα συστήματα αναγνώρισης προσώπου στα κινητά τηλέφωνα μέχρι τα εργαλεία που εντοπίζουν ψεύτικους λογαριασμούς στα μέσα κοινωνικής δικτύωσης. Αυτά τα μοντέλα χρειάζονται τεράστιες ποσότητες δεδομένων για εκπαίδευση, αλλά δεδομένου ότι είναι ακριβό για τους ανθρώπους να επισημάνουν με το χέρι εκατομμύρια εικόνες, οι ερευνητές συχνά χρησιμοποιούν μη επισημασμένα σύνολα δεδομένων για την προεκπαίδευση μοντέλων.

Αυτά τα μοντέλα στη συνέχεια επαναχρησιμοποιούν τις αναπαραστάσεις που έχουν μάθει όταν τελειοποιηθούν αργότερα για μια συγκεκριμένη εργασία.

Ιδανικά, οι ερευνητές θέλουν το μοντέλο να μάθει όσα περισσότερα μπορεί κατά τη διάρκεια της προεκπαίδευσης, ώστε να μπορεί να εφαρμόσει αυτή τη γνώση στην κατάντη εργασία του. Αλλά στην πράξη, αυτά τα μοντέλα συχνά μαθαίνουν μόνο μερικούς απλούς συσχετισμούς - όπως ότι μια εικόνα έχει ηλιοφάνεια και μια έχει σκιά - και χρησιμοποιούν αυτές τις "συντομεύσεις" για να ταξινομήσουν τις εικόνες.

«Δείξαμε ότι αυτό είναι ένα πρόβλημα στην «αντιθετική μάθηση», η οποία είναι μια τυπική τεχνική για την προεκπαίδευση, τόσο θεωρητικά όσο και εμπειρικά. Δείχνουμε όμως επίσης ότι μπορείτε να επηρεάσετε τα είδη των πληροφοριών που θα μάθει να αντιπροσωπεύει το μοντέλο τροποποιώντας τους τύπους δεδομένων που εμφανίζετε στο μοντέλο. Αυτό είναι ένα βήμα προς την κατανόηση του τι θα κάνουν πραγματικά τα μοντέλα στην πράξη», λέει.

Οι ερευνητές εξακολουθούν να μην καταλαβαίνουν όλα όσα συμβαίνουν μέσα σε ένα μοντέλο βαθιάς μάθησης ή λεπτομέρειες σχετικά με το πώς μπορούν να επηρεάσουν το τι μαθαίνει ένα μοντέλο και πώς συμπεριφέρεται, αλλά η Jegelka ανυπομονεί να συνεχίσει να εξερευνά αυτά τα θέματα.

«Συχνά στη μηχανική μάθηση, βλέπουμε κάτι να συμβαίνει στην πράξη και προσπαθούμε να το κατανοήσουμε θεωρητικά. Αυτή είναι μια τεράστια πρόκληση. Θέλετε να δημιουργήσετε μια κατανόηση που να ταιριάζει με αυτό που βλέπετε στην πράξη, ώστε να μπορείτε να τα πάτε καλύτερα. Είμαστε ακόμα στην αρχή για να το καταλάβουμε αυτό», λέει.

Έξω από το εργαστήριο, η Jegelka είναι λάτρης της μουσικής, της τέχνης, των ταξιδιών και της ποδηλασίας. Αλλά αυτές τις μέρες, απολαμβάνει να περνά τον περισσότερο ελεύθερο χρόνο της με την προσχολική κόρη της.

Si al principi no tens èxit, aleshores el paracaigudisme no és per a tu.
->

Σφραγίδα ώρας:

Περισσότερα από Σύμβουλοι Blockchain