Can You Teach AI Common Sense?

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Όλες οι συνεδρίες από το Transform 2021 είναι διαθέσιμες κατ 'απαίτηση τώρα. Παρακολουθήσετε τώρα.

Ακόμη και πριν πουν τις πρώτες τους λέξεις, τα ανθρώπινα μωρά αναπτύσσουν νοητικά μοντέλα για αντικείμενα και ανθρώπους. Αυτή είναι μια από τις βασικές δυνατότητες που επιτρέπει σε εμάς τους ανθρώπους να μάθουμε να ζούμε κοινωνικά και να συνεργαζόμαστε (ή να ανταγωνιζόμαστε) μεταξύ μας. Αλλά για την τεχνητή νοημοσύνη, ακόμη και οι πιο βασικές εργασίες συλλογιστικής συμπεριφοράς παραμένουν μια πρόκληση.

Προηγμένα μοντέλα βαθιάς μάθησης μπορεί να κάνει περίπλοκες εργασίες, όπως ανίχνευση ανθρώπων και αντικειμένων σε εικόνες, μερικές φορές ακόμη καλύτερα από τους ανθρώπους. Όμως αγωνίζονται να προχωρήσουν πέρα από τα οπτικά χαρακτηριστικά των εικόνων και να βγάλουν συμπεράσματα για το τι κάνουν ή θέλουν να επιτύχουν άλλοι πράκτορες.

Για να καλύψουν αυτό το κενό, οι επιστήμονες της IBM, του Τεχνολογικού Ινστιτούτου της Μασαχουσέτης και του Πανεπιστημίου του Χάρβαρντ έχουν αναπτύξει μια σειρά δοκιμών που θα βοηθήσουν στην αξιολόγηση της ικανότητας των μοντέλων τεχνητής νοημοσύνης να λογίζονται σαν παιδιά, παρατηρώντας και δίνοντας νόημα στον κόσμο.

«Όπως τα ανθρώπινα βρέφη, είναι κρίσιμο για τους πράκτορες μηχανών να αναπτύξουν μια επαρκή ικανότητα κατανόησης του ανθρώπινου μυαλού, προκειμένου να συμμετέχουν επιτυχώς σε κοινωνικές αλληλεπιδράσεις», γράφουν οι ερευνητές της τεχνητής νοημοσύνης σε μια νέο χαρτί που εισάγει το σύνολο δεδομένων, που ονομάζεται AGENT.

Παρουσιάστηκε στο φετινό Διεθνές Συνέδριο για τη Μηχανική Μάθηση (ICML), το AGENT παρέχει ένα σημαντικό σημείο αναφοράς για τη μέτρηση των συλλογιστικών ικανοτήτων των συστημάτων AI.

Παρατήρηση και πρόβλεψη της συμπεριφοράς του πράκτορα

Υπάρχει μεγάλος όγκος εργασιών για τη δοκιμή της κοινής λογικής και του συλλογισμού σε συστήματα AI. Πολλά από αυτά επικεντρώνονται στην κατανόηση φυσικής γλώσσας, συμπεριλαμβανομένων των διάσημων Δοκιμή Turing και Σχήματα Winograd. Αντίθετα, το έργο AGENT εστιάζει στα είδη των συλλογιστικών ικανοτήτων που μαθαίνουν οι άνθρωποι πριν μπορέσουν να μιλήσουν.

«Στόχος μας, ακολουθώντας τη βιβλιογραφία στην αναπτυξιακή ψυχολογία, είναι να δημιουργήσουμε ένα σημείο αναφοράς για την αξιολόγηση συγκεκριμένων ικανοτήτων κοινής λογικής που σχετίζονται με τη διαισθητική ψυχολογία που μαθαίνουν τα μωρά κατά το προ-γλωσσικό στάδιο (τους πρώτους 18 μήνες της ζωής τους),» Dan Gutfreund, διευθυντής είπε ο ερευνητής στο MIT-IBM Watson AI Lab TechTalks.

Ως παιδιά, μαθαίνουμε να ξεχωρίζουμε τη διαφορά μεταξύ αντικειμένων και παραγόντων παρατηρώντας το περιβάλλον μας. Καθώς παρακολουθούμε τα γεγονότα να εξελίσσονται, αναπτύσσουμε διαισθητικές ψυχολογικές δεξιότητες, προβλέπουμε τους στόχους άλλων ανθρώπων παρατηρώντας τις πράξεις τους και συνεχίζουμε να διορθώνουμε και να ενημερώνουμε τη νοητική μας σκέψη. Όλα αυτά τα μαθαίνουμε με ελάχιστες ή καθόλου οδηγίες.

Η ιδέα πίσω από το τεστ AGENT (Action, Goal, Efficiency, Constraint, UTility) είναι να αξιολογήσει πόσο καλά Συστήματα AI μπορούν να μιμηθούν αυτή τη βασική δεξιότητα, τι μπορούν να αναπτύξουν ψυχολογικές συλλογιστικές ικανότητες και πόσο καλά οι αναπαραστάσεις που μαθαίνουν γενικεύονται σε νέες καταστάσεις. Το σύνολο δεδομένων περιλαμβάνει σύντομες ακολουθίες που δείχνουν έναν πράκτορα να πλοηγείται προς ένα από πολλά αντικείμενα. Οι ακολουθίες έχουν δημιουργηθεί στο ThreeDWorld, ένα εικονικό τρισδιάστατο περιβάλλον σχεδιασμένο για την εκπαίδευση πρακτόρων AI.

Το τεστ AGENT πραγματοποιείται σε δύο φάσεις. Πρώτον, το AI παρουσιάζεται με μία ή δύο ακολουθίες που απεικονίζουν τη συμπεριφορά του πράκτορα. Αυτά τα παραδείγματα θα πρέπει να εξοικειώνουν το AI με τις προτιμήσεις του εικονικού πράκτορα. Για παράδειγμα, ένας πράκτορας μπορεί πάντα να επιλέγει έναν τύπο αντικειμένου ανεξάρτητα από τα εμπόδια που βρίσκονται στο δρόμο του ή μπορεί να επιλέξει το πλησιέστερο και πιο προσιτό αντικείμενο ανεξάρτητα από τον τύπο του.

Μετά τη φάση εξοικείωσης, το AI εμφανίζεται μια ακολουθία δοκιμής και πρέπει να καθορίσει εάν ο παράγοντας ενεργεί με αναμενόμενο ή εκπληκτικό τρόπο.

Οι δοκιμές, 3,360 συνολικά, καλύπτουν τέσσερις τύπους σεναρίων, ξεκινώντας από πολύ απλή συμπεριφορά (ο πράκτορας προτιμά έναν τύπο αντικειμένου ανεξάρτητα από το περιβάλλον) έως πιο περίπλοκες προκλήσεις (ο πράκτορας εκδηλώνει εκτίμηση κόστους-ανταμοιβής, σταθμίζοντας τη δυσκολία επίτευξης ένα γκολ έναντι της ανταμοιβής που θα λάβει). Η τεχνητή νοημοσύνη πρέπει επίσης να λάβει υπόψη την αποτελεσματικότητα δράσης του ενεργού παράγοντα (π.χ. δεν πρέπει να κάνει περιττά άλματα όταν δεν υπάρχουν εμπόδια). Και σε ορισμένες από τις προκλήσεις, η σκηνή είναι μερικώς αποφραγμένη για να είναι πιο δύσκολο να συλλογιστούμε για το περιβάλλον.

Ρεαλιστικά σενάρια σε τεχνητό περιβάλλον

Οι σχεδιαστές των δοκιμών έχουν συμπεριλάβει ανθρώπινες επαγωγικές προκαταλήψεις, που σημαίνει ότι οι παράγοντες και το περιβάλλον διέπονται από κανόνες που θα ήταν λογικοί για τον άνθρωπο (π.χ. το κόστος του άλματος ή της αναρρίχησης ενός εμποδίου αυξάνεται με το ύψος του). Αυτή η απόφαση βοηθά να γίνουν οι προκλήσεις πιο ρεαλιστικές και ευκολότερες στην αξιολόγηση. Οι ερευνητές σημειώνουν επίσης ότι αυτού του είδους οι προκαταλήψεις είναι επίσης σημαντικές για να βοηθήσουν στη δημιουργία συστημάτων τεχνητής νοημοσύνης που είναι καλύτερα ευθυγραμμισμένα και συμβατά με την ανθρώπινη συμπεριφορά και μπορούν να συνεργαστούν με ανθρώπινα αντίστοιχα.

Οι ερευνητές της τεχνητής νοημοσύνης δοκίμασαν τις προκλήσεις σε ανθρώπους εθελοντές μέσω της Amazon Mechanical Turk. Τα ευρήματά τους δείχνουν ότι κατά μέσο όρο, οι άνθρωποι μπορούν να λύσουν το 91 τοις εκατό των προκλήσεων παρατηρώντας τις αλληλουχίες εξοικείωσης και κρίνοντας τα παραδείγματα δοκιμών. Αυτό σημαίνει ότι οι άνθρωποι χρησιμοποιούν τις προηγούμενες γνώσεις τους σχετικά με τον κόσμο και τη συμπεριφορά ανθρώπου/ζώου για να κατανοήσουν τον τρόπο με τον οποίο οι πράκτορες παίρνουν τις αποφάσεις (π.χ., εάν όλα τα άλλα πράγματα είναι ίσα, ένας πράκτορας θα επιλέξει το αντικείμενο με υψηλότερη ανταμοιβή).

Οι ερευνητές της τεχνητής νοημοσύνης περιόρισαν σκόπιμα το μέγεθος του συνόλου δεδομένων για να αποτρέψουν μη έξυπνες συντομεύσεις για την επίλυση των προβλημάτων. Δεδομένου ενός πολύ μεγάλου συνόλου δεδομένων, ένα μοντέλο μηχανικής μάθησης μπορεί να μάθει να κάνει σωστές προβλέψεις χωρίς να αποκτά την υποκείμενη γνώση σχετικά με τη συμπεριφορά του πράκτορα. «Η εκπαίδευση από την αρχή μόνο στο σύνολο δεδομένων μας δεν θα λειτουργήσει. Αντίθετα, προτείνουμε ότι για να περάσει κανείς τις δοκιμές, είναι απαραίτητο να αποκτήσει πρόσθετη γνώση είτε μέσω επαγωγικών προκαταλήψεων στις αρχιτεκτονικές είτε από εκπαίδευση σε πρόσθετα δεδομένα», γράφουν οι ερευνητές.

Οι ερευνητές, ωστόσο, έχουν εφαρμόσει κάποιες συντομεύσεις στις δοκιμές. Το σύνολο δεδομένων AGENT περιλαμβάνει χάρτες βάθους, χάρτες τμηματοποίησης και οριοθετημένα πλαίσια αντικειμένων και εμποδίων για κάθε καρέ της σκηνής. Οι σκηνές είναι επίσης εξαιρετικά απλές σε οπτικές λεπτομέρειες και αποτελούνται από οκτώ διαφορετικά χρώματα. Όλα αυτά διευκολύνουν τα συστήματα AI να επεξεργάζονται τις πληροφορίες στη σκηνή και να επικεντρώνονται στο σκεπτικό της πρόκλησης.

Η τρέχουσα τεχνητή νοημοσύνη λύνει τις προκλήσεις του AGENT;

Οι ερευνητές δοκίμασαν την πρόκληση AGENT σε δύο βασικά μοντέλα AI. Το πρώτο, το Bayesian Inverse Planning and Core Knowledge (BIPaCK), είναι ένα παραγωγικό μοντέλο που ενσωματώνει την προσομοίωση και τον σχεδιασμό της φυσικής.

Αυτό το μοντέλο χρησιμοποιεί τις πλήρεις πληροφορίες βασικής αλήθειας που παρέχονται από το σύνολο δεδομένων και τις τροφοδοτεί στη μηχανή φυσικής και σχεδιασμού του για να προβλέψει την τροχιά του πράκτορα. Τα πειράματα των ερευνητών δείχνουν ότι το BIPaCK είναι σε θέση να αποδώσει ισοδύναμα ή ακόμα καλύτερα από τους ανθρώπους όταν έχει πλήρεις πληροφορίες για τη σκηνή.

Ωστόσο, στον πραγματικό κόσμο, τα συστήματα τεχνητής νοημοσύνης δεν έχουν πρόσβαση σε επακριβώς σχολιασμένες πληροφορίες εδάφους αλήθειας και πρέπει να εκτελούν το περίπλοκο έργο της ανίχνευσης αντικειμένων σε διαφορετικά υπόβαθρα και συνθήκες φωτισμού, ένα πρόβλημα που άνθρωποι και ζώα λύνουν εύκολα, αλλά παραμένει πρόκληση για τους υπολογιστές συστήματα όρασης.

Στην εργασία τους, οι ερευνητές αναγνωρίζουν ότι το BIPaCK «απαιτεί μια ακριβή ανακατασκευή της τρισδιάστατης κατάστασης και ένα ενσωματωμένο μοντέλο της φυσικής δυναμικής, το οποίο δεν θα είναι απαραίτητα διαθέσιμο σε σκηνές πραγματικού κόσμου».

Το δεύτερο μοντέλο που εξέτασαν οι ερευνητές, με την κωδική ονομασία ToMnet-G, είναι μια εκτεταμένη έκδοση του Νευρωνικού Δικτύου Theory of Mind (ToMnet), που προτείνεται από επιστήμονες στο Deepmind το 2018. Το ToMnet-G χρησιμοποιεί νευρωνικά δίκτυα γραφημάτων για να κωδικοποιήσει την κατάσταση των σκηνών, συμπεριλαμβανομένων των αντικειμένων, των εμποδίων και της θέσης του πράκτορα. Στη συνέχεια τροφοδοτεί αυτές τις κωδικοποιήσεις δίκτυα μακροπρόθεσμης μνήμης (LSTM) για την παρακολούθηση της τροχιάς του πράκτορα κατά μήκος της ακολουθίας των καρέ. Το μοντέλο χρησιμοποιεί τις αναπαραστάσεις που εξάγει από τα βίντεο εξοικείωσης για να προβλέψει τη συμπεριφορά του πράκτορα στα δοκιμαστικά βίντεο και να τα αξιολογήσει ως αναμενόμενα ή εκπληκτικά.

Πάνω: Το μοντέλο ToMnet-G χρησιμοποιεί νευρωνικά δίκτυα γραφημάτων και LSTM για να ενσωματώσει αναπαραστάσεις σκηνών και να προβλέψει τη συμπεριφορά του πράκτορα

Το πλεονέκτημα του ToMnet-G είναι ότι δεν απαιτεί τις προσχεδιασμένες γνώσεις φυσικής και κοινής λογικής του BIPaCK. Μαθαίνει τα πάντα από τα βίντεο και την προηγούμενη εκπαίδευση σε άλλα σύνολα δεδομένων. Από την άλλη πλευρά, το ToMnet-G συχνά μαθαίνει λάθος αναπαραστάσεις και δεν μπορεί να γενικεύσει τη συμπεριφορά του σε νέα σενάρια ή όταν έχει περιορισμένες πληροφορίες εξοικείωσης.

«Χωρίς πολλά ενσωματωμένα προηγούμενα, το ToMnet-G επιδεικνύει πολλά υποσχόμενα αποτελέσματα όταν εκπαιδεύεται και δοκιμάζεται σε παρόμοια σενάρια, αλλά εξακολουθεί να στερείται ισχυρής ικανότητας γενίκευσης τόσο εντός όσο και σε όλα τα σενάρια», παρατηρούν οι ερευνητές στην εργασία τους.

Η αντίθεση μεταξύ των δύο μοντέλων αναδεικνύει τις προκλήσεις των απλούστερων εργασιών που μαθαίνουν οι άνθρωποι χωρίς οδηγίες.

«Πρέπει να θυμόμαστε ότι το σημείο αναφοράς μας, από σχεδιασμό, απεικονίζει πολύ απλά συνθετικά σενάρια που αντιμετωπίζουν κάθε φορά μια συγκεκριμένη πτυχή της κοινής λογικής», είπε ο Gutfreund. «Στον πραγματικό κόσμο, οι άνθρωποι είναι σε θέση να αναλύουν πολύ γρήγορα σύνθετες σκηνές όπου παίζονται ταυτόχρονα πολλές πτυχές της κοινής λογικής που σχετίζονται με τη φυσική, την ψυχολογία, τη γλώσσα και άλλα. Τα μοντέλα τεχνητής νοημοσύνης απέχουν ακόμη πολύ από το να μπορούν να κάνουν κάτι κοντά σε αυτό».

Η κοινή λογική και το μέλλον της τεχνητής νοημοσύνης

«Πιστεύουμε ότι η διαδρομή από τη στενή στην ευρεία τεχνητή νοημοσύνη πρέπει να περιλαμβάνει μοντέλα που έχουν κοινή λογική», είπε ο Gutfreund. «Οι ικανότητες της κοινής λογικής είναι σημαντικά δομικά στοιχεία για την κατανόηση και την αλληλεπίδραση στον κόσμο και μπορούν να διευκολύνουν την απόκτηση νέων δυνατοτήτων».

Πολλοί επιστήμονες πιστεύουν ότι η κοινή λογική και η λογική μπορούν να λύσουν πολλά από τα προβλήματα που αντιμετωπίζουν τα τρέχοντα συστήματα AI, όπως η ανάγκη τους για εκτεταμένους όγκους δεδομένων εκπαίδευσης, η πάλη τους με την αιτιότητα και η ευθραυστότητά τους στην αντιμετώπιση καινοτόμων καταστάσεων. Η κοινή λογική και η λογική είναι σημαντικοί τομείς έρευνας για την κοινότητα της τεχνητής νοημοσύνης και έχουν γίνει το επίκεντρο μερικών από τα πιο έξυπνα μυαλά στον τομέα, συμπεριλαμβανομένων των πρωτοπόρων της βαθιάς μάθησης.

Η επίλυση του AGENT μπορεί να είναι ένα μικρό αλλά σημαντικό βήμα προς τη δημιουργία πρακτόρων AI που συμπεριφέρονται σθεναρά στον απρόβλεπτο κόσμο των ανθρώπων.

«Θα είναι δύσκολο να πείσουμε τους ανθρώπους να εμπιστευτούν αυτόνομους πράκτορες που μην συμπεριφέρεστε με κοινό λογικό τρόπο», είπε ο Gutfreund. «Σκεφτείτε, για παράδειγμα, ένα ρομπότ για να βοηθά τους ηλικιωμένους. Εάν αυτό το ρομπότ δεν ακολουθήσει την αρχή της κοινής λογικής ότι οι πράκτορες επιδιώκουν τους στόχους τους αποτελεσματικά και θα κινούνται σε ζιγκ ζακ και όχι σε ευθεία γραμμή όταν τους ζητηθεί να φέρουν γάλα από το ψυγείο, δεν θα είναι πολύ πρακτικό ούτε αξιόπιστο».

Το AGENT είναι μέρος του Μηχανή κοινή λογική (MCS) πρόγραμμα του Defense Advanced Research Projects Agency (DARPA). Το MCS ακολουθεί δύο γενικούς στόχους. Το πρώτο είναι να δημιουργηθούν μηχανές που μπορούν να μάθουν σαν παιδιά να συλλογίζονται για αντικείμενα, παράγοντες και χώρο. Η AGENT εμπίπτει σε αυτήν την κατηγορία. Ο δεύτερος στόχος είναι η ανάπτυξη συστημάτων που μπορούν να μάθουν διαβάζοντας δομημένη και αδόμητη γνώση από τον Ιστό, όπως θα έκανε ένας άνθρωπος ερευνητής. Αυτό διαφέρει από τις τρέχουσες προσεγγίσεις για την κατανόηση της φυσικής γλώσσας, οι οποίες επικεντρώνονται μόνο στην καταγραφή στατιστικών συσχετίσεων μεταξύ λέξεων και αλληλουχιών λέξεων σε πολύ μεγάλα σώματα κειμένου.

«Τώρα εργαζόμαστε για να χρησιμοποιήσουμε το AGENT ως περιβάλλον δοκιμών για μωρά. Μαζί με τους υπόλοιπους εκτελεστές του προγράμματος DARPA MCS σχεδιάζουμε να εξερευνήσουμε πιο σύνθετα σενάρια κοινής λογικής που σχετίζονται με πολλούς παράγοντες (π.χ. βοηθώντας ή παρεμποδίζοντας ο ένας τον άλλον) και τη χρήση εργαλείων για την επίτευξη στόχων (π.χ. κλειδιά για το άνοιγμα των θυρών) . Εργαζόμαστε επίσης σε άλλους βασικούς τομείς γνώσης που σχετίζονται με τη διαισθητική φυσική και τη χωρική κατανόηση», είπε ο Gutfreund.

Ο Ben Dickson είναι μηχανικός λογισμικού και ιδρυτής της TechTalks, ένα blog που διερευνά τους τρόπους με τους οποίους η τεχνολογία επιλύει και δημιουργεί προβλήματα.

Αυτή η ιστορία αρχικά εμφανίστηκε Bdtechtalks.com. Πνευματικά δικαιώματα 2021

VentureBeat

Η αποστολή της VentureBeat είναι να είναι μια ψηφιακή πλατεία της πόλης για τεχνικούς που λαμβάνουν αποφάσεις για να αποκτήσουν γνώσεις σχετικά με την τεχνολογία μετασχηματισμού και τις συναλλαγές. Ο ιστότοπός μας παρέχει βασικές πληροφορίες σχετικά με τις τεχνολογίες δεδομένων και τις στρατηγικές για να σας καθοδηγήσει καθώς οδηγείτε τους οργανισμούς σας. Σας προσκαλούμε να γίνετε μέλος της κοινότητάς μας, για πρόσβαση:

ενημερωμένες πληροφορίες για τα θέματα που σας ενδιαφέρουν
τα ενημερωτικά δελτία μας
περιφραγμένο περιεχόμενο με ηγέτη σκέψης και μειωμένη πρόσβαση στις βραβευμένες εκδηλώσεις μας, όπως Μετασχηματισμός 2021: Μάθε περισσότερα
δυνατότητες δικτύωσης και πολλά άλλα

Γίνετε μέλος

Πηγή: https://venturebeat.com/2021/07/27/can-you-teach-ai-common-sense/

Σφραγίδα ώρας: Ιούλιος 27, 2021

Σφραγίδα ώρας: 10 Ιανουαρίου 2022

AI Weekly: DeepMind's AlphaCode, αυτόματη επαλήθευση ηλικίας και νέο μοντέλο ανοιχτής γλώσσας

Σύμπλεγμα πηγής:

AI - VentureBeat

Κόμβος πηγής: 1601380

Σφραγίδα ώρας: 4 Φεβρουαρίου 2022

AI στη ρομποτική: Προβλήματα και λύσεις

Σύμπλεγμα πηγής:

AI - VentureBeat

Κόμβος πηγής: 1419016

Σφραγίδα ώρας: 21 Μαΐου 2022

Πώς η πλατφόρμα AI της Moveworks έσπασε το πολύγλωσσο φράγμα NLP

Σύμπλεγμα πηγής:

AI - VentureBeat

Κόμβος πηγής: 1249089

Σφραγίδα ώρας: 24 Οκτωβρίου 2021

Αναδημοσίευση από τον Πλάτωνα

Παρατήρηση και πρόβλεψη της συμπεριφοράς του πράκτορα

Ρεαλιστικά σενάρια σε τεχνητό περιβάλλον

Η τρέχουσα τεχνητή νοημοσύνη λύνει τις προκλήσεις του AGENT;

Η κοινή λογική και το μέλλον της τεχνητής νοημοσύνης

VentureBeat

Τηλελειτουργία και το μέλλον της ασφαλούς οδήγησης

Οι δοκιμές αναφοράς Nvidia δείχνουν εντυπωσιακά κέρδη στην εκπαίδευση μοντέλων AI

Η SiteAware, η οποία αξιοποιεί την τεχνητή νοημοσύνη και τα drones για να παρακολουθεί την πρόοδο του εργοταξίου, αντλεί πρόσθετη χρηματοδότηση

Γιατί οι επιχειρήσεις αναθέτουν μαζικά υπεργολαβικά έργα στον τομέα της κυβερνοασφάλειας

Η Virtru εγκαινιάζει τη διαχείριση κλειδιών μηδενικής εμπιστοσύνης για ολόκληρο το οικοσύστημα της Google

Στο Ignite 2021, η Microsoft παρουσιάζει λειτουργικότητα για επεκτάσιμες εφαρμογές τεχνητής νοημοσύνης

AI στη ρομποτική: Προβλήματα και λύσεις

Πώς η πλατφόρμα AI της Moveworks έσπασε το πολύγλωσσο φράγμα NLP

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός