Poți să înveți AI bunul simț?

Nodul sursă: 990012

Toate sesiunile de la Transform 2021 sunt disponibile la cerere acum. Priveste acum.


Chiar înainte de a rosti primele cuvinte, bebelușii umani dezvoltă modele mentale despre obiecte și oameni. Aceasta este una dintre capacitățile cheie care ne permite oamenilor să învățăm să trăim social și să cooperăm (sau să concuram) unii cu alții. Dar pentru inteligența artificială, chiar și cele mai elementare sarcini de raționament comportamental rămân o provocare.

Modele avansate de învățare profundă poate face sarcini complicate, cum ar fi detectarea persoanelor și obiectelor în imagini, uneori chiar mai bine decât oamenii. Dar se luptă să treacă dincolo de caracteristicile vizuale ale imaginilor și să facă inferențe despre ceea ce fac sau doresc să realizeze alți agenți.

Pentru a ajuta la completarea acestui gol, oamenii de știință de la IBM, Massachusetts Institute of Technology și Universitatea Harvard au dezvoltat o serie de teste care vor ajuta la evaluarea capacității modelelor AI de a raționa ca copiii, observând și dând sens lumii.

„La fel ca sugarii umani, este esențial ca agenții mașinii să dezvolte o capacitate adecvată de înțelegere a minții umane, pentru a se angaja cu succes în interacțiuni sociale”, scriu cercetătorii AI într-un hârtie nouă care introduce setul de date, numit AGENT.

Prezentat la Conferința Internațională de Învățare Mașină (ICML) din acest an, AGENT oferă un punct de referință important pentru măsurarea capacităților de raționament ale sistemelor AI.

Observarea și prezicerea comportamentului agentului

Există o mulțime de lucrări privind testarea bunului simț și a raționamentului în sistemele AI. Multe dintre ele se concentrează pe înțelegerea limbajului natural, inclusiv pe faimosul Turing Turing și Scheme Winograd. În schimb, proiectul AGENT se concentrează pe tipurile de capacități de raționament pe care oamenii le învață înainte de a fi capabili să vorbească.

„Scopul nostru, urmând literatura de specialitate în psihologia dezvoltării, este de a crea un punct de referință pentru evaluarea capacităților specifice de bun-simț legate de psihologia intuitivă pe care bebelușii le învață în etapa pre-linguală (în primele 18 luni de viață)”, Dan Gutfreund, director. a spus investigator de la MIT-IBM Watson AI Lab TechTalks.

În copilărie, învățăm să facem diferența dintre obiecte și agenți observând mediile noastre. Pe măsură ce urmărim evenimentele care se desfășoară, dezvoltăm abilități psihologice intuitive, prezicem obiectivele altor oameni observându-le acțiunile și continuăm să ne corectăm și să ne actualizăm mentalul. Învățăm toate acestea cu puține sau deloc instrucțiuni.

Ideea din spatele testului AGENT (Acțiune, Scop, Eficiență, constrângere, utilitate) este de a evalua cât de bine Sisteme AI pot imita această abilitate de bază, ceea ce pot dezvolta capacități de raționament psihologic și cât de bine se generalizează reprezentările pe care le învață la situații noi. Setul de date cuprinde secvențe scurte care arată un agent navigând spre unul dintre mai multe obiecte. Secvențele au fost produse în ThreeDWorld, un mediu 3D virtual conceput pentru antrenarea agenților AI.

Testul AGENT are loc în două faze. În primul rând, IA este prezentată cu una sau două secvențe care descriu comportamentul agentului. Aceste exemple ar trebui să familiarizeze AI cu preferințele agentului virtual. De exemplu, un agent poate alege întotdeauna un tip de obiect, indiferent de obstacolele care îi stau în cale, sau ar putea alege cel mai apropiat și mai accesibil obiect, indiferent de tipul său.

După faza de familiarizare, AI-ului i se arată o secvență de testare și trebuie să determine dacă agentul acționează într-o manieră așteptată sau surprinzătoare.

Testele, 3,360 în total, se întind pe patru tipuri de scenarii, începând cu un comportament foarte simplu (agentul preferă un tip de obiect indiferent de mediu) până la provocări mai complicate (agentul manifestă estimarea cost-recompensă, cântărind dificultatea realizării). un gol împotriva recompensei pe care o va primi). AI trebuie să ia în considerare și eficiența acțiunii agentului care acționează (de exemplu, nu ar trebui să facă sărituri inutile atunci când nu există obstacole). Și în unele dintre provocări, scena este parțial oclusă pentru a face mai dificilă raționarea cu privire la mediu.

Scenarii realiste într-un mediu artificial

Proiectanții testelor au inclus părtiniri inductive umane, ceea ce înseamnă că agenții și mediul sunt guvernate de reguli care ar fi raționale pentru oameni (de exemplu, costul săriturii sau al escaladării unui obstacol crește odată cu înălțimea acestuia). Această decizie face ca provocările să fie mai realiste și mai ușor de evaluat. Cercetătorii observă, de asemenea, că aceste tipuri de părtiniri sunt, de asemenea, importante pentru a ajuta la crearea sistemelor AI care sunt mai bine aliniate și compatibile cu comportamentul uman și pot coopera cu omologii umani.

Cercetătorii AI au testat provocările asupra voluntarilor umani prin Amazon Mechanical Turk. Descoperirile lor arată că, în medie, oamenii pot rezolva 91 la sută din provocări observând secvențele de familiarizare și judecând exemplele de testare. Aceasta implică faptul că oamenii își folosesc cunoștințele anterioare despre lume și comportamentul uman/animal pentru a înțelege modul în care agenții iau decizii (de exemplu, toate celelalte lucruri fiind egale, un agent va alege obiectul cu recompensă mai mare).

Cercetătorii AI au limitat în mod intenționat dimensiunea setului de date pentru a preveni comenzile rapide neinteligente pentru rezolvarea problemelor. Având în vedere un set de date foarte mare, un model de învățare automată ar putea învăța să facă predicții corecte fără a obține cunoștințele de bază despre comportamentul agentului. „Formarea de la zero doar pe setul nostru de date nu va funcționa. În schimb, sugerăm că pentru a trece testele, este necesar să dobândiți cunoștințe suplimentare, fie prin prejudecăți inductive în arhitecturi, fie din antrenament pe date suplimentare”, scriu cercetătorii.

Cercetătorii, însă, au implementat câteva comenzi rapide în teste. Setul de date AGENT include hărți de adâncime, hărți de segmentare și casete de delimitare cu obiecte și obstacole pentru fiecare cadru al scenei. Scenele sunt, de asemenea, extrem de simple în detalii vizuale și sunt compuse din opt culori distincte. Toate acestea fac ca sistemele AI să proceseze mai ușor informațiile din scenă și să se concentreze pe partea de raționament a provocării.

AI actuală rezolvă provocările AGENT?

Cercetătorii au testat provocarea AGENT pe două modele AI de bază. Primul, Bayesian Inverse Planning and Core Knowledge (BIPaCK), este un model generativ care integrează simularea și planificarea fizicii.

model BIPaCK

Mai sus: modelul BIPaCK utilizează planificator și motoare fizice pentru a prezice traiectoria agentului

Acest model folosește informațiile complete de adevăr furnizate de setul de date și le alimentează în motorul său de fizică și planificare pentru a prezice traiectoria agentului. Experimentele cercetătorilor arată că BIPaCK este capabil să funcționeze la egalitate sau chiar mai bine decât oamenii atunci când are informații complete despre scenă.

Cu toate acestea, în lumea reală, sistemele de inteligență artificială nu au acces la informații de adevăr de la sol adnotate cu precizie și trebuie să îndeplinească sarcina complicată de a detecta obiecte pe diferite fundaluri și condiții de iluminare, o problemă pe care oamenii și animalele o rezolvă cu ușurință, dar rămâne o provocare pentru computer. sisteme de viziune.

În lucrarea lor, cercetătorii recunosc că BIPaCK „necesită o reconstrucție precisă a stării 3D și un model încorporat al dinamicii fizice, care nu va fi neapărat disponibil în scenele lumii reale”.

Al doilea model testat de cercetători, cu numele de cod ToMnet-G, este o versiune extinsă a Rețelei Neurale Teoria Minții (ToMnet), propus de oamenii de știință de la DeepMind în 2018. ToMnet-G utilizează rețele neuronale grafice pentru a codifica starea scenelor, inclusiv obiectele, obstacolele și locația agentului. Apoi introduce acele codificări în rețele de memorie pe termen lung (LSTM) pentru a urmări traiectoria agentului de-a lungul secvenței de cadre. Modelul folosește reprezentările pe care le extrage din videoclipurile de familiarizare pentru a prezice comportamentul agentului în videoclipurile de testare și pentru a le evalua ca fiind de așteptat sau surprinzător.

Modelul ToMnet-G

Mai sus: modelul ToMnet-G utilizează rețele neuronale grafice și LSTM-uri pentru a încorpora reprezentări ale scenei și pentru a prezice comportamentul agentului

Avantajul ToMnet-G este că nu necesită cunoștințe de fizică pre-proiectate și de bun simț ale BIPaCK. Învață totul din videoclipuri și antrenamente anterioare despre alte seturi de date. Pe de altă parte, ToMnet-G învață adesea reprezentările greșite și nu își poate generaliza comportamentul la scenarii noi sau când are informații limitate de familiaritate.

„Fără multe anterioare încorporate, ToMnet-G demonstrează rezultate promițătoare atunci când este antrenat și testat pe scenarii similare, dar încă îi lipsește o capacitate puternică de generalizare atât în ​​cadrul scenariilor, cât și între ele”, observă cercetătorii în lucrarea lor.

Contrastul dintre cele două modele evidențiază provocările celor mai simple sarcini pe care oamenii le învață fără instrucțiuni.

„Trebuie să ne amintim că punctul nostru de referință, prin design, descrie scenarii sintetice foarte simple care abordează de fiecare dată un aspect specific al bunului simț”, a spus Gutfreund. „În lumea reală, oamenii sunt capabili să analizeze foarte rapid scene complexe în care simultan sunt în joc multe aspecte ale bunului simț legate de fizică, psihologie, limbaj și multe altele. Modelele AI sunt încă departe de a fi capabile să facă ceva apropiat de asta.”

Bunul simț și viitorul AI

„Credem că calea de la IA îngustă la cea largă trebuie să includă modele care au bun simț”, a spus Gutfreund. „Capacitățile de bun simț sunt elemente importante pentru înțelegerea și interacțiunea lumii și pot facilita dobândirea de noi capacități.”

Mulți oameni de știință cred că bunul simț și raționamentul pot rezolva multe dintre problemele cu care se confruntă actualele sisteme AI, cum ar fi nevoia lor de volume extinse de date de instruire, lupta lor cu cauzalitatea și fragilitatea lor în a face față situațiilor noi. Bunul simț și raționamentul sunt domenii importante de cercetare pentru comunitatea AI și au devenit punctul central al unora dintre cele mai strălucite minți din domeniu, inclusiv pionierii învățării profunde.

Rezolvarea AGENT poate fi un pas mic, dar important spre crearea de agenți AI care se comportă robust în lumea imprevizibilă a oamenilor.

„Va fi dificil să convingi oamenii să aibă încredere în agenți autonomi care nu vă comportați într-un mod bun-simț”, a spus Gutfreund. „Gândiți-vă, de exemplu, la un robot pentru asistența persoanelor în vârstă. Dacă acel robot nu va urma principiul bunului-simț conform căruia agenții își urmăresc obiectivele în mod eficient și se va mișca în zig-zag mai degrabă decât în ​​linie dreaptă atunci când i se va cere să aducă lapte din frigider, nu va fi foarte practic și nici de încredere.”

AGENT face parte din Bunul simț al mașinii (MCS) al Agenției pentru Proiecte de Cercetare Avansată pentru Apărare (DARPA). MCS urmărește două obiective mari. Primul este de a crea mașini care pot învăța ca copiii să raționeze despre obiecte, agenți și spațiu. AGENT se încadrează în această categorie. Al doilea obiectiv este de a dezvolta sisteme care să învețe citind cunoștințe structurate și nestructurate de pe web, așa cum ar face un cercetător uman. Acest lucru este diferit de abordările actuale ale înțelegerii limbajului natural, care se concentrează doar pe captarea corelațiilor statistice dintre cuvinte și secvențe de cuvinte în corpuri foarte mari de text.

„Acum lucrăm la utilizarea AGENT ca mediu de testare pentru bebeluși. Împreună cu ceilalți executanți ai programului DARPA MCS, plănuim să explorăm scenarii mai complexe de bun simț legate de mai mulți agenți (de exemplu, ajutarea sau împiedicarea reciprocă) și utilizarea instrumentelor pentru atingerea obiectivelor (de exemplu, cheile pentru deschiderea ușilor) . Lucrăm, de asemenea, pe alte domenii de bază ale cunoștințelor legate de fizica intuitivă și înțelegerea spațială”, a spus Gutfreund.

Ben Dickson este inginer software și fondatorul TechTalks, un blog care explorează modurile în care tehnologia rezolvă și creează probleme.

Această poveste inițial a apărut Bdtechtalks.com. Drepturi de autor 2021

VentureBeat

Misiunea VentureBeat este de a fi o piață digitală pentru factorii de decizie tehnică pentru a dobândi cunoștințe despre tehnologia transformatoare și tranzacționează. Site-ul nostru oferă informații esențiale despre tehnologiile și strategiile de date pentru a vă ghida în timp ce vă conduceți organizațiile. Vă invităm să deveniți membru al comunității noastre, să accesați:

  • informații actualizate despre subiectele care vă interesează
  • buletinele noastre informative
  • conținut gandit de lider și acces redus la evenimentele noastre prețioase, cum ar fi Transformă anul 2021: Aflați mai multe
  • funcții de rețea și multe altele

Deveniți membru

Sursa: https://venturebeat.com/2021/07/27/can-you-teach-ai-common-sense/

Timestamp-ul:

Mai mult de la AI – VentureBeat