Kan du lære AI sund fornuft?

Kildeknude: 990012

Alle sessioner fra Transform 2021 er tilgængelige on-demand nu. Se nu.


Allerede før de taler deres første ord, udvikler menneskelige babyer mentale modeller om genstande og mennesker. Dette er en af ​​de vigtigste egenskaber, der giver os mennesker mulighed for at lære at leve socialt og samarbejde (eller konkurrere) med hinanden. Men for kunstig intelligens forbliver selv de mest grundlæggende adfærdsmæssige ræsonnementopgaver en udfordring.

Avancerede deep learning-modeller kan udføre komplicerede opgaver såsom at opdage mennesker og genstande i billeder, nogle gange endda bedre end mennesker. Men de kæmper for at bevæge sig ud over billedernes visuelle træk og drager slutninger om, hvad andre agenter gør eller ønsker at opnå.

For at hjælpe med at udfylde dette hul har forskere ved IBM, Massachusetts Institute of Technology og Harvard University udviklet en række tests, der vil hjælpe med at evaluere AI-modellers evne til at ræsonnere som børn ved at observere og give mening om verden.

"Som menneskelige spædbørn er det afgørende for maskinagenter at udvikle en tilstrækkelig kapacitet til at forstå menneskelige sind for med succes at engagere sig i sociale interaktioner," skriver AI-forskerne i en nyt papir der introducerer datasættet, kaldet AGENT.

Præsenteret på dette års International Conference on Machine Learning (ICML), giver AGENT et vigtigt benchmark til måling af ræsonneringsevnerne i AI-systemer.

Observere og forudsige agentadfærd

Der er et stort arbejde med at teste sund fornuft og ræsonnement i AI-systemer. Mange af dem fokuserer på naturlig sprogforståelse, herunder de berømte Turing Test , Winograd skemaer. I modsætning hertil fokuserer AGENT-projektet på den slags ræsonnement, som mennesker lærer, før de kan tale.

"Vores mål, efter litteraturen i udviklingspsykologi, er at skabe et benchmark for evaluering af specifikke commonsense-evner relateret til intuitiv psykologi, som babyer lærer i det præ-linguale stadium (i de første 18 måneder af deres liv)," Dan Gutfreund, rektor. efterforsker ved MIT-IBM Watson AI Lab, fortalte TechTalks.

Som børn lærer vi at kende forskel på objekter og agenter ved at observere vores omgivelser. Mens vi ser begivenheder udfolde sig, udvikler vi intuitive psykologiske færdigheder, forudsiger andre menneskers mål ved at observere deres handlinger og fortsætter med at korrigere og opdatere vores mentale. Vi lærer alt dette med få eller ingen instruktioner.

Ideen bag AGENT (Action, Goal, Efficiency, Constraint, UTility) testen er at vurdere, hvor godt AI-systemer kan efterligne denne grundlæggende færdighed, hvad de kan udvikle psykologiske ræsonnementer, og hvor godt de repræsentationer, de lærer, generaliserer til nye situationer. Datasættet består af korte sekvenser, der viser en agent, der navigerer sig mod et af flere objekter. Sekvenserne er blevet produceret i ThreeDWorld, et virtuelt 3D-miljø designet til træning af AI-agenter.

AGENT-testen foregår i to faser. Først præsenteres AI for en eller to sekvenser, der skildrer agentens adfærd. Disse eksempler skal gøre AI'en bekendt med den virtuelle agents præferencer. For eksempel kan en agent altid vælge én type objekt uanset de forhindringer, der står i vejen, eller den kan vælge det nærmeste og mest tilgængelige objekt uanset dens type.

Efter familiariseringsfasen vises AI'en en testsekvens, og den skal afgøre, om agenten optræder på en forventet eller overraskende måde.

Testene, 3,360 i alt, spænder over fire typer scenarier, startende med meget simpel adfærd (agenten foretrækker én type objekt uanset miljøet) til mere komplicerede udfordringer (agenten manifesterer pris-belønning estimering, vejer vanskeligheden ved at opnå et mål mod den belønning, det vil modtage). AI'en skal også overveje virkningseffektiviteten af ​​den handlende agent (f.eks. bør den ikke foretage unødvendige hop, når der ikke er nogen forhindringer). Og i nogle af udfordringerne er scenen delvist okkluderet for at gøre det sværere at ræsonnere om miljøet.

Realistiske scenarier i et kunstigt miljø

Designerne af testene har inkluderet menneskelige induktive skævheder, hvilket betyder, at agenterne og miljøet er styret af regler, der ville være rationelle for mennesker (f.eks. vokser omkostningerne ved at hoppe eller bestige en forhindring med dens højde). Denne beslutning hjælper med at gøre udfordringerne mere realistiske og nemmere at evaluere. Forskerne bemærker også, at disse former for skævheder også er vigtige for at hjælpe med at skabe AI-systemer, der er bedre tilpasset og kompatible med menneskelig adfærd og kan samarbejde med menneskelige modparter.

AI-forskerne testede udfordringerne på menneskelige frivillige gennem Amazon Mechanical Turk. Deres resultater viser, at mennesker i gennemsnit kan løse 91 procent af udfordringerne ved at observere familiariseringssekvenserne og bedømme testeksemplerne. Dette indebærer, at mennesker bruger deres tidligere viden om verden og menneskers/dyrs adfærd til at give mening om, hvordan agenterne træffer beslutning (f.eks. vil en agent alt andet lige vælge objektet med højere belønning).

AI-forskerne begrænsede bevidst størrelsen af ​​datasættet for at forhindre uintelligente genveje til at løse problemerne. Givet et meget stort datasæt, kan en maskinlæringsmodel lære at lave korrekte forudsigelser uden at opnå den underliggende viden om agentadfærd. "Træning fra bunden på kun vores datasæt vil ikke fungere. I stedet foreslår vi, at for at bestå testene er det nødvendigt at tilegne sig yderligere viden enten via induktive skævheder i arkitekturerne eller ved at træne på yderligere data,” skriver forskerne.

Forskerne har dog implementeret nogle genveje i testene. AGENT-datasættet inkluderer dybdekort, segmenteringskort og afgrænsningskasser med objekter og forhindringer for hver frame af scenen. Scenerne er også ekstremt enkle i visuelle detaljer og er sammensat af otte forskellige farver. Alt dette gør det lettere for AI-systemer at behandle informationen i scenen og fokusere på den ræsonnerende del af udfordringen.

Løser den nuværende AI AGENT-udfordringer?

Forskerne testede AGENT-udfordringen på to baseline AI-modeller. Den første, Bayesian Inverse Planning and Core Knowledge (BIPaCK), er en generativ model, der integrerer fysiksimulering og planlægning.

BIPACK model

Ovenfor: BIPaCK-modellen bruger planlægger- og fysikmotorer til at forudsige agentens bane

Denne model bruger den fulde grundsandhedsinformation fra datasættet og fører den ind i dets fysik- og planlægningsmotor til at forudsige agentens bane. Forskernes eksperimenter viser, at BIPaCK er i stand til at præstere på niveau med eller endda bedre end mennesker, når den har fuld information om scenen.

Men i den virkelige verden har AI-systemer ikke adgang til præcist kommenteret sandhedsinformation og skal udføre den komplicerede opgave at detektere objekter mod forskellige baggrunde og lysforhold, et problem, som mennesker og dyr nemt løser, men som stadig er en udfordring for computere. vision systemer.

I deres papir anerkender forskerne, at BIPaCK "kræver en nøjagtig rekonstruktion af 3D-tilstanden og en indbygget model af den fysiske dynamik, som ikke nødvendigvis vil være tilgængelig i scener i den virkelige verden."

Den anden model, forskerne testede, kodenavnet ToMnet-G, er en udvidet version af Theory of Mind Neural Network (ToMnet), foreslået af forskere på DeepMind i 2018. ToMnet-G bruger grafiske neurale netværk til at kode scenernes tilstand, inklusive objekter, forhindringer og agentens placering. Det føder derefter disse kodninger ind langtidshukommelsesnetværk (LSTM) for at spore agentens bane på tværs af sekvensen af ​​frames. Modellen bruger de repræsentationer, den uddrager fra familiariseringsvideoerne til at forudsige agentens adfærd i testvideoerne og vurdere dem som forventet eller overraskende.

ToMnet-G model

Ovenfor: ToMnet-G-modellen bruger grafiske neurale netværk og LSTM'er til at indlejre scenerepræsentationer og forudsige agentadfærd

Fordelen ved ToMnet-G er, at det ikke kræver den præ-konstruerede fysik og commonsense viden om BIPaCK. Den lærer alt fra videoerne og tidligere træning på andre datasæt. På den anden side lærer ToMnet-G ofte de forkerte repræsentationer og kan ikke generalisere sin adfærd til nye scenarier, eller når den har begrænset kendskabsinformation.

"Uden mange indbyggede forudsætninger viser ToMnet-G lovende resultater, når det trænes og testes på lignende scenarier, men det mangler stadig en stærk generaliseringskapacitet både inden for scenarier og på tværs af dem," bemærker forskerne i deres papir.

Kontrasten mellem de to modeller fremhæver udfordringerne ved de enkleste opgaver, som mennesker lærer uden nogen instruktioner.

"Vi er nødt til at huske, at vores benchmark, ved design, skildrer meget enkle syntetiske scenarier, der hver gang adresserer et specifikt aspekt af sund fornuft," sagde Gutfreund. "I den virkelige verden er mennesker i stand til meget hurtigt at analysere komplekse scener, hvor mange aspekter af sund fornuft relateret til fysik, psykologi, sprog og mere er på samme tid. AI-modeller er stadig langt fra at kunne gøre noget i nærheden af ​​det.”

Sund fornuft og fremtiden for AI

"Vi mener, at vejen fra smal til bred AI skal omfatte modeller, der har sund fornuft," sagde Gutfreund. "Sund fornuft er vigtige byggesten i forståelse og interaktion i verden og kan lette tilegnelsen af ​​nye evner."

Mange forskere mener, at sund fornuft og ræsonnement kan løse mange af de problemer, nuværende AI-systemer står over for, såsom deres behov for omfattende mængder træningsdata, deres kamp med kausalitet og deres skrøbelighed i håndteringen af ​​nye situationer. Sund fornuft og ræsonnement er vigtige forskningsområder for AI-samfundet, og de er blevet fokus for nogle af de dygtigste hjerner på området, inklusive pionererne inden for dyb læring.

At løse AGENT kan være et lille, men vigtigt skridt mod at skabe AI-agenter, der opfører sig robust i menneskers uforudsigelige verden.

"Det vil være svært at overbevise folk om at stole på autonome agenter ikke opfører sig på en almindelig fornuftig måde" sagde Gutfreund. ”Overvej for eksempel en robot til at hjælpe ældre. Hvis den robot ikke vil følge den sunde fornufts princip om, at agenter forfølger deres mål effektivt og vil bevæge sig i zig-zag snarere end i en lige linje, når de bliver bedt om at hente mælk fra køleskabet, vil det ikke være særlig praktisk eller troværdigt."

AGENT er en del af Maskinens sunde fornuft (MCS) program for Defense Advanced Research Projects Agency (DARPA). MCS følger to overordnede mål. Den første er at skabe maskiner, der kan lære som børn at ræsonnere om objekter, agenter og rum. AGENT falder ind under denne kategori. Det andet mål er at udvikle systemer, der kan lære ved at læse struktureret og ustruktureret viden fra nettet, som en menneskeforsker ville gøre. Dette er forskelligt fra nuværende tilgange til naturlig sprogforståelse, som kun fokuserer på at fange statistiske sammenhænge mellem ord og ordsekvenser i meget store tekstkorpus.

"Vi arbejder nu på at bruge AGENT som et testmiljø for babyer. Sammen med resten af ​​DARPA MCS-programmets udøvere planlægger vi at udforske mere komplekse scenarier med sund fornuft relateret til flere agenter (f.eks. at hjælpe eller hindre hinanden) og brugen af ​​værktøjer til at nå mål (f.eks. nøgler til at åbne døre) . Vi arbejder også på andre kernedomæner af viden relateret til intuitiv fysik og rumlig forståelse,” sagde Gutfreund.

Ben Dickson er softwareingeniør og grundlæggeren af TechTalks, en blog, der udforsker, hvordan teknologi løser og skaber problemer.

Denne historie opstod oprindeligt på Bdtechtalks.com. Ophavsret 2021

VentureBeat

VentureBeats mission er at være et digitalt bytorv for tekniske beslutningstagere for at få viden om transformativ teknologi og handle. Vores websted leverer væsentlig information om datateknologier og strategier til at guide dig, mens du leder dine organisationer. Vi inviterer dig til at blive medlem af vores fællesskab for at få adgang til:

  • ajourførte oplysninger om emner, der interesserer dig
  • vores nyhedsbreve
  • gated tankelederindhold og nedsat adgang til vores dyrebare begivenheder, såsom Forvandling 2021: Lær mere
  • netværksfunktioner og mere

Bliv medlem

Kilde: https://venturebeat.com/2021/07/27/can-you-teach-ai-common-sense/

Tidsstempel:

Mere fra AI – VentureBeat