Kan du lære AI sunn fornuft?

Kilde node: 990012

Alle øktene fra Transform 2021 er tilgjengelige på forespørsel nå. Se nå.


Allerede før de sier sine første ord, utvikler menneskelige babyer mentale modeller om gjenstander og mennesker. Dette er en av nøkkelevnene som lar oss mennesker lære å leve sosialt og samarbeide (eller konkurrere) med hverandre. Men for kunstig intelligens er selv de mest grunnleggende atferdsresonneringsoppgavene fortsatt en utfordring.

Avanserte dyplæringsmodeller kan gjøre kompliserte oppgaver som å oppdage mennesker og objekter i bilder, noen ganger enda bedre enn mennesker. Men de sliter med å bevege seg utover de visuelle egenskapene til bilder og trekker slutninger om hva andre agenter gjør eller ønsker å oppnå.

For å hjelpe til med å fylle dette gapet, har forskere ved IBM, Massachusetts Institute of Technology og Harvard University utviklet en serie tester som vil bidra til å evaluere kapasiteten til AI-modeller til å resonnere som barn, ved å observere og gi mening om verden.

"Som menneskelige spedbarn, er det avgjørende for maskinagenter å utvikle en tilstrekkelig kapasitet til å forstå menneskelige sinn, for å lykkes med å engasjere seg i sosiale interaksjoner," skriver AI-forskerne i en nytt papir som introduserer datasettet, kalt AGENT.

Presentert på årets internasjonale konferanse om maskinlæring (ICML), gir AGENT en viktig målestokk for å måle resonneringsevnen til AI-systemer.

Observere og forutsi agentadferd

Det er mye arbeid med å teste sunn fornuft og resonnement i AI-systemer. Mange av dem fokuserer på naturlig språkforståelse, inkludert de berømte Turing Test og Winograd-skjemaer. I motsetning til dette fokuserer AGENT-prosjektet på hva slags resonneringsevner mennesker lærer før de kan snakke.

"Målet vårt, etter litteraturen i utviklingspsykologi, er å lage en målestokk for å evaluere spesifikke sunnfornuftsevner relatert til intuitiv psykologi som babyer lærer i løpet av det førspråklige stadiet (i de første 18 månedene av livet)," Dan Gutfreund, rektor etterforsker ved MIT-IBM Watson AI Lab, fortalte TechTalks.

Som barn lærer vi å se forskjellen mellom objekter og agenter ved å observere miljøene våre. Når vi ser på hendelser som utspiller seg, utvikler vi intuitive psykologiske ferdigheter, forutsier andre menneskers mål ved å observere deres handlinger, og fortsetter å korrigere og oppdatere våre mentale. Vi lærer alt dette med få eller ingen instruksjoner.

Ideen bak AGENT (Action, Goal, Efficiency, Constraint, UTility) testen er å vurdere hvor godt AI-systemer kan etterligne denne grunnleggende ferdigheten, hva de kan utvikle psykologiske resonneringsevner, og hvor godt representasjonene de lærer generaliserer til nye situasjoner. Datasettet består av korte sekvenser som viser en agent som navigerer seg mot ett av flere objekter. Sekvensene er produsert i ThreeDWorld, et virtuelt 3D-miljø designet for å trene AI-agenter.

AGENT-testen foregår i to faser. Først presenteres AI med en eller to sekvenser som skildrer agentens oppførsel. Disse eksemplene bør gjøre AI kjent med den virtuelle agentens preferanser. For eksempel kan en agent alltid velge én type objekt uavhengig av hindringene som står i veien, eller den kan velge det nærmeste og mest tilgjengelige objektet uansett type.

Etter familiariseringsfasen vises AI en testsekvens og den må avgjøre om agenten opptrer på en forventet eller overraskende måte.

Testene, totalt 3,360 XNUMX, spenner over fire typer scenarier, og starter med veldig enkel oppførsel (agenten foretrekker én type objekt uavhengig av miljøet) til mer kompliserte utfordringer (agenten viser kostnad-belønningsestimering, veier vanskeligheten med å oppnå et mål mot belønningen den vil motta). AI må også vurdere handlingseffektiviteten til den handlende agenten (f.eks. bør den ikke gjøre unødvendige hopp når det ikke er noen hindringer). Og i noen av utfordringene er scenen delvis okkludert for å gjøre det vanskeligere å resonnere om miljøet.

Realistiske scenarier i et kunstig miljø

Designerne av testene har inkludert menneskelige induktive skjevheter, noe som betyr at agentene og miljøet er styrt av regler som ville være rasjonelle for mennesker (f.eks. at kostnadene ved å hoppe eller klatre på en hindring vokser med høyden). Denne beslutningen bidrar til å gjøre utfordringene mer realistiske og lettere å evaluere. Forskerne bemerker også at denne typen skjevheter også er viktige for å bidra til å skape AI-systemer som er bedre justert og kompatible med menneskelig atferd og kan samarbeide med menneskelige kolleger.

AI-forskerne testet utfordringene på menneskelige frivillige gjennom Amazon Mechanical Turk. Funnene deres viser at mennesker i gjennomsnitt kan løse 91 prosent av utfordringene ved å observere familiariseringssekvensene og bedømme testeksemplene. Dette innebærer at mennesker bruker sin forkunnskap om verden og menneskers/dyrs atferd for å forstå hvordan agentene tar avgjørelser (f.eks. vil en agent velge objektet med høyere belønning, alt annet likt).

AI-forskerne begrenset med vilje størrelsen på datasettet for å forhindre uintelligente snarveier for å løse problemene. Gitt et veldig stort datasett, kan en maskinlæringsmodell lære å lage korrekte spådommer uten å få den underliggende kunnskapen om agentatferd. "Opplæring fra bunnen av på bare datasettet vårt vil ikke fungere. I stedet foreslår vi at for å bestå testene, er det nødvendig å tilegne seg ytterligere kunnskap enten via induktive skjevheter i arkitekturene, eller fra trening på tilleggsdata, skriver forskerne.

Forskerne har imidlertid implementert noen snarveier i testene. AGENT-datasettet inkluderer dybdekart, segmenteringskart og avgrensende bokser med objekter og hindringer for hvert bilde av scenen. Scenene er også ekstremt enkle i visuelle detaljer og er satt sammen av åtte distinkte farger. Alt dette gjør det lettere for AI-systemer å behandle informasjonen i scenen og fokusere på den resonnerende delen av utfordringen.

Løser dagens AI AGENT-utfordringer?

Forskerne testet AGENT-utfordringen på to grunnleggende AI-modeller. Den første, Bayesian Inverse Planning and Core Knowledge (BIPaCK), er en generativ modell som integrerer fysikksimulering og planlegging.

BIPaCK modell

Over: BIPaCK-modellen bruker planlegger- og fysikkmotorer for å forutsi banen til agenten

Denne modellen bruker den fullstendige sannhetsinformasjonen fra datasettet og mater den inn i sin fysikk- og planleggingsmotor for å forutsi banen til agenten. Forskernes eksperimenter viser at BIPaCK er i stand til å prestere på nivå med eller enda bedre enn mennesker når den har full informasjon om åstedet.

I den virkelige verden har imidlertid AI-systemer ikke tilgang til nøyaktig annotert informasjon om grunnsannheten og må utføre den kompliserte oppgaven med å oppdage objekter mot forskjellige bakgrunner og lysforhold, et problem som mennesker og dyr løser enkelt, men som fortsatt er en utfordring for datamaskiner. synssystemer.

I papiret deres erkjenner forskerne at BIPaCK "krever en nøyaktig rekonstruksjon av 3D-tilstanden og en innebygd modell av den fysiske dynamikken, som ikke nødvendigvis vil være tilgjengelig i virkelige scener."

Den andre modellen forskerne testet, med kodenavnet ToMnet-G, er en utvidet versjon av Theory of Mind Neural Network (ToMnet), foreslått av forskere ved DeepMind i 2018. ToMnet-G bruker grafiske nevrale nettverk for å kode scenenes tilstand, inkludert objekter, hindringer og agentens plassering. Den mater deretter disse kodingene inn langtidsminnenettverk (LSTM) for å spore agentens bane gjennom sekvensen av rammer. Modellen bruker representasjonene den trekker ut fra familiariseringsvideoene for å forutsi agentens oppførsel i testvideoene og vurdere dem som forventet eller overraskende.

ToMnet-G-modell

Over: ToMnet-G-modellen bruker grafiske nevrale nettverk og LSTM-er for å bygge inn scenerepresentasjoner og forutsi agentatferd

Fordelen med ToMnet-G er at den ikke krever forhåndskonstruert fysikk og sunn fornuft kunnskap om BIPaCK. Den lærer alt fra videoene og tidligere opplæring på andre datasett. På den annen side lærer ToMnet-G ofte feil representasjoner og kan ikke generalisere sin oppførsel til nye scenarier eller når den har begrenset kjennskapsinformasjon.

"Uten mange innebygde forutsetninger, viser ToMnet-G lovende resultater når den er trent og testet på lignende scenarier, men den mangler fortsatt en sterk generaliseringskapasitet både innenfor scenarier og på tvers av dem," observerer forskerne i deres artikkel.

Kontrasten mellom de to modellene fremhever utfordringene ved de enkleste oppgavene som mennesker lærer uten instruksjoner.

"Vi må huske at referansen vår, ved design, skildrer veldig enkle syntetiske scenarier som hver gang tar for seg ett spesifikt aspekt av sunn fornuft," sa Gutfreund. «I den virkelige verden er mennesker i stand til veldig raskt å analysere komplekse scener der samtidig mange aspekter av sunn fornuft relatert til fysikk, psykologi, språk og mer er i spill. AI-modeller er fortsatt langt fra å kunne gjøre noe i nærheten av det.»

Sunn fornuft og fremtiden til AI

"Vi tror at veien fra smal til bred AI må inkludere modeller som har sunn fornuft," sa Gutfreund. "Sunn fornuft er viktige byggesteiner for å forstå og samhandle i verden og kan lette anskaffelsen av nye evner."

Mange forskere tror at sunn fornuft og resonnement kan løse mange av problemene dagens AI-systemer står overfor, for eksempel deres behov for omfattende mengder treningsdata, deres kamp med årsakssammenheng og deres skjørhet i å håndtere nye situasjoner. Sunn fornuft og resonnement er viktige forskningsområder for AI-samfunnet, og de har blitt fokus for noen av de flinkeste hjernene på feltet, inkludert pionerene innen dyp læring.

Å løse AGENT kan være et lite, men viktig skritt mot å skape AI-agenter som oppfører seg robust i menneskers uforutsigbare verden.

"Det vil være vanskelig å overbevise folk om å stole på autonome agenter som ikke oppfør deg på en vanlig fornuftig måte", sa Gutfreund. «Tenk for eksempel en robot for å hjelpe eldre. Hvis den roboten ikke vil følge sunn fornuftsprinsippet om at agenter forfølger sine mål effektivt og vil bevege seg i sikksakk i stedet for i en rett linje når de blir bedt om å hente melk fra kjøleskapet, vil det ikke være særlig praktisk eller pålitelig.»

AGENT er en del av Maskinens sunn fornuft (MCS)-programmet til Defense Advanced Research Projects Agency (DARPA). MCS følger to brede mål. Den første er å lage maskiner som kan lære som barn å resonnere om objekter, agenter og rom. AGENT faller inn under denne kategorien. Det andre målet er å utvikle systemer som kan lære ved å lese strukturert og ustrukturert kunnskap fra nettet, slik en menneskelig forsker ville gjort. Dette er forskjellig fra dagens tilnærminger til naturlig språkforståelse, som kun fokuserer på å fange statistiske korrelasjoner mellom ord og ordsekvenser i svært store tekstkorpus.

«Vi jobber nå med å bruke AGENT som et testmiljø for babyer. Sammen med resten av DARPA MCS-programutøverne planlegger vi å utforske mer komplekse scenarier for sunn fornuft relatert til flere agenter (f.eks. å hjelpe eller hindre hverandre) og bruk av verktøy for å oppnå mål (f.eks. nøkler til åpne dører) . Vi jobber også med andre kjernedomener for kunnskap relatert til intuitiv fysikk og romlig forståelse, sa Gutfreund.

Ben Dickson er programvareingeniør og grunnlegger av TechTalks, en blogg som utforsker måter teknologien løser og skaper problemer.

Denne historien opprinnelig oppstod på Bdtechtalks.com. Opphavsrett 2021

VentureBeat

VentureBeats oppdrag er å være et digitalt torg for tekniske beslutningstakere for å få kunnskap om transformativ teknologi og transaksjoner. Nettstedet vårt gir viktig informasjon om datateknologier og strategier for å veilede deg når du leder organisasjonene dine. Vi inviterer deg til å bli medlem av samfunnet vårt, for å få tilgang til:

  • oppdatert informasjon om temaene som er interessante for deg
  • våre nyhetsbrev
  • gated tankelederinnhold og nedsatt tilgang til våre verdsatte arrangementer, som f.eks Transformer 2021: Lære mer
  • nettverksfunksjoner og mer

Bli medlem

Kilde: https://venturebeat.com/2021/07/27/can-you-teach-ai-common-sense/

Tidstempel:

Mer fra AI - VentureBeat