Google AI-forskere drømmer om en ny art søgemaskine

Kildeknude: 1853271

Forestil dig en samling bøger – måske millioner eller endda milliarder af dem – tilfældigt smidt af udgivere i en dyngebunke på en mark. Hver dag vokser bunken eksponentielt.

Disse bøger er fyldt med viden og svar. Men hvordan ville en søgende finde dem? Manglende organisation er bøgerne ubrugelige.

Dette er det rå internet i al sin ufiltrerede herlighed. Derfor begynder de fleste af vores søgen efter "oplysning" online med Google (og ja, der er stadig andre søgemaskiner). Googles algoritmiske tentakler scanner og indekserer hver bog i den ugudelige bunke. Når nogen indtaster en forespørgsel i søgefeltet, bladrer søgealgoritmen gennem sin indekserede version af internettet, viser sider og præsenterer dem i en rangeret liste over de bedste hits.

Denne tilgang er utrolig nyttig. Faktisk så nyttigt, at det ikke har ændret sig fundamentalt i over to årtier. Men nu skitserer AI-forskere hos Google, selve virksomheden, der satte barren for søgemaskiner i første omgang, en plan for, hvad der kan komme næste gang.

I en papir på arXiv preprint-serveren, holdet foreslår, at teknologien til at gøre internettet endnu mere søgbar er lige ved hånden. De siger store sprogmodeller -maskinlæringsalgoritmer som OpenAI's GPT-3— kunne helt erstatte dagens system med indeks, hente og derefter rangordne.

Er AI fremtidens søgemaskine?

Når de søger information, vil de fleste gerne spørge en ekspert og få et nuanceret og troværdigt svar, skriver forfatterne. I stedet googler de det. Dette kan virke eller gå helt galt. Som når du bliver suget ned i et panisk, sundhedsrelateret kaninhul klokken to om morgenen.

Selvom søgemaskiner viser (forhåbentlig kvalitet) kilder, der indeholder mindst dele af et svar, er byrden på søgeren at scanne, filtrere og læse resultaterne igennem for at sammensætte det svar, så godt de kan.

Søgeresultater har forbedret spring og grænser gennem årene. Alligevel er tilgangen langt fra perfekt.

Der er spørgsmål-og-svar-værktøjer som Alexa, Siri og Google Assistant. Men disse værktøjer er sprøde, med et begrænset (dog voksende) repertoire af spørgsmål, de kan stille. Selvom de har deres egne mangler (mere om dem nedenfor), er store sprogmodeller som GPT-3 meget mere fleksible og kan konstruere nye svar i naturligt sprog til enhver forespørgsel eller prompt.

Google-teamet foreslår, at den næste generation af søgemaskiner kan syntetisere det bedste fra alle verdener og folde nutidens bedste informationssøgningssystemer til storstilet AI.

Det er værd at bemærke, at maskinlæring allerede er i gang i klassiske søgemaskiner, der indekserer-henter og rangerer. Men i stedet for blot at udvide systemet, foreslår forfatterne, at maskinlæring helt kan erstatte det.

"Hvad ville der ske, hvis vi helt slap af med begrebet indekset og erstattede det med en stor præ-trænet model, der effektivt og effektivt koder al information indeholdt i korpuset?" Donald Metzler og medforfattere skriver i avisen. "Hvad hvis sondringen mellem hentning og rangering forsvandt, og der i stedet var en enkelt responsgenereringsfase?"

Et ideelt resultat, de forestiller sig, er lidt ligesom rumskibet Enterprises computer Star Trek. Informationssøgende stiller spørgsmål, systemet besvarer samtale - det vil sige med et naturligt sprogsvar, som du ville forvente af en ekspert - og inkluderer autoritative citater i sit svar.

I papiret skitserer forfatterne, hvad de kalder et aspirationseksempel på, hvordan denne tilgang kan se ud i praksis. En bruger spørger: "Hvad er de sundhedsmæssige fordele ved rødvin?" Systemet returnerer et nuanceret svar i klar prosa fra flere autoritative kilder - i dette tilfælde WebMD og Mayo Clinic - der fremhæver de potentielle fordele og risici ved at drikke rødvin.

Det behøver dog ikke ende der. Forfatterne bemærker, at en anden fordel ved store sprogmodeller er deres evne til at lære mange opgaver med kun en lille justering (dette er kendt som one-shot eller few-shot learning). Så de kan muligvis udføre alle de samme opgaver, som nuværende søgemaskiner udfører, og dusinvis flere også.

Stadig bare en vision

I dag er denne vision uden for rækkevidde. Store sprogmodeller er, hvad forfatterne kalder "dilettanter."

Algoritmer som GPT-3 kan producere prosa, der til tider næsten ikke kan skelnes fra passager skrevet af mennesker, men de er også stadig tilbøjelige til at få useriøse svar. Hvad værre er, de afspejler hensynsløst skævheder indlejret i deres træningsdata, har ingen følelse af kontekstuel forståelse og kan ikke citere kilder (eller endda adskille kilder af høj kvalitet og lav kvalitet) for at retfærdiggøre deres svar.

"De opfattes at vide meget, men deres viden er huddyb," skriver forfatterne. Papiret opstiller også de gennembrud, der er nødvendige for at bygge bro over kløften. Mange af de udfordringer, de skitserer, gælder faktisk for feltet som helhed.

Et vigtigt fremskridt ville være at bevæge sig ud over algoritmer, der kun modellerer forholdet mellem termer (såsom individuelle ord) til algoritmer, der også modellerer forholdet mellem ord i en artikel, for eksempel, og artiklen som helhed. Derudover ville de også modellere forholdet mellem mange forskellige artikler på tværs af internettet.

Forskere skal også definere, hvad der er et kvalitetssvar. Dette er i sig selv ikke nogen nem opgave. Men for det første foreslår forfatterne, at svar af høj kvalitet skal være autoritative, gennemsigtige, upartiske, tilgængelige og indeholde forskellige perspektiver.

Selv de mest banebrydende algoritmer i dag kommer ikke i nærheden af ​​denne bar. Og det ville være uklogt at implementere naturlige sprogmodeller på denne skala, indtil de er løst. Men hvis det løses - og der arbejdes allerede på at løse problemet nogle af disse udfordringer—Søgemaskiner ville ikke være de eneste applikationer, der gavner.

'Early Grey, Hot'

Det er en lokkende vision. Det kan være udmattende at gennemsøge websider på jagt efter svar, mens du prøver at finde ud af, hvad der er troværdigt, og hvad der ikke er.

Der er utvivlsomt mange af os, der ikke gør arbejdet så godt, som vi kunne eller burde.

Men det er også værd at spekulere i, hvordan et internet, der er tilgået som dette, ville ændre den måde, folk bidrager til det.

Hvis vi primært forbruger information ved at læse prosaiske svar syntetiseret af algoritmer – i modsætning til at åbne og læse de enkelte sider selv – ville skabere udgive lige så meget arbejde? Og hvordan ville Google og andre søgemaskineproducenter kompensere skabere, som i bund og grund laver den information, der træner algoritmerne selv?

Der ville stadig være masser af mennesker, der læste nyhederne, og i disse tilfælde ville søgealgoritmer være nødt til at tjene lister over historier. Men jeg spekulerer på, om der kan ske et subtilt skift, hvor mindre skabere tilføjer mindre, og derved nettet bliver mindre rig på information, hvilket svækker selve de algoritmer, der afhænger af den information.

Der er ingen måde at vide det. Ofte er spekulation forankret i nutidens problemer og viser sig at være uskyldig set i bakspejlet. I mellemtiden vil arbejdet uden tvivl fortsætte.

Måske løser vi disse udfordringer – og flere, efterhånden som de opstår – og i processen nå frem til den alvidende, behageligt snakkesalige Star Trek computer, vi længe har forestillet os.

Billede Credit: JD X / Unsplash

Kilde: https://singularityhub.com/2021/05/16/google-ai-researchers-are-dreaming-up-a-new-species-of-search-engine/

Tidsstempel:

Mere fra Singularitet Hub