Joscha Bach: https://twitter.com/Plinz/status/1529013919682994176
Det ser ut til at skryt er i konstant endring. Om disse multimodale AI-modellene gjør noe for å møte kritikken på ressursutnyttelse og skjevhet, mens det ikke er mye kjent på dette tidspunktet, basert på det som er kjent svarene ser ut til å være henholdsvis "sannsynligvis ikke" og "slags". Og hva med selve intelligensdelen? La oss se under panseret et øyeblikk.
OpenAI bemerker at "DALL·E 2 har lært forholdet mellom bilder og teksten som brukes til å beskrive dem. Den bruker en prosess kalt "diffusjon", som starter med et mønster av tilfeldige prikker og gradvis endrer det mønsteret mot et bilde når det gjenkjenner spesifikke aspekter av det bildet.
Google bemerker at deres "nøkkeloppdagelse er at generiske LLM-er (f.eks. T5), forhåndsopplært på tekstkorpus, er overraskende effektive til å kode tekst for bildesyntese: å øke størrelsen på språkmodellen i Imagen øker både prøvetroskap og bilde -tekstjustering mye mer enn å øke størrelsen på bildediffusjonsmodellen”.
Mens Imagen ser ut til å stole sterkt på LLM-er, er prosessen annerledes for DALL-E 2. Både OpenAIs og Googles folk, samt uavhengige eksperter, hevder imidlertid at disse modellene viser en form for "forståelse" som overlapper med menneskelig forståelse. MIT Technology-gjennomgangen gikk så langt som å kalle heste-astronauten, bildet som har blitt ikonisk for DALL-E 2, en milepæl i AIs reise for å forstå verden.
Gary Marcus er imidlertid fortsatt ikke overbevist. Marcus, en vitenskapsmann, bestselgende forfatter og gründer, er godt kjent i AI-kretser for sin kritikk om en rekke emner, inkludert intelligensens natur og hva som er galt med dyp læring. Han var rask med å påpeke mangler i både DALL-E 2 og Imagen, og til å gå i offentlig dialog, inkludert med folk fra Google.
Marcus deler sin innsikt i en passende tittel Essay om "Astronaut på hesteturer".. Konklusjonen hans er at å forvente at disse modellene skal være fullt følsomme for semantikk når det gjelder den syntaktiske strukturen er ønsketenkning, og at manglende evne til å resonnere er et generelt feilpunkt for moderne maskinlæringsmetoder og et nøkkelsted for å se etter nye ideer.
Sist men ikke minst, i mai 2022, DeepMind annonserte Gato, en generalistisk AI-modell. Som ZDNet egne Tiernan Ray-notater, Gato er en annen type multimodal AI-modell. Gato kan jobbe med flere typer data for å utføre flere typer oppgaver, for eksempel å spille videospill, chatte, skrive komposisjoner, tekste bilder og kontrollere robotarmstablingsblokker.
Som Ray også bemerker, gjør Gato en ujevne jobb med mange ting. Derimot, som ikke stoppet folk fra DeepMind-teamet som bygde Gato fra å utbryte at «The Game is Over! Det handler om å gjøre disse modellene større, sikrere, dataeffektive, raskere ved sampling, smartere minne, flere modaliteter».
Språk, mål og markedsmakt til de få
Så hvor forlater alt dette oss? Hype, metafysiske overbevisninger og entusiastiske utbrudd til side, den nåværende tilstanden til AI bør undersøkes med nøkternhet. Mens modellene som har blitt utgitt de siste månedene er virkelig imponerende ingeniørkunst og noen ganger er i stand til å produsere fantastiske resultater, er ikke intelligensen de peker på egentlig kunstig.
Menneskelig intelligens står bak den imponerende konstruksjonen som genererer disse modellene. Det er menneskelig intelligens som har bygget modeller som blir bedre og bedre på det som Alan Turings grunnleggende papir, Datamaskiner og intelligens kalt "imitasjonsspillet", som har blitt kjent populært som "Turing-testen".
Som administrerende direktør for Center on Privacy & Technology (CPT) ved Georgetown Law Emily Tucker skriver, erstattet Turing spørsmålet "kan maskiner tenke?" med spørsmålet om et menneske kan forveksle en datamaskin med et annet menneske.
Turing tilbyr ikke det siste spørsmålet i ånden til en nyttig heuristikk for det førstnevnte spørsmålet; han sier ikke at han tror disse to spørsmålene er versjoner av hverandre. Snarere uttrykker han troen på at spørsmålet "kan maskiner tenke?" har ingen verdi, og ser ut til å håpe bekreftende på en nær fremtid der det faktisk er svært vanskelig om ikke umulig for mennesker å stille seg selv spørsmålet i det hele tatt.
På noen måter kan den fremtiden nærme seg med stormskritt. Modeller som Imagen og DALL-E går i stykker når de får meldinger som krever intelligens av den typen mennesker har for å kunne behandle. Men for de fleste hensikter og formål kan disse betraktes som kantsaker. Det verdens DALL-E er i stand til å generere er på nivå med de dyktigste artistene.
Spørsmålet er da hva som er hensikten med det hele. Som et mål i seg selv virker det ganske malplassert å bruke tiden og ressursene som noe som Imagen krever for å kunne generere kule bilder.
Å se dette som et delmål for å skape "ekte" AI kan være mer berettiget, men bare hvis vi er villige til å abonnere på forestillingen om at å gjøre det samme i en stadig større skala vil på en eller annen måte føre til forskjellige utfall.
I dette lyset begynner Tuckers uttalte intensjon om å være så spesifikk som mulig om hva den aktuelle teknologien er og hvordan den fungerer, i stedet for å bruke begreper som "Kunstig intelligens og "maskinlæring", å gi mening på et eller annet nivå.
For eksempel, skriver Tucker, i stedet for å si "ansiktsgjenkjenning bruker kunstig intelligens", kan vi si noe sånt som "teknologiselskaper bruker massive datasett for å trene algoritmer for å matche bilder av menneskelige ansikter". Der en fullstendig forklaring er forstyrrende for det større argumentet, eller utenfor CPTs ekspertise, vil de peke leserne til eksterne kilder.
Når sant skal sies, høres det ikke veldig praktisk ut med tanke på lesbarhet. Imidlertid er det greit å huske på at når vi sier "AI", er det virkelig en konvensjon, ikke noe som skal tas for pålydende. Det er virkelig teknologiselskaper som bruker massive datasett for å trene algoritmer til å utføre – noen ganger nyttige og/eller imponerende – imitasjoner av menneskelig intelligens.
Noe som uunngåelig fører til flere spørsmål, for eksempel - å gjøre hva, og til fordel for hvem. Som Erik Brynjolfsson, utdannet økonom og direktør for Stanford Digital Economy Lab skriver, driver det overdrevne fokuset på menneskelignende kunstig intelligens ned lønningene for de fleste «selv om det forsterker markedsmakten til noen få» som eier og kontrollerer teknologiene.
På den måten, AI er ikke annerledes enn andre teknologier som gikk før den. Det som kan være annerledes denne gangen er hastigheten ting utspiller seg med, og graden av forsterkning til kraften til de få.
Kunstig intelligens
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
- PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
- PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
- PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
- kilde: https://www.zdnet.com/article/resisting-the-urge-to-be-impressed-and-knowing-what-we-are-talking-about-when-we-talk-about-ai/#ftag=RSSbaffb68