Kako sestaviti GPT-3 za znanost

Ponovno objavil Platon

Spremljevalci: 0

Želite ustvariti podobo velociraptorji, ki delajo na nebotičniku, v slogu "Kosilo na vrhu nebotičnika" iz leta 1932? Uporabite DALL-E. Želite ustvariti domišljijo standup komedija Petra Thiela, Elona Muska in Larryja Pagea? Uporabite GPT-3. Želite poglobljeno razumeti raziskavo o COVID-19 in odgovoriti na vaša vprašanja na podlagi dokazov? Naučite se izvajati logično iskanje, berite znanstvene članke in morda pridobite doktorat, ker ni generativnih modelov umetne inteligence, ki bi bili usposobljeni na ogromni količini znanstvenih raziskovalnih publikacij. Če bi obstajali, bi bilo pridobivanje z dokazi podprtih odgovorov v preprostem jeziku na znanstvena vprašanja ena najpreprostejših koristi. Generativna umetna inteligenca za znanost bi lahko pomagala obrniti upočasnitev inovacij v znanosti by zaradi česar lažje in cenejša najti nove ideje. Takšni modeli bi lahko zagotovili tudi s podatki podprta opozorila o terapevtskih hipotezah, ki bodo zagotovo neuspešne, s čimer bi uravnotežili človeško pristranskost in se izognili milijardam dolarjev, desetletja dolge slepe ulice. Končno bi se takšni modeli lahko borili kriza ponovljivosti s preslikavo, tehtanjem in kontekstualiziranjem rezultatov raziskav, kar zagotavlja oceno o zanesljivosti.

Zakaj torej nimamo DALL-E ali GPT-3 za znanost? Razlog je v tem, da čeprav so znanstvene raziskave najbolj dragocena vsebina na svetu, je tudi najmanj dostopna in razumljiva vsebina na svetu. Pojasnil bom, kaj bi bilo potrebno za odklepanje znanstvenih podatkov v velikem obsegu, da bi omogočili generativno umetno inteligenco za znanost, in kako bi to spremenilo način, kako se ukvarjamo z raziskavami.

Zakaj so podatki znanstvenih raziskav izziv

Raziskovalne publikacije so nekaj najpomembnejših svetovnih skladišč vsebin in informacij, ki so bile kdaj ustvarjene. Povezujejo ideje in ugotovitve v različnih časih in disciplinah ter jih za vedno ohranja mreža knjižnic. Podprti so z dokazi, analizami, strokovnim vpogledom in statističnimi razmerji. So izjemno dragoceni, a so v veliki meri skriti pred spletom in se uporabljajo zelo neučinkovito. Splet je poln videoposnetkov ljubkih, ljubkih mačk, vendar večinoma brez najsodobnejših raziskav raka. Kot primer, Spletna znanost je eden najobsežnejših indeksov znanstvenega znanja. Obstaja že desetletja, vendar je verjetno nekaj, za kar večina bralcev še nikoli ni niti slišala, kaj šele, da bi bila s tem v stiku. Večina od nas nima dostopa do raziskovalnih člankov, in tudi ko ga imamo, so natrpani, težko razumljivi in zapakirani kot PDF – format, zasnovan za tiskanje, ne za splet.

Ker znanstveni članki niso enostavno dostopni, podatkov ne moremo preprosto uporabiti za usposabljanje generativnih modelov, kot sta GPT-3 ali DALL-E. Lahko si predstavljate, če bi lahko raziskovalec predlagal eksperiment in bi mu model AI lahko takoj povedal, ali je bil že narejen (in še bolje, dal bi mu rezultat)? Potem, ko ima podatke iz novega poskusa, lahko umetna inteligenca na podlagi rezultata predlaga nadaljnji poskus. Nazadnje si predstavljajte čas, ki bi ga lahko prihranili, če bi lahko raziskovalec naložil svoje rezultate in bi model AI lahko napisal nastali rokopis za njim. Najbližje, kar smo kdaj prišli k DALL-E znanosti, je Google Scholar, vendar ni trajnostna ali razširljiva rešitev. IBM Watson si je prav tako prizadeval doseči veliko tega, kar tukaj opisujem, vendar je večina dela potekala pred nedavnim napredkom v velikih jezikovnih modelih in ni uporabila ustreznih ali zadostnih podatkov, ki bi ustrezali trženjskemu pompu.

Za takšno odklepanje vrednosti, ki ga opisujem, potrebujemo dolgoročne naložbe, predanost in vizijo. Kot predlagano Pred kratkim in Prihodnost, moramo znanstvene publikacije obravnavati kot substrate, ki jih je treba kombinirati in analizirati v velikem obsegu. Ko odstranimo ovire, bomo lahko uporabili znanost za hranjenje podatkov lačnih generativnih modelov umetne inteligence. Ti modeli imajo ogromen potencial za pospeševanje znanosti in povečanje znanstvene pismenosti, na primer z usposabljanjem za ustvarjanje novih znanstvenih zamisli, pomoč znanstvenikom pri upravljanju in krmarjenju po obsežni znanstveni literaturi, pomoč pri prepoznavanju napačnih ali celo ponarejenih raziskav ter sintetiziranje in prevajanje kompleksnih raziskovalnih ugotovitev v običajni človeški govor.

Kako dobimo DALL-E ali GPT-3 za znanost?

Če se ukvarjate s tehnologijo, lahko prijatelju pokažete rezultate iz generativnih modelov umetne inteligence, kot je DALL-E or GPT-3 je, kot bi jim pokazal čarovnijo. Ta orodja predstavljajo naslednjo generacijo spleta. Izhajajo iz sinteze ogromnih količin informacij, ki presegajo preprosto povezavo, da ustvarijo orodja z generativno zmogljivostjo. Kako lahko torej ustvarimo podobno čarobno izkušnjo v znanosti, kjer lahko vsakdo postavi vprašanje o znanstveni literaturi v preprostem jeziku in dobi razumljiv odgovor, podprt z dokazi? Kako lahko pomagamo raziskovalcem ustvarjati, razvijati, izpopolnjevati in preverjati njihove hipoteze? Kako se lahko izognemo zapravljanju milijard dolarjev za neuspešne hipoteze v raziskavah Alzheimerjeve bolezni in zmotne povezave med genetiko in depresijo?

Rešitve teh vprašanj se morda slišijo kot znanstvena fantastika, vendar obstajajo dokazi, da lahko počnemo neverjetne in nepredstavljive stvari, če znanstveno delo uporabljamo za več kot le vsoto njegovih delov. Dejansko uporablja skoraj 200,000 proteinskih struktur v Banka podatkov o beljakovinah je dal AlphaFold sposobnost za natančno napovedovanje beljakovinskih struktur, za kar je bilo pravkar narejeno vsak dokumentiran protein (več kot 200 milijonov!). Izkoriščanje raziskovalnih člankov na način, podoben beljakovinskim strukturam, bi bil naravni naslednji korak.

Razstavite papirje na minimalne komponente

Raziskovalni članki so polni dragocenih informacij, vključno s številkami, grafikoni, statističnimi razmerji in sklici na druge članke. Če jih razdelimo na različne komponente in jih uporabimo v velikem obsegu, nam lahko pomaga usposobiti stroje za različne vrste del, pozivov ali poizvedb, povezanih z znanostjo. Na preprosta vprašanja je mogoče odgovoriti z usposabljanjem o eni vrsti komponente, bolj zapletena vprašanja ali pozivi pa bi zahtevali vključitev več vrst komponent in razumevanje njihove medsebojne povezave.

Nekaj primerov zapletenih potencialnih pozivov je:

"Povej mi, zakaj je ta hipoteza napačna"
»Povej mi, zakaj moja zamisel o zdravljenju ne deluje«
"Ustvari novo idejo za zdravljenje"
"Kateri dokazi obstajajo v podporo socialni politiki X?"
"Kdo je objavil najbolj zanesljivo raziskavo na tem področju?"
"Napišite mi znanstveni članek na podlagi mojih podatkov"

Nekatere skupine napredujejo pri tej viziji. na primer Izzvati uporablja GPT-3 za milijone naslovov prispevkov in izvlečkov, da pomaga odgovoriti na vprašanja raziskovalcev – podobno kot Alexa, vendar za znanost. sistem izvleče statistične odnose med entitetami, ki prikazujejo, kako so različni koncepti in entitete povezani. Primer se sam po sebi ne osredotoča na raziskovalne članke, vendar deluje z arXiv in zagotavlja nadzorno ploščo informacij, ki jih uporabljajo korporacije in vlade za sintetiziranje in razumevanje velikih količin podatkov iz številnih virov.

Dostopajte do vseh komponent

Na žalost se te skupine v prvi vrsti zanašajo samo na naslove in povzetke, ne na celotna besedila, saj približno pet od šestih člankov ni prosto ali lahko dostopnih. Za skupine, kot sta Web of Science in Google, ki imajo podatke ali dokumente, veljajo njihove licence in obseg uporabe omejeno ali nedefinirano. V primeru Googla ni jasno, zakaj ni bilo javno objavljenih prizadevanj za usposabljanje modelov AI na znanstvenih raziskavah celotnega besedila v Google Scholarju. Neverjetno, to se ni spremenilo niti sredi pandemije COVID-19, zaradi katere je svet obstal. Googlova ekipa za umetno inteligenco se je okrepila in izdelala prototip načina, po katerem lahko javnost vpraša o COVID-19. Toda – in tu je zanimivo – to so storili samo z uporabo dokumentov z odprtim dostopom iz PubMed, ne Google Scholar.

Vprašanje dostopa do dokumentov in njihove uporabe za več kot le branje enega za drugim je nekaj, kar skupine zagovarjajo že desetletja. Osebno sem delal na tem že skoraj desetletje in zagnal platformo za objavljanje z odprtim dostopom, imenovano Winnower v zadnjem letu mojega doktorata in nato delal na izgradnji članek prihodnosti pri drugem zagonu imenovanem Authorea. Čeprav nobena od teh pobud ni v celoti potekala tako, kot sem si želel, sta me pripeljali do mojega trenutnega dela pri pobočje, ki je z neposrednim sodelovanjem z založniki vsaj delno rešil problem dostopa.

Komponente povežite in določite relacije

Naš cilj pobočje je predstaviti naslednjo generacijo citatov — imenovani pametni citati — ki prikazujejo, kako in zakaj je bil kateri koli članek, raziskovalec, revija ali tema citiran in bolj splošno obravnavan v literaturi. S sodelovanjem z založniki izvlečemo stavke neposredno iz člankov s polnim besedilom, pri čemer uporabijo svoje reference v besedilu. Ti stavki ponujajo kvalitativni vpogled v to, kako so članke citirala novejša dela. To je malo kot Rotten Tomatoes za raziskave.

To zahteva dostop do člankov s polnim besedilom in sodelovanje z založniki, tako da lahko uporabimo strojno učenje za pridobivanje in analizo izjav o citatih v velikem obsegu. Ker je bilo za začetek dovolj člankov z odprtim dostopom, smo lahko izdelali dokaz koncepta in enega za drugim smo založnikom pokazali večjo odkritost člankov, indeksiranih v našem sistemu, in jim zagotovili sistem za kažejo boljše meritve za odgovornejšo presojo raziskav. Kar smo mi videli kot izjave strokovnjakov, so oni videli kot predoglede svojih člankov. Založniki so se zdaj množično prijavili in indeksirali smo več kot 1.1 milijarde pametnih navedb iz več kot polovice vseh objavljenih člankov.

Uporabite relacijske podatke za usposabljanje modelov AI

Komponente in relacije, pridobljene iz dokumentov, bi lahko uporabili za usposabljanje novih velikih jezikovnih modelov za raziskave. Čeprav je GPT-3 zelo močan, ni bil zgrajen za znanstveno delo slabo odgovarja na vprašanja, ki jih morda vidite na SAT. Ko je bil GPT-2 (prejšnja različica GPT-3). prilagodil z usposabljanjem na milijonih raziskovalnih člankov, je deloval bolje kot sam GPT-2 pri posebnih nalogah znanja. To poudarja, da so podatki, uporabljeni za usposabljanje modelov, izjemno pomembni.

Nekatere skupine so pred kratkim uporabljal GPT-3 za pisanje akademskih člankov, in čeprav je to impresivno, so lahko dejstva ali argumenti, ki bi jih lahko pokazali, zelo napačni. Če model ne more pravilno odgovoriti na preprosta vprašanja v slogu SAT, mu lahko zaupamo, da bo napisal celoten članek? SCIgen, ki je pred GPT-3 skoraj 20 let, je pokazal, da je ustvarjanje papirjev, ki so videti resnični, relativno enostavno. Njihov sistem, čeprav je bil veliko preprostejši, je ustvaril dokumente, ki so bili sprejeti na različne konference. Potrebujemo model, ki ni le videti znanstven, ampak je znanstven, in ki zahteva sistem za preverjanje trditev za stroje in ljudi. Meta je pred kratkim predstavila a sistem za preverjanje citatov Wikipedije, kar imajo nekateri založniki vokalno želeli imeti za znanstvene objave.

Trenutni napredek

Še enkrat, ena ključnih ovir pri uresničitvi tega sistema je pomanjkanje dostopa do dokumentov in virov za njegovo ustvarjanje. Kjer postanejo dokumenti ali informacije na voljo za uporabo v velikem obsegu, vidimo orodja in novi modeli cvetijo. Uporabljena skupina Google Patent 100 milijonov patentov za usposabljanje sistema za pomoč pri analizi patentov, dejansko GooglePatentBERT. Drugi so predstavili modele, kot je BioBERT in SciBERT, in kljub dejstvu, da so bili usposobljeni samo za približno ~1 % znanstvenih besedil samo na določenih predmetnih področjih, so impresivni pri znanstvenih nalogah, vključno z našim sistemom klasifikacije citatov pri scite.

Pred kratkim, a ScholarBERT je bil izdan model, ki dejansko uporablja vso znanstveno literaturo za usposabljanje BERT. Težavo z dostopom rešujejo, vendar ne vedo predvsem o tem, kako, preprosto poudarjajo, da je njihova uporaba "nepotrošna". Ta primer uporabe lahko odpre vrata drugi uporabljajo članke brez izrecnega dovoljenja založnikov in so lahko pomemben korak pri ustvarjanju DALL-E znanosti. Presenetljivo pa je ScholarBERT slabše opravil različne naloge specializiranega znanja kot manjši znanstveni jezikovni modeli, kot je SciBERT.

Pomembno je, da so modeli v slogu BERT veliko manjšega obsega kot veliki jezikovni modeli, kot je GPT-3, in ne dopuščajo iste vrste generičnega pozivanja in učenja v kontekstu, ki je poganjalo velik del pompa GPT-3. Vprašanje ostaja: kaj če bi uporabili iste podatke iz ScholarBERT za usposabljanje povečanega generativnega modela, kot je GPT-3? Kaj pa, če bi lahko nekako pokazali, od kod so bili odgovori iz stroja, morda bi jih neposredno povezali z literaturo (kot so pametni citati)?

Zakaj zdaj?

Na srečo postajajo papirji vse bolj odprti in stroji zmogljivejši. Zdaj lahko začnemo uporabljati podatke v dokumentih in povezanih repozitorijih za usposabljanje strojev za odgovarjanje na vprašanja in sintetiziranje novih idej na podlagi raziskav. To bi lahko preobrazilo zdravstvo, politiko, tehnologijo in vse okoli nas. Predstavljajte si, če ne bi iskali le naslovov dokumentov, ampak posebej odgovore, kako bi to vplivalo na raziskave in poteke dela v vseh disciplinah.

Osvoboditev svetovnega znanstvenega znanja od dvojnih ovir dostopnosti in razumljivosti bo pomagala spodbuditi prehod s spleta, osredotočenega na klike, oglede, všečke in pozornost, na splet, osredotočen na dokaze, podatke in verodostojnost. Pharma je očitno spodbujena, da to uresniči, zato vse večje število startupov identificira potencialne tarče za droge z uporabo umetne inteligence – vendar verjamem, da bi se javnost, vlade in vsi, ki uporabljajo Google, morda pripravljeni odreči brezplačnim iskanjem v prizadevanju za zaupanje in čas – varčevanje. Svet obupno potrebuje takšen sistem in potrebuje ga hitro.

Objavljeno 18. avgusta 2022