Kuidas luua GPT-3 teaduse jaoks

Kuidas luua GPT-3 teaduse jaoks

Allikasõlm: 1783041

Tahad luua pilti velociraptorid, kes töötavad pilvelõhkujal 1932. aasta “Lunch Atop Atop Atop Atop Atop Atop Atop” stiilis? Kasutage DALL-E. Tahad luua kujutlusvõimet Peter Thieli, Elon Muski ja Larry Page'i standup-komöödia? Kasutage GPT-3. Kas soovite sügavalt mõista COVID-19 uuringuid ja vastata oma küsimustele tõendite põhjal? Õppige tegema Boole'i ​​otsingut, lugema teadusartikleid ja võib-olla omandama doktorikraadi, sest puuduvad generatiivsed tehisintellekti mudelid, mis on koolitatud suure hulga teaduslike uurimispublikatsioonide põhjal. Kui see oleks olemas, oleks üks lihtsamaid eeliseid tõenditega toetatud ja lihtsate vastuste saamine teaduslikele küsimustele. Teaduse generatiivne AI võib aidata seda muuta innovatsiooni aeglustumine teaduses by teevad seda lihtsam ja odavam uute ideede leidmiseks. Sellised mudelid võivad anda ka andmepõhiseid hoiatusi terapeutiliste hüpoteeside kohta, mis kindlasti ebaõnnestuvad, tasakaalustades inimeste eelarvamusi ja vältides miljardit dollarit, aastakümneid kestnud pimedad tänavad. Lõpuks võiksid sellised mudelid võidelda reprodutseeritavuse kriis uurimistulemusi kaardistades, kaaludes ja kontekstualiseerides, andes hinde usaldusväärsusele.

Miks pole meil teaduse jaoks mõeldud DALL-E või GPT-3? Põhjus on selles, et kuigi teadusuuringud on maailma kõige väärtuslikum sisu, on see ka maailma kõige vähem juurdepääsetav ja arusaadavam sisu. Selgitan, mida oleks vaja teaduslike andmete laiaulatuslikuks avamiseks, et teha generatiivne AI teaduse jaoks võimalikuks, ja kuidas see muudaks seda, kuidas me teadusuuringutega tegeleme. 

Mis muudab teadusuuringute andmed keeruliseks

Teaduspublikatsioonid on ühed maailma kõige olulisemad kunagi loodud sisu ja teabe hoidlad. Need seovad ideed ja leiud aja ja erialade lõikes kokku ning neid säilitab igavesti raamatukogude võrgustik. Neid toetavad tõendid, analüüs, ekspertarvamus ja statistilised seosed. Need on äärmiselt väärtuslikud, kuid on suures osas veebis peidetud ja neid kasutatakse väga ebaefektiivselt. Veeb on tulvil armsaid kaisulisi kassivideoid, kuid puuduvad suures osas tipptasemel vähiuuringud. Näiteks on Web of Science on üks põhjalikumaid teaduslike teadmiste indekseid. See on eksisteerinud aastakümneid, kuid tõenäoliselt pole enamik lugejaid sellest isegi kuulnud, rääkimata suhtlemisest. Enamikul meist pole juurdepääsu uurimistöödele ja isegi siis, kui meil on juurdepääs, on need tihedad, raskesti arusaadavad ja pakendatud PDF-vormingusse – see on printimiseks, mitte veebi jaoks mõeldud vorming.

Kuna teadusartiklid pole kergesti ligipääsetavad, ei saa me neid andmeid lihtsalt kasutada generatiivsete mudelite (nt GPT-3 või DALL-E) koolitamiseks. Kas te kujutage ette, kui teadlane võiks välja pakkuda katse ja tehisintellekti mudel saaks neile kohe teada, kas seda on varem tehtud (ja veel parem, anda neile tulemus)? Seejärel, kui neil on uudse katse andmed, võib AI soovitada tulemuse põhjal järelkatset. Lõpuks kujutage ette aega, mida saaks säästa, kui teadlane saaks oma tulemused üles laadida ja tehisintellekti mudel kirjutaks saadud käsikirja neid. Teaduse DALL-E-le lähim, mida oleme kunagi jõudnud, on Google Scholar, kuid see pole jätkusuutlik ega skaleeritav lahendus. IBM Watson püüdis samuti saavutada suure osa sellest, mida ma siin kirjeldan, kuid suurem osa tööst tuli ette hiljutistest edusammudest suurtes keelemudelites ega kasutanud asjakohaseid ega piisavaid andmeid, et vastata turundusele.

Sellise väärtuse avamise jaoks, mida ma kirjeldan, vajame pikaajalisi investeeringuid, pühendumust ja visiooni. Nagu välja pakutud hiljuti in Tulevik, peame käsitlema teaduslikke väljaandeid substraatidena, mida tuleb kombineerida ja ulatuslikult analüüsida. Kui oleme tõkked kõrvaldanud, saame kasutada teadust andmenäljas generatiivsete AI mudelite toitmiseks. Nendel mudelitel on tohutu potentsiaal teaduse kiirendamiseks ja teaduskirjaoskuse suurendamiseks, näiteks koolitades neid uute teadusideede loomiseks, aidates teadlastel hallata ja navigeerida tohutul hulgal teaduskirjanduses, aidata tuvastada vigaseid või isegi võltsitud uuringuid ning sünteesida ja tõlkida keerukaid uurimistulemusi tavaline inimkõne.

Kuidas saada teaduse jaoks DALL-E või GPT-3?

Kui tegelete tehnikaga, näidake sõbrale generatiivsete tehisintellekti mudelite tulemusi, nagu DALL-E or GPT-3 on nagu neile maagia näitamine. Need tööriistad esindavad veebi järgmist põlvkonda. Need tulenevad tohutute teabehulkade sünteesist, lisaks lihtsale seosele, et luua genereerimisvõimega tööriistu. Niisiis, kuidas saaksime luua samasuguse maagilise kogemuse teaduses, kus igaüks saab esitada teaduskirjanduse kohta lihtsas keeles küsimuse ja saada arusaadava vastuse, mida toetavad tõendid? Kuidas saame aidata teadlastel oma hüpoteese luua, arendada, täpsustada ja testida? Kuidas saaksime potentsiaalselt vältida miljardite dollarite raiskamist ebaõnnestunud hüpoteesid Alzheimeri uuringutes ja ekslikud seosed geneetika ja depressiooni vahel

Nende küsimuste lahendused võivad tunduda ulmekirjandusena, kuid on tõendeid, et suudame teha hämmastavaid ja mõeldamatuid asju, kui teaduslikku tööd kasutatakse rohkemaks kui selle osade summaks. Tõepoolest, kasutades peaaegu 200,000 XNUMX valgustruktuuri aasta Valgu andmepank on andnud AlfaFold võime valgu struktuuride täpseks ennustamiseks, milleks just tehti iga kunagi dokumenteeritud valk (üle 200 miljoni!). Teadustööde kasutamine valgustruktuuridega sarnasel viisil oleks loomulik järgmine samm. 

Jagage paberid minimaalseteks komponentideks

Uurimistööd on täis väärtuslikku teavet, sealhulgas jooniseid, diagramme, statistilisi seoseid ja viiteid teistele dokumentidele. Nende eri komponentideks jaotamine ja ulatuslik kasutamine võib aidata meil masinaid koolitada erinevate teadusega seotud tööde, viipade või päringute jaoks. Lihtsatele küsimustele võib vastata ühe komponenditüübi koolitusega, kuid keerukamate küsimuste või viipade jaoks on vaja lisada mitut tüüpi komponente ja mõista nende seost üksteisega.  

Mõned näited keerukatest potentsiaalsetest viipadest on järgmised:

"Ütle mulle, miks see hüpotees on vale"
"Ütle mulle, miks minu raviidee ei tööta"
"Loo uus raviidee"
"Millised tõendid toetavad sotsiaalpoliitikat X?"
"Kes on avaldanud selles valdkonnas kõige usaldusväärsema uuringu?"
"Kirjutage mulle minu andmete põhjal teaduslik artikkel"

Mõned rühmad liiguvad selle visiooni suunas edasi. Näiteks, Välja kutsuda rakendab GPT-3 miljonite paberpealkirjade ja kokkuvõtete jaoks, et aidata vastata teadlaste küsimustele – umbes nagu Alexa, kuid teaduse jaoks. süsteem väljavõtted statistilistest seostest olemite vahel, näidates, kuidas erinevad mõisted ja olemid on omavahel seotud. aabits ei keskendu uurimistöödele per se, kuid töötab koos arXiviga ja pakub armatuurlauda teabest, mida ettevõtted ja valitsused kasutavad paljudest allikatest pärit suurte andmemahtude sünteesimiseks ja mõistmiseks. 

Juurdepääs kõigile komponentidele

Kahjuks tuginevad need rühmad peamiselt ainult pealkirjadele ja kokkuvõtetele, mitte täistekstidele, kuna kuuest artiklist umbes viis ei ole vabalt või lihtsalt juurdepääsetavad. Rühmadele, nagu Web of Science ja Google, kellel on andmed või dokumendid, on nende litsentsid ja kasutusala piiratud või määratlemata. Google'i puhul on ebaselge, miks ei ole avalikult välja kuulutatud jõupingutusi AI mudelite koolitamiseks Google Scholari täisteksti teadusuuringute jaoks. Hämmastav on see, et see ei muutunud isegi keset COVID-19 pandeemiat, mis viis maailma seisma. Google'i tehisintellekti tiim astus üles, luues viisi, kuidas avalikkus küsida COVID-19 kohta. Kuid - ja siin on kicker - nad tegid seda ainult PubMedi, mitte Google Scholari avatud juurdepääsu paberite abil. 

Rühmad on aastakümneid propageerinud paberitele juurdepääsu saamist ja nende kasutamist rohkemaks kui ainult ükshaaval lugemiseks. Olen ise selle kallal peaaegu kümme aastat töötanud, käivitades avatud juurdepääsuga avaldamisplatvormi nimega Võitja doktorikraadi viimasel aastal ja töötasin seejärel selle kallal tuleviku artikkel helistati teises startupis Authorea. Kuigi kumbki neist algatustest ei läinud täielikult välja nii, nagu ma soovisin, viisid need mind praeguse töö juurde skite, mis on vähemalt osaliselt lahendanud juurdepääsuprobleemi, tehes otsest koostööd väljaandjatega. 

Ühendage komponendid ja määrake seosed

Meie eesmärk on skite on tutvustada järgmise põlvkonna tsitaadid — mida nimetatakse nutikateks tsitaatideks — mis näitavad, kuidas ja miks mis tahes artiklit, teadlast, ajakirja või teemat on kirjanduses tsiteeritud ja üldisemalt käsitletud. Väljaandjatega töötades eraldame laused otse täisteksti artiklitest, kus nad kasutavad oma viiteid teksti sees. Need laused annavad kvalitatiivse ülevaate sellest, kuidas paberid on tsiteeritud uuemates töödes. See on uurimistöö jaoks natuke nagu Rotten Tomatoes.

Selleks on vaja juurdepääsu täistekstiartiklitele ja koostööd väljaandjatega, et saaksime masinõpet kasutada tsitaatide ulatuslikuks eraldamiseks ja analüüsimiseks. Kuna alustamiseks oli piisavalt avatud juurdepääsu artikleid, suutsime luua kontseptsiooni tõendi ja ükshaaval demonstreerisime kirjastajatele meie süsteemis indekseeritud artiklite paremat leitavust ja varustasime neid süsteemiga näita paremaid mõõdikuid vastutustundlikuma uurimistöö hindamiseks. Mida me nägime ekspertide avaldustena, nägid nemad oma artiklite eelvaateid. Väljaandjad on nüüd massiliselt liitunud ja oleme indekseerinud üle 1.1 miljardi nutika tsitaadi enam kui pooltest kõigist avaldatud artiklitest.

Kasutage AI mudelite koolitamiseks relatsiooniandmeid

Aruannetest eraldatud komponente ja seoseid saab kasutada uute suurte keelemudelite koolitamiseks teadustööks. GPT-3, kuigi väga võimas, ei olnud loodud töötama teaduse ja ei vasta halvasti küsimustele, mida võite SAT-is näha. Kui GPT-2 (GPT-3 varasem versioon) oli kohandatud, koolitades seda miljonite uurimistööde põhjal, töötas see konkreetsete teadmistega ülesannete puhul paremini kui GPT-2 üksi. See rõhutab, et mudelite koolitamiseks kasutatud andmed on ülimalt olulised. 

 Mõned rühmad on hiljuti kasutas GPT-3 akadeemiliste tööde kirjutamiseks, ja kuigi see on muljetavaldav, võivad faktid või argumendid, mida nad võivad näidata, olla väga valed. Kui mudel ei suuda lihtsaid SAT-stiilis küsimusi õigesti lahendada, kas saame usaldada, et ta kirjutab täieliku töö? SCIgen, mis on peaaegu 3 aastat vana GPT-20, näitas, et tõelise välimusega paberite loomine on suhteliselt lihtne. Nende süsteem, kuigi palju lihtsam, genereeris paberid, mis olid vastu võetud erinevatele konverentsidele. Vajame mudelit, mis ei näeks lihtsalt välja teaduslik, vaid on teaduslik ja mis nõuab masinate ja inimeste väidete kontrollimise süsteemi. Meta tutvustas hiljuti a süsteem Wikipedia tsitaatide kontrollimiseks, mida mõned kirjastajad häälekalt avaldavad soovisid, et neil oleks teaduslikke väljaandeid.

Praegune areng

Jällegi on selle süsteemi elluviimise üks peamisi tõkkeid juurdepääsu puudumine paberitele ja ressurssidele selle loomiseks. Me näeme, kus paberid või teave muutuvad laialdaseks kasutamiseks kättesaadavaks tööriistad ja uued mudelid õitsevad. Google'i patendimeeskond kasutas 100 miljonit patenti, et koolitada süsteemi patendianalüüsi abistamiseks, tegelikult GooglePatentBERT. Teised on tutvustanud selliseid mudeleid nagu BioBERT ja SciBERT, ja hoolimata asjaolust, et neid on koolitatud ainult umbes 1% teadustekstidest ainult konkreetsetes valdkondades, on nad muljetavaldavad teaduslike ülesannete täitmisel, sealhulgas meie tsitaatide klassifikatsioonisüsteemis scite'is. 

Hiljuti a TeadlaneBERT mudel, mis kasutab BERTi koolitamiseks tõhusalt kogu teaduskirjandust. Nad saavad juurdepääsuprobleemist üle, kuid on eriti emad, rõhutades lihtsalt, et nende kasutamine on "mittekuluv". See kasutusjuhtum võib avada uksed teised kasutavad artikleid ilma kirjastajate selgesõnalise loata ja see võib olla oluline samm teaduse DALL-E loomisel. Üllataval kombel õnnestus ScholarBERTil erinevatel teadmistega seotud ülesannetel halvemini kui väiksematel teaduskeele mudelitel, nagu SciBERT. 

Oluline on see, et BERT-stiilis mudelid on palju väiksema ulatusega kui suured keelemudelid, nagu GPT-3, ja need ei võimalda sama tüüpi üldist viipamist ja kontekstipõhist õpet, mis on suure osa GPT-3 reklaamist ajendanud. Jääb küsimus: mis siis, kui kasutaksime samu ScholarBERT-i andmeid, et koolitada laiendatud generatiivset mudelit nagu GPT-3? Mis siis, kui saaksime kuidagi näidata, kust masina vastused pärinevad, võib-olla sidudes need otse kirjandusega (nagu nutikad tsitaadid)?

Miks nüüd?

Õnneks muutuvad paberid avatumaks ja masinad võimsamaks. Nüüd saame hakata kasutama paberites ja ühendatud hoidlates sisalduvaid andmeid, et koolitada masinaid küsimustele vastamiseks ja teadusuuringute põhjal uute ideede sünteesimiseks. See võib muuta tervishoiu, poliitika, tehnoloogia ja kõike meid ümbritsevat. Kujutage ette, kui me ei otsiks ainult dokumentide pealkirju, vaid konkreetselt vastuseid, kuidas see mõjutaks uurimistööd ja töövooge kõigis valdkondades. 

 Maailma teaduslike teadmiste vabastamine ligipääsetavuse ja arusaadavuse kahest tõkkest aitab kaasa üleminekule veebist, mis keskendub klikkidele, vaadetele, meeldimistele ja tähelepanule, tõenditele, andmetele ja tõesusele keskenduvale veebile. Pharma on selgelt motiveeritud seda ellu viima, mistõttu kasvab idufirmade arv, kes tuvastavad tehisintellekti abil potentsiaalsed uimastisihtmärgid – kuid usun, et avalikkus, valitsused ja kõik Google'i kasutajad võivad usalduse ja aja hankimiseks olla valmis loobuma tasuta otsingutest. säästmine. Maailm vajab sellist süsteemi hädasti ja vajab seda kiiresti. 


 

 

Postitatud 18. augustil 2022

Ajatempel:

Veel alates Andreessen Horowitz