Bio sööb maailma: AI kasutamine bio kaugemale viimiseks

Bio sööb maailma: AI kasutamine bio kaugemale viimiseks

Allikasõlm: 1891344

Selles osas räägib Vijay Pande Inceptive’i kaasasutaja ja tegevjuhi Jakob Uszkoreitiga. Koos arutavad nad kõike tehisintellekti.

Avaldame allpool ärakirja täismahus juhuks, kui soovite seda kaasa lugeda.

***

Olivia Webb: Tere ja tere tulemast Bio Eats Worldi, taskuhäälingusaadet bio-, tervishoiu- ja tehnikavaldkonna ristumiskohas. Olen Olivia Webb, ettevõtte Bio + Health toimetuse juht ettevõttes a16z. Selles episoodis rääkisime Jakob Uszkoreitiga, kes oli endine Google Braini ja Inceptive kaasasutaja. Jakob on ka üks põhjaliku tehisintellekti uurimistöö Tähelepanu on kõik, mida vajate autoritest, mille lingime saate märkustes. Jakob istus koos Vijay Pandega, ettevõtte a16z Bio + Health asutajapartneriga, et rääkida kõigest tehisintellektist: alates ajast, mil ta töötas Google Brainis, lõpetades sellega, kuidas inimesed ja arvutid keelt töötlevad, kuni Inceptive'i usuni RNA lubadusse ja sellest, kuidas Jakob usub, et me oleme sisenevad AI-ga pöördepunkti territooriumile.

See on episood, millest te ei taha ilma jääda, kuid see on ka lõpetajate tasemel AI teemaline arutelu, nii et avaldame episoodi kõrval ka ärakirja. Alustame.

Rakendatavad algoritmid

Vijay Pande: Nii et Jakob, tänan teid nii palju, et olete Bio Eats Worldis. Tore, et olete olemas.

Jakob Uszkoreit: Suurepärane siin olla. Tänan, et mul on olemas.

Vijay Pande: Eriti kuna teil on arvutiteadlase, ettevõtja ja asutajana nii põnev lugu, oleks hea meel, kui juhendaksite meid läbi oma karjääritee, alustades kust iganes soovite, kuid see, mis teid Google Braini viis, on ilmselt hea koht alustamiseks. .

Jakob Uszkoreit: Ma mäletan mingil määral tõesti, et puutusin kokku selle masinõppe probleemiga, võib-olla kõige laiemas mõttes, [ja] keele mõistmise probleemiga, mõnevõrra konkreetsemalt, kui perekonnas valitseva probleemiga. Nii et mu isa on arvutiteadlane ja arvutuslingvist ning tead, et sellised asjad nagu Turingi masinad ei olnud juba varakult võõrad mõisted.

Vijay Pande: Jah, tundub, et see võis olla õhtusöögilauavestlus.

Jakob Uszkoreit: Need olid õhtusöögilauavestlused. Ja nii, tead, olid levinud teemad eriti lõplikud automaatid ja see, kuidas need tegelikult on seotud automaatidega. Mida vanemaks ma sain, seda rohkem tahtsin olla kindel, et lõpuks teen midagi teistmoodi. Ja nii ma lõpuks uurisin üsna palju puhast matemaatikat ja sellega seotud valdkondi. [Ma] keskendusin tõesti üsna palju optimeerimisele, optimeerimisalgoritmidele, algoritmidele üldiselt, laiemalt keerukuse teooriale, enne kui taipasin, et võib-olla see ei olnud kõige praktilisem ja kõige kohaldatavam asi, millest, teate, on saanud. natuke punane niit kogu mu karjääri jooksul. Ja siis sõna otseses mõttes komistasin Google'i praktikale 2005. aastal.

Mulle anti mõned erinevad valikud, milliste uurimisprojektidega liituda, [ja] nende hulgas olid erinevad arvutinägemisega seotud jõupingutused, aga ka masintõlkeprojekt, millest sai põhimõtteliselt Google'i tõlge. Umbes sel ajal või veidi enne seda tõi [Translate] turule oma esimese toote, mille toiteallikaks olid Google'i sisemised süsteemid, mis olid välja töötatud ja teatud mõttes, minu suureks kurvastuseks, selgus, et Google'i tõlge Sel ajal olid kõige huvitavamad suuremahuliste algoritmide probleemid.

Tol ajal oli seda tegelikult väga huvitav näha, sest see, mis veenis mind oma doktorikraadi katkestama ja pärast seda praktikat Google'isse tagasi tulema, oli tegelikult see, et seal sai selgeks, et kui tahad millegi kallal töötada masinõpe, mis polnud mitte ainult huvitav ja ütleme nii intellektuaalselt kui ka teaduslikult, põnev, väljakutseid pakkuv ja stimuleeriv, vaid millel oli ka väga suured lootused viia nõel kohe tööstuses ja toodetes liikuma. Tõesti, umbes sel ajal ei olnud maailmas väga palju kohti. Ja kindlasti ei olnud need tol ajal akadeemilised laborid, vaid väga sellised kohad nagu Google. Ja Google oli seal ja siis tegelikult selles väga esirinnas. Ja nii, teate, tol ajal arvasin, et on hämmastav käivitada oma esimesed suuremahulised rühmitusalgoritmid tuhandel masinal, ja mujal oli seda lihtsalt täiesti võimatu teha.

Vijay Pande: Kui räägite meie vanemate kolleegidega, on Bell Labsi hiilgeaegadest tunda palju romantilisust ja ma olen alati mõelnud, kas Google Brain võib olla tänapäeval üks lähemaid variante. Milline oli keskkond?

Jakob Uszkoreit: Nii et ma tunnen, et selle aja ja Google Braini alguseni, mis on umbes viis aastat hiljem, toimus märkimisväärne nihe. Enne Brain and Translate'i alustamist ajendasid seda palju rohkem tooted, mis tõesti muutsid, kui ma usun, et Bell Labs. Ja Bell Labsi vilistlasi oli meie hulgas muidugi hea hulk, aga seda ajendas palju rohkem otsene rakendatavus.

Mida minu jaoks oli tegelikult tõesti hämmastav olla tunnistajaks, kuidas masintõlge muutus [millestki, mis oli peol hea naerda, sõna otseses mõttes. Kui nad sinult küsivad, kus sa töötad? Ja sa ütlesid: Google. Ja siis nad ütlesid, et mida sa seal teed? Ja nad avaldasid alguses muljet. Ja siis sa ütlesid: oh, ma töötan Google'i tõlkes. Ja siis nad naersid ja küsisid, kas see kunagi toimib? Ma ei usu. Kuid samal ajal, ma ütleksin, et masinõppe laine, masinõppe süvaõppe-eelse renessansi laine, hakkas tasapinnale langema. Tead, süvaõpe oli midagi, mida ma olin varem koolis teinud, ja see meeldis mulle, kuid see ei olnud midagi sellist, mida neil päevil tegelikult rakendada ei saanud.

Vijay Pande: Jah, eriti sellepärast, et teil polnud akadeemilistes ringkondades vajalikke arvutusi teha.

Jakob Uszkoreit: Kindlasti mitte akadeemilises ringkonnas, vaid isegi Google’is. Ehkki tol ajal oli Tõlgi kõige huvitavam eristav omadus, ma ütleksin, et me tõesti uskusime päeva lõpuks andmete absoluutsesse jõudu.

Seega püüdsime mitte teha keerulisemaid ja keerukamaid algoritme, vaid selle asemel lihtsustada ja skaleerida neid nii palju kui võimalik ning seejärel võimaldada neil treenida üha rohkemate andmete põhjal. Aga me tabasime seal just lakke. Lihtsustused, mida pidite tegema, et skaleerida need tolleaegse Google'i skaala järgi, oli meie eesmärk. Aga siis, ja see oli omamoodi üks sellistest pendliliigutustest, sikutades tagasi, akadeemilisest ringkonnast välja, hulk inimesi, kellel oli hunnik GPU-sid – sügav õppimine tuli teatud mõttes kättemaksuga tagasi. Ja järsku keskkond kohanes, sest oli ebaselge, milline oleks otsene tee tootmismahus.

Ja nii muutus kogu keskkond rohkem rakendusele ja tootele orienteerituks millekski, mis tundus vähemalt mitu aastat, palju akadeemilisem. See on ikkagi veidi teistsugune kui akadeemilised laborid, sest me võiksime endale lubada palju rohkem GPU-sid, kuid teatud mõttes on see rohkem kooskõlas ideega, et [olemist] juhivad väljaanded, pigem hüpped kui sammud. [See] muutus väga-väga produktiivseks – ja tõeliselt hämmastavaks –, kuid palju avaramaks [keskkonnaks].

Tähelepanu on kõik, mida vajate

Vijay Pande: Tead, kui väljaannetest rääkida, siis on loomulik mõttekoht siis, kui teie ja tiim avaldavad teate Attention is All You Need. Ja teate, see on olnud nii suure osa generatiivse tehisintellekti jaoks läbimõeldud paber sellest ajast peale, kui trafo algoritmi esmakordselt välja pandi.

Jakob Uszkoreit: Kaks aastat enne selle paberi avaldamist mõistsime, [et] see, mis oli tollal tipptasemel selliste probleemide jaoks nagu masintõlge, või [mis] oli kujunemas tipptasemel, nimelt LSTM-il või RNN-il põhinev , Seq2Seq üldiselt koolituse paradigmana ja seadistusena, aga ka võrguarhitektuurina – oli isegi tollal kõige moodsamatel GPU-del uskumatuid probleeme, mis puudutas andmete skaleerimist.

Näiteks kõige esimene Google'i käivitatud närvisüsteemi masintõlkesüsteem GNMT ei olnud minu teada tegelikult kunagi treenitud kõigi olemasolevate koolitusandmete põhjal, mida olime varem fraasipõhiste statistikasüsteemide jaoks kaevandanud. Ja see oli tingitud sellest, et algoritmid lihtsalt ei skaleerinud andmemahu osas hästi. Lühidalt, me ei uurinud sel ajal mitte masintõlget, vaid probleeme, mille puhul Google'i siseselt oli meil saadaval veelgi suurem hulk koolitusandmeid. Nii et need olid otsingust välja tulnud probleemid, kus teil on põhimõtteliselt veel kolm või neli suurusjärku. Teate, nüüd pole enam miljardeid sõnu, vaid lihtsalt triljoneid, ja järsku kohtasime seda mustrit, kus lihtsad edasisuunamisvõrgud, kuigi nad tegid naeruväärseid lihtsustavaid oletusi, nagu näiteks "see on lihtsalt kott sõnu või see on lihtsalt kott suurtähti." , ja kui teete need keskmiseks ja saadate need suure MNLP kaudu, siis need edestasid RNN-e ja LSTM-e, vähemalt siis, kui neid rohkem andmemahuga õpetati.

[Ja nad olid] n korda kiiremad, kergesti 10, 20 korda kiiremad, et treenida. Ja nii saate neid treenida, et saada rohkem andmeid. Mõnel juhul olid [nad] sada korda kiiremad treenimiseks. Nii jõudsime järjekindlalt tegelikult mudeliteni, mis olid lihtsamad ja mis ei suutnud väljendada ega tabada teatud nähtusi, mille kohta me teame, et need on keeles kindlasti levinud.
Ja ometi, teate, neid oli odavam treenida ja [nad] toimisid paremini.

Vijay Pande: Toome näite inimestele, kes pole tuttavad. Nii et kui ma ütlesin, näidake mulle kõiki lähedalasuvaid restorane, välja arvatud itaalia keel, siis see näitab teile kõiki Itaalia restorane, eks?

Jakob Uszkoreit: Täpselt nii. Tegelikult saab seda, mida te ütlesite, ilmselt ümber järjestada, et näidata mulle kõiki Itaalia restorane, välja arvatud lähedalasuvad. See on lihtsalt sõnade supp ja saate selle ümber korraldada millekski, mis kindlasti tähendab midagi muud.

Vijay Pande: Jah.

Jakob Uszkoreit: Ja siis saate ligikaudselt jõuda struktuuri ja globaalsemate nähtuste juurde, lisades biggrammid. Nii et põhimõtteliselt kahest järjestikusest sõnast koosnevad rühmad ja sellised asjad. Kuid on selge, et kindlasti sellistes keeltes nagu saksa keel, kus saate verbi põhimõtteliselt lause lõppu panna ...

Vijay Pande: Ja see muudab kogu tähendust, eks?

Jakob Uszkoreit: Muudab kogu tähendust, täpselt, jah. Ükskõik, milline on teie n-grammide või väikeste sõnarühmade suurus, ei õnnestu teil lõpuks. Ja meile sai selgeks, et peab olema teistsugune viis, mis ei nõua RNN-i kordumist pikkuses või sõnade või pikslite järjestuses, vaid mis tegelikult töötleb sisendeid ja väljundeid paralleelsemalt ja tõesti lõppkokkuvõttes rahuldab tänapäevase kiirendi riistvara tugevaid külgi.

Vijay Pande: Mõelge sellele, nagu oleks sõnade kott sõnad juhuslikus järjekorras. LSTM ehk pikaajaline lühiajaline mälu annab ehk mingisuguse [võime] veidi [minevikku] vaadata, eks? Kuid trafod teevad midagi radikaalselt erinevat. Kuidas trafod selle järgmisele tasemele viivad?

Jakob Uszkoreit: Seda saab alati vaadata kahel viisil. Üks on läbi tõhususe objektiivi, kuid teine ​​viis, mis on võib-olla veidi intuitiivsem, on vaadata seda nii, et teate, kui palju konteksti saate säilitada. Ja nagu te ütlesite, liiguvad LSTM-id või korduvad närvivõrgud üldiselt laias laastus läbi oma sisendite samm-sammult ja kuigi teoreetiliselt suudavad nad säilitada meelevaldselt pikki kontekstiaknaid sisenditeks – minevikku –, mida. Praktikas juhtub see, et neil on tegelikult väga raske tuvastada sündmusi, öelda sõnu või piksleid, mis on minevikus väga kaugel ja mis tegelikult päeva lõpus tähendust mõjutavad. Nad kipuvad keskenduma asjadele, mis on läheduses.

Teisest küljest keerab trafo põhimõtteliselt lihtsalt selle pea peale ja ütleb, et ei, igal sammul see, mida me teeme, ei liigu läbi sisendi. Igal sammul vaatleme kogu sisendit või väljundit ja põhimõtteliselt vaatame järk-järgult üle video iga sõna või iga piksli või iga plaastri või iga kaadri esitusi, kuna me põhimõtteliselt liigume, mitte sisendruumis. , vaid esindusruumis.

Vijay Pande: Jah.

Jakob Uszkoreit: Ja sellel ideel oli mõningaid puudusi seoses sellega, kuidas seda kaasaegsele riistvarale sobitada, kuid võrreldes korduvate närvivõrkudega oli sellel peamiselt eeliseid, sest nüüd ei olnud te tegelikult kohustatud esitusi järjestikku arvutama, ütleme sõna-sõnalt. See, mis teid sidus, on see, kui head need peaksid olema? Mitu kihti sellist paralleeltöötlust kõigi positsioonide kohta, kus kõik, kus kõik sõnapaarid või kõik pildiplaastripaarid saavad kohe suhelda? Kui palju nende esituste läbivaatamist saan ma endale lubada?

Vijay Pande: Tõeliselt huvitav on ka see, et ilmselgelt on inspiratsiooniks loomulik keel, kuid on palju struktuure, mida soovite sisestada, kui te ei soovi seda lihtsalt järjestikku uurida, nagu DNA järjestus - ja me jõuame bioloogiasse. piisavalt kiiresti – et sa tahad kogu asjast eeskuju saada.

Keelega on omamoodi naljakas. Kui ma räägin või kui ma sind kuulan, töötlen ma iga sõna, kuid lõpuks ei pea ma sõnu lihtsalt individuaalseteks tähendusteks muutma, vaid pean seda esitust omamoodi arendama. Jah? Soovin, et saaksime seda teha nii, nagu trafod teevad. Ja võib-olla on see trikk selles, et LSTM-id on lähemal sellele, kuidas meie, inimesed, seda teeme, ja trafod on võib-olla just sellised, nagu me peaksime seda tegema, või ma soovin, et saaksime seda teha.

Jakob Uszkoreit: Pealiskaudselt arvan, et see on tõsi, kuigi päeva lõpuks on sellised sisekaemuslikud argumendid peened ja keerulised.

Nii et ma arvan, et paljud meist teavad seda nähtust, kus te karjute või karjute kellegagi, kes üritab tiheda liiklusega tänaval midagi suhelda. Ja nii kuulete midagi, mida nad ütlevad, ja see pole lühike sõnade jada ja te ei saanud põhimõtteliselt millestki aru. Aga siis nagu pool sekundit hiljem saite järsku kogu lausest aru. See vihjab tegelikult tõsiasjale, et kuigi me oleme sunnitud keelt kirjutama ja lausuma järjestikku – just aja noole tõttu –, ei ole nii selge, et meie sügavam mõistmine tõesti kulgeb sellel järjestikusel viisil.

Meeskonna loomine

Vijay Pande: Kui keegi uurib kasvõi ainult paberit Tähelepanu on kõik, mida vajad või trafo toimimist, on sellel palju osi. Ja tundub, et nüüd on ilmselt möödas punkt, kus üks inimene saaks selle töö tõhusalt ise ära teha mis tahes lühikese aja jooksul.

Jakob Uszkoreit: Absoluutselt.

Vijay Pande: Nii et nüüd vajate seda tüüpi asjade tegemiseks inimeste meeskonda. Mis on selle sotsioloogia? Kuidas selline asi sünnib?

Jakob Uszkoreit: See konkreetne juhtum, ma isiklikult tunnen, on tõesti suurepärane näide millestki, mis sobib erakordselt hästi, ütleme nii, et tööstusliku lähenemisega teadusuuringutele. Sest sul on täpselt õigus. See ei olnud üks suur kujutlusvõime ja loovuse säde, mis selle kõik käivitab.

See oli tõesti terve hulk kaastöid, mis kõik olid lõpuks vajalikud. Omades keskkonda, raamatukogu – mis hiljem oli ka avatud lähtekoodiga Tensor2Tensor –, mis sisaldas tegelikult ka rakendusi. Ja mitte suvalised teostused, vaid erakordselt head teostused, kõikvõimalike süvaõppe nippide kiired juurutused.
Kuid siis ka nende tähelepanumehhanismideni, mis tulid välja eelmistest väljaannetest – nagu lagunev tähelepanumudel [mis avaldati] varem –, kuid mida siis tegelikult kombineeriti täiustuste ja uuendustega, optimeerijate ümber tehtud leiutistega. Ma arvan, et te ei leia inimesi, kes on tõesti üheaegselt maailma juhtivate ekspertide seas kõigis nendes küsimustes ja kes on tõesti samasugused kirglikud kõigi nende aspektide vastu.

Vijay Pande: Ja eriti on esialgne idee, selle elluviimine, selle skaleerimine. Seda tüüpi mastaapi jõudmine mujal kui suurettevõttes ei ole praegu ilmselt teostatav ainult kulude tõttu.

Jakob Uszkoreit: Ma arvan, et tegelikult ei ole suurettevõtte aspekt nii oluline.

Vijay Pande: Jah?

Jakob Uszkoreit: Ettevõtte aspekt on selline, mida hindaksin kõrgemalt. Kindlasti ei tee suurettevõte paha, kui vajate tuhandeid ja tuhandeid TPU-sid või GPU-sid või mis teil on. Sügavad taskud ei tee selliste asjade puhul kunagi haiget. Kuid samal ajal usun ma, et seda tüüpi uurimusliku uurimistööga seotud stiimuli struktuur tööstuses sobib seda tüüpi projektide jaoks palju paremini. Ja ma arvan, et see on tegelikult midagi, mida me näeme, vaadates generatiivseid AI-projekte kõikjal.

Vijay Pande: Jah. Ja teie arvates võib see olla idufirma.

Jakob Uszkoreit: See võib kindlasti olla startup. Ja ma arvan, et me näeme praegu, et kiirendi riistvara kasutamine muutub vähemalt taskukohasemaks. Ja on idufirmasid, mis konkureerivad väga palju, kui tegemist on generatiivse AI-ga, mis on suunatud piltide või teksti genereerimisele.

Hüppamine bioteaduste juurde

Vijay Pande: Mulle meeldiks minna üle sellele, mida te praegu teete. Olete ettevõtte Inceptive tegevjuht, kes rakendab tehisintellekti RNA bioloogias RNA teraapias. Kuidas sa siirdusid bioteadustesse? Pealiskaudselt rääkides keelemudelitest õhtusöögi [laua] ja seejärel Google'i kohviku ümber... tundub, et see võib olla hüpe järgmise põlvkonna ravimeetodite juurde. Kuidas see kõik tekkis?

Jakob Uszkoreit: Ma ei saanud rohkem nõustuda. Minu lõpust on see suurepärane õppimiskogemus. Juba mõnda aega on bioloogia tundunud mulle sellise probleemina, mille puhul ei tundu olevat mõeldamatu, et on olemas piirid, kui kaugele saame minna näiteks ravimite väljatöötamise ja otsese disainiga, mille selgrooks on traditsiooniline bioloogia. hakata kavandama või avastama meetodeid, kuidas kujundada tuleviku ravimeid.

Tundub, et süvaõpe, eriti mastaapne õppimine, on mitmel põhjusel siin potentsiaalselt sobiv tööriist. Ja üks neist põhjustest on tegelikult see, mida sageli ei loeta eeliseks, mis on asjaolu, et see on see suur must kast, mille saate lihtsalt millegi pihta visata. Ja see pole tõsi, et saate seda lihtsalt visata. See on midagi, mida sa pead teadma, kuidas seda visata.

Vijay Pande: Ja see pole ka päris must. Selle üle võime hiljem vaielda.

Jakob Uszkoreit: Jah täpselt. Täpselt nii. Kuid lõpuks, tulles tagasi keele analoogia juurde, ei ole meil kunagi õnnestunud selles mõttes keelt täielikult mõista ja kontseptualiseerida niivõrd, et võiksite väita, et oh, ma lähen ja ütlen teile see teooria keele taga ja siis pärast saate rakendada algoritmi, mis sellest "aru saab". Me pole kunagi selleni jõudnud. Selle asemel pidime katkestama ja astuma sammu tagasi ning minu arvates mingil määral endale tunnistama, et see ei pruukinud olla kõige pragmaatilisem lähenemine. Selle asemel peaksime proovima lähenemisviise, mis ei nõua seda kontseptuaalset mõistmist. Ja ma arvan, et sama võib kehtida ka bioloogia osade kohta.

Tehisintellekti kasutamine bioloogia kaugemale viimiseks

Vijay Pande: See on huvitav, me oleme sellistest asjadest varemgi rääkinud. Mõtlete eelmisele sajandile, [mis oli] vägagi füüsika ja arvutuste sajand. Seal on teatud mentaliteet, mille puhul on võimalik asju väga elegantselt lihtsustada, et teil võib olla üks võrrand, nagu Einsteini väljavõrrandid, mis kirjeldavad nii palju, ja see on väga lihtne võrrand väga keerulises keeles. Olete rääkinud sellest, kuidas see Feynmani lähenemine, peaaegu nagu füüsika sotsioloogia, ei pruugi siin bioloogias kehtida, eks?

Jakob Uszkoreit: See ei pruugi kehtida, vähemalt kahel põhjusel, mida ma praegu näen. Esimene on see, et kaasatud on liiga palju mängijaid. Ja kuigi on tõsi, et võib-olla saame selle kõik lihtsalt Schrodingeri võrrandiks taandada ja lihtsalt lahendada, juhtub see nii, et mitte ainult arvutuslikult lahendamatu, vaid ka me peaksime teadma kõigi nende erinevate mängijate kohta ja praegu me seda ei tee. . Isegi mitte lähedal. Nii et see on üks aspekt.

Ja siis teine ​​on põhimõtteliselt arvutuslik lahendamatus, kus vähendamine on teatud mõttes läinud nii kaugele, et kuigi see toob kõik tagasi ühe asja juurde, ei aita see meid, sest meie arvutuslikud lähenemisviisid need põhialused ennustuste tegemiseks on lihtsalt liiga aeglased, et teha neid ennustusi süsteemide jaoks, mis on piisavalt suured, et need oleksid elu jaoks olulised.

Vijay Pande: Jah. Nii et see ei ole n-keha võrrand, kuid siiski on formalismi tunne – võib-olla on see rohkem andmepõhine formalism või Bayesi formalism. Kuidas see mõjutab seda, mida te teha tahaksite? Kuidas see kaasab AI ja muud tüüpi uute algoritmide rakendamist?

Jakob Uszkoreit: Ma arvan, et sellel on paar erinevat aspekti. Lõppkokkuvõttes on minu arvates üks suuremaid väljavõtteid sellest, mida me generatiivses AI-s praegu näeme, see, et me ei pea enam treenima andmetel, mis pole mitte ainult täiesti puhtad, vaid ka täpselt domeenist pärinevad. ja seda tüüpi ülesannetest, mida soovite hiljem lahendada. Kuid selle asemel võib see olla kasulikum või isegi ainus viis, mille oleme seni leidnud, et proovida treenida kõike, mida leiate, mis on isegi vähe seotud. Ja seejärel kasutage nendest andmetest kogutud teavet tõhusalt, et saada nn alusmudelid, mida saate seejärel kõikvõimalike spetsiifiliste ülesannete jaoks peenhäälestada, kasutades palju väiksemaid, palju paremini jälgitavaid puhtamaid andmeid.

Ma arvan, et me alahindame veidi seda, mida me nähtuste kohta üldiselt teadma peame. Väga hea suure keelemudeli ehitamiseks pead aru saama, et on olemas selline asi nimega internet ja selles on palju teksti. Peate tegelikult üsna palju mõistma, kuidas seda teksti leida, mis ei ole tekst ja nii edasi, et seejärel põhimõtteliselt destilleerida sellest treeningandmeid, mida seejärel kasutate.

Usun, et bioloogiaga kaasnevad väga sarnased väljakutsed. Suur küsimus on: millised on katsed, mida saame mõõta nii, et saaksime vaadelda elu piisavas skaalas peaaegu piisava täpsusega – kuid palju vähem spetsiifiliselt, pidades samas meeles probleeme, mida proovite lõpuks lahendada – nii, et saaksime Põhimõtteliselt võtame sealt need andmed, mida vajame nende vundamendimudelite ehitamiseks ja mida saame seejärel kasutada, peenhäälestatud ja spetsiaalselt projekteeritud, et tõesti läheneda probleemidele, millega me tahame tegeleda.

Andmete genereerimise osa on kindlasti üks neist. Arhitektuurid ja tõhusad mudelid ja võrguarhitektuurid, mis jäljendavad seda, mida me teame, näiteks selle all oleva füüsika kohta, jäävad endiselt uskumatult võimsaks viisiks arvutusi säästa ja samuti vähendada endiselt tohutut isu andmete järele, mida need mudelid peavad omama. , teostatavale tasemele. Ja nii et üks asi, mida minu arvates on tegelikult huvitav märkida, on see, et paljud mudelite praegused rakendused, näiteks trafod, mis on leitud, et muudes modaalsustes, muudes valdkondades, keeles, nägemuses, kujutiste genereerimises on üsna hästi skaleeritud, jne jne ning nende rakendamine bioloogias eirab põhimõtteliselt tõsiasja, et me teame, et on olemas selline asi nagu aeg ja et füüsikaseadused, vähemalt meile teadaolevalt, ei paista lihtsalt muutuvat. üle aja.

Valgu voltimise protsess, jättes tähelepanuta tõsiasja, et seal on palju ja tonni mängijaid – saatjaid ja muud – on tegelikult teatud mõttes üsna meelevaldselt ülejäänud valgu kineetikast eraldatud probleem. See on täpselt sama palju kineetikat kui selle valgu, selle molekuli ülejäänud kineetika või ülejäänud eluiga. Ja miks me püüame välja õpetada mudelid spetsiaalselt ühe jaoks ja vähemalt potentsiaalselt ignoreerida andmeid, mis meil võivad olla teise kohta? Kas antud juhul, võib-olla konkreetsemalt, on mõned meie täna kasutatavad valgu struktuuri ennustusmudelid, kas nad õpivad juba kaudselt midagi kineetikast, kuna nad hakkavad aeglaselt omaks võtma, teate, aja olemasolu?

Uute arhitektuuride väljatöötamine

Vijay Pande: Üks huvitav asi, mida ma teie praeguse seisu kohta mõtlen, on see, et mõne harvaesineva erandiga tunneb enamik sügavaid närvivõrke või muud tüüpi tehisintellekti bioloogias, nagu võtaks see midagi leiutatud kusagilt mujalt ja kannab selle edasi. Nagu me kasutame piltide jaoks konvolutsioonilisi närvivõrke. Võib-olla väikeste molekulide jaoks… minu laboris Stanfordis kasutasime graafilisi närvivõrke ja mitmeid konvolutsioonilisi närvivõrke. Kuid konkreetselt bioloogilise probleemi jaoks algoritmi väljatöötamine on üsna haruldane. Ja ma olen alati eeldanud, et see tuleneb sellest, et bioloogia ja arvutiteaduse valdkonnas on lihtsalt raske omada tugeva meeskonna oskusi. Aga ma ootan teie arvamust. Või on uute arhitektuuride väljatöötamine lihtsalt haruldane?

Jakob Uszkoreit: Noh, ma arvan, et päeva lõpuks näeme seda, et kuigi uued arhitektuurid on ajendatud konkreetsetest probleemidest, siis kui need tõesti midagi muudavad, kipuvad nad olema rakendatavad ka mujal. Teisest küljest ei tähenda see, et motiveerivate rakenduste ja domeenide hoolikas valimine ei muudaks teel sinna suurt midagi. Ja ma arvan, et seda kindlasti teeb.

Minu arvates on siin üks peamisi väljakutseid see, et me ei ole veel bioloogias sellises režiimis, kus meil on hulgaliselt andmeid, kuigi võrreldes sellega, mis meil mõni aeg tagasi oli, on see hämmastav. Kuid me ei ole veel selles režiimis, kus see lihtsalt istub samaväärsel veebil ja me saame seda veidi filtreerida, alla laadida ja sellega hakkama saada. Kuid selle asemel arvan, et me peame seda mõistlikult suurel määral looma. Ja seda ei tee süvaõppe eksperdid, vähemalt mitte enamik neist.

Ja ma usun, et see peab toimuma samaaegselt, mõistes ka nende andmete iseärasusi, eks? Müra, mida seal kohtate. Asjaolu, et need on tegelikult loodud väga suurtes kogumites, suure läbilaskevõimega katsetes, kuid siiski katsetes, mida viivad läbi erinevatel päevadel erinevad katsetajad ja nii edasi ja nii edasi. Ja kui sügavama õppimistaustaga inimesed teevad piisavalt tihedat koostööd bioloogiataustaga inimestega, õpivad piisavalt selle kohta, mida me aluseks olevate nähtuste kohta teame, saavad nad põhimõtteliselt inspiratsiooni proovida huvitavaid uusi lähenemisviise.

Vijay Pande: Mulle meeldis, kui rääkisite lihtsalt paberi „Tähelepanu on kõik, mida vajate“ näitest, kuidas te tahtsite saada selle mitmekesise rühma inimesi, kelle kired olid üksteise suhtes üsna ortogonaalsed. Ja teatud mõttes, kui teete seda bioloogias ja eriti Inceptive'is, peate kogu selle töö panustama ka andmete genereerimisesse. Ja andmete genereerimine tähendab, et olla väga selgesõnaline, bioloogiliste katsete läbiviimist ulatuslikult. Sisendosa ise on väga kallis ja väga tehniline ning nagu te ütlesite, sellel on palju võimalusi valesti minna. Kuid tundub, et tuginete kultuurile, mida olete varem teinud, ja nüüd koordineerivad analoogsel viisil rohkem erinevate kirgedega eksperte.

Jakob Uszkoreit: Ma tõesti vajan ja inimesed vajavad seda. See on minu arvates kõige lootustandvam tee. [See on] mitte seada eesmärgiks teatud mõttes konveierimudelit, kus teatud andmed laboris, kus need loodi, võttes arvesse meie parimaid teadmisi, elu aluseks olevate aspektide kohta. Ja seejärel hakata kasutama olemasolevaid süvaõppe lähenemisviise ja seejärel neid kohandada. Kuid selle asemel, et tegelikult oleks inimesi, kes teatud mõttes võivad olla esimeste inimeste seas, kes tõesti töötavad erialal, millel pole praegu veel suurt nime.

Võib-olla on vähim ühine nimetaja uudishimu, mis ulatub kaugemale sellest, mida teate, mida olete varem õppinud ja millele olete võib-olla suurema osa ajast kulutanud. Leiame, et nagu paljudes teistes valdkondades, otsime me tegelikult väga erineva taustaga inimesi, kes jagavad uudishimu.

Kuhu AI läheb?

Vijay Pande: Kus on teie arvates praegu tehisintellekt nende raskemate probleemide, ravimite väljatöötamise, tervishoiu ja muu jaoks? Mida tuleb teha? Millal see sinna jõuab?

Jakob Uszkoreit: Ma eeldaksin – ja tulevikuprognooside tegemine on alati väga ohtlik – oleksin väga üllatunud, kui järgmise kolme aasta jooksul ei hakkaks me nägema [pöörde]punkti, mis puudutab reaalse maailma mõjusid. masinõpe, laiaulatuslik süvaõpe ravimite väljatöötamisel, ravimite väljatöötamine. Muidugi, kus nad täpselt esimesena asuvad, usun, et paljud neist juhtub RNA, RNA-ravi ja vaktsiinide ümber. See ei ole kindlasti ainus piirkond, mida see mõjutab, kuid ma arvan kindlasti, et oleme suundumas pöördepunkti territooriumile.

Vijay Pande: Sa tegid huvitava punkti. Mis erineb RNA-st? Sest ma arvan, et see on eriti huvitav, mitte ainult see, et läksite Google Brainist bioloogiasse, vaid läksite konkreetselt RNA-sse. Mis teid RNA juures köidab, eriti võib-olla AI või ML vaatenurgast?

Jakob Uszkoreit: Üks asi, mis RNA puhul on huvitav, on kombinatsioon väga laia kohaldatavuse vahel, nagu nägime – kuigi see on ühe näidustuse mõttes siiski kitsas –, kuid kui vaadata seda heakskiitmisprotsesside lainet, mis on alanud ja alanud, on see päris ilus. selge, et rakendatavus on väga-väga lai, koos – see on veidi mitmetähenduslik – struktuuriliselt lihtsa probleemiga. Ja see pole struktuurselt lihtne lauses, et RNA struktuurne ennustamine on lihtne, vaid see on struktuurselt lihtne selles mõttes, et see on nelja erineva alusega biopolümeer. Me ei räägi enam kui 20 aminohappest. See on midagi, mida saab üsna tõhusalt toota.

Siin on mõned väljakutsed, kuid süntees on midagi, mis võib ulatuda ja laieneb kiiresti ning need asjad saavad tõesti kokku, et võimaldada seda kiiret tagasisideahelat, millele minu arvates sageli viidatakse, kuid väga harva, vähemalt minu teada, tegelikult rakendatakse. ja päeva lõpuks rakendatav.

Vijay Pande: Jah, tõenäoliselt on see kiirem tagasiside ahel, eriti selle järgi, kuidas te seda järgite.

Jakob Uszkoreit: Jah. Ja arvestades, et ma usun, et peame looma lõviosa andmetest, et koolitatavaid mudeleid koolitada, investeerime Inceptive’i selliste andmete ulatuslikku loomisse. Ja ma ütleksin, et suhteliselt suur mastaap, arvestades, et RNA näib olevat kõige parem kombinatsioon, kui rääkida struktuurilisest lihtsusest, aga ka sünteesi ja selle katsetamise mastaapsusest. Siin on tohutu potentsiaal, mis on seni kasutamata.

Vijay Pande: Jah, ja ma arvan, et eriti potentsiaalselt on võimalik neid kiireid tsükleid, nii omamoodi prekliinilisi ja seega kiiremini kliinikusse jõudmist ja kliinikus viibimist [lühemat aega].

Jakob Uszkoreit: Absoluutselt. See on tõesti see, mida me loodame. Samuti näeme võib-olla varajasi vihjeid, mis viitavad sellele, et see võib nii olla ja millest me oleme loomulikult väga-väga põnevil.

Vijay Pande: Viimase 10 aasta peale mõtlemine on olnud hämmastav, teate küll, aastast 2012 kuni praeguseni. Millised näevad teie arvates välja järgmised 10 aastat? Mis te arvate, kus me oleme 10 aasta pärast tehisintellektiga? Kas üldiselt või eriti bio jaoks?

Jakob Uszkoreit: Ma arvan, et kui see on tõesti tõsi, et me siseneme sellele pöördepunkti territooriumile, siis 10 aasta pärast tagasi vaadates tundub see revolutsioonina, mis on vähemalt sama suur ja ekspansiivne kui see, mida me arvame olevat näinud viimased 10 aastat. Vähemalt. Nüüd ma arvan, et seal on oluline erinevus ja see on see, et pole täpselt nii selge, kui laialdaselt mõjutab revolutsioon, mille tunnistajaks oleme viimase 10 aasta jooksul olnud, kõigi elusid. On teatud valdkondi, otsingumootoreid või abistatud kirjutamist jne, kus see on ilmne, kuid pole selge, kui laialdaselt see revolutsioon on kohaldatav. Usun, et see on vägagi nii, aga me ei näe seda veel. Ma arvan, et revolutsioon, mida me järgmise 10 aasta jooksul konkreetselt bioteaduse vallas näeme või mida me 10 aasta pärast tagasi vaatame, on oma sügava mõju poolest meie kõigi eludele väga erinev. .

Isegi kui jätta kõrvale ravimidisaini ja -avastusrakendused, on teadusavastustes ja nende ümbruses selliseid hämmastavaid rakendusi, mille puhul võite nüüd ette kujutada, et veebiliidese abil saate põhimõtteliselt luua molekule, mis teatud organismides on väga suure tõenäosusega vastake teatud küsimustele, andes usaldusväärsemad näidud kui varem. Nii et isegi kui jätta välja kogu keerukus selle kohta, kuidas see lõppkokkuvõttes patsiente ja kõiki mõjutab, on minu arvates üsna selge, et need tööriistad kiirendavad lihtsalt selliseid valdkondi nagu bioloogia.

Vijay Pande: See tundub olevat suurepärane koht selle lõpetamiseks. Suur tänu, Jakob, Bio Eats Worldiga liitumise eest.

Jakob Uszkoreit: Suur tänu, et olete minuga.

Olivia Webb: Täname, et liitusite Bio Eats Worldiga. Bio Eats Worldi hostib ja produtseerisin mina, Olivia Webb, a16z Bio + Health meeskonna abiga ja toimetaja Phil Hegseth. Bio Eats World on osa a16z taskuhäälingusaadete võrgust.

Kui teil on episoodi kohta küsimusi või soovite soovitada tulevase jao teemasid, saatke e-kiri [meiliga kaitstud] Viimaseks, kuid mitte vähemtähtsaks, kui teile meeldib Bio Eats World, jätke meile hinnang ja arvustus kõikjal, kus podcaste kuulate.

Pange tähele, et siin olevat sisu on ainult informatiivne, seda ei tohiks võtta juriidilise, äri-, maksu- ega investeerimisnõuandina ega kasutada investeeringute või väärtpaberite hindamiseks ning see ei ole suunatud ühelegi a16z fondi investoritele ega potentsiaalsetele investoritele. . Lisateavet leiate aadressilt a16z.com/disclosures.

***

Siin väljendatud seisukohad on tsiteeritud AH Capital Management, LLC (“a16z”) üksikute töötajate seisukohad, mitte a16z ega tema sidusettevõtete seisukohad. Teatud siin sisalduv teave on saadud kolmandate osapoolte allikatest, sealhulgas a16z hallatavate fondide portfelliettevõtetelt. Kuigi a16z on võetud usaldusväärsetest allikatest, ei ole a16z sellist teavet sõltumatult kontrollinud ega kinnita teabe püsivat täpsust ega selle sobivust antud olukorras. Lisaks võib see sisu sisaldada kolmandate isikute reklaame; aXNUMXz ei ole selliseid reklaame üle vaadanud ega toeta neis sisalduvat reklaamisisu.

See sisu on esitatud ainult informatiivsel eesmärgil ja sellele ei tohiks tugineda kui juriidilisele, äri-, investeerimis- ega maksunõustamisele. Nendes küsimustes peaksite konsulteerima oma nõustajatega. Viited mis tahes väärtpaberitele või digitaalsetele varadele on illustratiivse tähendusega ega kujuta endast investeerimissoovitust ega investeerimisnõustamisteenuste pakkumist. Lisaks ei ole see sisu suunatud ega mõeldud kasutamiseks ühelegi investorile ega potentsiaalsetele investoritele ning sellele ei tohi mingil juhul tugineda, kui tehakse otsus investeerida a16z hallatavasse fondi. (A16z fondi investeerimise pakkumine tehakse ainult sellise fondi erainvesteeringute memorandumi, märkimislepingu ja muu asjakohase dokumentatsiooni alusel ning neid tuleks lugeda tervikuna.) Kõik mainitud, viidatud investeeringud või portfelliettevõtted või kirjeldatud ei esinda kõiki a16z hallatavatesse sõidukitesse tehtud investeeringuid ning ei saa olla kindlust, et investeeringud on tulusad või et teised tulevikus tehtavad investeeringud on sarnaste omaduste või tulemustega. Andreessen Horowitzi hallatavate fondide tehtud investeeringute loend (v.a investeeringud, mille kohta emitent ei ole andnud A16z-le luba avalikustada, samuti etteteatamata investeeringud avalikult kaubeldavatesse digitaalvaradesse) on saadaval aadressil https://a16z.com/investments /.

Siin esitatud diagrammid ja graafikud on üksnes informatiivsel eesmärgil ja neile ei tohiks investeerimisotsuse tegemisel tugineda. Varasemad tulemused ei näita tulevasi tulemusi. Sisu räägib ainult märgitud kuupäeva seisuga. Kõik nendes materjalides väljendatud prognoosid, hinnangud, prognoosid, eesmärgid, väljavaated ja/või arvamused võivad muutuda ilma ette teatamata ning võivad erineda või olla vastuolus teiste väljendatud arvamustega. Olulist lisateavet leiate aadressilt https://a16z.com/disclosures.

Ajatempel:

Veel alates Andreessen Horowitz