Nvidia tarjoaa massiivisen kielimallin yritysten saataville

Julkaissut Platon

seuraajia: 0

Anna OSS Enterprise -uutiskirje opastaa sinua avata lähde matka! Rekisteröidy tästä.

Sen Syksyn 2021 GPU-teknologiakonferenssi (GTC) tänään Nvidia ilmoitti valmistavansa Megatron 530B:n, yhden niistä maailman suurimmat kielimallit, joka on yritysten käytettävissä kouluttautumaan palvelemaan uusia verkkotunnuksia ja kieliä. Ensimmäinen yksityiskohtainen lokakuun alussa Megatron 530B – joka tunnetaan myös nimellä Megatron-Turing Natural Language Generation (MT-NLP) – sisältää 530 miljardia parametria ja saavuttaa suuren tarkkuuden laajassa joukossa luonnollisen kielen tehtäviä, mukaan lukien luetun ymmärtäminen, järkeä päättely ja luonnollisen kielen päättely. .

"Tänään tarjoamme asiakkaillemme reseptejä suurten kielimallien, mukaan lukien Megatron 530B, rakentamiseen, kouluttamiseen ja mukauttamiseen. Tämä sisältää komentosarjat, koodin ja 530B kouluttamattoman mallin. Asiakkaat voivat aloittaa pienemmistä malleista ja skaalata suurempiin malleihin parhaaksi katsomallaan tavalla”, Nvidian tekoälyohjelmistojen tuotehallinnan johtaja Kari Briski kertoi VentureBeatille sähköpostitse. "Tutkijamme [työskentelivät] Microsoftin kanssa Megatron 530B -mallin kouluttamiseksi kuudessa viikossa."

Megatron 530B

Koneoppimisessa parametrit ovat osa mallia, joka opitaan historiallisista koulutustiedoista. Yleisesti ottaen kielialueella parametrien määrän ja hienostuneisuuden välinen korrelaatio on pysynyt erittäin hyvin. Kielimallien, joissa on suuri määrä parametreja, enemmän dataa ja enemmän harjoitusaikaa, on osoitettu saavan rikkaamman ja vivahteikkaamman kielen ymmärryksen, esimerkiksi kyvyn tehdä yhteenvetoa kirjoista ja jopa täydentää ohjelmointikoodia.

Megatron 530B:n kouluttamiseksi Nvidia – yhteistyössä Microsoftin kanssa – loi koulutustietojoukon, jossa oli 270 miljardia englanninkielisiltä verkkosivustoilta otettua tokenia. Tokenit, tapa erottaa tekstinpalaset pienemmiksi yksiköiksi luonnollisella kielellä, voivat olla joko sanoja, merkkejä tai sanan osia. Kuten kaikki tekoälymallit, Megatron 530B:n oli "harjoiteltava" ottamalla käyttöön joukon esimerkkejä oppiakseen kuvioita datapisteiden välillä, kuten kielioppi- ja syntaktisia perussääntöjä.

Tietojoukko tuli suurelta osin The Pilestä, 835 Gt:n 22 pienemmän tietojoukon kokoelmasta, joka on luotu avoimen lähdekoodin tekoälytutkimuksen EleutherAI:lla. Pile kattaa akateemiset lähteet (esim. Arxiv, PubMed), yhteisöt (StackExchange, Wikipedia), koodivarastot (GitHub) ja paljon muuta, jotka Microsoft ja Nvidia kertovat kuratoineen ja yhdistäneensä suodatettuja tilannekuvia Common Crawlista, laajasta kokoelmasta verkkosivut, mukaan lukien uutiset ja sosiaalisen median viestit.

Vertailussa Nvidia sanoo, että Megatron 530B voi päätellä matemaattisia perusoperaatioita, vaikka symbolit ovat "pahasti hämärtyneet". Vaikka malli ei olekaan kovin tarkka, se näyttää ylittävän muistamisen aritmeettisen opetuksen ja onnistuu suorittamaan tehtäviä, jotka sisältävät kysymyksiä, jotka vaativat sen vastauksen. Tämä on suuri haaste NLP:ssä.

"Asiakkaat ovat innokkaita investoimaan suuriin kielimalleihin, koska heillä on yleistetyn tekoälyn kyky, jolla on harvoin tapahtuva oppiminen ja kyky loistaa monissa tehtävissä samanaikaisesti", Kari sanoi. "Keskustellisessa tekoälyssä tämä yleinen lähestymistapa on erittäin jännittävä käyttötapauksissa, kuten avoimen verkkotunnuksen chat-boteissa, dokumenttien yhteenvedossa, tekstin luomisessa ja niin edelleen… Nvidia käyttää Megatron 530B:tä sisäisesti."

Harjoittelun ja käytön haasteita

Ottaen huomioon Megatron 530B:n valtavan koon, koulutus ja sen käyttöönotto tuotantoon eivät ole helppoja saavutuksia – edes yrityksille, joilla on valtavat resurssit. Malli koulutettiin alun perin 560 Nvidia DGX A100 -palvelimelle, joista jokaisessa isännöi 8 Nvidia A100 80GB GPU:ta. Microsoft ja Nvidia kertovat havainneensa Megatron 113B:tä harjoittaessaan 126-530 teraflopsia sekunnissa GPU:ta kohden, mikä nostaisi koulutuskustannukset miljooniin dollareihin. (Teraflop-luokitus mittaa laitteiston, mukaan lukien GPU:t, suorituskykyä.)

Nvidia esittelee DGX SuperPOD:nsa ensisijaiseksi ratkaisuksi. Palvelimien ja työasemien sarja, SuperPODit ovat esikonfiguroituja DGX A100 -järjestelmiä, jotka on rakennettu käyttämällä A100 GPU:ta ja Nvidia Mellanox InfiniBandia laskenta- ja tallennusympäristöön.

Yksi SuperPOD voi kuitenkin maksaa 7–60 miljoonaa dollaria käyttöönoton koosta riippuen. (Yksi DGX A100 alkaa 199,000 90,000 dollarista.) Nvidian SuperPOD-tilauspalvelu on huomattavasti halvempi – SuperPOD maksaa 530 560 dollaria kuukaudessa. Ottaen huomioon, että Megatron 100B on koulutettu Nvidian Selene-supertietokoneella, joka koostuu neljästä SuperPODista ja XNUMX AXNUMX GPU:sta, kustannukset ylittävät sen, mitä useimmilla yrityksillä on varaa maksaa.

Jopa teknologiajättiläiset, kuten Googlen emoyhtiö Alphabet, ovat kohdanneet budjettirajoituksia AI-malleja kouluttaessaan. Kun Googlen tytäryhtiö DeepMindin tutkijat suunnittelivat mallin pelaamiseen StarCraft II, he eivät tarkoituksella yrittäneet useita tapoja rakentaa avainkomponenttia, koska koulutuskustannukset olisivat olleet liian korkeat. Samoin OpenAI ei korjannut virhettä ottaessaan käyttöön GPT-3 — kielimalli, jossa on alle puolet niin monta parametria kuin Megatron 530B — koska koulutuskustannukset tekivät mallin uudelleenkoulutuksen mahdottomaksi.

Silti äskettäin haastattelu Next Platformin kanssa Catanzaro sanoo uskovansa, että on täysin mahdollista, että yritys sijoittaa miljardi dollaria laskenta-aikaan mallin kouluttamiseen seuraavan viiden vuoden aikana. Massachusettsin Amherstin yliopisto opiskella osoitti, että käyttämällä vuoden 2019 aikakauden lähestymistapoja kuvantunnistusmallin kouluttaminen 5 prosentin virhetasolla maksaisi 100 miljardia dollaria.

Vaikka mikään yritys ei ole vielä päässyt lähelle, DeepMind ilmoitti varaavan 35 miljoonaa dollaria juna tekoälyjärjestelmä Go-oppimiseen. OpenAI:n arvioidaan käyttäneen 4.6–12 miljoonaa dollaria GPT-3:n koulutukseen. Ja AI21 Labs, joka kehitti suunnilleen GPT-3:n kokoisen kielimallin, keräsi 34.5 miljoonaa dollaria riskipääomaa ennen kaupallisen palvelunsa käynnistämistä.

”[OpenAI:n GPT-3:n] kaltaisten mallien avulla alamme nähdä malleja, jotka voivat mennä pidemmällekin ja joista voi itse asiassa tulla yleisempiä työkaluja todellisten ongelmien ratkaisemiseen. Se on askel kohti yleisempää tekoälyn muotoa, ja se oikeuttaa investoinnin näiden valtavien kielimallien koulutukseen Selenen kaltaisissa klustereissa”, Catanzaro sanoi. "Nämä mallit ovat niin mukautuvia ja joustavia, ja niiden ominaisuudet ovat niin korreloineet mittakaavan kanssa, että voimme itse asiassa nähdä niiden tuovan useita miljardeja dollareita arvoa yhdestä mallista, joten seuraavien viiden vuoden aikana kulutetaan miljardi laskentaan niiden kouluttamiseen. voisi olla järkeä."

Päättäminen – itse asiassa harjoitetun mallin käyttäminen – on toinen haaste. Kahdessa DGX-järjestelmässä Nvidia väittää, että päättely (esim. lauseen automaattinen täydentäminen) Megatron 530B:llä kestää vain puoli sekuntia. Mutta se voi kestää yli minuutin CPU-pohjaisella paikallisella palvelimella. Vaikka pilvivaihtoehdot saattavat olla halvempia, ne eivät ole dramaattisesti niin – yksi arvio sitoo GPT-3:n käyttökustannukset yhdessä Amazon Web Services -esiintymässä vähintään 87,000 XNUMX dollariin vuodessa.

Ehkä tästä syystä, OpenAI:ta, Microsoftia ja AI21 Labsia lukuun ottamatta, harvat yritykset ovat tarjonneet asiakkaille laajoja koulutettuja kielimalleja API:iden kautta. Järjestelmät, kuten Huawein PanGu-Alpha, Naverin HyperCLOVAja Beijing Academy of Artificial Intelligence's Wu Dao 2.0 pysyvät saavuttamattomissa tutkimuspapereiden ja (PanGu-Alfan tapauksessa) GitHub-arkistojen ulkopuolella.

Cornellin yliopiston luonnollisen kielen prosessoinnin tutkija ja datatieteilijä Maria Antoniak sanoo, että luonnollisen kielen suhteen on avoin kysymys, ovatko suuremmat mallit oikea lähestymistapa. Vaikka jotkin parhaista suorituskyvyn vertailupisteistä nykyään tulevat suurista tietojoukoista ja malleista, lähes mahdottoman suurien tietomäärien siirtämisestä massiivisiin kielimalleihin on epävarmaa.

"Nykyinen kentän rakenne on tehtäväkeskeinen, jossa yhteisö kokoontuu yhteen yrittääkseen ratkaista tiettyjä ongelmia tietyissä tietojoukoissa", Antoniak kertoi VentureBeatille. edellinen haastattelu. ”Nämä tehtävät ovat yleensä hyvin jäsenneltyjä ja niissä voi olla omat heikkoutensa, joten vaikka ne auttavat jollain tavalla alaamme etenemään, ne voivat myös rajoittaa meitä. Suuret mallit toimivat hyvin näissä tehtävissä, mutta siitä, voivatko nämä tehtävät lopulta johtaa todelliseen kielen ymmärtämiseen, on kiistanalainen."

harhat

On vakiintunutta, että Megatron 530B:n kaltaiset mallit voivat vahvistaa harhoja tiedoissa, joiden perusteella ne on koulutettu, ja todellakin Microsoft ja Nvidia myöntävät, että malli "poimii stereotypiat ja harhaanjohtamisen [koulutus]tiedoista". Tämä johtuu todennäköisesti siitä, että osa tietojoukosta on peräisin yhteisöistä, joissa on läpitunkeva sukupuoli, rotu, fyysinen, ja uskonnolliset ennakkoluulot, joihin kuratointi ei pysty täysin vastaamaan.

Microsoft ja Nvidia väittävät olevansa "sitoutuneita työskentelemään [ongelman] ratkaisemiseksi" ja rohkaisevat "jatkuvaan tutkimukseen, joka auttaa kvantifioimaan mallin harhaa". He sanovat myös, että Megatron-Turingin käytön tuotannossa "täytyy varmistaa, että otetaan käyttöön asianmukaiset toimenpiteet käyttäjille aiheutuvien mahdollisten haittojen lieventämiseksi ja minimoimiseksi", ja noudattaa Microsoftin ohjeissa esitettyjä periaatteita. Vastuulliset tekoälyperiaatteet.

"Samalla kun jättiläiset kielimallit edistävät kielten sukupolven huippua, ne kärsivät myös sellaisista ongelmista, kuten vinoudesta ja myrkyllisyydestä", Kari lisäsi. "Näiden kielimallien ongelmien ymmärtämistä ja poistamista tutkitaan aktiivisesti tekoälyyhteisössä, myös Nvidiassa. Nvidia on sitoutunut työskentelemään tämän ongelman ratkaisemiseksi. Kannustamme jatkamaan tutkimusta mallin harhan kvantifioinnin avulla."

Muun muassa johtavalla tekoälyn tutkijalla Timnit Gebru on kyseenalaisti viisauden rakentaa suuria kielimalleja – tutkia, kuka niistä hyötyy ja ketä vahingoitetaan. Vaikka ennakkoluulottomuus on edelleen avoin haaste, hyvä uutinen on se, että peruskoneoppimistoimintojen kustannukset ovat laskeneet muutaman viime vuoden aikana. 2020 OpenAI tutkimus havaitsi, että vuodesta 2012 lähtien laskentamäärä, joka tarvitaan mallin kouluttamiseen samaan suorituskykyyn kuvien luokittelussa suositussa vertailukohdassa, ImageNetissä, on laskenut kaksinkertaiseksi 16 kuukauden välein. Lähestymistavat, kuten verkon karsiminen ennen koulutusta, voivat johtaa lisähyötyihin.

Joko läpi karsiminen, uusia laitteita tai tekniikoita, kuten meta-oppiminen ja hermoarkkitehtuuri haku, tarve ratkaisuille – tai vaihtoehtoille – suurille kielimalleille on tulossa nopeasti selväksi – ainakin jos startupilla, joilla ei ole suuryritysten resursseja, on mahdollisuus taistella.

VentureBeat

VentureBeatin tehtävänä on olla digitaalinen kaupungin aukio teknisille päätöksentekijöille saadakseen tietoa muuttuvasta tekniikasta ja kaupoista. Sivustomme tarjoaa olennaisia tietoja tietotekniikoista ja strategioista, jotka ohjaavat sinua organisaatiosi johdossa. Kutsumme sinut tulemaan yhteisömme jäseneksi ja tutustumaan:

ajantasaista tietoa sinua kiinnostavista aiheista
uutiskirjeemme
aidattu ajattelijan sisältö ja alennettu pääsy arvostettuihin tapahtumiin, kuten Muuta 2021: Lisätietoja
verkko-ominaisuudet ja paljon muuta

Tule jäseneksi

Lähde: https://venturebeat.com/2021/11/09/nvidia-makes-massive-language-model-available-to-enterprises/

Aikaleima: Marraskuussa 9, 2021