ChatGLM-6B: kerge, avatud lähtekoodiga ChatGPT alternatiiv

Taasavaldanud Platon

järgijaid: 0

ChatGLM-6B: kerge, avatud lähtekoodiga ChatGPT alternatiiv
Pilt autorilt

Viimasel ajal on meil kõigil olnud üliraske aeg LLM-i uusimatele väljalasetele järele jõuda. Viimastel nädalatel on populaarseks muutunud mitmed avatud lähtekoodiga ChatGPT alternatiivid.

Ja selles artiklis me õpime selle kohta ChatGLM seeria ja ChatGLM-6B, avatud lähtekoodiga ja kerge ChatGPT alternatiiv.

Hakkame minema!

Hiina Tsinghua ülikooli teadlased on töötanud välja ChatGLM-i mudelite seeria, mille jõudlus on võrreldav teiste mudelitega, nagu GPT-3 ja BLOOM.

ChatGLM on kakskeelne suur keelemudel, mis on koolitatud nii hiina kui inglise keeles. Praegu on saadaval järgmised mudelid:

ChatGLM-130B: avatud lähtekoodiga LLM
ChatGLM-100B: pole avatud lähtekoodiga, kuid saadaval ainult kutsega juurdepääsu kaudu
ChatGLM-6B: kerge avatud lähtekoodiga alternatiiv

Ehkki need mudelid võivad tunduda sarnased suurte keelemudelite rühmaga Generative Pretraained Transformer (GPT), Üldkeelemudeli (GLM) eelkoolituse raamistik on see, mis teeb nad erinevaks. Lisateavet selle kohta leiate järgmisest jaotisest.

Masinõppes teaksite GLM-e kui üldistatud lineaarsed mudelid, kuid ChatGLM-i GLM tähistab Üldine keelemudel.

GLM-i eelkoolituse raamistik

LLM-i eelkoolitust on põhjalikult uuritud ja see on endiselt aktiivse uurimistöö valdkond. Proovime mõista peamisi erinevusi GLM-i eelkoolituse ja GPT-stiilis mudelite vahel.

GPT-3 mudeliperekond kasutab ainult dekoodri automaatset regressiivset keele modelleerimist. GLM-is seevastu sõnastatakse eesmärgi optimeerimine kui automaatse regressiivse tühiku täitmise probleem.

ChatGLM-6B: kerge, avatud lähtekoodiga ChatGPT alternatiiv
GLM | Pildi allikas

Lihtsamalt öeldes auto regressiivne tühi täitmine hõlmab pideva tekstivahemiku tühjendamist ja seejärel teksti järjestikust rekonstrueerimist. Lisaks lühematele maskidele on olemas pikem mask, mis eemaldab lause lõpust suvaliselt pikad tekstitühjad. Seda tehakse selleks, et mudel toimiks piisavalt hästi nii loomuliku keele mõistmisel kui ka genereerimisülesannetel.

Teine erinevus on kasutatud tähelepanu tüübis. Suurte keelemudelite GPT rühm kasutab ühesuunalist tähelepanu, samas kui GLM-i LLM-ide rühm kasutab kahesuunaline tähelepanu. Kahesuunalise tähelepanu kasutamine maskeerimata kontekstides võib sõltuvusi paremini tabada ja parandada loomuliku keele mõistmise ülesannete toimivust.

GELU aktiveerimine

GLM-is kasutatakse ReLU aktiveerimise asemel GELU (Gaussian Error Linear Units) aktiveerimist [1].

ChatGLM-6B: kerge, avatud lähtekoodiga ChatGPT alternatiiv
GELU, ReLU ja ELU aktiveerimised | Pildi allikas

GELU aktiveerimine ja sellel on nullist erinevad väärtused kõigi sisendite jaoks ja sellel on järgmine vorm [3]:

ChatGLM-6B: kerge, avatud lähtekoodiga ChatGPT alternatiiv

Leiti, et GELU aktiveerimine parandab jõudlust võrreldes ReLU aktiveerimisega, kuigi arvutuslikult intensiivsem kui ReLU.

LLM-ide GLM-seerias ChatGLM-130B, mis on avatud lähtekoodiga ja toimib sama hästi kui GPT-3 Da-Vinci mudel. Nagu mainitud, on selle artikli kirjutamise seisuga olemas ChatGLM-100B versioon, mis on piiratud ainult kutsetega juurdepääsuga.

ChatGLM-6B

Järgmised üksikasjad ChatGLM-6B kohta, et muuta see lõppkasutajatele kättesaadavamaks:

Sellel on umbes 6.2 miljardit parameetrit.
Mudel on eelkoolitatud 1 triljoni žetooniga – võrdselt inglise ja hiina keelest.
Seejärel kasutatakse selliseid tehnikaid nagu juhendatud peenhäälestus ja inimeste tagasiside abil õppimine.

Lõpetame oma arutelu, tutvudes ChatGLMi eeliste ja piirangutega:

Eelised

Alates kakskeelsest mudelist kuni avatud lähtekoodiga mudelini, mida saate kohapeal käitada, on ChatGLM-6B järgmised eelised.

Enamik tavalisi suuri keelemudeleid on koolitatud suurte ingliskeelse teksti korpuste põhjal ja teiste keelte suured keelemudelid pole nii levinud. ChatGLM-i seeria LLM-id on kakskeelsed ja suurepärane valik hiina keele jaoks. Mudelil on hea jõudlus nii inglise kui ka hiina keeles.
ChatGLM-6B on optimeeritud kasutajaseadmete jaoks. Lõppkasutajate seadmetes on sageli piiratud arvutusressursid, mistõttu on LLM-ide kohalik käitamine peaaegu võimatu, ilma juurdepääsuta suure jõudlusega GPU-dele. Koos INT4 kvantimine, ChatGLM-6B saab töötada tagasihoidliku mäluvajadusega, kuni 6 GB.
Saab hästi hakkama mitmesuguste ülesannetega, sealhulgas kokkuvõtete tegemisel ning ühe- ja mitmepäringuga vestlustes.
Vaatamata oluliselt väiksemale parameetrite arvule võrreldes teiste tavaliste LLM-idega, toetab ChatGLM-6B konteksti pikkust kuni 2048.

Piirangud

Järgmisena loetleme mõned ChatGLM-6B piirangud:

Kuigi ChatGLM on kakskeelne mudel, on selle ingliskeelne jõudlus tõenäoliselt ebaoptimaalne. Seda võib seostada sellega, et koolitusel kasutatud juhised on enamasti hiinakeelsed.

Kuna ChatGLM-6B on oluliselt vähem parameetreid Võrreldes teiste LLM-idega, nagu BLOOM, GPT-3 ja ChatGLM-130B, võib jõudlus olla halvem, kui kontekst on liiga pikk. Seetõttu võib ChatGLM-6B anda ebatäpset teavet sagedamini kui suurema arvu parameetritega mudelid.
Väikestel keelemudelitel on piiratud mälumaht. Seetõttu võib mitme pöördega vestlustes mudeli jõudlus veidi halveneda.
Eelarvamus, valeinformatsioon ja toksilisus on kõigi LLM-ide piirangud ning ChatGLM on ka nende suhtes vastuvõtlik.

Järgmise sammuna käivitage ChatGLM-6B kohapeal või proovige HuggingFace'i ruumide demot. Kui soovite LLM-ide töösse sügavamalt süveneda, on siin nimekiri tasuta kursused suurte keelemudelite kohta.

[1] Z Du, Y Qian jt, GLM: Üldkeelemudeli eelkoolitus koos autoregressiivse tühja täidisega, ACL 2022

[2] A Zheng, X Liu jt, GLM-130B – avatud kakskeelne eelkoolitatud mudel, ICML 2023

[3] D Hendryks, K Gimpel, Gaussi vea lineaarsed ühikud (GELU-d), arXiv, 2016

[4] ChatGLM-6B: HuggingFace Spacesi demo

[5] GitHubi Repo

Bala Priya C on tehniline kirjanik, kes naudib pikaajalise sisu loomist. Tema huvivaldkonnad on matemaatika, programmeerimine ja andmeteadus. Ta jagab oma õpitut arendajate kogukonnaga, koostades õpetusi, juhendeid ja palju muud.