ChatGLM-6B: Et lett, åpen kildekode ChatGPT-alternativ

Publisert av Platon

Følgere: 0

ChatGLM-6B: Et lett, åpen kildekode ChatGPT-alternativ
Bilde av forfatter

I det siste har vi alle hatt det veldig vanskelig å få med oss de siste utgivelsene i LLM-området. I løpet av de siste ukene har flere åpen kildekode ChatGPT-alternativer blitt populære.

Og i denne artikkelen vil vi lære om ChatGLM serier og ChatGLM-6B, et åpen kildekode og lett ChatGPT-alternativ.

La oss komme igang!

Forskere ved Tsinghua University i Kina har jobbet med å utvikle ChatGLM-serien med modeller som har sammenlignbar ytelse med andre modeller som GPT-3 og BLOOM.

ChatGLM er en tospråklig storspråklig modell trent på både kinesisk og engelsk. For øyeblikket er følgende modeller tilgjengelige:

ChatGLM-130B: en åpen kildekode LLM
ChatGLM-100B: ikke åpen kildekode, men tilgjengelig via kun invitasjonstilgang
ChatGLM-6B: et lett alternativ med åpen kildekode

Selv om disse modellene kan virke lik den Generative Pretrained Transformer (GPT)-gruppen av store språkmodeller, Generell språkmodell (GLM) foropplæringsrammeverk er det som gjør dem forskjellige. Vi lærer mer om dette i neste avsnitt.

I maskinlæring kjenner du GLM-er som generaliserte lineære modeller, men GLM i ChatGLM står for Generell språkmodell.

GLM Pretraining Framework

LLM-foropplæring har blitt grundig studert og er fortsatt et område for aktiv forskning. La oss prøve å forstå de viktigste forskjellene mellom GLM-fortrening og GPT-modeller.

GPT-3-familien av modeller bruker autoregressiv språkmodellering kun med dekoder. I GLM, derimot, er optimalisering av målsetningen formulert som en automatisk regressiv tomfyllingsproblem.

ChatGLM-6B: Et lett, åpen kildekode ChatGPT-alternativ
GLM | Image Source

For å si det enkelt, automatisk regressiv tomfylling innebærer å blanke ut et kontinuerlig spenn med tekst, og deretter sekvensielt rekonstruere teksten denne blankingen. I tillegg til kortere masker, er det en lengre maske som tilfeldig fjerner lange tomme tekster fra slutten av setninger. Dette er gjort for at modellen skal yte rimelig godt i naturlig språkforståelse samt generasjonsoppgaver.

En annen forskjell er i typen oppmerksomhet som brukes. GPT-gruppen av store språkmodeller bruker ensrettet oppmerksomhet, mens GLM-gruppen av LLM-er bruker toveis oppmerksomhet. Bruk av toveis oppmerksomhet over demaskerte kontekster kan fange avhengigheter bedre og kan forbedre ytelsen på oppgaver med naturlig språkforståelse.

GELU-aktivering

I GLM brukes GELU-aktivering (Gaussian Error Linear Units) i stedet for ReLU-aktivering [1].

ChatGLM-6B: Et lett, åpen kildekode ChatGPT-alternativ
GELU-, ReLU- og ELU-aktiveringer | Image Source

GELU-aktiveringen og har ikke-nullverdier for alle innganger og har følgende form [3]:

ChatGLM-6B: Et lett, åpen kildekode ChatGPT-alternativ

GELU-aktiveringen viser seg å forbedre ytelsen sammenlignet med ReLU-aktiveringer, men beregningsmessig mer intensiv enn ReLU.

I GLM-serien av LLM-er, ChatGLM-130B som er åpen kildekode og yter like bra som GPT-3s Da-Vinci-modell. Som nevnt, når du skriver denne artikkelen, er det en ChatGLM-100B-versjon, som er begrenset til kun for invitasjoner.

ChatGLM-6B

Følgende detaljer om ChatGLM-6B for å gjøre den mer tilgjengelig for sluttbrukere:

Har omtrent 6.2 milliarder parametere.
Modellen er forhåndstrent på 1 billion tokens – like fra engelsk og kinesisk.
Deretter brukes teknikker som overvåket finjustering og forsterkningslæring med menneskelig tilbakemelding.

La oss avslutte diskusjonen vår ved å gå gjennom ChatGLMs fordeler og begrensninger:

Fordeler

Fra å være en tospråklig modell til en åpen kildekode-modell som du kan kjøre lokalt, har ChatGLM-6B følgende fordeler:

De fleste vanlige store språkmodeller er trent på store korpus av engelsk tekst, og store språkmodeller for andre språk er ikke like vanlige. ChatGLM-serien med LLM-er er tospråklige og et godt valg for kinesisk. Modellen har god ytelse på både engelsk og kinesisk.
ChatGLM-6B er optimalisert for brukerenheter. Sluttbrukere har ofte begrensede dataressurser på enhetene sine, så det blir nesten umulig å kjøre LLM-er lokalt – uten tilgang til høyytelses GPU-er. Med INT4 kvantisering, ChatGLM-6B kan kjøres med et beskjedent minnebehov på så lavt som 6GB.
Yter godt på en rekke oppgaver, inkludert oppsummering og enkelt- og flerspørringschatter.
Til tross for det vesentlig mindre antallet parametere sammenlignet med andre vanlige LLM-er, støtter ChatGLM-6B kontekstlengde på opptil 2048.

Begrensninger

La oss deretter liste noen begrensninger for ChatGLM-6B:

Selv om ChatGLM er en tospråklig modell, er ytelsen på engelsk sannsynligvis suboptimal. Dette kan tilskrives at instruksjonene som brukes i trening for det meste er på kinesisk.

Fordi ChatGLM-6B har vesentlig færre parametere sammenlignet med andre LLM-er som BLOOM, GPT-3 og ChatGLM-130B, kan ytelsen bli dårligere når konteksten er for lang. Som et resultat kan ChatGLM-6B gi unøyaktig informasjon oftere enn modeller med et større antall parametere.
Små språkmodeller har begrenset minnekapasitet. Derfor, i multi-sving-chatter, kan ytelsen til modellen forringes noe.
Bias, feilinformasjon og toksisitet er begrensninger for alle LLM-er, og ChatGLM er også utsatt for disse.

Som et neste trinn, kjør ChatGLM-6B lokalt eller prøv demoen på HuggingFace-rom. Hvis du ønsker å fordype deg dypere i arbeidet med LLM-er, her er en liste over gratis kurs om store språkmodeller.

[1] Z Du, Y Qian et al., GLM: General Language Model Pretraining med Autoregressive Blank Infilling, ACL 2022

[2] A Zheng, X Liu et al., GLM-130B – En åpen tospråklig forhåndstrent modell, ICML 2023

[3] D Hendriks, K Gimpel, Gaussiske feil lineære enheter (GELUs), arXiv, 2016

[4] ChatGLM-6B: Demo på HuggingFace Spaces

[5] GitHub Repo

Bala Priya C er en teknisk skribent som liker å lage innhold i lang form. Hennes interesseområder inkluderer matematikk, programmering og datavitenskap. Hun deler læringen sin med utviklerfellesskapet ved å skrive veiledninger, veiledninger og mer.