ChatGLM-6B: Et lett, åpen kildekode ChatGPT-alternativ

Kilde node: 2074009

ChatGLM-6B: Et lett, åpen kildekode ChatGPT-alternativ
Bilde av forfatter
 

I det siste har vi alle hatt det veldig vanskelig å få med oss ​​de siste utgivelsene i LLM-området. I løpet av de siste ukene har flere åpen kildekode ChatGPT-alternativer blitt populære. 

Og i denne artikkelen vil vi lære om ChatGLM serier og ChatGLM-6B, et åpen kildekode og lett ChatGPT-alternativ. 

La oss komme igang!

Forskere ved Tsinghua University i Kina har jobbet med å utvikle ChatGLM-serien med modeller som har sammenlignbar ytelse med andre modeller som GPT-3 og BLOOM.

ChatGLM er en tospråklig storspråklig modell trent på både kinesisk og engelsk. For øyeblikket er følgende modeller tilgjengelige:

  • ChatGLM-130B: en åpen kildekode LLM
  • ChatGLM-100B: ikke åpen kildekode, men tilgjengelig via kun invitasjonstilgang
  • ChatGLM-6B: et lett alternativ med åpen kildekode

Selv om disse modellene kan virke lik den Generative Pretrained Transformer (GPT)-gruppen av store språkmodeller, Generell språkmodell (GLM) foropplæringsrammeverk er det som gjør dem forskjellige. Vi lærer mer om dette i neste avsnitt.

I maskinlæring kjenner du GLM-er som generaliserte lineære modeller, men GLM i ChatGLM står for Generell språkmodell

GLM Pretraining Framework

LLM-foropplæring har blitt grundig studert og er fortsatt et område for aktiv forskning. La oss prøve å forstå de viktigste forskjellene mellom GLM-fortrening og GPT-modeller.

GPT-3-familien av modeller bruker autoregressiv språkmodellering kun med dekoder. I GLM, derimot, er optimalisering av målsetningen formulert som en automatisk regressiv tomfyllingsproblem.

 

ChatGLM-6B: Et lett, åpen kildekode ChatGPT-alternativ
GLM | Image Source
 

For å si det enkelt, automatisk regressiv tomfylling innebærer å blanke ut et kontinuerlig spenn med tekst, og deretter sekvensielt rekonstruere teksten denne blankingen. I tillegg til kortere masker, er det en lengre maske som tilfeldig fjerner lange tomme tekster fra slutten av setninger. Dette er gjort for at modellen skal yte rimelig godt i naturlig språkforståelse samt generasjonsoppgaver.

En annen forskjell er i typen oppmerksomhet som brukes. GPT-gruppen av store språkmodeller bruker ensrettet oppmerksomhet, mens GLM-gruppen av LLM-er bruker toveis oppmerksomhet. Bruk av toveis oppmerksomhet over demaskerte kontekster kan fange avhengigheter bedre og kan forbedre ytelsen på oppgaver med naturlig språkforståelse. 

GELU-aktivering

I GLM brukes GELU-aktivering (Gaussian Error Linear Units) i stedet for ReLU-aktivering [1].

 

ChatGLM-6B: Et lett, åpen kildekode ChatGPT-alternativ
GELU-, ReLU- og ELU-aktiveringer | Image Source
 

GELU-aktiveringen og har ikke-nullverdier for alle innganger og har følgende form [3]:

 

ChatGLM-6B: Et lett, åpen kildekode ChatGPT-alternativ
 

GELU-aktiveringen viser seg å forbedre ytelsen sammenlignet med ReLU-aktiveringer, men beregningsmessig mer intensiv enn ReLU.

I GLM-serien av LLM-er, ChatGLM-130B som er åpen kildekode og yter like bra som GPT-3s Da-Vinci-modell. Som nevnt, når du skriver denne artikkelen, er det en ChatGLM-100B-versjon, som er begrenset til kun for invitasjoner.

ChatGLM-6B

Følgende detaljer om ChatGLM-6B for å gjøre den mer tilgjengelig for sluttbrukere:

  • Har omtrent 6.2 milliarder parametere.
  • Modellen er forhåndstrent på 1 billion tokens – like fra engelsk og kinesisk.
  • Deretter brukes teknikker som overvåket finjustering og forsterkningslæring med menneskelig tilbakemelding.

La oss avslutte diskusjonen vår ved å gå gjennom ChatGLMs fordeler og begrensninger:

Fordeler

Fra å være en tospråklig modell til en åpen kildekode-modell som du kan kjøre lokalt, har ChatGLM-6B følgende fordeler:

  • De fleste vanlige store språkmodeller er trent på store korpus av engelsk tekst, og store språkmodeller for andre språk er ikke like vanlige. ChatGLM-serien med LLM-er er tospråklige og et godt valg for kinesisk. Modellen har god ytelse på både engelsk og kinesisk.
  • ChatGLM-6B er optimalisert for brukerenheter. Sluttbrukere har ofte begrensede dataressurser på enhetene sine, så det blir nesten umulig å kjøre LLM-er lokalt – uten tilgang til høyytelses GPU-er. Med INT4 kvantisering, ChatGLM-6B kan kjøres med et beskjedent minnebehov på så lavt som 6GB. 
  • Yter godt på en rekke oppgaver, inkludert oppsummering og enkelt- og flerspørringschatter.
  • Til tross for det vesentlig mindre antallet parametere sammenlignet med andre vanlige LLM-er, støtter ChatGLM-6B kontekstlengde på opptil 2048.

Begrensninger

La oss deretter liste noen begrensninger for ChatGLM-6B:

  • Selv om ChatGLM er en tospråklig modell, er ytelsen på engelsk sannsynligvis suboptimal. Dette kan tilskrives at instruksjonene som brukes i trening for det meste er på kinesisk.
  • Fordi ChatGLM-6B har vesentlig færre parametere sammenlignet med andre LLM-er som BLOOM, GPT-3 og ChatGLM-130B, kan ytelsen bli dårligere når konteksten er for lang. Som et resultat kan ChatGLM-6B gi unøyaktig informasjon oftere enn modeller med et større antall parametere.
  • Små språkmodeller har begrenset minnekapasitet. Derfor, i multi-sving-chatter, kan ytelsen til modellen forringes noe.
  • Bias, feilinformasjon og toksisitet er begrensninger for alle LLM-er, og ChatGLM er også utsatt for disse.

Som et neste trinn, kjør ChatGLM-6B lokalt eller prøv demoen på HuggingFace-rom. Hvis du ønsker å fordype deg dypere i arbeidet med LLM-er, her er en liste over gratis kurs om store språkmodeller.

[1] Z Du, Y Qian et al., GLM: General Language Model Pretraining med Autoregressive Blank Infilling, ACL 2022

[2] A Zheng, X Liu et al., GLM-130B – En åpen tospråklig forhåndstrent modell, ICML 2023 

[3] D Hendriks, K Gimpel, Gaussiske feil lineære enheter (GELUs), arXiv, 2016

[4] ChatGLM-6B: Demo på HuggingFace Spaces

[5] GitHub Repo
 
 
Bala Priya C er en teknisk skribent som liker å lage innhold i lang form. Hennes interesseområder inkluderer matematikk, programmering og datavitenskap. Hun deler læringen sin med utviklerfellesskapet ved å skrive veiledninger, veiledninger og mer.

Tidstempel:

Mer fra KDnuggets