ChatGLM-6B: Et let, open source ChatGPT-alternativ

Kildeknude: 2074009

ChatGLM-6B: Et let, open source ChatGPT-alternativ
Billede af forfatter
 

For nylig har vi alle haft meget svært ved at indhente de seneste udgivelser i LLM-området. I de sidste par uger er flere open source ChatGPT-alternativer blevet populære. 

Og i denne artikel lærer vi om ChatGLM serien og ChatGLM-6B, et open source og let ChatGPT-alternativ. 

Lad os komme afsted!

Forskere ved Tsinghua University i Kina har arbejdet på at udvikle ChatGLM-serien af ​​modeller, der har sammenlignelig ydeevne med andre modeller såsom GPT-3 og BLOOM.

ChatGLM er en tosproget storsprogsmodel, der er trænet i både kinesisk og engelsk. I øjeblikket er følgende modeller tilgængelige:

  • ChatGLM-130B: en open source LLM
  • ChatGLM-100B: ikke open source, men tilgængelig via invitationsadgang
  • ChatGLM-6B: et letvægts open source-alternativ

Selvom disse modeller kan virke lig den Generative Pretrained Transformer (GPT) gruppe af store sprogmodeller, Generel sprogmodel (GLM) fortræningsramme er det, der gør dem forskellige. Vi lærer mere om dette i næste afsnit.

I maskinlæring ville du kende GLM'er som generaliserede lineære modeller, men GLM i ChatGLM står for Generel sprogmodel

GLM Pretraining Framework

LLM fortræning er blevet grundigt undersøgt og er stadig et område med aktiv forskning. Lad os prøve at forstå de vigtigste forskelle mellem GLM-fortræning og GPT-modeller.

GPT-3-familien af ​​modeller bruger automatisk regressiv sprogmodellering, der kun er dekoder. I GLM er optimering af målsætningen derimod formuleret som en automatisk regressiv tomudfyldningsproblem.

 

ChatGLM-6B: Et let, open source ChatGPT-alternativ
GLM | Image Source
 

I enkle vendinger, automatisk regressiv blankudfyldning involverer udtømning af et kontinuerligt spænd af tekst, og derefter sekventielt rekonstruere teksten denne blanking. Ud over kortere masker er der en længere maske, der tilfældigt fjerner lange tomme tekster fra slutningen af ​​sætninger. Dette gøres for at modellen klarer sig rimeligt godt i naturlig sprogforståelse samt generationsopgaver.

En anden forskel er i den type opmærksomhed, der bruges. GPT-gruppen af ​​store sprogmodeller bruger ensrettet opmærksomhed, mens GLM-gruppen af ​​LLM'er bruger tovejs opmærksomhed. Brug af tovejs-opmærksomhed over afmaskede kontekster kan fange afhængigheder bedre og kan forbedre ydeevnen på naturlige sprogforståelsesopgaver. 

GELU aktivering

I GLM bruges GELU-aktivering (Gaussian Error Linear Units) i stedet for ReLU-aktiveringen [1].

 

ChatGLM-6B: Et let, open source ChatGPT-alternativ
GELU-, ReLU- og ELU-aktiveringer | Image Source
 

GELU-aktiveringen og har ikke-nul værdier for alle input og har følgende form [3]:

 

ChatGLM-6B: Et let, open source ChatGPT-alternativ
 

GELU-aktiveringen viser sig at forbedre ydeevnen sammenlignet med ReLU-aktiveringer, selvom den er beregningsmæssigt mere intensiv end ReLU.

I GLM-serien af ​​LLM'er, ChatGLM-130B, som er open source og yder lige så godt som GPT-3's Da-Vinci-model. Som nævnt, da denne artikel blev skrevet, er der en ChatGLM-100B-version, som er begrænset til kun-invitationsadgang.

ChatGLM-6B

Følgende detaljer om ChatGLM-6B for at gøre den mere tilgængelig for slutbrugere:

  • Har omkring 6.2 milliarder parametre.
  • Modellen er fortrænet på 1 trillion tokens - lige fra engelsk og kinesisk.
  • Efterfølgende anvendes teknikker som superviseret finjustering og forstærkningslæring med menneskelig feedback.

Lad os afslutte vores diskussion ved at gennemgå ChatGLMs fordele og begrænsninger:

Fordele

Fra at være en tosproget model til en open source-model, som du kan køre lokalt, har ChatGLM-6B følgende fordele:

  • De fleste almindelige store sprogmodeller er trænet på store korpus af engelsk tekst, og store sprogmodeller for andre sprog er ikke så almindelige. ChatGLM-serien af ​​LLM'er er tosprogede og et godt valg for kinesisk. Modellen har god ydeevne på både engelsk og kinesisk.
  • ChatGLM-6B er optimeret til brugerenheder. Slutbrugere har ofte begrænsede computerressourcer på deres enheder, så det bliver næsten umuligt at køre LLM'er lokalt - uden adgang til højtydende GPU'er. Med INT4 kvantisering, ChatGLM-6B kan køre med et beskedent hukommelsesbehov på så lavt som 6GB. 
  • Yder godt på en række opgaver, herunder opsummering og enkelt- og multi-forespørgselschat.
  • På trods af det væsentligt mindre antal parametre sammenlignet med andre almindelige LLM'er, understøtter ChatGLM-6B en kontekstlængde på op til 2048.

Begrænsninger

Lad os derefter liste et par begrænsninger af ChatGLM-6B:

  • Selvom ChatGLM er en tosproget model, er dens ydeevne på engelsk sandsynligvis suboptimal. Dette kan tilskrives, at instruktionerne, der bruges i træning, for det meste er på kinesisk.
  • Fordi ChatGLM-6B har væsentligt færre parametre sammenlignet med andre LLM'er såsom BLOOM, GPT-3 og ChatGLM-130B, kan ydeevnen være dårligere, når konteksten er for lang. Som et resultat kan ChatGLM-6B give unøjagtige oplysninger oftere end modeller med et større antal parametre.
  • Små sprogmodeller har begrænset hukommelseskapacitet. Derfor kan ydeevnen af ​​modellen i multi-turn chats forringes en smule.
  • Bias, misinformation og toksicitet er begrænsninger for alle LLM'er, og ChatGLM er også modtagelig for disse.

Som et næste trin kan du køre ChatGLM-6B lokalt eller prøve demoen på HuggingFace spaces. Hvis du gerne vil dykke dybere ned i arbejdet med LLM'er, er her en liste over gratis kurser om store sprogmodeller.

[1] Z Du, Y Qian et al., GLM: General Language Model Pretraining med Autoregressive Blank Infilling, ACL 2022

[2] A Zheng, X Liu et al., GLM-130B – En åben tosproget prætrænet model, ICML 2023 

[3] D Hendriks, K Gimpel, Gaussiske fejl lineære enheder (GELU'er), arXiv, 2016

[4] ChatGLM-6B: Demo på HuggingFace Spaces

[5] GitHub Repo
 
 
Bala Priya C er en teknisk skribent, der nyder at skabe indhold i lang form. Hendes interesseområder omfatter matematik, programmering og datavidenskab. Hun deler sin læring med udviklerfællesskabet ved at skrive selvstudier, vejledninger og mere.

Tidsstempel:

Mere fra KDnuggets