ChatGLM-6B: een lichtgewicht, open-source ChatGPT-alternatief

Heruitgegeven door Plato

volgers: 0

ChatGLM-6B: een lichtgewicht, open-source ChatGPT-alternatief
Afbeelding door auteur

De laatste tijd hebben we het allemaal super moeilijk gehad om de nieuwste releases in de LLM-ruimte in te halen. In de afgelopen weken zijn verschillende open-source ChatGPT-alternatieven populair geworden.

En in dit artikel zullen we leren over de ChatGLM en series ChatGLM-6B, een open-source en lichtgewicht ChatGPT-alternatief.

Laten we gaan!

Onderzoekers van de Tsinghua University in China hebben gewerkt aan de ontwikkeling van de ChatGLM-serie modellen die vergelijkbare prestaties leveren als andere modellen zoals GPT-3 en BLOOM.

ChatGLM is een tweetalig groot taalmodel dat zowel in het Chinees als in het Engels is getraind. Momenteel zijn de volgende modellen beschikbaar:

ChatGLM-130B: een open-source LLM
ChatGLM-100B: niet open-source, maar beschikbaar via alleen-invite-toegang
ChatGLM-6B: een lichtgewicht open-source alternatief

Hoewel deze modellen lijken op de Generative Pretrained Transformer (GPT)-groep van grote taalmodellen, zijn de General Language Model (GLM) pre-trainingskader is wat hen anders maakt. We zullen hier meer over leren in de volgende sectie.

Bij machine learning zou je GLM's kennen als gegeneraliseerde lineaire modellen, maar de GLM in ChatGLM staat voor Algemeen taalmodel.

GLM Pretraining-framework

LLM pre-training is uitgebreid bestudeerd en is nog steeds een gebied van actief onderzoek. Laten we proberen de belangrijkste verschillen tussen GLM-pretraining en GPT-achtige modellen te begrijpen.

De modellen uit de GPT-3-familie maken gebruik van autoregressieve taalmodellering met alleen decoders. In GLM daarentegen wordt optimalisatie van de doelstelling geformuleerd als een auto regressief blanco opvulprobleem.

ChatGLM-6B: een lichtgewicht, open-source ChatGPT-alternatief
GLM | Image Source

In simpele termen, auto regressieve blanco vulling houdt in dat een ononderbroken stuk tekst wordt weggelaten en vervolgens de tekst achtereenvolgens wordt gereconstrueerd. Naast kortere maskers is er een langer masker dat willekeurig lange lege plekken aan het einde van zinnen verwijdert. Dit wordt gedaan zodat het model redelijk goed presteert bij het begrijpen van natuurlijke taal en bij het genereren van taken.

Een ander verschil zit in het type aandacht dat wordt gebruikt. De GPT-groep van grote taalmodellen gebruikt unidirectionele aandacht, terwijl de GLM-groep van LLM's gebruikt bidirectionele aandacht. Het gebruik van bidirectionele aandacht over niet-gemaskeerde contexten kan afhankelijkheden beter vastleggen en kan de prestaties van taken voor het begrijpen van natuurlijke taal verbeteren.

GELU-activering

In GLM wordt GELU-activering (Gaussian Error Linear Units) gebruikt in plaats van de ReLU-activering [1].

ChatGLM-6B: een lichtgewicht, open-source ChatGPT-alternatief
GELU-, ReLU- en ELU-activeringen | Image Source

De GELU-activering en heeft waarden die niet gelijk zijn aan nul voor alle ingangen en heeft de volgende vorm [3]:

ChatGLM-6B: een lichtgewicht, open-source ChatGPT-alternatief

De GELU-activering blijkt de prestaties te verbeteren in vergelijking met ReLU-activeringen, hoewel rekenkundig intensiever dan ReLU.

In de GLM-serie van LLM's, ChatGLM-130B, dat open-source is en even goed presteert als het Da-Vinci-model van GPT-3. Zoals vermeld, is er op het moment van schrijven van dit artikel een ChatGLM-100B-versie, die beperkt is tot toegang op uitnodiging.

ChatGLM-6B

De volgende details over ChatGLM-6B om het toegankelijker te maken voor eindgebruikers:

Heeft ongeveer 6.2 miljard parameters.
Het model is vooraf getraind op 1 biljoen tokens, zowel uit het Engels als uit het Chinees.
Vervolgens worden technieken gebruikt zoals gesuperviseerde afstemming en versterkend leren met menselijke feedback.

Laten we onze discussie afronden door de voordelen en beperkingen van ChatGLM door te nemen:

voordelen

Van een tweetalig model tot een open-source model dat u lokaal kunt uitvoeren, ChatGLM-6B heeft de volgende voordelen:

De meeste reguliere grote taalmodellen zijn getraind op grote corpora Engelse tekst, en grote taalmodellen voor andere talen zijn niet zo gebruikelijk. De ChatGLM-serie van LLM's is tweetalig en een uitstekende keuze voor Chinees. Het model presteert goed in zowel het Engels als het Chinees.
ChatGLM-6B is geoptimaliseerd voor gebruikersapparaten. Eindgebruikers hebben vaak beperkte computerbronnen op hun apparaten, dus het wordt bijna onmogelijk om LLM's lokaal uit te voeren - zonder toegang tot krachtige GPU's. Met INT4-kwantisering, kan ChatGLM-6B werken met een bescheiden geheugenvereiste van slechts 6 GB.
Presteert goed bij een verscheidenheid aan taken, waaronder samenvattingen en chats met één of meerdere zoekopdrachten.
Ondanks het aanzienlijk kleinere aantal parameters in vergelijking met andere reguliere LLM's, ondersteunt ChatGLM-6B een contextlengte tot 2048.

Beperkingen

Laten we vervolgens een paar beperkingen van ChatGLM-6B opsommen:

Hoewel ChatGLM een tweetalig model is, zijn de prestaties in het Engels waarschijnlijk niet optimaal. Dit kan worden toegeschreven aan het feit dat de instructies die tijdens de training worden gebruikt, meestal in het Chinees zijn.

Omdat ChatGLM-6B substantieel heeft minder parameters in vergelijking met andere LLM's zoals BLOOM, GPT-3 en ChatGLM-130B, kunnen de prestaties slechter zijn als de context te lang is. Als gevolg hiervan kan ChatGLM-6B vaker onnauwkeurige informatie geven dan modellen met een groter aantal parameters.
Kleine taalmodellen hebben beperkte geheugencapaciteit. Daarom kunnen de prestaties van het model in chats met meerdere beurten enigszins afnemen.
Bias, desinformatie en toxiciteit zijn beperkingen van alle LLM's, en ChatGLM is hier ook vatbaar voor.

Voer als volgende stap ChatGLM-6B lokaal uit of probeer de demo op HuggingFace-ruimtes. Als u dieper wilt ingaan op de werking van LLM's, vindt u hier een lijst met gratis cursussen over grote taalmodellen.

[1] Z Du, Y Qian et al., GLM: General Language Model Pretraining met Autoregressive Blank Infilling, ACL 2022

[2] Een Zheng, X Liu et al., GLM-130B - Een open tweetalig vooraf getraind model, ICML 2023

[3] D Hendrikks, K Gimpel, Gaussiaanse fout lineaire eenheden (GELU's), arXiv, 2016

[4] ChatGLM-6B: Demo op HuggingFace Spaces

[5] GitHub-opslagplaats

Bala Priya C is een technisch schrijver die graag lange inhoud maakt. Haar interessegebieden zijn wiskunde, programmeren en datawetenschap. Ze deelt haar kennis met de gemeenschap van ontwikkelaars door zelfstudies, handleidingen en meer te schrijven.