ChatGLM-6B: Eine leichtgewichtige Open-Source-ChatGPT-Alternative

Neuauflage von Plato

Verfolger: 0

ChatGLM-6B: Eine leichtgewichtige Open-Source-ChatGPT-Alternative
Bild vom Autor

In letzter Zeit fiel es uns allen sehr schwer, die neuesten Veröffentlichungen im LLM-Bereich nachzuholen. In den letzten Wochen sind mehrere Open-Source-ChatGPT-Alternativen populär geworden.

Und in diesem Artikel erfahren wir mehr über die ChatGLM Serie und ChatGLM-6B, eine quelloffene und leichtgewichtige ChatGPT-Alternative.

Lasst uns anfangen!

Forscher der Tsinghua-Universität in China haben an der Entwicklung der ChatGLM-Serie von Modellen gearbeitet, die eine vergleichbare Leistung wie andere Modelle wie GPT-3 und BLOOM aufweisen.

ChatGLM ist ein zweisprachiges großes Sprachmodell, das sowohl auf Chinesisch als auch auf Englisch trainiert wurde. Derzeit sind folgende Modelle verfügbar:

ChatGLM-130B: ein Open-Source-LLM
ChatGLM-100B: nicht Open-Source, aber nur auf Einladung verfügbar
ChatGLM-6B: eine leichtgewichtige Open-Source-Alternative

Obwohl diese Modelle den großen Sprachmodellen der Generative Pretrained Transformer (GPT)-Gruppe ähnlich erscheinen mögen, ist die Allgemeines Sprachmodell (GLM) Vorschulungsrahmen das unterscheidet sie. Mehr dazu erfahren wir im nächsten Abschnitt.

Beim maschinellen Lernen kennen Sie GLMs als verallgemeinerte lineare Modelle, aber das GLM in ChatGLM steht für Allgemeines Sprachmodell.

GLM Pretraining Framework

Die LLM-Vorschulung wurde umfassend untersucht und ist immer noch ein Bereich aktiver Forschung. Versuchen wir, die Hauptunterschiede zwischen GLM-Vortrainings- und GPT-Modellen zu verstehen.

Die GPT-3-Modellfamilie verwendet eine autoregressive Sprachmodellierung nur für Decoder. Im GLM hingegen wird die Optimierung des Ziels als eine formuliert Problem mit automatisch regressivem Ausfüllen von Leerzeichen.

ChatGLM-6B: Eine leichtgewichtige Open-Source-ChatGPT-Alternative
GLM | Bildquelle

In einfachen Worten, autoregressives Füllen von Leerzeichen beinhaltet das Ausblenden einer kontinuierlichen Textspanne und das anschließende sequentielle Rekonstruieren des Textes dieses Ausblendens. Zusätzlich zu kürzeren Masken gibt es eine längere Maske, die zufällig lange Textlücken am Ende von Sätzen entfernt. Dies geschieht, damit das Modell sowohl beim Verstehen natürlicher Sprache als auch bei Generierungsaufgaben einigermaßen gut abschneidet.

Ein weiterer Unterschied besteht in der Art der verwendeten Aufmerksamkeit. Die GPT-Gruppe der großen Sprachmodelle verwendet unidirektionale Aufmerksamkeit, während die GLM-Gruppe der LLMs verwendet Bidirektionale Aufmerksamkeit. Die Verwendung von bidirektionaler Aufmerksamkeit über unmaskierten Kontexten kann Abhängigkeiten besser erfassen und die Leistung bei Aufgaben zum Verstehen natürlicher Sprache verbessern.

GELU-Aktivierung

In GLM wird die GELU-Aktivierung (Gaussian Error Linear Units) anstelle der ReLU-Aktivierung verwendet [1].

ChatGLM-6B: Eine leichtgewichtige Open-Source-ChatGPT-Alternative
GELU-, ReLU- und ELU-Aktivierungen | Bildquelle

Die GELU-Aktivierung hat für alle Eingaben Werte ungleich Null und hat die folgende Form [3]:

ChatGLM-6B: Eine leichtgewichtige Open-Source-ChatGPT-Alternative

Es wurde festgestellt, dass die GELU-Aktivierung die Leistung im Vergleich zu ReLU-Aktivierungen verbessert, obwohl sie rechenintensiver als ReLU ist.

In der GLM-Serie von LLMs ist ChatGLM-130B Open Source und funktioniert genauso gut wie das Da-Vinci-Modell von GPT-3. Wie bereits erwähnt, gibt es zum Zeitpunkt des Schreibens dieses Artikels eine ChatGLM-100B-Version, die auf den Zugang nur mit Einladung beschränkt ist.

ChatGLM-6B

Die folgenden Details zu ChatGLM-6B, um es für Endbenutzer zugänglicher zu machen:

Hat etwa 6.2 Milliarden Parameter.
Das Modell ist auf 1 Billion Token vortrainiert – gleichermaßen aus Englisch und Chinesisch.
Anschließend kommen Techniken wie Supervised Fine-Tuning und Reinforcement Learning mit menschlichem Feedback zum Einsatz.

Lassen Sie uns unsere Diskussion abschließen, indem wir die Vorteile und Einschränkungen von ChatGLM durchgehen:

Vorteile

Von einem zweisprachigen Modell zu einem Open-Source-Modell, das Sie lokal ausführen können, hat ChatGLM-6B die folgenden Vorteile:

Die meisten Mainstream-Large-Language-Modelle werden mit großen Korpora englischer Texte trainiert, und Large-Language-Modelle für andere Sprachen sind nicht so verbreitet. Die ChatGLM-Reihe von LLMs ist zweisprachig und eine großartige Wahl für Chinesisch. Das Modell hat eine gute Leistung in Englisch und Chinesisch.
ChatGLM-6B ist für Benutzergeräte optimiert. Endbenutzer haben oft begrenzte Rechenressourcen auf ihren Geräten, sodass es fast unmöglich wird, LLMs lokal auszuführen – ohne Zugriff auf Hochleistungs-GPUs. Mit INT4-Quantisierung, kann ChatGLM-6B mit einer bescheidenen Speicheranforderung von nur 6 GB ausgeführt werden.
Gute Leistung bei einer Vielzahl von Aufgaben, einschließlich Zusammenfassung und Einzel- und Mehrfachabfrage-Chats.
Trotz der wesentlich kleineren Anzahl von Parametern im Vergleich zu anderen Mainstream-LLMs unterstützt ChatGLM-6B eine Kontextlänge von bis zu 2048.

Einschränkungen

Lassen Sie uns als Nächstes einige Einschränkungen von ChatGLM-6B auflisten:

Obwohl ChatGLM ein zweisprachiges Modell ist, ist seine Leistung auf Englisch wahrscheinlich suboptimal. Dies ist darauf zurückzuführen, dass die Trainingsanweisungen meist auf Chinesisch gehalten wurden.

Denn ChatGLM-6B hat erheblich weniger Parameter Im Vergleich zu anderen LLMs wie BLOOM, GPT-3 und ChatGLM-130B kann die Leistung schlechter sein, wenn der Kontext zu lang ist. Infolgedessen kann ChatGLM-6B häufiger ungenaue Informationen liefern als Modelle mit einer größeren Anzahl von Parametern.
Kleine Sprachmodelle haben begrenzte Speicherkapazität. Daher kann sich die Leistung des Modells in Multi-Turn-Chats leicht verschlechtern.
Voreingenommenheit, Fehlinformationen und Toxizität sind Einschränkungen aller LLMs, und ChatGLM ist auch dafür anfällig.

Führen Sie als nächsten Schritt ChatGLM-6B lokal aus oder testen Sie die Demo auf HuggingFace Spaces. Wenn Sie tiefer in die Arbeitsweise von LLMs eintauchen möchten, finden Sie hier eine Liste mit kostenlose Kurse zu großen Sprachmodellen.

[1] Z Du, Y Qian et al., GLM: Allgemeines Sprachmodell-Vortraining mit autoregressivem Lückenfüller, ACL 2022

[2] A Zheng, X Liu et al., GLM-130B – Ein offenes zweisprachiges vortrainiertes Modell, ICML 2023

[3] D. Hendryks, K. Gimpel, Gaußsche Fehlerlineareinheiten (GELUS), arXiv, 2016

[4] ChatGLM-6B: Demo auf HuggingFace Spaces

[5] GitHub-Repository

Bala Priya C ist ein technischer Redakteur, der gerne lange Inhalte erstellt. Ihre Interessensgebiete umfassen Mathematik, Programmierung und Data Science. Sie teilt ihre Erkenntnisse mit der Entwickler-Community, indem sie Tutorials, Anleitungen und mehr verfasst.