ChatGLM-6B: Lekka, otwarta alternatywa ChatGPT

Węzeł źródłowy: 2074009

ChatGLM-6B: Lekka, otwarta alternatywa ChatGPT
Zdjęcie autora
 

Ostatnio wszyscy mieliśmy bardzo trudny czas, aby nadrobić zaległości w najnowszych wydaniach w przestrzeni LLM. W ciągu ostatnich kilku tygodni kilka alternatyw ChatGPT o otwartym kodzie źródłowym stało się popularnych. 

A w tym artykule dowiemy się o CzatGLM seria i CzatGLM-6B, otwarta i lekka alternatywa dla ChatGPT. 

Kontynuujmy!

Naukowcy z Uniwersytetu Tsinghua w Chinach pracowali nad rozwojem serii modeli ChatGLM, które mają porównywalną wydajność z innymi modelami, takimi jak GPT-3 i BLOOM.

ChatGLM to dwujęzyczny model dużego języka wyszkolony zarówno w języku chińskim, jak i angielskim. Obecnie dostępne są następujące modele:

  • ChatGLM-130B: LLM typu open source
  • ChatGLM-100B: nie open-source, ale dostępny tylko za zaproszeniem
  • ChatGLM-6B: lekka alternatywa typu open source

Chociaż modele te mogą wydawać się podobne do grupy dużych modeli językowych Generative Pretrained Transformer (GPT), Ramy szkolenia wstępnego General Language Model (GLM). jest tym, co je różni. Dowiemy się więcej na ten temat w następnej sekcji.

W uczeniu maszynowym znasz GLM jako uogólnione modele liniowe, ale GLM w ChatGLM oznacza Ogólny model języka

Ramy szkolenia wstępnego GLM

Szkolenie wstępne LLM zostało dokładnie zbadane i nadal jest obszarem aktywnych badań. Spróbujmy zrozumieć kluczowe różnice między modelami szkolenia wstępnego GLM a modelami w stylu GPT.

Rodzina modeli GPT-3 wykorzystuje autoregresywne modelowanie językowe tylko dla dekodera. Z drugiej strony w GLM optymalizacja celu jest sformułowana jako: auto regresywny problem wypełniania pustych pól.

 

ChatGLM-6B: Lekka, otwarta alternatywa ChatGPT
GLM | Image Source
 

W prostych słowach, automatyczne regresywne wypełnianie pustych miejsc polega na wymazywaniu ciągłej części tekstu, a następnie sekwencyjnej rekonstrukcji tekstu z tym wygaszeniem. Oprócz krótszych masek istnieje dłuższa maska, która losowo usuwa długie spacje tekstu z końca zdań. Odbywa się to tak, aby model działał dość dobrze w rozumieniu języka naturalnego, a także w zadaniach generowania.

Kolejną różnicą jest rodzaj używanej uwagi. Grupa dużych modeli językowych GPT wykorzystuje uwagę jednokierunkową, podczas gdy grupa LLM GLM używa dwukierunkowa uwaga. Używanie dwukierunkowej uwagi w niemaskowanych kontekstach może lepiej uchwycić zależności i poprawić wydajność zadań rozumienia języka naturalnego. 

Aktywacja GELU

W GLM aktywacja GELU (Gaussian Error Linear Units) jest stosowana zamiast aktywacji ReLU [1].

 

ChatGLM-6B: Lekka, otwarta alternatywa ChatGPT
Aktywacje GELU, ReLU i ELU | Image Source
 

Aktywacja GELU i ma niezerowe wartości dla wszystkich wejść i ma następującą postać [3]:

 

ChatGLM-6B: Lekka, otwarta alternatywa ChatGPT
 

Stwierdzono, że aktywacja GELU poprawia wydajność w porównaniu z aktywacjami ReLU, chociaż jest bardziej intensywna obliczeniowo niż ReLU.

W serii LLM GLM, ChatGLM-130B, który jest open-source i działa równie dobrze jak model Da-Vinci GPT-3. Jak wspomniano, w momencie pisania tego artykułu istnieje wersja ChatGLM-100B, która jest ograniczona do dostępu tylko dla zaproszonych.

CzatGLM-6B

Poniższe szczegóły dotyczące ChatGLM-6B, aby uczynić go bardziej dostępnym dla użytkowników końcowych:

  • Ma około 6.2 miliarda parametrów.
  • Model jest wstępnie przeszkolony na 1 bilionie tokenów — w równym stopniu z języka angielskiego i chińskiego.
  • Następnie stosowane są techniki, takie jak nadzorowane dostrajanie i uczenie się ze wzmocnieniem z wykorzystaniem informacji zwrotnych od ludzi.

Podsumujmy naszą dyskusję, omawiając zalety i ograniczenia ChatGLM:

Zalety

Od modelu dwujęzycznego do modelu open source, który można uruchomić lokalnie, ChatGLM-6B ma następujące zalety:

  • Większość dużych modeli językowych głównego nurtu jest szkolona na dużych korpusach tekstu w języku angielskim, a duże modele językowe dla innych języków nie są tak powszechne. Seria LLM ChatGLM jest dwujęzyczna i stanowi doskonały wybór dla Chińczyków. Model ma dobrą wydajność zarówno w języku angielskim, jak i chińskim.
  • ChatGLM-6B jest zoptymalizowany pod kątem urządzeń użytkowników. Użytkownicy końcowi często mają ograniczone zasoby obliczeniowe na swoich urządzeniach, więc lokalne uruchamianie LLM — bez dostępu do wysokowydajnych procesorów graficznych — staje się prawie niemożliwe. Z Kwantyzacja INT4, ChatGLM-6B może działać przy skromnym zapotrzebowaniu na pamięć wynoszącym zaledwie 6 GB. 
  • Dobrze radzi sobie z różnymi zadaniami, w tym podsumowaniami i czatami z pojedynczymi i wieloma zapytaniami.
  • Pomimo znacznie mniejszej liczby parametrów w porównaniu z innymi głównymi LLM, ChatGLM-6B obsługuje długość kontekstu do 2048.

Ograniczenia

Następnie wymieńmy kilka ograniczeń ChatGLM-6B:

  • Chociaż ChatGLM jest modelem dwujęzycznym, jego działanie w języku angielskim jest prawdopodobnie nieoptymalne. Można to przypisać temu, że instrukcje używane podczas szkolenia były w większości w języku chińskim.
  • Ponieważ ChatGLM-6B ma znacznie mniej parametrów w porównaniu z innymi LLM, takimi jak BLOOM, GPT-3 i ChatGLM-130B, wydajność może być gorsza, gdy kontekst jest zbyt długi. W rezultacie ChatGLM-6B może częściej podawać niedokładne informacje niż modele z większą liczbą parametrów.
  • Małe modele językowe mają ograniczona pojemność pamięci. Dlatego w czatach wieloturowych wydajność modelu może się nieznacznie pogorszyć.
  • Stronniczość, dezinformacja i toksyczność są ograniczeniami wszystkich LLM, a ChatGLM jest również na nie podatny.

W następnym kroku uruchom ChatGLM-6B lokalnie lub wypróbuj wersję demonstracyjną na przestrzeniach HuggingFace. Jeśli chcesz zagłębić się w działanie LLM, oto lista bezpłatne kursy dotyczące dużych modeli językowych.

[1] Z Du, Y Qian i in., GLM: Wstępne szkolenie ogólnego modelu języka z autoregresyjnym wypełnianiem pustych miejsc, ACL 2022

[2] A Zheng, X Liu i in., GLM-130B — Otwarty dwujęzyczny, wstępnie wyszkolony model, ICML 2023 

[3] D Hendryks, K Gimpel, Jednostki liniowe błędu Gaussa (GELU), ar Xiv, 2016

[4] ChatGLM-6B: Demo na HuggingFace Spaces

[5] Repozytorium GitHub
 
 
Bala Priya C jest pisarzem technicznym, który lubi tworzyć długie treści. Jej obszary zainteresowań to matematyka, programowanie i data science. Dzieli się zdobytą wiedzą ze społecznością programistów, tworząc samouczki, poradniki i nie tylko.

Znak czasu:

Więcej z Knuggety