Zdjęcie autora
Ostatnio wszyscy mieliśmy bardzo trudny czas, aby nadrobić zaległości w najnowszych wydaniach w przestrzeni LLM. W ciągu ostatnich kilku tygodni kilka alternatyw ChatGPT o otwartym kodzie źródłowym stało się popularnych.
A w tym artykule dowiemy się o CzatGLM seria i CzatGLM-6B, otwarta i lekka alternatywa dla ChatGPT.
Kontynuujmy!
Naukowcy z Uniwersytetu Tsinghua w Chinach pracowali nad rozwojem serii modeli ChatGLM, które mają porównywalną wydajność z innymi modelami, takimi jak GPT-3 i BLOOM.
ChatGLM to dwujęzyczny model dużego języka wyszkolony zarówno w języku chińskim, jak i angielskim. Obecnie dostępne są następujące modele:
- ChatGLM-130B: LLM typu open source
- ChatGLM-100B: nie open-source, ale dostępny tylko za zaproszeniem
- ChatGLM-6B: lekka alternatywa typu open source
Chociaż modele te mogą wydawać się podobne do grupy dużych modeli językowych Generative Pretrained Transformer (GPT), Ramy szkolenia wstępnego General Language Model (GLM). jest tym, co je różni. Dowiemy się więcej na ten temat w następnej sekcji.
W uczeniu maszynowym znasz GLM jako uogólnione modele liniowe, ale GLM w ChatGLM oznacza Ogólny model języka.
Ramy szkolenia wstępnego GLM
Szkolenie wstępne LLM zostało dokładnie zbadane i nadal jest obszarem aktywnych badań. Spróbujmy zrozumieć kluczowe różnice między modelami szkolenia wstępnego GLM a modelami w stylu GPT.
Rodzina modeli GPT-3 wykorzystuje autoregresywne modelowanie językowe tylko dla dekodera. Z drugiej strony w GLM optymalizacja celu jest sformułowana jako: auto regresywny problem wypełniania pustych pól.
GLM | Image Source
W prostych słowach, automatyczne regresywne wypełnianie pustych miejsc polega na wymazywaniu ciągłej części tekstu, a następnie sekwencyjnej rekonstrukcji tekstu z tym wygaszeniem. Oprócz krótszych masek istnieje dłuższa maska, która losowo usuwa długie spacje tekstu z końca zdań. Odbywa się to tak, aby model działał dość dobrze w rozumieniu języka naturalnego, a także w zadaniach generowania.
Kolejną różnicą jest rodzaj używanej uwagi. Grupa dużych modeli językowych GPT wykorzystuje uwagę jednokierunkową, podczas gdy grupa LLM GLM używa dwukierunkowa uwaga. Używanie dwukierunkowej uwagi w niemaskowanych kontekstach może lepiej uchwycić zależności i poprawić wydajność zadań rozumienia języka naturalnego.
Aktywacja GELU
W GLM aktywacja GELU (Gaussian Error Linear Units) jest stosowana zamiast aktywacji ReLU [1].
Aktywacje GELU, ReLU i ELU | Image Source
Aktywacja GELU i ma niezerowe wartości dla wszystkich wejść i ma następującą postać [3]:
Stwierdzono, że aktywacja GELU poprawia wydajność w porównaniu z aktywacjami ReLU, chociaż jest bardziej intensywna obliczeniowo niż ReLU.
W serii LLM GLM, ChatGLM-130B, który jest open-source i działa równie dobrze jak model Da-Vinci GPT-3. Jak wspomniano, w momencie pisania tego artykułu istnieje wersja ChatGLM-100B, która jest ograniczona do dostępu tylko dla zaproszonych.
CzatGLM-6B
Poniższe szczegóły dotyczące ChatGLM-6B, aby uczynić go bardziej dostępnym dla użytkowników końcowych:
- Ma około 6.2 miliarda parametrów.
- Model jest wstępnie przeszkolony na 1 bilionie tokenów — w równym stopniu z języka angielskiego i chińskiego.
- Następnie stosowane są techniki, takie jak nadzorowane dostrajanie i uczenie się ze wzmocnieniem z wykorzystaniem informacji zwrotnych od ludzi.
Podsumujmy naszą dyskusję, omawiając zalety i ograniczenia ChatGLM:
Zalety
Od modelu dwujęzycznego do modelu open source, który można uruchomić lokalnie, ChatGLM-6B ma następujące zalety:
- Większość dużych modeli językowych głównego nurtu jest szkolona na dużych korpusach tekstu w języku angielskim, a duże modele językowe dla innych języków nie są tak powszechne. Seria LLM ChatGLM jest dwujęzyczna i stanowi doskonały wybór dla Chińczyków. Model ma dobrą wydajność zarówno w języku angielskim, jak i chińskim.
- ChatGLM-6B jest zoptymalizowany pod kątem urządzeń użytkowników. Użytkownicy końcowi często mają ograniczone zasoby obliczeniowe na swoich urządzeniach, więc lokalne uruchamianie LLM — bez dostępu do wysokowydajnych procesorów graficznych — staje się prawie niemożliwe. Z Kwantyzacja INT4, ChatGLM-6B może działać przy skromnym zapotrzebowaniu na pamięć wynoszącym zaledwie 6 GB.
- Dobrze radzi sobie z różnymi zadaniami, w tym podsumowaniami i czatami z pojedynczymi i wieloma zapytaniami.
- Pomimo znacznie mniejszej liczby parametrów w porównaniu z innymi głównymi LLM, ChatGLM-6B obsługuje długość kontekstu do 2048.
Ograniczenia
Następnie wymieńmy kilka ograniczeń ChatGLM-6B:
- Chociaż ChatGLM jest modelem dwujęzycznym, jego działanie w języku angielskim jest prawdopodobnie nieoptymalne. Można to przypisać temu, że instrukcje używane podczas szkolenia były w większości w języku chińskim.
- Ponieważ ChatGLM-6B ma znacznie mniej parametrów w porównaniu z innymi LLM, takimi jak BLOOM, GPT-3 i ChatGLM-130B, wydajność może być gorsza, gdy kontekst jest zbyt długi. W rezultacie ChatGLM-6B może częściej podawać niedokładne informacje niż modele z większą liczbą parametrów.
- Małe modele językowe mają ograniczona pojemność pamięci. Dlatego w czatach wieloturowych wydajność modelu może się nieznacznie pogorszyć.
- Stronniczość, dezinformacja i toksyczność są ograniczeniami wszystkich LLM, a ChatGLM jest również na nie podatny.
W następnym kroku uruchom ChatGLM-6B lokalnie lub wypróbuj wersję demonstracyjną na przestrzeniach HuggingFace. Jeśli chcesz zagłębić się w działanie LLM, oto lista bezpłatne kursy dotyczące dużych modeli językowych.
[1] Z Du, Y Qian i in., GLM: Wstępne szkolenie ogólnego modelu języka z autoregresyjnym wypełnianiem pustych miejsc, ACL 2022
[2] A Zheng, X Liu i in., GLM-130B — Otwarty dwujęzyczny, wstępnie wyszkolony model, ICML 2023
[3] D Hendryks, K Gimpel, Jednostki liniowe błędu Gaussa (GELU), ar Xiv, 2016
[4] ChatGLM-6B: Demo na HuggingFace Spaces
[5] Repozytorium GitHub
Bala Priya C jest pisarzem technicznym, który lubi tworzyć długie treści. Jej obszary zainteresowań to matematyka, programowanie i data science. Dzieli się zdobytą wiedzą ze społecznością programistów, tworząc samouczki, poradniki i nie tylko.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoAiStream. Analiza danych Web3. Wiedza wzmocniona. Dostęp tutaj.
- Wybijanie przyszłości w Adryenn Ashley. Dostęp tutaj.
- Źródło: https://www.kdnuggets.com/2023/04/chatglm6b-lightweight-opensource-chatgpt-alternative.html?utm_source=rss&utm_medium=rss&utm_campaign=chatglm-6b-a-lightweight-open-source-chatgpt-alternative
- :ma
- :Jest
- :nie
- $W GÓRĘ
- 1
- a
- O nas
- dostęp
- dostępny
- Aktywacja
- aktywacje
- aktywny
- dodatek
- Zalety
- AL
- Wszystkie kategorie
- alternatywny
- alternatywy
- an
- i
- SĄ
- POWIERZCHNIA
- obszary
- artykuł
- AS
- At
- Uwaga
- autoring
- samochód
- dostępny
- BE
- stają się
- staje się
- być
- jest
- Ulepsz Swój
- pomiędzy
- Miliard
- Kwitnąć
- obie
- ale
- by
- CAN
- zdobyć
- ChatGPT
- Chiny
- chiński
- wybór
- wspólny
- społeczność
- porównywalny
- w porównaniu
- computing
- zawartość
- kontekst
- konteksty
- ciągły
- kursy
- Tworzenie
- Obecnie
- dane
- nauka danych
- głębiej
- Demo
- detale
- Deweloper
- rozwijanie
- urządzenia
- różnica
- Różnice
- różne
- dyskusja
- zrobić
- E i T
- zakończenia
- Angielski
- błąd
- członków Twojej rodziny
- informacja zwrotna
- kilka
- mniej
- następujący
- W razie zamówieenia projektu
- Nasz formularz
- znaleziono
- od
- Ogólne
- generacja
- generatywny
- otrzymać
- Dać
- będzie
- dobry
- GPU
- wspaniały
- Zarządzanie
- Przewodniki
- ręka
- Ciężko
- Have
- mający
- jej
- tutaj
- wysoka wydajność
- HTML
- HTTPS
- Przytulanie twarzy
- człowiek
- if
- niemożliwy
- podnieść
- in
- niedokładny
- zawierać
- Włącznie z
- Informacja
- zamiast
- instrukcje
- odsetki
- najnowszych
- dotyczy
- IT
- JEGO
- jpg
- Knuggety
- Klawisz
- Wiedzieć
- język
- Języki
- duży
- większe
- Nazwisko
- firmy
- UCZYĆ SIĘ
- nauka
- Długość
- lekki
- lubić
- Prawdopodobnie
- Ograniczenia
- Ograniczony
- Lista
- lokalnie
- długo
- dłużej
- niski
- maszyna
- uczenie maszynowe
- Mainstream
- robić
- WYKONUJE
- maska
- Maski
- matematyka
- Może..
- Pamięć
- wzmiankowany
- Mylna informacja
- model
- modelowanie
- modele
- jeszcze
- Naturalny
- Język naturalny
- Zrozumienie naturalnego języka
- Następny
- numer
- Nvidia
- cel
- of
- często
- on
- koncepcja
- open source
- optymalizacja
- zoptymalizowane
- or
- Inne
- ludzkiej,
- na zewnątrz
- koniec
- parametry
- jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,
- wykonuje
- plato
- Analiza danych Platona
- PlatoDane
- Popularny
- dla
- Programowanie
- uczenie się wzmacniania
- prasowe
- wymaganie
- Badania naukowe
- Zasoby
- ograniczony
- dalsze
- run
- s
- nauka
- Sekcja
- Serie
- kilka
- Akcje
- ona
- podobny
- Prosty
- pojedynczy
- mniejszy
- So
- Typ przestrzeni
- obowiązuje
- rozpiętość
- stojaki
- Ewolucja krok po kroku
- Nadal
- Studiował
- taki
- Wspaniały
- podpory
- wrażliwy
- zadania
- Techniczny
- Techniki
- REGULAMIN
- niż
- że
- Połączenia
- ich
- Im
- następnie
- Tam.
- w związku z tym
- Te
- to
- Przez
- czas
- do
- także
- przeszkolony
- Trening
- Trylion
- Tsinghua
- tutoriale
- rodzaj
- zrozumieć
- zrozumienie
- jednostek
- uniwersytet
- posługiwać się
- używany
- Użytkownik
- Użytkownicy
- za pomocą
- Wartości
- różnorodność
- wersja
- tygodni
- DOBRZE
- Co
- jeśli chodzi o komunikację i motywację
- który
- KIM
- w
- pracował
- pracujący
- gorzej
- owinąć
- pisarz
- pisanie
- X
- ty
- zefirnet