ChatGLM-6B: Hafif, Açık Kaynaklı Bir ChatGPT Alternatifi

Kaynak Düğüm: 2074009

ChatGLM-6B: Hafif, Açık Kaynaklı Bir ChatGPT Alternatifi
Yazara göre resim
 

Son zamanlarda hepimiz LLM alanındaki en son sürümleri yakalamakta çok zorlanıyoruz. Son birkaç hafta içinde, birkaç açık kaynaklı ChatGPT alternatifi popüler hale geldi. 

Ve bu yazıda hakkında öğreneceğiz SohbetGLM serisi ve SohbetGLM-6B, açık kaynaklı ve hafif bir ChatGPT alternatifi. 

Haydi gidelim!

Çin'deki Tsinghua Üniversitesi'ndeki araştırmacılar, GPT-3 ve BLOOM gibi diğer modellerle karşılaştırılabilir performansa sahip ChatGLM model serisini geliştirmek için çalıştılar.

ChatGLM, hem Çince hem de İngilizce olarak eğitilmiş iki dilli bir geniş dil modelidir. Şu anda, aşağıdaki modeller mevcuttur:

  • ChatGLM-130B: açık kaynaklı LLM
  • ChatGLM-100B: açık kaynaklı değildir, ancak yalnızca davetli erişimiyle kullanılabilir
  • ChatGLM-6B: hafif bir açık kaynak alternatifi

Bu modeller, Generative Pretrained Transformer (GPT) grubu büyük dil modellerine benzer görünse de, Genel Dil Modeli (GLM) ön eğitim çerçevesi onları farklı kılan şeydir. Bir sonraki bölümde bununla ilgili daha fazla şey öğreneceğiz.

Makine öğreniminde, GLM'leri şu şekilde bilirsiniz: genelleştirilmiş doğrusal modeller, ancak ChatGLM'deki GLM şu anlama gelir: Genel Dil Modeli

GLM Ön Eğitim Çerçevesi

LLM ön eğitimi kapsamlı bir şekilde incelenmiştir ve halen aktif bir araştırma alanıdır. GLM ön eğitimi ile GPT tarzı modeller arasındaki temel farkları anlamaya çalışalım.

GPT-3 model ailesi, yalnızca kod çözücüye yönelik otomatik regresif dil modellemesi kullanır. GLM'de ise hedefin optimizasyonu şu şekilde formüle edilir: otomatik gerileyen boş doldurma sorunu.

 

ChatGLM-6B: Hafif, Açık Kaynaklı Bir ChatGPT Alternatifi
GLM | Resim Kaynak
 

Basit bir ifadeyle, otomatik gerileyen boş doldurma sürekli bir metin aralığının boşaltılmasını ve ardından bu boşluk bırakılan metnin sırayla yeniden oluşturulmasını içerir. Daha kısa maskelere ek olarak, uzun metin boşluklarını cümlelerin sonundan rastgele kaldıran daha uzun bir maske vardır. Bu, modelin doğal dil anlayışında olduğu kadar üretim görevlerinde de oldukça iyi performans göstermesi için yapılır.

Diğer bir fark, kullanılan dikkat türündedir. Büyük dil modellerinin GPT grubu tek yönlü dikkati kullanırken, LLM'lerin GLM grubu çift ​​yönlü dikkat. Maskelenmemiş bağlamlar üzerinde çift yönlü dikkat kullanmak, bağımlılıkları daha iyi yakalayabilir ve doğal dil anlama görevlerinde performansı artırabilir. 

GELU Aktivasyonu

GLM'de ReLU aktivasyonu yerine GELU (Gaussian Error Linear Units) aktivasyonu kullanılmaktadır [1].

 

ChatGLM-6B: Hafif, Açık Kaynaklı Bir ChatGPT Alternatifi
GELU, ReLU ve ELU Aktivasyonları | Resim Kaynak
 

GELU aktivasyonu ve tüm girişler için sıfır olmayan değerlere sahiptir ve aşağıdaki biçime sahiptir [3]:

 

ChatGLM-6B: Hafif, Açık Kaynaklı Bir ChatGPT Alternatifi
 

GELU aktivasyonunun, hesaplama açısından ReLU'dan daha yoğun olmasına rağmen, ReLU aktivasyonlarına kıyasla performansı iyileştirdiği bulundu.

LLM'lerin GLM serisinde, açık kaynak kodlu ve GPT-130'ün Da-Vinci modeli kadar iyi performans gösteren ChatGLM-3B. Bahsedildiği gibi, bu makaleyi yazarken, yalnızca davetle erişimle sınırlandırılmış bir ChatGLM-100B sürümü var.

SohbetGLM-6B

Son kullanıcılar için daha erişilebilir hale getirmek amacıyla ChatGLM-6B hakkında aşağıdaki ayrıntılar:

  • Yaklaşık 6.2 milyar parametreye sahiptir.
  • Model, İngilizce ve Çince'den eşit miktarda olmak üzere 1 trilyon jeton üzerinde önceden eğitilmiştir.
  • Ardından, denetimli ince ayar ve insan geri bildirimi ile pekiştirmeli öğrenme gibi teknikler kullanılır.

ChatGLM'nin avantajlarını ve sınırlamalarını gözden geçirerek tartışmamızı tamamlayalım:

Avantajlar

ChatGLM-6B, iki dilli bir modelden yerel olarak çalıştırabileceğiniz açık kaynaklı bir modele kadar aşağıdaki avantajlara sahiptir:

  • Ana akım büyük dil modellerinin çoğu, büyük İngilizce metin külliyatı üzerinde eğitilir ve diğer diller için büyük dil modelleri o kadar yaygın değildir. ChatGLM LLM serisi iki dillidir ve Çince için harika bir seçimdir. Model hem İngilizce hem de Çince'de iyi bir performansa sahiptir.
  • ChatGLM-6B, kullanıcı cihazları için optimize edilmiştir. Son kullanıcıların cihazlarında genellikle sınırlı bilgi işlem kaynakları vardır, bu nedenle, yüksek performanslı GPU'lara erişim olmadan LLM'leri yerel olarak çalıştırmak neredeyse imkansız hale gelir. İle INT4 niceleme, ChatGLM-6B, 6 GB gibi düşük bir bellek gereksinimiyle çalışabilir. 
  • Özetleme ve tek ve çok sorgulu sohbetler dahil olmak üzere çeşitli görevlerde iyi performans gösterir.
  • Diğer ana akım LLM'lere kıyasla önemli ölçüde daha az sayıda parametreye rağmen ChatGLM-6B, 2048'e kadar bağlam uzunluğunu destekler.

Sınırlamalar

Ardından, ChatGLM-6B'nin birkaç sınırlamasını listeleyelim:

  • ChatGLM iki dilli bir model olsa da, İngilizce performansı muhtemelen yetersizdir. Bu, eğitimde kullanılan talimatların çoğunlukla Çince olmasına bağlanabilir.
  • Çünkü ChatGLM-6B önemli ölçüde daha az parametre BLOOM, GPT-3 ve ChatGLM-130B gibi diğer LLM'lerle karşılaştırıldığında, bağlam çok uzun olduğunda performans daha kötü olabilir. Sonuç olarak, ChatGLM-6B, daha fazla sayıda parametreye sahip modellere göre daha sık yanlış bilgi verebilir.
  • Küçük dil modelleri var sınırlı bellek kapasitesi. Bu nedenle çok turlu sohbetlerde modelin performansı biraz düşebilir.
  • Yanlılık, yanlış bilgi ve zehirlilik, tüm LLM'lerin sınırlamalarıdır ve ChatGLM de bunlara karşı hassastır.

Bir sonraki adım olarak ChatGLM-6B'yi yerel olarak çalıştırın veya HuggingFace alanlarında demoyu deneyin. LLM'lerin işleyişini daha derinlemesine araştırmak isterseniz, işte bir liste büyük dil modellerinde ücretsiz kurslar.

[1] Z Du, Y Qian ve diğerleri, GLM: Otoregresif Boş Doldurma ile Genel Dil Modeli Ön EğitimiACL 2022

[2] A Zheng, X Liu ve diğerleri, GLM-130B – Açık İki Dilli Önceden Eğitilmiş Model, ICML 2023 

[3] D Hendryks, K Gimpel, Gauss Hatası Lineer Birimler (GELU'lar), arXiv, 2016

[4] ChatGLM-6B: HuggingFace Alanlarında Demo

[5] GitHub Deposu
 
 
Bala Priya C uzun biçimli içerik oluşturmaktan hoşlanan teknik bir yazardır. İlgi alanları matematik, programlama ve veri bilimidir. Öğreticiler, nasıl yapılır kılavuzları ve daha fazlasını yazarak öğrendiklerini geliştirici topluluğuyla paylaşıyor.

Zaman Damgası:

Den fazla KDNuggets