ChatGLM-6B: un'alternativa ChatGPT leggera e open source

Nodo di origine: 2074009

ChatGLM-6B: un'alternativa ChatGPT leggera e open source
Immagine dell'autore
 

Di recente abbiamo tutti avuto difficoltà a recuperare il ritardo sulle ultime versioni nello spazio LLM. Nelle ultime settimane sono diventate popolari diverse alternative ChatGPT open source. 

E in questo articolo impareremo a conoscere il ChatGLM serie e ChatGLM-6B, un'alternativa ChatGPT leggera e open source. 

Muoviamoci!

I ricercatori della Tsinghua University in Cina hanno lavorato allo sviluppo della serie di modelli ChatGLM con prestazioni paragonabili ad altri modelli come GPT-3 e BLOOM.

ChatGLM è un modello linguistico bilingue di grandi dimensioni addestrato sia in cinese che in inglese. Attualmente sono disponibili i seguenti modelli:

  • ChatGLM-130B: un LLM open source
  • ChatGLM-100B: non open source, ma disponibile tramite accesso solo su invito
  • ChatGLM-6B: un'alternativa open source leggera

Sebbene questi modelli possano sembrare simili al gruppo GPT (Generative Pretrained Transformer) di modelli di linguaggio di grandi dimensioni, il Quadro di pre-formazione GLM (General Language Model). è ciò che li rende diversi. Impareremo di più su questo nella prossima sezione.

Nell'apprendimento automatico, conosceresti i GLM come modelli lineari generalizzati, ma il GLM in ChatGLM sta per Modello linguistico generale

Quadro di preformazione GLM

La pre-formazione LLM è stata ampiamente studiata ed è ancora un'area di ricerca attiva. Proviamo a capire le principali differenze tra il pretraining GLM e i modelli in stile GPT.

La famiglia di modelli GPT-3 utilizza la modellazione del linguaggio regressiva automatica solo per decodificatore. In GLM, invece, l'ottimizzazione dell'obiettivo è formulata come un problema di riempimento del vuoto con regressione automatica.

 

ChatGLM-6B: un'alternativa ChatGPT leggera e open source
GLM | Image Source
 

In parole povere, riempimento vuoto auto regressivo comporta l'oscuramento di un intervallo continuo di testo e quindi la ricostruzione sequenziale del testo durante l'oscuramento. Oltre alle maschere più corte, esiste una maschera più lunga che rimuove in modo casuale lunghi spazi di testo dalla fine delle frasi. Questo viene fatto in modo che il modello funzioni ragionevolmente bene nella comprensione del linguaggio naturale e nelle attività di generazione.

Un'altra differenza è nel tipo di attenzione utilizzata. Il gruppo GPT di modelli linguistici di grandi dimensioni utilizza l'attenzione unidirezionale, mentre il gruppo GLM di LLM utilizza attenzione bidirezionale. L'uso dell'attenzione bidirezionale su contesti non mascherati può catturare meglio le dipendenze e può migliorare le prestazioni nelle attività di comprensione del linguaggio naturale. 

GELU Attivazione

In GLM, l'attivazione GELU (Gaussian Error Linear Units) viene utilizzata al posto dell'attivazione ReLU [1].

 

ChatGLM-6B: un'alternativa ChatGPT leggera e open source
GELU, ReLU e Attivazioni ELU | Image Source
 

L'attivazione GELU e ha valori diversi da zero per tutti gli ingressi e ha la seguente forma [3]:

 

ChatGLM-6B: un'alternativa ChatGPT leggera e open source
 

Si è scoperto che l'attivazione GELU migliora le prestazioni rispetto alle attivazioni ReLU, sebbene computazionalmente più intensiva di ReLU.

Nella serie GLM di LLM, ChatGLM-130B che è open-source e si comporta bene come il modello Da-Vinci di GPT-3. Come accennato, al momento della stesura di questo articolo, esiste una versione ChatGLM-100B, che è limitata all'accesso solo su invito.

ChatGLM-6B

I seguenti dettagli su ChatGLM-6B per renderlo più accessibile agli utenti finali:

  • Ha circa 6.2 miliardi di parametri.
  • Il modello è pre-addestrato su 1 trilione di token, sia in inglese che in cinese.
  • Successivamente, vengono utilizzate tecniche come la messa a punto supervisionata e l'apprendimento per rinforzo con feedback umano.

Concludiamo la nostra discussione esaminando i vantaggi e i limiti di ChatGLM:

Vantaggi

Dall'essere un modello bilingue a un modello open source che puoi eseguire localmente, ChatGLM-6B presenta i seguenti vantaggi:

  • La maggior parte dei modelli di linguaggio di grandi dimensioni tradizionali viene addestrata su corpora di testo inglese di grandi dimensioni e i modelli di linguaggio di grandi dimensioni per altre lingue non sono così comuni. La serie di LLM ChatGLM è bilingue e rappresenta un'ottima scelta per il cinese. Il modello ha buone prestazioni sia in inglese che in cinese.
  • ChatGLM-6B è ottimizzato per i dispositivi degli utenti. Gli utenti finali hanno spesso risorse di elaborazione limitate sui propri dispositivi, quindi diventa quasi impossibile eseguire LLM localmente, senza l'accesso a GPU ad alte prestazioni. Con Quantizzazione INT4, ChatGLM-6B può essere eseguito con un modesto requisito di memoria di soli 6 GB. 
  • Esegue bene su una varietà di attività tra cui riepilogo e chat con query singole e multiple.
  • Nonostante il numero sostanzialmente inferiore di parametri rispetto ad altri LLM tradizionali, ChatGLM-6B supporta la lunghezza del contesto fino a 2048.

Limiti

Successivamente, elenchiamo alcune limitazioni di ChatGLM-6B:

  • Sebbene ChatGLM sia un modello bilingue, le sue prestazioni in inglese sono probabilmente non ottimali. Ciò può essere attribuito al fatto che le istruzioni utilizzate nell'addestramento sono per lo più in cinese.
  • Perché ChatGLM-6B ha sostanzialmente meno parametri rispetto ad altri LLM come BLOOM, GPT-3 e ChatGLM-130B, le prestazioni potrebbero essere peggiori quando il contesto è troppo lungo. Di conseguenza, ChatGLM-6B può fornire informazioni imprecise più spesso rispetto ai modelli con un numero maggiore di parametri.
  • I modelli di lingua piccola hanno capacità di memoria limitata. Pertanto, nelle chat a più turni, le prestazioni del modello potrebbero diminuire leggermente.
  • Pregiudizio, disinformazione e tossicità sono limiti di tutti gli LLM e anche ChatGLM è suscettibile a questi.

Come passaggio successivo, esegui ChatGLM-6B in locale o prova la demo sugli spazi HuggingFace. Se desideri approfondire il funzionamento degli LLM, ecco un elenco di corsi gratuiti sui grandi modelli linguistici.

[1] Z Du, Y Qian et al., GLM: General Language Model Pretraining con Autoregressive Blank Infilling, LCA 2022

[2] A Zheng, X Liu et al., GLM-130B: un modello preaddestrato bilingue aperto, ICML 2023 

[3] D Hendryks, K Gimpel, Unità lineari di errore gaussiano (GELU), ar Xiv, 2016

, ChatGLM-6B: Demo su HuggingFace Spaces

, Archivio GitHub
 
 
Bala Priya C è uno scrittore tecnico a cui piace creare contenuti di lunga durata. Le sue aree di interesse includono matematica, programmazione e scienza dei dati. Condivide il suo apprendimento con la comunità degli sviluppatori creando tutorial, guide pratiche e altro ancora.

Timestamp:

Di più da KDnuggets