Deve leggere i documenti sulla PNL degli ultimi 12 mesi

Deve leggere i documenti sulla PNL degli ultimi 12 mesi

Nodo di origine: 1988890

Deve leggere i documenti sulla PNL degli ultimi 12 mesi
Foto di Anil Sharma on Pexels

 

Poiché rilascio innovativo of BERTA nell'ottobre 2018, l'apprendimento automatico ha raggiunto traguardi sempre maggiori grazie all'ottimizzazione intelligente e al calcolo aumentato. BERT, che sta per Bidirectional Encoder Representations from Transformers, ha introdotto un nuovo paradigma nell'architettura delle reti neurali. IL trasformatore è servito come un significativo sblocco nelle capacità di apprendimento automatico.

Ulteriori progressi nel campo dell'elaborazione del linguaggio naturale (NLP) hanno migliorato la traduzione in lingua straniera, migliorato le applicazioni senza codice, aumentato la fluidità dei chatbot e stabilito molto rapidamente nuovi standard per una serie di benchmark all'avanguardia.

Accanto a questi notevoli risultati, lo sviluppo di modelli linguistici di grandi dimensioni (LLM) non è stato privo di controversie. Nel 2021”Pappagalli stocastici” paper, un team di ricercatori tra cui l'ingegnere di apprendimento automatico ed esperto di etica Timnit Gebru ha criticato questi modelli per:

  • Riscuotere una condanna costo ambientale
  • Escluse le voci emarginate attraverso una cura poco elegante del set di dati di addestramento
  • Plagio contenuti Internet e rubare da scrittori umani

Gebru è stata sommariamente licenziata dalla sua posizione nell'Ethical Artificial Intelligence Team di Google.

In questo articolo

Esploriamo quattro articoli sulla PNL pubblicati lo scorso anno che rappresentano gli ultimi progressi. Comprendere questi sviluppi migliorerà le tue capacità di Data Scientist e ti metterà in prima linea in questo dinamico spazio di ricerca.

Questo documento esamina la dimensione del modello ideale e il numero di token per un modello di linguaggio che utilizza l'architettura del trasformatore. Ha lo scopo di rispondere alla domanda su cosa costituisca il numero ideale di parametri e la dimensione del set di dati per un modello addestrato con un budget di calcolo predeterminato.

I ricercatori hanno scoperto che in casi precedenti, gli LLM sembrano essere stati gravemente poco allenati. Gli autori criticano questi team per aver enfatizzato eccessivamente il ridimensionamento delle risorse di calcolo sottovalutando l'importanza del volume dei dati di addestramento.

Gli autori hanno concluso che per l'addestramento ottimale per il calcolo, la dimensione del modello e il numero di token di addestramento dovrebbero essere ridimensionati in modo uniforme. In altre parole,

per ogni raddoppio della dimensione del modello, anche il numero di token di addestramento dovrebbe essere raddoppiato.

La ricerca ha dimostrato che un modello relativamente piccolo (parametri 70B) addestrato su 4 volte più dati di addestramento potrebbe costantemente battere modelli più grandi (parametri fino a 530B) in test di benchmark all'avanguardia come Multi-task Language Understanding (MMLU).

I dati di addestramento migliorati consentono al modello più piccolo di utilizzare risorse di calcolo significativamente inferiori per l'inferenza e la messa a punto. Ciò fa ben sperare per l'utilizzo a valle.

TL; DR - questo documento mostra che la precedente comprensione delle leggi di ridimensionamento non era corretta. Infatti, se addestrate con un numero di token adeguatamente esteso, le reti più piccole possono essere significativamente migliori di quelle più grandi.

Il miglioramento del calcolo fornito agli LLM non migliora automaticamente la loro capacità di interpretare l'intento dell'utente. Come preoccupante conseguenza di questo fatto, gli LLM possono fornire risultati non veritieri o dannosi.

Questo documento evidenzia un nuovo metodo per mettere a punto i modelli linguistici utilizzando il feedback umano per allineare meglio l'output con l'intenzione dell'utente in una varietà di attività.

I ricercatori hanno raccolto un set di dati partendo da una raccolta di prompt dell'API OpenAI. Quindi utilizzano i dati per mettere a punto GPT-3 tramite l'apprendimento supervisionato. Quindi, utilizzando l'apprendimento per rinforzo basato sull'input dell'utente, hanno generato un nuovo output del modello di classificazione del set di dati. I ricercatori hanno quindi utilizzato questi dati per perfezionare ulteriormente il modello supervisionato, ottenendo un modello che hanno chiamato InstructGPT.

Rispetto all'originale GPT-3, InstructGPT ha 100 volte meno parametri, eppure è in grado di superare GPT-3 nelle valutazioni umane.

Sui dati di test, è più probabile che il modello InstructGPT risponda in modo onesto e meno probabile che crei contenuti dannosi. Sebbene InstructGPT commetta ancora occasionalmente errori di base, questi risultati dimostrano che la messa a punto con un human-in-the-loop funge da percorso praticabile per abbinare i modelli linguistici con l'intento umano.

TL; DR - questo documento mostra che l'apprendimento per rinforzo con feedback umano è un modo estremamente utile e con poche risorse per rendere più utili i modelli esistenti.

Questo documento esplora i miglioramenti che hanno portato a un modello in grado di riprodurre Atari, sottotitolare immagini, generare testo, impilare blocchi fisici utilizzando un braccio robotico e molto altro.

Il modello, Gato, è composto da una singola rete neurale con pesi invariati tra compiti assortiti.

Gato è il risultato di una clonazione del comportamento ingrandita, una forma di sfida per la modellazione di sequenze. La sfida di codificare molte modalità in un singolo spazio vettoriale di token ha costituito l'ostacolo più significativo che i ricercatori hanno dovuto affrontare nei loro sforzi. Lo studio fa una serie di progressi nella tokenizzazione di set di dati di visione e linguaggio standard. Inoltre, i ricercatori hanno cercato nuove soluzioni al tipico problema del modello di sequenza di determinare la lunghezza della finestra di contesto.

TL; DR - questo documento mostra che i modelli multimodali possono benissimo e sono probabilmente il futuro del paradigma di modellazione. In contrasto con i precedenti modelli all'avanguardia che erano in grado di funzionare solo in un'area ristretta, Gato esegue una politica generalista capace di una varietà di compiti e modalità multiple.

Gli LLM sono straordinari studenti con pochi colpi che utilizzano esempi ristretti e specifici per attività. Questo documento di ricerca dimostra che gli LLM sono anche ragionatori competenti a colpo zero, in particolare quando viene richiesto con la frase "pensiamo passo dopo passo".

Sì, avete letto bene.

Istruire un LLM a "pensare passo dopo passo" in realtà migliora i risultati abbastanza da giustificare un documento.

Il modello creato dagli autori Kojima et al. ha superato i benchmark esistenti sui compiti di ragionamento, come l'aritmetica (ad es. MultiArith, GSM8K, AQUA-RAT, SVAMP), il ragionamento simbolico (ad es. Ultima lettera, Coin Flip) e il ragionamento logico (ad es. Comprensione della data, Tracciamento di oggetti mescolati).

L'adattabilità di questo singolo suggerimento, "pensa passo dopo passo", su un'ampia gamma di compiti di ragionamento suggerisce che le abilità a tiro zero erano in precedenza significativamente sottoutilizzate. Le capacità multi-task notevolmente elevate possono essere recuperate semplicemente impiegando un inquadramento linguistico del problema che richiede un carico cognitivo più elevato.

La mia mente è sconvolta.

TL; DR — questo documento mostra che la qualità della risposta di un LLM dipende in gran parte dalla formulazione del prompt

Sommario

L'apprendimento automatico è progredito in modo significativo negli ultimi quattro anni. Solo il tempo dirà se questo ritmo di sviluppo può essere sostenuto.

Questi documenti discutono gli ultimi miglioramenti della PNL, rivelando un notevole margine di miglioramento continuo nei processi di formazione per coinvolgere set di dati più grandi e apprendimento per rinforzo umano.

Ricerche recenti esplorano anche la creazione di paradigmi multimodali e migliorate capacità di ragionamento zero-shot tramite semplici modifiche ai prompt di input del modello.

 
 
Bills Nicole Janeway è Data Scientist con esperienza in consulenza commerciale e federale. Aiuta le organizzazioni a sfruttare la loro risorsa principale: una strategia dati semplice e solida.

 
Originale. Ripubblicato con il permesso.
 

Timestamp:

Di più da KDnuggets