Piccoli modelli linguistici prosperano con GPT-4 come insegnante | Rivista Quanti

Piccoli modelli linguistici prosperano con GPT-4 come insegnante | Rivista Quanti

Nodo di origine: 2311140

Introduzione

Imparare l’inglese non è un compito facile, come sanno bene innumerevoli studenti. Ma quando lo studente è un computer, un approccio funziona sorprendentemente bene: basta semplicemente alimentare montagne di testo da Internet a un gigantesco modello matematico chiamato rete neurale. Questo è il principio operativo alla base di modelli linguistici generativi come ChatGPT di OpenAI, la cui capacità di conversare in modo coerente (se non sempre veritiero) su una vasta gamma di argomenti ha sorpreso ricercatori e pubblico nell'ultimo anno.

Ma l’approccio ha i suoi svantaggi. Da un lato, la procedura di “addestramento” necessaria per trasformare vasti archivi di testi in modelli linguistici all’avanguardia è costosa e richiede molto tempo. In secondo luogo, anche le persone che addestrano modelli linguistici di grandi dimensioni hanno difficoltà a comprendere il loro funzionamento interno; ciò, a sua volta, rende difficile prevedere i molti modi in cui potrebbero fallire.

Di fronte a queste difficoltà, alcuni ricercatori hanno scelto di formarsi modelli più piccoli su set di dati più piccoli e poi studiarne il comportamento. “È come sequenziare il Drosophila genoma rispetto al sequenziamento del genoma umano”, ha affermato Ellie Pavlick, un ricercatore di modelli linguistici presso la Brown University.

Ora, in a carta recentemente pubblicato sul server di prestampa scientifica arxiv.org, una coppia di ricercatori Microsoft ha introdotto un nuovo metodo per addestrare minuscoli modelli linguistici: allevarli con una dieta rigorosa di storie per bambini.

I ricercatori dell’apprendimento automatico hanno abbracciato questa lezione. GPT-3.5, il grande modello linguistico che alimenta l'interfaccia ChatGPT, ha quasi 200 miliardi di parametri ed è stato addestrato su un set di dati comprendente centinaia di miliardi di parole. (OpenAI non ha rilasciato i dati corrispondenti per il suo successore, GPT-4.) L'addestramento di modelli così grandi richiede in genere almeno 1,000 processori specializzati chiamati GPU che funzionano in parallelo per settimane alla volta. Solo poche aziende riescono a raccogliere le risorse necessarie, per non parlare della formazione e del confronto di modelli diversi.

I due ricercatori hanno dimostrato che i modelli linguistici migliaia di volte più piccoli dei sistemi all'avanguardia di oggi hanno imparato rapidamente a raccontare storie coerenti e grammaticali quando addestrati in questo modo. I loro risultati suggeriscono nuove direzioni di ricerca che potrebbero essere utili per addestrare modelli più ampi e comprenderne il comportamento.

"Ho trovato questo documento molto istruttivo", ha detto Chandra Bhagavatala, ricercatore di modelli linguistici presso l'Allen Institute for Artificial Intelligence di Seattle. "Il concetto in sé è super interessante."

C'era una volta

Le reti neurali al centro dei modelli linguistici sono strutture matematiche vagamente ispirate al cervello umano. Ciascuno contiene molti neuroni artificiali disposti in strati, con connessioni tra i neuroni negli strati adiacenti. Il comportamento della rete neurale è governato dalla forza di queste connessioni, chiamate parametri. In un modello linguistico, i parametri controllano quali parole il modello potrebbe pronunciare successivamente, dato un prompt iniziale e le parole che ha già generato.

Un modello prende vita veramente solo durante l'addestramento, quando confronta ripetutamente il proprio output con il testo nel set di dati di addestramento e regola i suoi parametri per aumentare la somiglianza. Una rete non addestrata con parametri casuali è banalmente facile da assemblare con poche righe di codice, ma produrrà solo parole senza senso. Dopo l'addestramento, spesso può plausibilmente continuare un testo non familiare. I modelli più grandi spesso vengono sottoposti a un’ulteriore messa a punto che insegna loro a rispondere a domande e seguire le istruzioni, ma la maggior parte della formazione consiste nel padroneggiare la previsione delle parole.

Il successo nella previsione delle parole richiede un modello linguistico per padroneggiare molte abilità diverse. Ad esempio, le regole della grammatica inglese suggeriscono che la parola successiva alla parola “going” probabilmente sarà “to”, indipendentemente dall’oggetto del testo. Inoltre, un sistema necessita di conoscenze fattuali per completare “la capitale della Francia è” e completare un passaggio contenente la parola “non” richiede una conoscenza rudimentale della logica.

"Il linguaggio grezzo è molto complicato", ha detto Timothy Nguyen, un ricercatore di machine learning presso DeepMind. "Affinché potessero emergere capacità linguistiche interessanti, le persone hanno fatto ricorso al principio 'più dati è meglio'."

Introduzione

Ronen Eldan, un matematico entrato a far parte di Microsoft Research nel 2022 per studiare modelli linguistici generativi, voleva sviluppare un modo più economico e veloce per esplorare le proprie capacità. Il modo naturale per farlo era utilizzare un piccolo set di dati, il che a sua volta significava che avrebbe dovuto addestrare i modelli a specializzarsi in un compito specifico, in modo che non si diffondessero troppo. Inizialmente, voleva addestrare i modelli a risolvere una certa classe di problemi di matematica, ma un pomeriggio, dopo aver trascorso del tempo con la figlia di 5 anni, si rese conto che le storie per bambini erano perfette.

"Mi è venuto letteralmente in mente dopo averle letto una storia", ha detto.

Per generare storie per bambini coerenti, un modello linguistico dovrebbe apprendere fatti sul mondo, tenere traccia di personaggi ed eventi e osservare le regole grammaticali: versioni più semplici delle sfide che devono affrontare i modelli di grandi dimensioni. Ma i modelli di grandi dimensioni addestrati su enormi set di dati apprendono innumerevoli dettagli irrilevanti insieme alle regole che contano davvero. Eldan sperava che la brevità e il vocabolario limitato delle storie dei bambini potessero rendere l'apprendimento più gestibile per i piccoli modelli, rendendoli più facili da addestrare e più facili da comprendere.

Nel mondo dei modelli linguistici, tuttavia, “piccolo” è relativo: un set di dati mille volte più piccolo di quello utilizzato per addestrare GPT-3.5 dovrebbe comunque contenere milioni di storie. "Non so quanti soldi vuoi spendere, ma immagino che non assumerai professionisti per scrivere [un paio di milioni] di racconti", ha detto Nguyen.

Ci sarebbe voluto un autore straordinariamente prolifico per soddisfare lettori così voraci, ma Eldan aveva in mente alcuni candidati. Chi meglio scrivere per un pubblico di modelli linguistici piccoli se non per quelli grandi?

Storie di giocattoli

Eldan decise immediatamente di creare una libreria di storie sintetiche per bambini generate da grandi modelli linguistici. Ma presto scoprì che anche i modelli più moderni non sono per natura molto creativi. Se dici a GPT-4 di scrivere storie adatte ai bambini di 4 anni, ha detto Eldan, "circa un quinto delle storie riguarderà bambini che vanno al parco spaventati dagli scivoli". Apparentemente questa è la storia per eccellenza della scuola materna, per quanto riguarda Internet.

La soluzione era aggiungere un po' di casualità al prompt. Innanzitutto, Eldan ha utilizzato GPT-4 per generare un elenco di 1,500 sostantivi, verbi e aggettivi che un bambino di 4 anni potrebbe conoscere, abbastanza breve da poterlo controllare facilmente da solo. Quindi ha scritto un semplice programma per computer che richiedeva ripetutamente a GPT-3.5 o GPT-4 di generare una storia adatta all'età che includeva tre parole casuali dall'elenco, insieme a un ulteriore dettaglio scelto a caso come un lieto fine o un colpo di scena. Le storie risultanti, fortunatamente, erano meno incentrate su diapositive spaventose.

Eldan ora disponeva di una procedura per produrre dati di addestramento su richiesta, ma non aveva idea di quante storie gli sarebbero servite per addestrare un modello funzionale, o quanto grande avrebbe dovuto essere quel modello. Fu allora che fece squadra con Yuanzhi Li, ricercatore di machine learning presso Microsoft e la Carnegie Mellon University, per provare diverse possibilità, sfruttando il fatto che piccoli modelli potevano essere addestrati molto rapidamente. Il primo passo è stato decidere come valutare i propri modelli.

Introduzione

Nella ricerca sui modelli linguistici, come in ogni classe, la valutazione è un argomento difficile. C'è nessuna rubrica perfetta che incapsula tutto ciò che i ricercatori vogliono sapere, e i modelli che eccellono in alcuni compiti spesso falliscono in modo spettacolare in altri. Nel corso del tempo, i ricercatori hanno sviluppato vari parametri di riferimento standard basati su domande con risposte inequivocabili, che rappresentano un buon approccio se si sta cercando di valutare competenze specifiche. Ma Eldan e Li erano interessati a qualcosa di più nebuloso: quanto devono essere grandi i modelli linguistici se si semplifica il linguaggio il più possibile?

"Per verificare direttamente se il modello parla inglese, penso che l'unica cosa che puoi fare è lasciare che il modello generi l'inglese in modo illimitato", ha detto Eldan.

Esistono solo due modi per misurare le prestazioni di un modello su tali domande qualitative: affidarsi a valutatori umani o ricorrere ancora una volta a GPT-4. I due ricercatori hanno scelto la seconda strada, lasciando di fatto che i grandi modelli scrivessero i libri di testo e valutassero i saggi.

Bhagavatula ha detto che gli sarebbe piaciuto vedere come le valutazioni di GPT-4 fossero paragonate a quelle dei revisori umani: GPT-4 potrebbe essere distorto verso i modelli che ha contribuito ad addestrare, e l'opacità dei modelli linguistici rende difficile quantificare tali pregiudizi. Ma non pensa che tali sottigliezze influenzerebbero i confronti tra diversi modelli addestrati su serie simili di storie sintetiche – l’obiettivo principale del lavoro di Eldan e Li.

Eldan e Li hanno utilizzato una procedura in due fasi per valutare ciascuno dei loro piccoli modelli dopo l'addestramento. Innanzitutto, hanno suggerito al modello piccolo di inserire la prima metà di una storia distinta da quelle presenti nel set di dati di addestramento in modo da generare un nuovo finale, ripetendo questo processo con 50 diverse storie di prova. In secondo luogo, hanno incaricato GPT-4 di valutare ciascuno dei finali del modello piccolo in base a tre categorie: creatività, grammatica e coerenza con l'inizio della storia. Hanno poi calcolato la media dei punteggi in ciascuna categoria, ottenendo tre voti finali per modello.

Con questa procedura in mano, Eldan e Li erano finalmente pronti a confrontare diversi modelli e scoprire quali erano gli studenti migliori.

Risultati del test

Dopo alcune esplorazioni preliminari, i due ricercatori hanno optato per un set di dati di addestramento contenente circa 2 milioni di storie. Hanno quindi utilizzato questo set di dati, denominato TinyStories, per addestrare modelli di dimensioni variabili da 1 milione a 30 milioni di parametri, con un numero variabile di livelli. È stato un lavoro veloce: utilizzando solo quattro GPU, il più grande di questi modelli non ha impiegato più di un giorno per addestrarsi.

I modelli più piccoli hanno faticato. Ad esempio, una storia di prova inizia con un uomo dall'aspetto meschino che dice a una ragazza che le prenderà il gatto. Un modello da un milione di parametri è rimasto bloccato in un loop in cui la ragazza diceva ripetutamente all'uomo che voleva diventare sua amica. Ma quelli più grandi – ancora migliaia di volte più piccoli di GPT-3.5 – hanno funzionato sorprendentemente bene. La versione da 28 milioni di parametri raccontava una storia coerente, anche se il finale era cupo: “Katie iniziò a piangere, ma all'uomo non importava. Ha portato via il gatto e Katie non ha mai più rivisto il suo gatto. Fine."

Oltre a testare i propri modelli, Eldan e Li hanno lanciato la stessa sfida al GPT-2 di OpenAI, un modello da 1.5 miliardi di parametri rilasciato nel 2019. È andata molto peggio: prima della fine improvvisa della storia, l'uomo minaccia di prendere la ragazza al tribunale, al carcere, all'ospedale, all'obitorio e infine al crematorio.

Introduzione

Nguyen ha detto che è entusiasmante che modelli così piccoli siano così fluidi, ma forse non sorprende che GPT-2 abbia avuto difficoltà con il compito: è un modello più grande ma lontano dallo stato dell'arte, ed è stato addestrato su un set di dati molto diverso. "Un bambino che si allena solo su compiti da bambino, come giocare con alcuni giocattoli, potrebbe fare meglio di te o di me", ha osservato. "Non eravamo specializzati in questa cosa semplice."

I confronti tra i diversi modelli TinyStories non soffrono degli stessi fattori di confusione. Eldan e Li hanno osservato indizi secondo cui le reti con meno strati ma più neuroni per strato erano più brave a rispondere a domande che richiedevano conoscenza fattuale; al contrario, le reti con più strati e meno neuroni per strato erano migliori nel tenere traccia dei personaggi e dei punti della trama precedenti nella storia. Bhagavatula ha trovato questo risultato particolarmente intrigante. Se potesse essere replicato in modelli più grandi, ha detto, “sarebbe un risultato davvero interessante che potrebbe derivare da questo lavoro”.

Eldan e Li hanno anche studiato come le abilità dei loro piccoli modelli dipendessero dalla durata del periodo di addestramento. In ogni caso, i modelli hanno imparato prima la grammatica e poi la coerenza. Per Eldan, questo modello illustra come le differenze nelle strutture di ricompensa portano a differenze nei modelli di acquisizione del linguaggio tra reti neurali e bambini. Per i modelli linguistici, che imparano prevedendo le parole, "l'incentivo sulle parole 'voglio avere' è tanto grande quanto lo è sulle parole 'gelato'", ha detto. Ai bambini, invece, «non importa se dicono 'vorrei prendere un gelato' o semplicemente 'gelato, gelato, gelato'».

Qualità e quantità

Eldan e Li sperano che la ricerca possa motivare altri ricercatori ad addestrare modelli diversi il set di dati TinyStories e confrontare le loro capacità. Ma spesso è difficile prevedere quali caratteristiche dei modelli piccoli appariranno anche in quelli più grandi.

"Forse i modelli murini della vista sono davvero buoni indicatori della visione umana, ma i modelli murini della depressione sono buoni modelli della depressione umana?" Pavlick ha detto. "Per ogni caso è un po' diverso."

Il successo dei modelli TinyStories suggerisce anche una lezione più ampia. L'approccio standard alla compilazione di set di dati di addestramento prevede l'aspirazione del testo da Internet e quindi il filtraggio della spazzatura. Il testo sintetico generato da modelli di grandi dimensioni potrebbe offrire un modo alternativo per assemblare set di dati di alta qualità che non dovrebbero essere così grandi.

"Abbiamo sempre più prove che questo è molto efficace, non solo nei modelli di dimensioni TinyStories ma anche in modelli più grandi", ha affermato Eldan. Questa prova proviene da un paio di articoli di follow-up sui modelli da miliardi di parametri di Eldan, Li e altri ricercatori Microsoft. Nel prima carta, hanno addestrato un modello ad apprendere il linguaggio di programmazione Python utilizzando frammenti di codice generati da GPT-3.5 insieme a codice attentamente selezionato da Internet. Nel secondo, hanno arricchito il set di dati di addestramento con “libri di testo” sintetici che coprono un’ampia gamma di argomenti, per addestrare un modello linguistico di uso generale. Nei loro test, entrambi i modelli si sono confrontati favorevolmente con modelli più grandi addestrati su set di dati più grandi. Ma valutare i modelli linguistici è sempre complicato e l’approccio basato sui dati sintetici di addestramento è ancora agli inizi: sono necessari test più indipendenti.

Man mano che i modelli linguistici all'avanguardia diventano sempre più grandi, le scoperte sorprendenti dei loro piccoli cugini ci ricordano che c'è ancora molto che non capiamo anche sui modelli più semplici. Nguyen si aspetta di vedere molti altri articoli che esplorino l’approccio introdotto da TinyStories.

“La domanda è: dove e perché le dimensioni contano?” Egli ha detto. "Dovrebbe esserci una scienza in merito, e si spera che questo articolo sia l'inizio di una ricca storia."

Timestamp:

Di più da Quantamagazine