Misurare la legge di Goodhart

Nodo di origine: 1590955

La legge di Goodhart notoriamente dice: “Quando una misura diventa un obiettivo, cessa di essere una buona misura”. Sebbene provenga originariamente dall'economia, è qualcosa con cui noi di OpenAI dobbiamo confrontarci quando dobbiamo capire come ottimizzare obiettivi difficili o costosi da misurare. Spesso è necessario introdurne alcuni obiettivo proxy è più facile o più economico da misurare, ma quando lo facciamo dobbiamo stare attenti a non ottimizzarlo troppo.

Ad esempio, come parte del nostro lavoro allineare modelli come GPT-3 con intenti e valori umani, vorremmo ottimizzare cose come “Come utile è questa la risposta?", o "Come effettivamente accurato è questa l'affermazione?". Si tratta di obiettivi complessi che richiedono che gli esseri umani controllino attentamente le cose. Per questo motivo, addestriamo un modello per prevedere queste preferenze umane, noto come a modello di ricompensae utilizzare le previsioni del modello di ricompensa come obiettivo proxy. Ma è importante tenere traccia di quanto bene viene ottimizzato il vero obiettivo.

In questo post esamineremo alcuni aspetti matematici che stanno dietro al modo in cui lo facciamo. Ci concentreremo su un ambiente particolarmente pulito da analizzare, in cui avremo accesso al vero obiettivo. In pratica, anche le preferenze umane possono non riuscire a misurare ciò che ci interessa veramente, ma in questo post metteremo da parte la questione.

Campionamento al meglio di $n$

Esistono molti modi in cui è possibile ottimizzare l'obiettivo proxy, ma forse il più semplice è il meglio di $n$ di campionamento, conosciuto anche come campionamento del rifiuto or riclassifica. Campioniamo semplicemente $n$ volte e prendiamo quello che ottiene il punteggio più alto in base all'obiettivo proxy.

Sebbene questo metodo sia molto semplice, può effettivamente essere competitivo con tecniche più avanzate come l'apprendimento per rinforzo, anche se a costo di un maggiore calcolo del tempo di inferenza. Ad esempio, nel Web GPT, il nostro modello best-of-$64$ ha sovraperformato il nostro modello di apprendimento per rinforzo, forse in parte perché il modello best-of-$64$ è riuscito a navigare in molti più siti web. Anche l’applicazione del prezzo migliore di 4$ ha dato un notevole impulso alle preferenze umane.

Inoltre, il campionamento al meglio di $n$ ha prestazioni affidabili ed è semplice da analizzare matematicamente, il che lo rende particolarmente adatto agli studi empirici della legge di Goodhart e dei fenomeni correlati.

La matematica del campionamento al meglio di $n$

Studiamo il campionamento best-of-$n$ in modo più formale. Supponiamo di avere uno spazio campionario $S$ (come l'insieme delle possibili coppie domanda-risposta), una certa distribuzione di probabilità $P$ su $S$, un vero obiettivo (o “ricompensa”) $R_{text{true}}:Stomathbb R$, e un obiettivo proxy $R_{testo{proxy}}:Stomathbb R$. Diciamo che ottimizziamo in qualche modo $R_{text{proxy}}$ e otteniamo così una nuova distribuzione $P^primo$. Quindi:

  • L'aspettativa $mathbb E_{x^primesim P^prime}left[R_{text{true}}left(x^primeright)right]$ misura quanto bene abbiamo ottimizzato il vero obiettivo.
  • I Divergenza di KL $D_{text{KL}}left(P^primeparallel Pright)$ misura la quantità di ottimizzazione che abbiamo effettuato. Ad esempio, se $P^prime$ si ottiene prendendo il primo campione da $P$ che si trova in un sottoinsieme $S^primesubseteq S$, allora questa divergenza KL è solo la probabilità logaritmica negativa che un campione di $P$ si trovi in ​​$S^prime$.

Si scopre che nel caso del campionamento al meglio di $n$, entrambe queste quantità possono essere stimate in modo efficiente utilizzando campioni da $P$.

Diamo prima un'occhiata alle aspettative. L'approccio ingenuo consiste nell'utilizzare uno stimatore Monte Carlo: eseguire il campionamento al meglio di $n$ molte volte, misurare il vero obiettivo su tali campioni e calcolare la media dei risultati. Tuttavia, esiste uno stimatore migliore. Se abbiamo $Ngeq n$ campioni da $P$ in totale, possiamo considerare simultaneamente ogni possibile sottoinsieme di questi campioni di dimensione $n$, ponderare ciascun campione per il numero di sottoinsiemi per i quali è il migliore in base all'obiettivo proxy, quindi prendere la media ponderata del vero punteggio oggettivo. Questo peso è proprio il coefficiente binomiale $binom{k-1}{n-1}$, dove $k$ è il rango del campione rispetto all'obiettivo proxy, da $1$ (peggiore) fino a $N$ (migliore). Oltre a utilizzare i campioni in modo più efficiente, questo ci consente anche di riutilizzare campioni per valori diversi di $n$.

Per quanto riguarda la divergenza KL, sorprendentemente, questa risulta avere una formula esatta che funziona per qualsiasi distribuzione di probabilità continua $P$ (cioè finché $P$ non ha masse puntiformi). Si potrebbe ingenuamente immaginare che la risposta sia $log n$, poiché best-of-$n$ sta facendo qualcosa come prendere il $frac 1n$ più alto della distribuzione, e questo è più o meno corretto: la risposta esatta è $log n-frac{n-1}n$.

Insieme, questi stimatori ci consentono di analizzare facilmente come varia l'obiettivo reale con la quantità di ottimizzazione applicata all'obiettivo proxy.

Ecco un esempio di vita reale da Web GPT:

Le migliori prestazioni di $n$ per WebGPT 175B

Prestazioni migliori di $n$ per WebGPT, con regioni ombreggiate che rappresentano l'errore standard $pm 1$ e l'asse KL che segue una scala di radice quadrata. Qui, la distribuzione originale ($P$) è data dal modello 175B addestrato utilizzando la clonazione del comportamento, l'obiettivo proxy utilizzato per calcolare il meglio di $n$ ($R_{text{proxy}}$) è dato dall'addestramento modello di ricompensa e consideriamo tre obiettivi presumibilmente "veri" ($R_{text{true}}$): il modello di ricompensa della formazione stesso, un modello di ricompensa di convalida addestrato su dati disponibili e le reali preferenze umane. Non c'è molta ottimizzazione eccessiva dell'obiettivo proxy, ma ci aspetteremmo che ci sia a KL più alti.

Andare oltre il campionamento migliore di $n$

La limitazione principale del campionamento al meglio di $n$ è che la divergenza KL cresce logaritmicamente con $n$, quindi è adatto solo per applicare una piccola quantità di ottimizzazione.

Per applicare una maggiore ottimizzazione, in genere utilizziamo l'apprendimento per rinforzo. Nelle impostazioni che abbiamo studiato finora, come ad esempio riepilogo, in genere siamo riusciti a raggiungere un KL di circa 10 nats utilizzando l'apprendimento per rinforzo prima che il vero obiettivo inizi a diminuire a causa della legge di Goodhart. Dovremmo prendere $n$ per raggiungere circa 60,000 per raggiungere questo KL utilizzando il meglio di $n$, e speriamo di essere in grado di raggiungere KL molto più grandi di questo con miglioramenti alla nostra modellazione delle ricompense e alle pratiche di apprendimento per rinforzo.

Tuttavia, non tutti i nati sono uguali. Empiricamente, per budget KL limitati, il meglio di $n$ ottimizza meglio sia il proxy che gli obiettivi reali rispetto all'apprendimento per rinforzo. Intuitivamente, best-of-$n$ è l’approccio della “forza bruta”, che lo rende più efficiente dal punto di vista informativo dal punto di vista teorico rispetto all’apprendimento per rinforzo, ma meno efficiente dal punto di vista computazionale nei grandi KL.

Stiamo studiando attivamente le proprietà di scalabilità degli obiettivi proxy come parte del nostro lavoro allineare i nostri modelli con intenti e valori umani. Se vuoi aiutarci con questa ricerca, siamo assunzione!

Timestamp:

Di più da OpenAI