Måling af Goodharts lov

Kildeknude: 1590955

Goodharts lov berømt siger: "Når en foranstaltning bliver et mål, holder den op med at være en god foranstaltning." Selvom det oprindeligt kommer fra økonomi, er det noget, vi skal kæmpe med hos OpenAI, når vi skal finde ud af, hvordan man optimerer mål, der er svære eller dyre at måle. Det er ofte nødvendigt at introducere nogle proxy-mål det er nemmere eller billigere at måle, men når vi gør dette, skal vi passe på ikke at optimere det for meget.

For eksempel som led i vores arbejde med at tilpasse modeller som GPT-3 med menneskelige hensigter og værdier, vil vi gerne optimere ting som "Hvordan hjælpsom er dette svar?", eller "Hvordan faktuelt nøjagtig er denne påstand?”. Det er komplekse mål, der kræver, at mennesker omhyggeligt tjekker tingene igennem. Af denne grund træner vi en model til at forudsige disse menneskelige præferencer, kendt som en belønningsmodel, og brug belønningsmodellens forudsigelser som et proxy-mål. Men det er vigtigt at holde styr på, hvor godt det sande mål bliver optimeret.

I dette indlæg vil vi se på noget af matematikken bag, hvordan vi gør dette. Vi vil fokusere på en indstilling, der er særlig ren at analysere, hvor vi har adgang til det sande mål. I praksis kan selv menneskelige præferencer ikke måle, hvad vi virkelig bekymrer os om, men vi sætter det spørgsmål til side i dette indlæg.

Best-of-$n$ prøveudtagning

Der er mange måder, hvorpå man kan optimere proxy-målsætningen, men måske den enkleste er best-of-$n$ prøveudtagning, også kendt som prøveudtagning af afslag or omplacering. Vi prøver blot $n$ gange og tager den, der scorer højest i henhold til proxy-målsætningen.

Selvom denne metode er meget enkel, kan den faktisk være konkurrencedygtig med mere avancerede teknikker såsom forstærkningslæring, omend på bekostning af mere inferens-tidsberegning. For eksempel i WebGPT, vores bedste-af-$64$-model udkonkurrerede vores forstærkningslæringsmodel, måske delvist fordi modellen med bedst-af-$64$ kom til at gennemse mange flere websteder. Selv at anvende best-of-$4$ gav et markant løft til menneskelige præferencer.

Derudover har best-of-$n$ sampling pålidelig ydeevne og er ligetil at analysere matematisk, hvilket gør den velegnet til empiriske studier af Goodharts lov og relaterede fænomener.

Matematikken i best-of-$n$-sampling

Lad os studere best-of-$n$-sampling mere formelt. Antag, at vi har noget prøverum $S$ (såsom sættet af mulige spørgsmål-svar-par), en vis sandsynlighedsfordeling $P$ over $S$, et sandt mål (eller "belønning") $R_{text{true}}:Stomathbb R$, og et proxy-mål $R_{tekst{proxy}}:Stomathbb R$. Lad os sige, at vi på en eller anden måde optimerer $R_{text{proxy}}$ og derved opnår en ny distribution $P^prime$. Derefter:

  • Forventningen $mathbb E_{x^primesim P^prime}left[R_{text{true}}left(x^primeright)right]$ måler, hvor godt vi har optimeret det sande mål.
  • KL divergens $D_{text{KL}}left(P^primeparallel Pright)$ måler, hvor meget vi har optimeret. For eksempel, hvis $P^prime$ opnås ved at tage den første prøve fra $P$, der ligger i en delmængde $S^primesubseteq S$, så er denne KL-divergens bare den negative log-sandsynlighed for, at en stikprøve fra $P$ ligger i $S^prime$.

Det viser sig, at i tilfælde af best-of-$n$ prøveudtagning, kan begge disse mængder estimeres effektivt ved hjælp af prøver fra $P$.

Lad os først se på forventningen. Den naive tilgang er at bruge en Monte Carlo-estimator: Kør best-of-$n$-sampling mange gange, mål det sande mål på disse prøver, og gennemsnit resultaterne. Der er dog en bedre estimator. Hvis vi har $Ngeq n$ prøver fra $P$ samlet set, så kan vi samtidig overveje alle mulige undergrupper af disse prøver af størrelse $n$, vægte hver prøve med antallet af delmængder, for hvilke den er den bedste i henhold til proxy-målsætningen, og derefter tage den vægtede gennemsnitlige sande målscore. Denne vægt er kun den binomiale koefficient $binom{k-1}{n-1}$, hvor $k$ er rangeringen af ​​prøven under proxy-målet, fra $1$ (dårligst) op til $N$ (bedst). Ud over at bruge prøver mere effektivt, giver dette os også mulighed for at genbruge prøver til forskellige værdier af $n$.

Hvad angår KL-divergensen, viser dette sig overraskende at have en nøjagtig formel, der virker for enhver kontinuerlig sandsynlighedsfordeling $P$ (dvs. så længe $P$ ikke har nogen punktmasser). Man kan naivt gætte på, at svaret er $log n$, da best-of-$n$ gør noget som at tage den øverste $frac 1n$ af distributionen, og dette er nogenlunde korrekt: det nøjagtige svar er $log n-frac{n-1}n$.

Sammen giver disse estimatorer os mulighed for nemt at analysere, hvordan det sande mål varierer med mængden af ​​optimering, der anvendes på proxy-målet.

Her er et virkeligt eksempel fra WebGPT:

Best-of-$n$-ydelse for WebGPT 175B

Bedst-of-$n$-ydeevne for WebGPT, med skraverede områder, der repræsenterer $pm 1$-standardfejl, og KL-aksen følger en kvadratrodsskala. Her er den oprindelige fordeling ($P$) givet af 175B-modellen trænet ved hjælp af adfærdskloning, proxy-målet, der bruges til at beregne best-of-$n$ ($R_{text{proxy}}$), er givet af træningen belønningsmodel, og vi betragter tre formodet "sande" mål ($R_{text{true}}$): selve træningsbelønningsmodellen, en valideringsbelønningsmodel, der trænes på tilbageholdte data, og faktiske menneskelige præferencer. Der er ikke meget overoptimering af proxy-målet, men vi forventer, at der er ved højere KL'er.

Går ud over best-of-$n$-sampling

Den største begrænsning af best-of-$n$ sampling er, at KL divergensen vokser logaritmisk med $n$, så den er kun egnet til at anvende en lille mængde optimering.

For at anvende mere optimering bruger vi typisk forstærkningslæring. I de indstillinger vi hidtil har studeret, som f.eks opsummering, har vi typisk været i stand til at nå en KL på omkring 10 NAT bruge forstærkende læring, før det sande mål begynder at falde på grund af Goodharts lov. Vi skulle tage $n$ for at være omkring 60,000 for at nå denne KL ved hjælp af best-of-$n$, og vi håber at kunne nå meget større KL'er end dette med forbedringer af vores belønningsmodellering og forstærkende læringspraksis.

Men ikke alle nats er lige. Empirisk set, for små KL-budgetter, optimerer best-of-$n$ bedre både proxy- og de sande mål end forstærkende læring. Intuitivt er best-of-$n$ "brute force"-tilgangen, hvilket gør den mere informationsteoretisk effektiv end forstærkende læring, men mindre beregningseffektiv i store KL'er.

Vi studerer aktivt skaleringsegenskaberne for proxy-mål som en del af vores arbejde med at tilpasse vores modeller med menneskelige hensigter og værdier. Hvis du gerne vil hjælpe os med denne forskning, er vi leje!

Tidsstempel:

Mere fra OpenAI