Måling av Goodharts lov

Kilde node: 1590955

Goodharts lov berømt sier: "Når et mål blir et mål, slutter det å være et godt mål." Selv om det opprinnelig kommer fra økonomi, er det noe vi må kjempe med hos OpenAI når vi skal finne ut hvordan vi kan optimalisere mål som er vanskelige eller kostbare å måle. Det er ofte nødvendig å introdusere noen proxy-mål det er enklere eller billigere å måle, men når vi gjør dette, må vi passe på å ikke optimalisere det for mye.

For eksempel som en del av vårt arbeid med å justere modeller som GPT-3 med menneskelige hensikter og verdier, ønsker vi å optimalisere ting som "Hvordan nyttig er dette svaret?", eller "Hvordan faktisk nøyaktig er denne påstanden?". Dette er komplekse mål som krever at mennesker nøye sjekker ting. Av denne grunn trener vi en modell for å forutsi disse menneskelige preferansene, kjent som en belønningsmodell, og bruk belønningsmodellens spådommer som et proxy-mål. Men det er viktig å holde styr på hvor godt det sanne målet blir optimalisert.

I dette innlegget skal vi se på noe av matematikken bak hvordan vi gjør dette. Vi vil fokusere på en setting som er spesielt ren å analysere, der vi har tilgang til det sanne målet. I praksis kan selv menneskelige preferanser ikke måle hva vi virkelig bryr oss om, men vi setter det problemet til side i dette innlegget.

Best-of-$n$ prøvetaking

Det er mange måter man kan optimalisere proxy-målet på, men kanskje den enkleste er best-of-$n$ prøvetaking, også kjent som prøvetaking av avslag or omrangering. Vi prøver ganske enkelt $n$ ganger og tar den som skårer høyest i henhold til proxy-målet.

Selv om denne metoden er veldig enkel, kan den faktisk være konkurransedyktig med mer avanserte teknikker som forsterkende læring, om enn på bekostning av mer inferens-tidsberegning. For eksempel i WebGPT, vår best-of-$64$-modell utkonkurrerte vår forsterkende læringsmodell, kanskje delvis fordi best-of-$64$-modellen fikk bla gjennom mange flere nettsteder. Selv å bruke best-of-$4$ ga et betydelig løft til menneskelige preferanser.

I tillegg har best-of-$n$-sampling pålitelig ytelse og er enkel å analysere matematisk, noe som gjør den godt egnet for empiriske studier av Goodharts lov og relaterte fenomener.

Matematikken til best-of-$n$ sampling

La oss studere best-of-$n$-sampling mer formelt. Anta at vi har noe prøverom $S$ (slik som settet med mulige spørsmål-svar-par), en viss sannsynlighetsfordeling $P$ over $S$, et ekte mål (eller "belønning") $R_{text{true}}:Stomathbb R$, og et proxy-mål $R_{tekst{proxy}}:Stomathbb R$. La oss si at vi på en eller annen måte optimaliserer $R_{text{proxy}}$ og dermed får en ny distribusjon $P^prime$. Deretter:

  • Forventningen $mathbb E_{x^primesim P^prime}left[R_{text{true}}left(x^primeright)right]$ måler hvor godt vi har optimalisert det sanne målet.
  • De KL divergens $D_{text{KL}}left(P^primeparallel Pright)$ måler hvor mye optimalisering vi har gjort. For eksempel, hvis $P^prime$ oppnås ved å ta den første prøven fra $P$ som ligger i en delmengde $S^primesubseteq S$, så er denne KL-divergensen bare den negative log-sannsynligheten for at et utvalg fra $P$ ligger i $S^prime$.

Det viser seg at ved best-of-$n$ prøvetaking, kan begge disse mengdene estimeres effektivt ved å bruke prøver fra $P$.

La oss først se på forventningene. Den naive tilnærmingen er å bruke en Monte Carlo-estimator: kjør best-of-$n$-sampling mange ganger, mål det sanne målet på disse prøvene, og gjennomsnitt resultatene. Imidlertid er det en bedre estimator. Hvis vi har $Ngeq n$ prøver fra $P$ totalt sett, kan vi vurdere samtidig alle mulige undergrupper av disse prøvene med størrelse $n$, veier hver prøve med antall undersett den er best for i henhold til proxy-målet, og tar deretter den vektede gjennomsnittlige sanne objektive poengsummen. Denne vekten er bare den binomiale koeffisienten $binom{k-1}{n-1}$, der $k$ er rangeringen til prøven under proxy-målet, fra $1$ (dårligst) opp til $N$ (best). I tillegg til å bruke prøver mer effektivt, lar dette oss også gjenbruke prøver for forskjellige verdier på $n$.

Når det gjelder KL-divergensen, viser dette seg overraskende å ha en eksakt formel som fungerer for enhver kontinuerlig sannsynlighetsfordeling $P$ (dvs. så lenge $P$ ikke har noen punktmasser). Man kan naivt gjette at svaret er $log n$, siden best-of-$n$ gjør noe som å ta den øverste $frac 1n$ av distribusjonen, og dette er omtrent riktig: det nøyaktige svaret er $log n-frac{n-1}n$.

Sammen lar disse estimatorene oss enkelt analysere hvordan det sanne målet varierer med hvor mye optimalisering som brukes på proxy-målet.

Her er et virkelighetseksempel fra WebGPT:

Best-of-$n$ ytelse for WebGPT 175B

Best-of-$n$ ytelse for WebGPT, med skyggelagte områder som representerer $pm 1$ standardfeil, og KL-aksen følger en kvadratrotskala. Her er den opprinnelige distribusjonen ($P$) gitt av 175B-modellen trent ved bruk av atferdskloning, proxy-målet som brukes til å beregne best-of-$n$ ($R_{text{proxy}}$) er gitt av treningen belønningsmodell, og vi vurderer tre antatt "sanne" mål ($R_{text{true}}$): selve treningsbelønningsmodellen, en valideringsbelønningsmodell trent på data som holdes ut, og faktiske menneskelige preferanser. Det er ikke mye overoptimering av proxy-målet, men vi forventer at det er ved høyere KL-er.

Går utover best-of-$n$-sampling

Hovedbegrensningen for best-of-$n$ sampling er at KL-divergensen vokser logaritmisk med $n$, så den er bare egnet for å bruke en liten mengde optimalisering.

For å bruke mer optimalisering bruker vi vanligvis forsterkende læring. I innstillingene vi har studert så langt, som f.eks oppsummering, har vi vanligvis klart å nå en KL på rundt 10 nats bruke forsterkende læring før det sanne målet begynner å avta på grunn av Goodharts lov. Vi må ta $n$ for å være rundt 60,000 XNUMX for å nå denne KL ved å bruke best-of-$n$, og vi håper å kunne nå mye større KLer enn dette med forbedringer av vår belønningsmodellering og forsterkende læringspraksis.

Imidlertid er ikke alle nats like. Empirisk, for små KL-budsjetter, optimaliserer best-of-$n$ bedre både proxy- og de sanne målene enn forsterkende læring. Intuitivt er best-of-$n$ "brute force"-tilnærmingen, noe som gjør den mer informasjonsteoretisk effektiv enn forsterkende læring, men mindre beregningseffektiv i store KL-er.

Vi studerer aktivt skaleringsegenskapene til proxy-mål som en del av vårt arbeid med å justere våre modeller med menneskelig hensikt og verdier. Hvis du vil hjelpe oss med denne forskningen, er vi det ansette!

Tidstempel:

Mer fra OpenAI