De wet van Goodhart meten

Heruitgegeven door Plato

volgers: 0

De wet van Goodhart beroemde uitspraak: "Als een maatregel een doel wordt, is hij niet langer een goede maatregel." Hoewel het oorspronkelijk uit de economie komt, is het iets waar we bij OpenAI mee moeten worstelen als we uitzoeken hoe we doelstellingen kunnen optimaliseren die moeilijk of kostbaar zijn om te meten. Het is vaak nodig om wat voor te stellen proxy-doelstelling dat is makkelijker of goedkoper te meten, maar als we dit doen, moeten we oppassen dat we het niet te veel optimaliseren.

Als onderdeel van ons werk om bijvoorbeeld richten modellen zoals GPT-3 met menselijke bedoelingen en waarden, willen we zaken als “Hoe nuttig is dit antwoord?”, of “Hoe feitelijk juist is deze bewering?”. Dit zijn complexe doelstellingen waarvoor mensen zorgvuldig moeten controleren. Om deze reden trainen we een model om deze menselijke voorkeuren te voorspellen, bekend als a beloningsmodelen gebruik de voorspellingen van het beloningsmodel als een proxy-doelstelling. Maar het is belangrijk om bij te houden hoe goed het echte doel wordt geoptimaliseerd.

In dit bericht zullen we kijken naar een deel van de wiskunde achter hoe we dit doen. We zullen ons concentreren op een omgeving die bijzonder schoon is om te analyseren, waarin we toegang hebben tot het echte doel. In de praktijk kunnen zelfs menselijke voorkeuren niet meten waar we echt om geven, maar we leggen dat probleem in dit bericht opzij.

Best-of-$n$ bemonstering

Er zijn veel manieren waarop men de proxy-doelstelling zou kunnen optimaliseren, maar misschien is de eenvoudigste: best-of-$n$ bemonstering, ook gekend als afwijzing bemonstering or herrangschikking. We nemen gewoon $n$ keer en nemen degene die het hoogst scoort volgens de proxy-doelstelling.

Hoewel deze methode heel eenvoudig is, kan ze zelfs concurreren met meer geavanceerde technieken zoals versterkingsleren, zij het ten koste van meer inferentietijd-computing. Bijvoorbeeld in WebGPT, presteerde ons best-of-$64$-model beter dan ons leermodel voor versterking, misschien deels omdat het best-of-$64$-model door veel meer websites kon bladeren. Zelfs het toepassen van de best-of-$4$ zorgde voor een aanzienlijke boost voor de menselijke voorkeuren.

Bovendien heeft de best-of-$n$-steekproef betrouwbare prestaties en is het eenvoudig wiskundig te analyseren, waardoor het zeer geschikt is voor empirische studies van de wet van Goodhart en aanverwante verschijnselen.

De wiskunde van best-of-$n$ steekproeven

Laten we de best-of-$n$-steekproeven wat formeler bestuderen. Stel dat we een steekproefruimte $S$ hebben (zoals de set van mogelijke vraag-antwoordparen), een kansverdeling $P$ over $S$, een echt doel (of "beloning") $R_{text{true}}:Stomathbb R$, en een proxy-doelstelling $R_{text{proxy}}:Stomathbb R$. Laten we zeggen dat we op de een of andere manier $R_{text{proxy}}$ optimaliseren en daardoor een nieuwe distributie verkrijgen $P^prime$. Vervolgens:

De verwachting $mathbb E_{x^primesim P^prime}left[R_{text{true}}left(x^primeright)right]$ meet hoe goed we het werkelijke doel hebben geoptimaliseerd.
De KL divergentie $D_{text{KL}}left(P^primeparallel Pright)$ meet hoeveel optimalisatie we hebben gedaan. Als bijvoorbeeld $P^prime$ wordt verkregen door het eerste monster te nemen van $P$ dat in een deelverzameling ligt $S^primesubseteq S$, dan is deze KL-divergentie gewoon de negatieve logkans dat een steekproef van $P$ in $S^prime$ ligt.

Het blijkt dat in het geval van best-of-$n$ bemonstering, beide hoeveelheden efficiënt kunnen worden geschat met behulp van monsters vanaf $P$.

Laten we eerst naar de verwachting kijken. De naïeve benadering is om een Monte Carlo-schatter te gebruiken: voer de best-of-$n$-steekproef vele malen uit, meet het werkelijke doel van die steekproeven en het gemiddelde van de resultaten. Er is echter een betere schatter. Als we $Ngeq n$ steekproeven hebben van $P$ in totaal, dan kunnen we tegelijkertijd overwegen: elke mogelijke subset van deze steekproeven met een grootte van $n$, weeg elke steekproef af op het aantal subsets waarvoor deze de beste is volgens de proxy-doelstelling, en neem vervolgens de gewogen gemiddelde echte objectieve score. Dit gewicht is slechts de binomiale coëfficiënt $binom{k-1}{n-1}$, waarbij $k$ de rangorde is van de steekproef onder de proxy-doelstelling, van $1$ (slechtste) tot $N$ (beste). Dit stelt ons niet alleen in staat om samples efficiënter te gebruiken, maar ook om samples te hergebruiken voor verschillende waarden van $n$.

Wat betreft de KL-divergentie, deze blijkt verrassend genoeg een exacte formule te hebben die werkt voor elke continue kansverdeling $P$ (dwz zolang $P$ geen puntmassa's heeft). Je zou naïef kunnen raden dat het antwoord is: $log n$, aangezien best-of-$n$ zoiets doet als het nemen van de top $frac 1n$ van de verdeling, en dit is ongeveer correct: het exacte antwoord is $log n-frac{n-1}n$.

Samen stellen deze schatters ons in staat om eenvoudig te analyseren hoe de werkelijke doelstelling varieert met de mate van optimalisatie die wordt toegepast op de proxy-doelstelling.

Hier is een voorbeeld uit het echte leven van WebGPT:

Best-of-$n$-prestaties voor WebGPT 175B

Best-of-$n$-prestaties voor WebGPT, met gearceerde gebieden die de standaardfout van $pm 1$ vertegenwoordigen, en de KL-as die een vierkantswortelschaal volgt. Hier wordt de oorspronkelijke distributie ($P$) gegeven door het 175B-model dat is getraind met behulp van gedragsklonen, de proxy-doelstelling die wordt gebruikt om de best-of-$n$ ($R_{text{proxy}}$) te berekenen, wordt gegeven door de training beloningsmodel, en we beschouwen drie vermeende "echte" doelstellingen ($R_{text{true}}$): het trainingsbeloningsmodel zelf, een validatiebeloningsmodel dat is getraind op achtergehouden gegevens en werkelijke menselijke voorkeuren. Er is niet veel overoptimalisatie van de proxy-doelstelling, maar we zouden verwachten dat dit bij hogere KL's zal zijn.

Verder gaan dan best-of-$n$ bemonstering

De belangrijkste beperking van best-of-$n$ steekproeven is dat de KL-divergentie logaritmisch groeit met $n$, dus het is alleen geschikt voor het toepassen van een kleine hoeveelheid optimalisatie.

Om meer optimalisatie toe te passen, gebruiken we meestal versterkend leren. In de instellingen die we tot nu toe hebben bestudeerd, zoals: samenvatting, hebben we meestal een KL van ongeveer 10 . kunnen bereiken nat het gebruik van versterkingsleren voordat het werkelijke doel begint af te nemen als gevolg van de wet van Goodhart. We zouden $ n $ moeten nemen om ongeveer 60,000 te zijn om deze KL te bereiken met behulp van het beste van $n$, en we hopen veel grotere KL's dan dit te kunnen bereiken met verbeteringen aan onze beloningsmodellering en versterkende leerpraktijken.

Niet alle nats zijn echter gelijk. Empirisch gezien optimaliseert best-of-$n$ voor kleine KL-budgetten zowel de proxy als de werkelijke doelstellingen beter dan versterkend leren. Intuïtief is het beste van $ n $ de "brute force" -benadering, waardoor het meer informatietheoretisch efficiënter is dan versterkend leren, maar minder rekenkundig efficiënt bij grote KL's.

We bestuderen actief de schaaleigenschappen van proxy-doelstellingen als onderdeel van ons werk om richten onze modellen met menselijke bedoelingen en waarden. Als je ons wilt helpen met dit onderzoek, zijn we: verhuring!

Tijdstempel: 13 april 202224 juli 2022