Goodhartin lain mittaaminen

Julkaissut Platon

seuraajia: 0

Goodhartin laki kuuluisa sanoo: "Kun toimenpiteestä tulee tavoite, se lakkaa olemasta hyvä toimenpide." Vaikka se on alun perin peräisin taloustieteestä, meidän on kamppailtava sen kanssa OpenAI:ssa, kun mietitään, kuinka optimoida tavoitteita, joita on vaikea tai kallista mitata. Usein on tarpeen esitellä joitain välitystavoite Se on helpompi tai halvempi mitata, mutta kun teemme niin, meidän on oltava varovaisia, ettemme optimoi sitä liikaa.

Esimerkiksi osana työtämme kohdista malleja, kuten GPT-3, inhimillisiä tarkoituksia ja arvoja, haluaisimme optimoida asioita, kuten "Miten hyödyllinen onko tämä vastaus?" tai "Kuinka asiallisesti tarkka onko tämä väite?" Nämä ovat monimutkaisia tavoitteita, jotka vaativat ihmisten tarkistamaan asiat huolellisesti. Tästä syystä koulutamme mallin ennustamaan nämä ihmisen mieltymykset, jotka tunnetaan nimellä a palkitsemismalli, ja käytä palkkiomallin ennusteita välitavoitteena. Mutta on tärkeää seurata, kuinka hyvin todellinen tavoite on optimoitu.

Tässä viestissä tarkastelemme joitain matematiikkaa, miten teemme tämän. Keskitymme asetelmaan, joka on erityisen puhdas analysoitavaksi ja jossa meillä on pääsy todelliseen tavoitteeseen. Käytännössä edes ihmisten mieltymykset eivät välttämättä mittaa sitä, mistä todella välitämme, mutta jätämme tämän asian sivuun tässä viestissä.

Paras näytteenotto - $n$

Välityspalvelimen tavoitetta voidaan optimoida monella tapaa, mutta ehkä yksinkertaisin on paras näytteenotto $n$:sta, tunnetaan myös hylkäysnäytteenotto or uudelleensijoittaminen. Otamme vain näytteen $n$ kertaa ja valitsemme parhaan tuloksen välityspalvelimen tavoitteen mukaan.

Vaikka tämä menetelmä on hyvin yksinkertainen, se voi itse asiassa olla kilpailukykyinen kehittyneempien tekniikoiden, kuten vahvistusoppimisen, kanssa, vaikkakin päättelyaikalaskennan kustannuksella. Esimerkiksi sisään WebGPT, paras 64 $:sta -mallimme ylitti vahvistusoppimismallimme, ehkä osittain siksi, että 64 $:n parhaan mallimme joutui selaamaan monia muita verkkosivustoja. Jopa 4$:n parhaan soveltaminen lisäsi merkittävästi ihmisten mieltymyksiä.

Lisäksi paras-of-$n$ -näytteenotto on luotettavaa ja se on helppo analysoida matemaattisesti, joten se sopii hyvin Goodhartin lain ja siihen liittyvien ilmiöiden empiirisiin tutkimuksiin.

Parhaan $n$ -näytteenoton matematiikka

Tutkitaanpa $n$ paras otanta muodollisemmin. Oletetaan, että meillä on näyteavaruus $S$ (kuten joukko mahdollisia kysymys-vastaus-pareja), jokin todennäköisyysjakauma $P$ yli $S$, todellinen tavoite (tai "palkinto") $R_{text{true}}:Stomathbb R$, ja välitystavoite $R_{text{proxy}}:Stomathbb R$. Oletetaan, että optimoimme jotenkin $R_{text{proxy}}$ ja saamme siten uuden jakelun $P^prime$. Sitten:

Odotus $mathbb E_{x^primesim P^prime}left[R_{text{true}}left(x^primeright)right]$ mittaa kuinka hyvin olemme optimoineet todellisen tavoitteen.
- KL-ero $D_{text{KL}}left(P^primeparallel Pright)$ mittaa, kuinka paljon optimointia olemme tehneet. Jos esimerkiksi $P^prime$ saadaan ottamalla ensimmäinen näyte $P$:sta, joka on jossain osajoukossa $S^primesubseteq S$, silloin tämä KL-ero on vain negatiivinen logaritmistodennäköisyys sille, että $P$ näyte on $S^prime$.

Osoittautuu, että paras-of-$n$ -näytteenoton tapauksessa nämä molemmat suuret voidaan arvioida tehokkaasti käyttämällä näytteitä $P$:sta.

Katsotaanpa ensin odotuksia. Naiivi lähestymistapa on käyttää Monte Carlo -estimaattoria: suorita paras-$n$ -näytteenotto monta kertaa, mittaa näiden näytteiden todellinen tavoite ja keskiarvo tuloksista. On kuitenkin olemassa parempi estimaattori. Jos meillä on $Ngeq n$ näytteitä $P$:sta kaiken kaikkiaan, voimme samanaikaisesti harkita kaikki mahdolliset osajoukot Näistä $n$-kokoisista näytteistä painotetaan kukin näyte niiden osajoukkojen lukumäärällä, joille se on paras välitystavoitteen mukaan, ja ota sitten painotettu keskimääräinen todellinen tavoitepistemäärä. Tämä paino on vain binomikerroin $binom{k-1}{n-1}$, jossa $k$ on otoksen sijoitus välityspalvelimen tavoitteen alaisuudessa $1$ (pahin) ja $N$ (paras) välillä. Sen lisäksi, että käytämme näytteitä tehokkaammin, tämä antaa meille myös mahdollisuuden käyttää näytteitä uudelleen eri arvoille $n$.

Mitä tulee KL-hajaantumiseen, yllättäen tällä osoittautuu olevan tarkka kaava, joka toimii millä tahansa jatkuvalla todennäköisyysjakaumalla $P$ (eli niin kauan kuin $P$:lla ei ole pistemassaa). Voisi naiivisti arvata, että vastaus on $log n$, koska paras $n$ tekee jotain, kuten ottaa jakauman ylimmän $frac 1n$, ja tämä on suurin piirtein oikein: tarkka vastaus on $log n-frac{n-1}n$.

Yhdessä näiden arvioijien avulla voimme helposti analysoida, kuinka todellinen tavoite vaihtelee välitavoitteeseen käytetyn optimoinnin määrän mukaan.

Tässä esimerkki tosielämästä WebGPT:

WebGPT 175B:n paras suorituskyky $n$:sta

WebGPT:n paras suorituskyky $n$:sta, varjostetut alueet edustavat $pm 1$ standardivirhettä ja KL-akseli neliöjuuren asteikkoa noudattaen. Tässä alkuperäinen jakauma ($P$) on 175B-mallilla, joka on opetettu käyttäytymiskloonauksella, välityspalvelintavoite, jota käytetään parhaan $n$:n ($R_{text{proxy}}$) laskemiseen, on annettu koulutuksella. palkitsemismalli, ja harkitsemme kolmea oletettavasti "oikeaa" tavoitetta ($R_{text{true}}$): itse koulutuspalkkiomalli, pidennetyn datan perusteella koulutettu validointipalkkiomalli ja todelliset ihmisten mieltymykset. Välityspalvelintavoitteessa ei ole paljon ylioptimointia, mutta odotamme sen olevan korkeammilla KL:illä.

Ylittää parhaan $n$ -näytteenoton

Best-of-$n$ -näytteenoton päärajoitus on, että KL-divergentti kasvaa logaritmisesti $n$:n kanssa, joten se soveltuu vain pienen määrän optimointiin.

Optimoinnin lisäämiseksi käytämme yleensä vahvistusoppimista. Tähän mennessä tutkimissamme asetuksissa, kuten yhteenveto, olemme yleensä saavuttaneet noin 10 KL:n NAT käyttämällä vahvistusoppimista ennen kuin todellinen tavoite alkaa laskea Goodhartin lain vuoksi. Meidän pitäisi ottaa $n $ ollakseen noin 60,000 XNUMX saavuttaaksemme tämän KL:n käyttämällä paras-$n$, ja toivomme voivamme saavuttaa tätä paljon suurempia KL:itä parantamalla palkitsemismallinnus- ja vahvistamisoppimiskäytäntöjämme.

Kaikki natsit eivät kuitenkaan ole samanarvoisia. Empiirisesti pienillä KL-budjeteilla paras-n-$ optimoi sekä välityspalvelimen että todelliset tavoitteet paremmin kuin vahvistusoppiminen. Intuitiivisesti paras-of-$n$ on "raaka voima" -lähestymistapa, mikä tekee siitä informaatioteoreettisesti tehokkaamman kuin vahvistusoppimisen, mutta laskennallisesti vähemmän tehokkaan suurissa KL:issä.

Tutkimme aktiivisesti välityspalvelintavoitteiden skaalausominaisuuksia osana työtämme kohdista mallejamme inhimillisillä tarkoituksilla ja arvoilla. Jos haluat auttaa meitä tässä tutkimuksessa, olemme vuokraamalla!

Aikaleima: Huhtikuu 13, 2022Heinäkuu 24, 2022