Pomiar prawa Goodharta

Węzeł źródłowy: 1590955

Prawo Goodharta słynne powiedzenie: „Kiedy miara staje się celem, przestaje być dobrą miarą”. Chociaż pochodzi z ekonomii, jest to coś, z czym musimy się zmierzyć w OpenAI, gdy zastanawiamy się, jak zoptymalizować cele, które są trudne lub kosztowne do zmierzenia. Często konieczne jest wprowadzenie niektórych cel zastępczy jest to łatwiejsze lub tańsze do zmierzenia, ale kiedy to robimy, musimy uważać, aby nie zoptymalizować go zbytnio.

Na przykład w ramach naszej pracy, aby wyrównać modele takie jak GPT-3 z ludzkimi intencjami i wartościami, chcielibyśmy zoptymalizować takie rzeczy jak „Jak pomocny czy to jest odpowiedź?” lub „Jak merytorycznie dokładna czy to jest twierdzenie?”. Są to złożone cele, które wymagają od ludzi dokładnego sprawdzenia wszystkiego. Z tego powodu szkolimy model do przewidywania tych ludzkich preferencji, znany jako model nagrodyi użyj prognoz modelu nagrody jako celu zastępczego. Ale ważne jest, aby śledzić, jak dobrze jest zoptymalizowany prawdziwy cel.

W tym poście przyjrzymy się niektórym matematyce stojącej za tym, jak to robimy. Skoncentrujemy się na ustawieniu, które jest szczególnie przejrzyste do analizy, w którym mamy dostęp do prawdziwego celu. W praktyce nawet ludzkie preferencje mogą nie mierzyć tego, na czym naprawdę nam zależy, ale w tym poście odkładamy tę kwestię na bok.

Próbkowanie Best-of-$n$

Istnieje wiele sposobów optymalizacji celu proxy, ale być może najprostszym jest: próbkowanie najlepszych $n$, znany również jako próbkowanie odrzucenia or zmiana rankingu. Po prostu próbkujemy $n$ razy i bierzemy ten, który ma najwyższy wynik zgodnie z celem zastępczym.

Chociaż ta metoda jest bardzo prosta, może w rzeczywistości konkurować z bardziej zaawansowanymi technikami, takimi jak uczenie ze wzmocnieniem, aczkolwiek kosztem większej liczby obliczeń w czasie wnioskowania. Na przykład w WebGPT, nasz model „najlepszy w cenie 64 USD” przewyższał nasz model uczenia się przez wzmacnianie, być może po części dlatego, że model „najlepszy w cenie 64 USD” mógł przeglądać znacznie więcej witryn. Nawet zastosowanie najlepszych z 4 dolarów zapewniło znaczny wzrost ludzkich preferencji.

Ponadto próbkowanie typu best-of-n$ zapewnia niezawodne działanie i jest łatwe do analizy matematycznej, co czyni je dobrze dopasowanymi do empirycznych badań prawa Goodharta i powiązanych zjawisk.

Matematyka próbkowania best-of-$n$

Przyjrzyjmy się próbkowaniu best-of-n$ w bardziej formalny sposób. Załóżmy, że mamy pewną przestrzeń próbną $S$ (taką jak zbiór możliwych par pytanie-odpowiedź), pewien rozkład prawdopodobieństwa $P$ nad $S$, prawdziwy cel (lub „nagroda”) $R_{text{true}}:Stomathbb R$, i cel zastępczy $R_{tekst{proxy}}:Stomathbb R$. Załóżmy, że w jakiś sposób optymalizujemy $R_{text{proxy}}$ i uzyskujemy w ten sposób nową dystrybucję $P^pierwszy$. Następnie:

  • Oczekiwanie $mathbb E_{x^primesim P^prime}left[R_{text{true}}left(x^primeright)right]$ mierzy, jak dobrze zoptymalizowaliśmy prawdziwy cel.
  • Połączenia Dywergencja KL $D_{text{KL}}left(P^primeparallel Pright)$ mierzy ile dokonaliśmy optymalizacji. Na przykład, jeśli $P^prime$ jest uzyskiwane przez pobranie pierwszej próbki z $P$, która leży w jakimś podzbiorze $S^pierwszapodzbiórq S$, wtedy ta dywergencja KL jest po prostu ujemnym logarytmem prawdopodobieństwa, że ​​próbka z $P$ leży w $S^prime$.

Okazuje się, że w przypadku próbkowania typu best-of-n$, obie te wielkości można skutecznie oszacować na próbkach z $P$.

Przyjrzyjmy się najpierw oczekiwaniom. Naiwnym podejściem jest użycie estymatora Monte Carlo: przeprowadzanie próbkowania typu best-of-n$ wiele razy, mierzenie prawdziwego celu na tych próbach i uśrednianie wyników. Istnieje jednak lepszy estymator. Jeśli mamy próbki $Ngeq n$ z całości $P$, to możemy jednocześnie rozważyć każdy możliwy podzbiór tych próbek o rozmiarze $n$, zważ każdą próbkę liczbą podzbiorów, dla których jest najlepsza, zgodnie z celem zastępczym, a następnie weź średni ważony wynik rzeczywistego celu. Ta waga to tylko współczynnik dwumianowy $binom{k-1}{n-1}$, gdzie $k$ to pozycja próby w ramach celu zastępczego, od $1$ (najgorszy) do $N$ (najlepszy). Oprócz wydajniejszego korzystania z próbek, pozwala to również na ponowne wykorzystanie próbek dla różnych wartości $n$.

Co do dywergencji KL, co zaskakujące, okazuje się, że ma dokładną formułę, która działa dla dowolnego ciągłego rozkładu prawdopodobieństwa $P$ (tj. dopóki $P$ nie ma mas punktowych). Można naiwnie zgadywać, że odpowiedź brzmi: $log n$, ponieważ best-of-$n$ robi coś w rodzaju wzięcia górnego $frac 1n$ rozkładu, i jest to z grubsza poprawne: dokładna odpowiedź to $log n-frac{n-1}n$.

Razem te estymatory pozwalają nam łatwo analizować, jak prawdziwy cel zmienia się wraz z ilością optymalizacji zastosowanej do celu zastępczego.

Oto przykład z życia WebGPT:

Najlepsza wydajność za n$ dla WebGPT 175B

Najlepsza w $n$ wydajność dla WebGPT, z zacienionymi regionami reprezentującymi standardowy błąd $pm 1$, a oś KL jest zgodna ze skalą pierwiastka kwadratowego. Tutaj oryginalna dystrybucja ($ P $) jest podana przez model 175B wytrenowany przy użyciu klonowania zachowań, cel proxy używany do obliczenia najlepszego z $ n $ ($ R_{text{proxy}} $) jest podany przez szkolenie model nagrody i rozważamy trzy przypuszczalnie „prawdziwe” cele ($R_{text{true}}$): sam model nagrody szkoleniowej, model nagrody w walidacji wyszkolony na przechowywanych danych i rzeczywiste preferencje ludzkie. Nie ma zbyt dużej optymalizacji celu proxy, ale spodziewalibyśmy się, że będzie przy wyższych KLs.

Wykraczając poza próbkowanie best-of-$n$

Głównym ograniczeniem próbkowania typu best-of-$n$ jest to, że rozbieżność KL rośnie logarytmicznie z $n$, więc nadaje się tylko do zastosowania niewielkiej ilości optymalizacji.

Aby zastosować większą optymalizację, zwykle używamy uczenia ze wzmacnianiem. W ustawieniach, które badaliśmy do tej pory, takich jak podsumowanie, zazwyczaj byliśmy w stanie osiągnąć KL około 10 naty używanie uczenia się przez wzmacnianie, zanim prawdziwy cel zacznie się zmniejszać z powodu prawa Goodharta. Musielibyśmy wziąć $n $, aby osiągnąć około 60,000 XNUMX, aby osiągnąć ten KL za pomocą najlepsze z $n$, i mamy nadzieję, że będziemy w stanie dotrzeć do znacznie większych klas KL, dzięki ulepszeniom naszego modelowania nagród i praktyk uczenia się przez wzmacnianie.

Jednak nie wszystkie narody są równe. Empirycznie, dla małych budżetów KL, best-of-$n$ lepiej optymalizuje zarówno proxy, jak i prawdziwe cele niż uczenie ze wzmacnianiem. Intuicyjnie, najlepsze z $n$ jest podejściem „brutalnej siły”, co czyni je bardziej wydajnym informacyjnie niż uczenie się przez wzmacnianie, ale mniej wydajnym obliczeniowo w dużych KL.

Aktywnie badamy właściwości skalowania celów proxy w ramach naszej pracy, aby wyrównać nasze modele z ludzkimi intencjami i wartościami. Jeśli chcesz nam pomóc w tych badaniach, jesteśmy wynajmowanie!

Znak czasu:

Więcej z OpenAI