Messung des Goodhartschen Gesetzes

Neuauflage von Plato

Verfolger: 0

Goodharts Gesetz Bekanntermaßen heißt es: „Wenn eine Maßnahme zum Ziel wird, hört sie auf, eine gute Maßnahme zu sein.“ Obwohl es ursprünglich aus den Wirtschaftswissenschaften stammt, müssen wir uns bei OpenAI damit auseinandersetzen, wenn wir herausfinden, wie wir Ziele optimieren können, die schwer oder kostspielig zu messen sind. Es ist oft notwendig, einige vorzustellen Proxy-Ziel Das ist einfacher oder billiger zu messen, aber wenn wir das tun, müssen wir darauf achten, es nicht zu sehr zu optimieren.

Beispielsweise im Rahmen unserer Arbeit an ausrichten Modelle wie GPT-3 mit menschlichen Absichten und Werten möchten wir Dinge wie „Wie hilfreich Ist das die Antwort?“ oder „Wie?“ sachlich richtig ist das eine Behauptung?“ Dabei handelt es sich um komplexe Ziele, die eine sorgfältige Prüfung durch den Menschen erfordern. Aus diesem Grund trainieren wir ein Modell zur Vorhersage dieser menschlichen Präferenzen, bekannt als a Belohnungsmodellund verwenden Sie die Vorhersagen des Belohnungsmodells als Proxy-Ziel. Es ist jedoch wichtig, den Überblick darüber zu behalten, wie gut das eigentliche Ziel optimiert wird.

In diesem Beitrag werden wir uns einige der mathematischen Grundlagen ansehen, die hinter unserer Vorgehensweise stehen. Wir konzentrieren uns auf eine Umgebung, die besonders sauber zu analysieren ist und in der wir Zugang zum wahren Ziel haben. In der Praxis können sogar menschliche Vorlieben nicht ausreichen, um zu messen, was uns wirklich wichtig ist, aber wir lassen dieses Problem in diesem Beitrag beiseite.

Best-of-$n$-Sampling

Es gibt viele Möglichkeiten, das Proxy-Ziel zu optimieren, aber vielleicht ist es die einfachste Best-of-$n$-Sampling, auch bekannt als Ablehnungsabtastung or Neuordnung. Wir nehmen einfach $n$-Proben und nehmen diejenige, die gemäß dem Proxy-Ziel die höchste Punktzahl erzielt.

Obwohl diese Methode sehr einfach ist, kann sie tatsächlich mit fortgeschritteneren Techniken wie Reinforcement Learning konkurrenzfähig sein, allerdings auf Kosten einer höheren Inferenzzeitberechnung. Zum Beispiel in WebGPTUnser Best-of-64-Dollar-Modell übertraf unser Reinforcement-Learning-Modell, vielleicht zum Teil, weil das Best-of-64-Dollar-Modell viel mehr Websites durchsuchen konnte. Selbst die Anwendung von „Best-of-4$“ steigerte die menschlichen Vorlieben deutlich.

Darüber hinaus bietet die Best-of-$n$-Stichprobe eine zuverlässige Leistung und ist einfach mathematisch zu analysieren, sodass sie sich gut für empirische Studien des Goodhart-Gesetzes und verwandter Phänomene eignet.

Die Mathematik des Best-of-$n$-Samplings

Lassen Sie uns das Best-of-$n$-Sampling genauer untersuchen. Angenommen, wir haben einen Beispielraum $S$ (z. B. die Menge möglicher Frage-Antwort-Paare) und eine Wahrscheinlichkeitsverteilung $P$ darüber $S$, ein wahres Ziel (oder „Belohnung“) $R_{text{true}}:Stomathbb R$, und ein Proxy-Ziel $R_{text{proxy}}:Stomathbb R$. Nehmen wir an, wir optimieren irgendwie $R_{text{proxy}}$ und erhalten dadurch eine neue Verteilung $P^prim$. Dann:

Die Erwartung $mathbb E_{x^primesim P^prime}left[R_{text{true}}left(x^primeright)right]$ misst, wie gut wir das wahre Ziel optimiert haben.
Das KL-Divergenz $D_{text{KL}}left(P^primeparallel Pright)$ misst, wie viel Optimierung wir vorgenommen haben. Wenn beispielsweise $P^prime$ erhalten wird, indem die erste Stichprobe von $P$ entnommen wird, die in einer Teilmenge liegt $S^primesubseteq S$, dann ist diese KL-Divergenz nur die negative logarithmische Wahrscheinlichkeit, dass eine Stichprobe aus $P$ in $S^prime$ liegt.

Es stellt sich heraus, dass im Fall der Best-of-$n$-Stichprobe beide Größen mithilfe von Stichproben aus $P$ effizient geschätzt werden können.

Schauen wir uns zunächst die Erwartung an. Der naive Ansatz besteht darin, einen Monte-Carlo-Schätzer zu verwenden: Best-of-n$-Stichproben mehrmals durchführen, das wahre Ziel an diesen Stichproben messen und die Ergebnisse mitteln. Es gibt jedoch einen besseren Schätzer. Wenn wir insgesamt $Ngeq n$ Stichproben von $P$ haben, können wir gleichzeitig berücksichtigen jede mögliche Teilmenge Gewichten Sie von diesen Stichproben der Größe $n$ jede Stichprobe mit der Anzahl der Teilmengen, für die sie gemäß dem Proxy-Ziel am besten ist, und ermitteln Sie dann den gewichteten Durchschnitt der wahren Zielbewertung. Dieses Gewicht ist nur der Binomialkoeffizient $binom{k-1}{n-1}$, Dabei ist $k$ der Rang der Stichprobe unter dem Proxy-Ziel, von $1$ (am schlechtesten) bis $N$ (am besten). Dies ermöglicht uns nicht nur eine effizientere Verwendung von Stichproben, sondern auch die Wiederverwendung von Stichproben für verschiedene Werte von $n$.

Überraschenderweise stellt sich heraus, dass es für die KL-Divergenz eine exakte Formel gibt, die für jede kontinuierliche Wahrscheinlichkeitsverteilung $P$ funktioniert (dh solange $P$ keine Punktmassen hat). Man könnte naiverweise vermuten, dass die Antwort lautet $log n$, da Best-of-$n$ so etwas wie das Nehmen des obersten $frac 1n$ der Verteilung bedeutet, und das ist ungefähr richtig: Die genaue Antwort lautet $log n-frac{n-1}n$.

Zusammen ermöglichen uns diese Schätzer eine einfache Analyse, wie sich das wahre Ziel mit dem Umfang der auf das Proxy-Ziel angewendeten Optimierung ändert.

Hier ist ein Beispiel aus dem wirklichen Leben WebGPT:

Best-of-$n$-Leistung für WebGPT 175B

Best-of-$n$-Leistung für WebGPT, wobei schattierte Bereiche einen Standardfehler von $pm 1$ darstellen und die KL-Achse einer Quadratwurzelskala folgt. Hier wird die ursprüngliche Verteilung ($P$) durch das 175B-Modell gegeben, das durch Verhaltensklonen trainiert wurde, das Proxy-Ziel, das zur Berechnung von Best-of-$n$ ($R_{text{proxy}}$) verwendet wird, wird durch das Training gegeben Belohnungsmodell, und wir betrachten drei vermeintlich „wahre“ Ziele ($R_{text{true}}$): das Trainingsbelohnungsmodell selbst, ein Validierungsbelohnungsmodell, das auf zurückgehaltenen Daten trainiert wird, und tatsächliche menschliche Vorlieben. Es gibt keine große Überoptimierung des Proxy-Ziels, aber wir würden davon ausgehen, dass es bei höheren KLs zu einer Überoptimierung kommen wird.

Gehen Sie über das Best-of-$n$-Sampling hinaus

Die Haupteinschränkung der Best-of-$n$-Stichprobe besteht darin, dass die KL-Divergenz logarithmisch mit $n$ wächst, sodass sie nur für die Anwendung eines geringen Optimierungsumfangs geeignet ist.

Um eine weitere Optimierung vorzunehmen, verwenden wir normalerweise Reinforcement Learning. In den Einstellungen, die wir bisher untersucht haben, wie z ZusammenfassungNormalerweise konnten wir einen KL von etwa 10 erreichen Nats Verwenden von Verstärkungslernen, bevor das wahre Ziel aufgrund des Goodhart-Gesetzes zu sinken beginnt. Wir müssten etwa 60,000 $n$ annehmen, um diesen KL zu erreichen Best-of-$n$, und wir hoffen, durch Verbesserungen unserer Belohnungsmodellierung und Verstärkungslernpraktiken viel größere KLs als diese erreichen zu können.

Allerdings sind nicht alle Nats gleich. Empirisch gesehen optimiert Best-of-$n$ bei kleinen KL-Budgets sowohl den Proxy als auch die wahren Ziele besser als Reinforcement Learning. Intuitiv ist Best-of-$n$ der „Brute-Force“-Ansatz, der ihn informationstheoretisch effizienter macht als Reinforcement Learning, aber bei großen KLs weniger recheneffizient.

Im Rahmen unserer Arbeit untersuchen wir aktiv die Skalierungseigenschaften von Proxy-Zielen ausrichten unsere Modelle mit menschlichen Absichten und Werten. Wenn Sie uns bei dieser Recherche helfen möchten, sind wir gerne bereit Verleih!

Zeitstempel: 13. April 202224. Juli 2022