Midiendo la Ley de Goodhart

Nodo de origen: 1590955

La ley de Goodhart famoso dicho: “Cuando una medida se convierte en un objetivo, deja de ser una buena medida”. Aunque originario de la economía, es algo con lo que tenemos que lidiar en OpenAI al descubrir cómo optimizar objetivos que son difíciles o costosos de medir. A menudo es necesario introducir algunos objetivo proxy eso es más fácil o más barato de medir, pero cuando hacemos esto, debemos tener cuidado de no optimizarlo demasiado.

Por ejemplo, como parte de nuestro trabajo para alinear modelos como GPT-3 con intenciones y valores humanos, nos gustaría optimizar cosas como "¿Cómo serviciales es esta respuesta?", o "¿Cómo objetivamente exacto ¿Es esta la afirmación?”. Estos son objetivos complejos que requieren que los humanos revisen cuidadosamente las cosas. Por esta razón, entrenamos un modelo para predecir estas preferencias humanas, conocido como modelo de recompensay use las predicciones del modelo de recompensa como un objetivo proxy. Pero es importante hacer un seguimiento de qué tan bien se está optimizando el verdadero objetivo.

En esta publicación, veremos algunas de las matemáticas detrás de cómo hacemos esto. Nos centraremos en un escenario particularmente limpio de analizar, en el que tenemos acceso al verdadero objetivo. En la práctica, incluso las preferencias humanas pueden fallar en medir lo que realmente nos importa, pero vamos a dejar ese problema a un lado en esta publicación.

Muestreo al mejor de $n$

Hay muchas formas en las que se puede optimizar el objetivo del proxy, pero quizás la más simple es muestreo de lo mejor de $n$, también conocido como muestreo de rechazo or reclasificando. Simplemente muestreamos $n$ veces y tomamos la que obtenga la puntuación más alta de acuerdo con el objetivo del proxy.

Aunque este método es muy simple, en realidad puede ser competitivo con técnicas más avanzadas como el aprendizaje por refuerzo, aunque a costa de más cómputo de tiempo de inferencia. por ejemplo, en WebGPT, nuestro mejor modelo de $64$ superó a nuestro modelo de aprendizaje por refuerzo, quizás en parte porque el modelo mejor de $64$ permitió navegar por muchos más sitios web. Incluso aplicar lo mejor de $ 4 $ proporcionó un impulso significativo a las preferencias humanas.

Además, el muestreo de lo mejor de $n$ tiene un rendimiento confiable y es fácil de analizar matemáticamente, lo que lo hace muy adecuado para estudios empíricos de la ley de Goodhart y fenómenos relacionados.

Las matemáticas del muestreo al mejor de $n$

Estudiemos el muestreo al mejor de $n$ más formalmente. Supongamos que tenemos algún espacio muestral $S$ (como el conjunto de posibles pares pregunta-respuesta), alguna distribución de probabilidad $P$ sobre $S$, un verdadero objetivo (o "recompensa") $R_{texto{verdadero}}:Stomathbb R$, y un objetivo proxy $R_{texto{proxy}}:Stomathbb R$. Digamos que de alguna manera optimizamos $R_{text{proxy}}$ y por lo tanto obtenemos una nueva distribución $P^principal$. Entonces:

  • La expectativa $mathbb E_{x^primesim P^prime}left[R_{text{true}}left(x^primeright)right]$ mide qué tan bien hemos optimizado el verdadero objetivo.
  • El KL divergencia $D_{text{KL}}left(P^primeparallel Pright)$ mide cuánta optimización hemos hecho. Por ejemplo, si $P^prime$ se obtiene tomando la primera muestra de $P$ que se encuentra en algún subconjunto $S^principalsubconjuntoq S$, entonces esta divergencia KL es solo la probabilidad logarítmica negativa de que una muestra de $P$ se encuentre en $S^prime$.

Resulta que en el caso del mejor muestreo de $n$, ambas cantidades se pueden estimar de manera eficiente utilizando muestras de $P$.

Veamos primero la expectativa. El enfoque ingenuo es usar un estimador de Monte Carlo: ejecutar el mejor de $ n $ muestreo muchas veces, medir el verdadero objetivo en esas muestras y promediar los resultados. Sin embargo, hay un mejor estimador. Si tenemos $Ngeq n$ muestras de $P$ en general, entonces podemos considerar simultáneamente cada subconjunto posible de estas muestras de tamaño $n$, pondere cada muestra por el número de subconjuntos para los cuales es la mejor de acuerdo con el objetivo proxy, y luego tome la puntuación del objetivo verdadero promedio ponderado. Este peso es solo el coeficiente binomial $binom{k-1}{n-1}$, donde $k$ es el rango de la muestra bajo el objetivo proxy, desde $1$ (peor) hasta $N$ (mejor). Además de usar muestras de manera más eficiente, esto también nos permite reutilizar muestras para diferentes valores de $n$.

En cuanto a la divergencia KL, sorprendentemente, resulta tener una fórmula exacta que funciona para cualquier distribución de probabilidad continua $P$ (es decir, siempre que $P$ no tenga masas puntuales). Uno podría ingenuamente adivinar que la respuesta es $registro n$, ya que lo mejor de $n$ está haciendo algo como tomar el $frac 1n$ superior de la distribución, y esto es más o menos correcto: la respuesta exacta es $log n-frac{n-1}n$.

Juntos, estos estimadores nos permiten analizar fácilmente cómo varía el verdadero objetivo con la cantidad de optimización aplicada al objetivo proxy.

He aquí un ejemplo de la vida real de WebGPT:

El mejor rendimiento de $n$ para WebGPT 175B

El mejor rendimiento de $n$ para WebGPT, con regiones sombreadas que representan el error estándar $pm 1$ y el eje KL siguiendo una escala de raíz cuadrada. Aquí, la distribución original ($P$) viene dada por el modelo 175B entrenado usando la clonación de comportamiento, el objetivo proxy usado para calcular lo mejor de $n$ ($R_{text{proxy}}$) viene dado por el entrenamiento modelo de recompensa, y consideramos tres objetivos supuestamente "verdaderos" ($R_{text{true}}$): el modelo de recompensa de entrenamiento en sí mismo, un modelo de recompensa de validación entrenado en datos retenidos y preferencias humanas reales. No hay mucha sobreoptimización del objetivo del proxy, pero esperaríamos que haya KL más altos.

Más allá del muestreo de lo mejor de $n$

La principal limitación del muestreo de lo mejor de $n$ es que la divergencia KL crece logarítmicamente con $n$, por lo que solo es adecuado para aplicar una pequeña cantidad de optimización.

Para aplicar más optimización, normalmente usamos el aprendizaje por refuerzo. En los escenarios que hemos estudiado hasta ahora, como resumen, normalmente hemos podido alcanzar un KL de alrededor de 10 nats utilizando el aprendizaje por refuerzo antes de que el verdadero objetivo comience a disminuir debido a la ley de Goodhart. Tendríamos que tomar $n$ para estar alrededor de 60,000 para alcanzar este KL usando lo mejor de $n$, y esperamos poder alcanzar KL mucho más grandes que esto con mejoras en nuestro modelado de recompensas y prácticas de aprendizaje por refuerzo.

Sin embargo, no todos los nacionales son iguales. Empíricamente, para presupuestos KL pequeños, lo mejor de $ n $ optimiza mejor tanto el proxy como los objetivos reales que el aprendizaje por refuerzo. Intuitivamente, lo mejor de $ n $ es el enfoque de "fuerza bruta", lo que lo hace más eficiente desde el punto de vista teórico de la información que el aprendizaje por refuerzo, pero menos eficiente computacionalmente en KL grandes.

Estamos estudiando activamente las propiedades de escala de los objetivos proxy como parte de nuestro trabajo para alinear nuestros modelos con intenciones y valores humanos. Si desea ayudarnos con esta investigación, estamos contratación!

Sello de tiempo:

Mas de OpenAI