グッドハートの法則の測定

プラトン再発行

フォロワー： 0

グッドハートの法則有名な言葉：「メジャーがターゲットになると、それは良いメジャーではなくなります。」もともとは経済学からのものですが、測定が困難またはコストのかかる目標を最適化する方法を理解する際に、OpenAIで取り組む必要があるものです。多くの場合、いくつかを紹介する必要があります プロキシの目的 これは測定が簡単または安価ですが、これを行うときは、最適化しすぎないように注意する必要があります。

たとえば、私たちの仕事の一環として整列する人間の意図と価値観を備えたGPT-3のようなモデルでは、「どのように役立つこの応答は何ですか？」または「どのように事実上正確この主張ですか？」これらは複雑な目的であり、人間が注意深く物事をチェックする必要があります。このため、これらの人間の好みを予測するためのモデルをトレーニングします。 報酬モデル、および報酬モデルの予測を代理目的として使用します。ただし、真の目標がどの程度最適化されているかを追跡することが重要です。

この投稿では、これを行う方法の背後にある数学のいくつかを見ていきます。真の目的にアクセスできる、分析が特にクリーンな設定に焦点を当てます。実際には、人間の好みでさえ、私たちが本当に気にかけていることを測定できない可能性がありますが、この投稿ではその問題を脇に置いています。

最高の$n$サンプリング

プロキシの目的を最適化する方法はたくさんありますが、おそらく最も簡単な方法は 最高の$n$サンプリング、としても知られている 棄却サンプリング or 再ランク付け。 $ n $回サンプリングし、プロキシの目的に応じてスコアが最も高いものを取得します。

この方法は非常に単純ですが、推論時間の計算が増えるという犠牲を払ってでも、強化学習などのより高度な手法と実際に競合する可能性があります。たとえば、 WebGPT、私たちの最高の$ 64 $モデルは、強化学習モデルを上回りました。これはおそらく、最高の$64$モデルがより多くのWebサイトを閲覧できるようになったためです。最高の4ドルを適用することでさえ、人間の好みを大幅に後押ししました。

さらに、最高の$ n $サンプリングは信頼性の高いパフォーマンスを備えており、数学的に分析するのが簡単であるため、グッドハートの法則および関連する現象の実証的研究に最適です。

最高の$n$サンプリングの数学

最高の$n$サンプリングをより正式に研究しましょう。いくつかのサンプル空間$S$（可能な質問と回答のペアのセットなど）、いくつかの確率分布$P$があるとします。 $ S $、真の目的（または「報酬」） $ R_ {text {true}}：Stomathbb R $、および代理目的 $ R_ {text {proxy}}：StomathbbR$。どういうわけか$R_{text {proxy}} $を最適化し、それによって新しいディストリビューションを取得するとします。 $ P ^prime$。その後：

期待値$mathbbE_ {x ^ primesim P ^ prime} left [R_ {text {true}} left（x ^ primeright）right] $は、真の目的をどれだけ最適化したかを測定します。
　 KLダイバージェンス $ D_ {text {KL}} left（P ^ primeparallel Pright）$は、実行した最適化の量を測定します。たとえば、$ P ^ prime $が、あるサブセットにある$P$から最初のサンプルを取得することによって取得された場合 $ S ^ primesubseteq S $、この場合、このKL発散は、$P$からのサンプルが$S^prime$にあるという負の対数確率にすぎません。

最高の$n$サンプリングの場合、$ P $からのサンプルを使用して、これらの量の両方を効率的に推定できることがわかります。

最初に期待を見てみましょう。素朴なアプローチは、モンテカルロ推定量を使用することです。$ n $の最良のサンプリングを何度も実行し、それらのサンプルの真の目的を測定し、結果を平均します。ただし、より適切な推定量があります。全体的に$P$から$Ngeqn $のサンプルがある場合、同時に検討することができます 可能なすべてのサブセット サイズが$n$のこれらのサンプルのうち、プロキシの目的に応じて最適なサブセットの数で各サンプルに重みを付け、加重平均の真の目的スコアを取得します。この重みは単なる二項係数です $ binom {k-1} {n-1} $、ここで、$ k $は、プロキシ目標の下でのサンプルのランクであり、$ 1 $（最低）から$ N $（最高）までです。サンプルをより効率的に使用するだけでなく、これにより、$n$のさまざまな値のサンプルを再利用することもできます。

KL発散に関しては、驚くべきことに、これは、任意の連続確率分布$ P $に対して機能する正確な式を持っていることがわかります（つまり、$ P $に点質量がない限り）。答えは素朴に推測するかもしれません $ log n $、 best-of- $ n $は、ディストリビューションの上位$ frac 1n $を取るようなことをしているので、これは大まかに正しいです。正確な答えは次のとおりです。 $ log n-frac {n-1}n$。

これらの推定量を組み合わせることで、プロキシの目的に適用される最適化の量によって真の目的がどのように変化するかを簡単に分析できます。

これが実際の例です WebGPT:

WebGPT175Bの最高の$n$パフォーマンス

WebGPTの最高の$n$パフォーマンス。影付きの領域は、$ pm 1 $の標準誤差を表し、KL軸は平方根スケールに従います。ここで、元の分布（$ P $）は、動作の複製を使用してトレーニングされた175Bモデルによって与えられ、ベストオブ$ n $（$ R_ {text {proxy}} $）の計算に使用されるプロキシの目的はトレーニングによって与えられます。報酬モデルであり、XNUMXつの推定上の「真の」目的（$ R_ {text {true}} $）を検討します。トレーニング報酬モデル自体、保持されたデータでトレーニングされた検証報酬モデル、および実際の人間の好みです。プロキシの目的が過度に最適化されることはあまりありませんが、KLが高くなると予想されます。

最高の$n$サンプリングを超えて

ベストオブ$n$サンプリングの主な制限は、KL発散が$ n $で対数的に増加することです。したがって、少量の最適化を適用する場合にのみ適しています。

より多くの最適化を適用するために、通常、強化学習を使用します。これまでに調査した設定では、要約、通常、約10のKLに到達することができましたナッツグッドハートの法則により、真の目的が減少し始める前に強化学習を使用します。このKLに到達するには、$n$を約60,000にする必要があります。最高の$n$、また、報酬モデリングと強化学習の実践を改善することで、これよりもはるかに大きなKLに到達できることを望んでいます。

ただし、すべてのnatが等しいわけではありません。経験的に、KLの予算が少ない場合、最良の$ n $は、強化学習よりもプロキシと真の目的の両方をより適切に最適化します。直感的には、$ n $のベストは「力ずくの」アプローチであり、強化学習よりも情報理論的に効率的ですが、大きなKLでは計算効率が低くなります。

私たちは、次の作業の一環として、プロキシ目標のスケーリングプロパティを積極的に研究しています。整列する人間の意図と価値観を持った私たちのモデル。あなたがこの研究で私たちを助けたいのなら、私たちは雇用!

タイムスタンプ： 2022 年 4 月 13 日２０２２年７月１１日