اندازه گیری قانون گودهارت

گره منبع: 1590955

قانون گودارت معروف می‌گوید: «هنگامی که میزانی هدف شود، دیگر معیار خوبی نیست». اگرچه اصالتاً مربوط به اقتصاد است، اما باید در OpenAI با آن دست و پنجه نرم کنیم تا بفهمیم چگونه اهدافی را که اندازه‌گیری آنها دشوار یا پرهزینه است، بهینه کنیم. اغلب لازم است تعدادی را معرفی کنیم هدف پروکسی اندازه‌گیری آسان‌تر یا ارزان‌تر است، اما وقتی این کار را انجام می‌دهیم، باید مراقب باشیم که آن را بیش از حد بهینه نکنیم.

به عنوان مثال، به عنوان بخشی از کار ما به تراز مدل‌هایی مانند GPT-3 با هدف و ارزش‌های انسانی، ما می‌خواهیم مواردی مانند «چگونه مفید این پاسخ است؟»، یا «چطور از نظر واقعی آیا این ادعاست؟». اینها اهداف پیچیده ای هستند که انسان را ملزم می کند تا به دقت همه چیز را بررسی کند. به همین دلیل، ما مدلی را برای پیش‌بینی این ترجیحات انسانی آموزش می‌دهیم که به نام a مدل پاداش، و از پیش بینی های مدل پاداش به عنوان یک هدف پراکسی استفاده کنید. اما پیگیری میزان بهینه سازی هدف واقعی بسیار مهم است.

در این پست به برخی از ریاضیات پشت سر این کار خواهیم پرداخت. ما بر روی تنظیماتی تمرکز خواهیم کرد که برای تجزیه و تحلیل تمیز است و در آن به هدف واقعی دسترسی داریم. در عمل، حتی ترجیحات انسانی ممکن است نتواند آنچه را که واقعاً به آن اهمیت می‌دهیم اندازه‌گیری کند، اما ما این موضوع را در این پست کنار می‌گذاریم.

بهترین نمونه گیری از $n$

راه های زیادی وجود دارد که از طریق آنها می توان هدف پراکسی را بهینه کرد، اما شاید ساده ترین آنها باشد بهترین نمونه گیری از $n$، همچنین به عنوان شناخته شده است نمونه گیری رد or رتبه بندی مجدد. ما به سادگی $n$ بار نمونه برداری می کنیم و با توجه به هدف پراکسی، آن را انتخاب می کنیم که بالاترین امتیاز را کسب کند.

اگرچه این روش بسیار ساده است، اما در واقع می تواند با تکنیک های پیشرفته تری مانند یادگیری تقویتی رقابت کند، البته به قیمت محاسبه زمان استنتاج بیشتر. به عنوان مثال، در WebGPT، بهترین مدل 64 دلاری ما بهتر از مدل یادگیری تقویتی ما بود، شاید تا حدی به این دلیل که بهترین مدل 64 دلاری وب سایت های بیشتری را مرور کرد. حتی استفاده از بهترین قیمت 4 دلاری باعث افزایش قابل توجه ترجیحات انسانی شد.

علاوه بر این، بهترین نمونه‌گیری از $n$ عملکرد قابل اعتمادی دارد و برای تجزیه و تحلیل ریاضی ساده است و آن را برای مطالعات تجربی قانون گودهارت و پدیده‌های مرتبط مناسب می‌سازد.

ریاضیات نمونه‌گیری با بهترین قیمت

بیایید نمونه گیری بهترین از $n$ را به طور رسمی تر مطالعه کنیم. فرض کنید مقداری فضای نمونه $S$ داریم (مانند مجموعه ای از جفت های احتمالی پرسش و پاسخ)، مقداری توزیع احتمال $P$ بیش از $S$، یک هدف واقعی (یا "پاداش") $R_{text{true}}:Stomathbb R$، و یک هدف پروکسی $R_{text{پراکسی}}:Stomathbb R$. بیایید بگوییم که ما به‌نوعی $R_{text{proxy}}$ را بهینه‌سازی می‌کنیم و در نتیجه توزیع جدیدی به دست می‌آوریم. $P^prime$. و سپس:

  • انتظار $mathbb E_{x^primesim P^prime}left[R_{text{true}}left(x^primeright)right]$ اندازه‌گیری می‌کند که چقدر هدف واقعی را بهینه کرده‌ایم.
  • La واگرایی KL $D_{text{KL}}left(P^primeparallel Pright)$ میزان بهینه‌سازی را اندازه می‌گیرد. برای مثال، اگر $P^prime$ با گرفتن اولین نمونه از $P$ که در زیر مجموعه ای قرار دارد به دست آید. $S^primesubseteq S$، پس این واگرایی KL فقط احتمال ورود منفی است که نمونه ای از $P$ در $S^prime$ قرار دارد.

معلوم می‌شود که در مورد نمونه‌گیری بهترین از $n$، هر دوی این مقادیر را می‌توان با استفاده از نمونه‌هایی از $P$ به طور موثر تخمین زد.

بیایید ابتدا به انتظارات نگاه کنیم. رویکرد ساده‌لوحانه استفاده از تخمین‌گر مونت کارلو است: نمونه‌گیری با بهترین قیمت n$ را بارها اجرا کنید، هدف واقعی را روی آن نمونه‌ها اندازه‌گیری کنید و نتایج را میانگین بگیرید. با این حال، یک برآوردگر بهتر وجود دارد. اگر $Ngeq n$ نمونه از $P$ به طور کلی داشته باشیم، می‌توانیم به طور همزمان در نظر بگیریم هر زیر مجموعه ممکن از این نمونه‌ها با اندازه $n$، هر نمونه را با تعداد زیرمجموعه‌هایی که بهترین است را با توجه به هدف پراکسی وزن کنید و سپس میانگین وزنی امتیاز هدف واقعی را بگیرید. این وزن فقط ضریب دو جمله ای است $binom{k-1}{n-1}$، که $k$ رتبه نمونه در زیر هدف پراکسی است، از $1$ (بدترین) تا $N$ (بهترین). علاوه بر استفاده کارآمدتر از نمونه ها، این امر همچنین به ما امکان می دهد تا از نمونه ها برای مقادیر مختلف $n$ استفاده مجدد کنیم.

در مورد واگرایی KL، با کمال تعجب، معلوم می شود که فرمول دقیقی دارد که برای هر توزیع احتمال پیوسته $P$ (یعنی تا زمانی که $P$ جرم نقطه ای نداشته باشد) کار می کند. ممکن است ساده لوحانه حدس بزند که پاسخ این است $log n$, از آنجایی که best-of-$n$ کاری انجام می دهد مانند گرفتن $frac 1n$ بالای توزیع، و این تقریبا درست است: پاسخ دقیق این است $log n-frac{n-1}n$.

این برآوردگرها با هم به ما اجازه می‌دهند تا به راحتی تجزیه و تحلیل کنیم که چگونه هدف واقعی با میزان بهینه‌سازی اعمال شده برای هدف پراکسی متفاوت است.

در اینجا یک مثال از زندگی واقعی آورده شده است WebGPT:

بهترین عملکرد $n$ برای WebGPT 175B

بهترین عملکرد $n$ برای WebGPT، با مناطق سایه دار که خطای استاندارد $pm 1$ را نشان می دهد و محور KL از مقیاس ریشه مربع پیروی می کند. در اینجا، توزیع اصلی ($P$) توسط مدل 175B آموزش داده شده با استفاده از شبیه‌سازی رفتار داده می‌شود، هدف پراکسی مورد استفاده برای محاسبه بهترین $n$ ($R_{text{proxy}}$) توسط آموزش داده می‌شود. مدل پاداش، و ما سه هدف فرضی «واقعی» ($R_{text{true}}$) را در نظر می‌گیریم: خود مدل پاداش آموزشی، یک مدل پاداش اعتبارسنجی آموزش‌دیده بر روی داده‌های نگهداری‌شده، و ترجیحات واقعی انسان. بهینه سازی بیش از حد هدف پراکسی وجود ندارد، اما ما انتظار داریم که در KL های بالاتر وجود داشته باشد.

فراتر از نمونه‌گیری بهترین $n$

محدودیت اصلی نمونه‌برداری بهترین از $n$ این است که واگرایی KL به صورت لگاریتمی با $n$ رشد می‌کند، بنابراین فقط برای اعمال مقدار کمی از بهینه‌سازی مناسب است.

برای اعمال بهینه سازی بیشتر، معمولاً از یادگیری تقویتی استفاده می کنیم. در تنظیماتی که تاکنون مطالعه کرده ایم، مانند خلاصه سازی، ما معمولاً توانسته ایم به KL حدود 10 برسیم نات ها استفاده از یادگیری تقویتی قبل از اینکه هدف واقعی به دلیل قانون گودهارت شروع به کاهش کند. برای رسیدن به این KL باید حدود 60,000 دلار بگیریم بهترین-$n$، و ما امیدواریم که بتوانیم با بهبود مدل‌سازی پاداش و شیوه‌های یادگیری تقویتی، به KLهای بسیار بزرگتر از این دست یابیم.

با این حال، همه nat ها برابر نیستند. از نظر تجربی، برای بودجه‌های KL کوچک، بهترین از $n$ بهتر از یادگیری تقویتی، هم پراکسی و هم اهداف واقعی را بهینه می‌کند. به طور شهودی، بهترین از $n$ رویکرد "نیروی بی رحم" است، که آن را از نظر اطلاعاتی کارآمدتر از یادگیری تقویتی می کند، اما از نظر محاسباتی در KL های بزرگ کارآمدتر است.

ما به‌عنوان بخشی از کارمان، به‌طور فعال خواص مقیاس‌بندی اهداف پراکسی را مطالعه می‌کنیم تراز مدل های ما با نیت و ارزش های انسانی. اگر می خواهید در این تحقیق به ما کمک کنید، ما هستیم استخدام!

تمبر زمان:

بیشتر از OpenAI