قانون گودارت معروف میگوید: «هنگامی که میزانی هدف شود، دیگر معیار خوبی نیست». اگرچه اصالتاً مربوط به اقتصاد است، اما باید در OpenAI با آن دست و پنجه نرم کنیم تا بفهمیم چگونه اهدافی را که اندازهگیری آنها دشوار یا پرهزینه است، بهینه کنیم. اغلب لازم است تعدادی را معرفی کنیم هدف پروکسی اندازهگیری آسانتر یا ارزانتر است، اما وقتی این کار را انجام میدهیم، باید مراقب باشیم که آن را بیش از حد بهینه نکنیم.
به عنوان مثال، به عنوان بخشی از کار ما به تراز مدلهایی مانند GPT-3 با هدف و ارزشهای انسانی، ما میخواهیم مواردی مانند «چگونه مفید این پاسخ است؟»، یا «چطور از نظر واقعی آیا این ادعاست؟». اینها اهداف پیچیده ای هستند که انسان را ملزم می کند تا به دقت همه چیز را بررسی کند. به همین دلیل، ما مدلی را برای پیشبینی این ترجیحات انسانی آموزش میدهیم که به نام a مدل پاداش، و از پیش بینی های مدل پاداش به عنوان یک هدف پراکسی استفاده کنید. اما پیگیری میزان بهینه سازی هدف واقعی بسیار مهم است.
در این پست به برخی از ریاضیات پشت سر این کار خواهیم پرداخت. ما بر روی تنظیماتی تمرکز خواهیم کرد که برای تجزیه و تحلیل تمیز است و در آن به هدف واقعی دسترسی داریم. در عمل، حتی ترجیحات انسانی ممکن است نتواند آنچه را که واقعاً به آن اهمیت میدهیم اندازهگیری کند، اما ما این موضوع را در این پست کنار میگذاریم.
بهترین نمونه گیری از $n$
راه های زیادی وجود دارد که از طریق آنها می توان هدف پراکسی را بهینه کرد، اما شاید ساده ترین آنها باشد بهترین نمونه گیری از $n$، همچنین به عنوان شناخته شده است نمونه گیری رد or رتبه بندی مجدد. ما به سادگی $n$ بار نمونه برداری می کنیم و با توجه به هدف پراکسی، آن را انتخاب می کنیم که بالاترین امتیاز را کسب کند.
اگرچه این روش بسیار ساده است، اما در واقع می تواند با تکنیک های پیشرفته تری مانند یادگیری تقویتی رقابت کند، البته به قیمت محاسبه زمان استنتاج بیشتر. به عنوان مثال، در WebGPT، بهترین مدل 64 دلاری ما بهتر از مدل یادگیری تقویتی ما بود، شاید تا حدی به این دلیل که بهترین مدل 64 دلاری وب سایت های بیشتری را مرور کرد. حتی استفاده از بهترین قیمت 4 دلاری باعث افزایش قابل توجه ترجیحات انسانی شد.
علاوه بر این، بهترین نمونهگیری از $n$ عملکرد قابل اعتمادی دارد و برای تجزیه و تحلیل ریاضی ساده است و آن را برای مطالعات تجربی قانون گودهارت و پدیدههای مرتبط مناسب میسازد.
ریاضیات نمونهگیری با بهترین قیمت
بیایید نمونه گیری بهترین از $n$ را به طور رسمی تر مطالعه کنیم. فرض کنید مقداری فضای نمونه $S$ داریم (مانند مجموعه ای از جفت های احتمالی پرسش و پاسخ)، مقداری توزیع احتمال $P$ بیش از $S$، یک هدف واقعی (یا "پاداش") $R_{text{true}}:Stomathbb R$، و یک هدف پروکسی $R_{text{پراکسی}}:Stomathbb R$. بیایید بگوییم که ما بهنوعی $R_{text{proxy}}$ را بهینهسازی میکنیم و در نتیجه توزیع جدیدی به دست میآوریم. $P^prime$. و سپس:
- انتظار $mathbb E_{x^primesim P^prime}left[R_{text{true}}left(x^primeright)right]$ اندازهگیری میکند که چقدر هدف واقعی را بهینه کردهایم.
- La واگرایی KL $D_{text{KL}}left(P^primeparallel Pright)$ میزان بهینهسازی را اندازه میگیرد. برای مثال، اگر $P^prime$ با گرفتن اولین نمونه از $P$ که در زیر مجموعه ای قرار دارد به دست آید. $S^primesubseteq S$، پس این واگرایی KL فقط احتمال ورود منفی است که نمونه ای از $P$ در $S^prime$ قرار دارد.
معلوم میشود که در مورد نمونهگیری بهترین از $n$، هر دوی این مقادیر را میتوان با استفاده از نمونههایی از $P$ به طور موثر تخمین زد.
بیایید ابتدا به انتظارات نگاه کنیم. رویکرد سادهلوحانه استفاده از تخمینگر مونت کارلو است: نمونهگیری با بهترین قیمت n$ را بارها اجرا کنید، هدف واقعی را روی آن نمونهها اندازهگیری کنید و نتایج را میانگین بگیرید. با این حال، یک برآوردگر بهتر وجود دارد. اگر $Ngeq n$ نمونه از $P$ به طور کلی داشته باشیم، میتوانیم به طور همزمان در نظر بگیریم هر زیر مجموعه ممکن از این نمونهها با اندازه $n$، هر نمونه را با تعداد زیرمجموعههایی که بهترین است را با توجه به هدف پراکسی وزن کنید و سپس میانگین وزنی امتیاز هدف واقعی را بگیرید. این وزن فقط ضریب دو جمله ای است $binom{k-1}{n-1}$، که $k$ رتبه نمونه در زیر هدف پراکسی است، از $1$ (بدترین) تا $N$ (بهترین). علاوه بر استفاده کارآمدتر از نمونه ها، این امر همچنین به ما امکان می دهد تا از نمونه ها برای مقادیر مختلف $n$ استفاده مجدد کنیم.
در مورد واگرایی KL، با کمال تعجب، معلوم می شود که فرمول دقیقی دارد که برای هر توزیع احتمال پیوسته $P$ (یعنی تا زمانی که $P$ جرم نقطه ای نداشته باشد) کار می کند. ممکن است ساده لوحانه حدس بزند که پاسخ این است $log n$, از آنجایی که best-of-$n$ کاری انجام می دهد مانند گرفتن $frac 1n$ بالای توزیع، و این تقریبا درست است: پاسخ دقیق این است $log n-frac{n-1}n$.
این برآوردگرها با هم به ما اجازه میدهند تا به راحتی تجزیه و تحلیل کنیم که چگونه هدف واقعی با میزان بهینهسازی اعمال شده برای هدف پراکسی متفاوت است.
در اینجا یک مثال از زندگی واقعی آورده شده است WebGPT:
بهترین عملکرد $n$ برای WebGPT 175B
فراتر از نمونهگیری بهترین $n$
محدودیت اصلی نمونهبرداری بهترین از $n$ این است که واگرایی KL به صورت لگاریتمی با $n$ رشد میکند، بنابراین فقط برای اعمال مقدار کمی از بهینهسازی مناسب است.
برای اعمال بهینه سازی بیشتر، معمولاً از یادگیری تقویتی استفاده می کنیم. در تنظیماتی که تاکنون مطالعه کرده ایم، مانند خلاصه سازی، ما معمولاً توانسته ایم به KL حدود 10 برسیم نات ها استفاده از یادگیری تقویتی قبل از اینکه هدف واقعی به دلیل قانون گودهارت شروع به کاهش کند. برای رسیدن به این KL باید حدود 60,000 دلار بگیریم بهترین-$n$، و ما امیدواریم که بتوانیم با بهبود مدلسازی پاداش و شیوههای یادگیری تقویتی، به KLهای بسیار بزرگتر از این دست یابیم.
با این حال، همه nat ها برابر نیستند. از نظر تجربی، برای بودجههای KL کوچک، بهترین از $n$ بهتر از یادگیری تقویتی، هم پراکسی و هم اهداف واقعی را بهینه میکند. به طور شهودی، بهترین از $n$ رویکرد "نیروی بی رحم" است، که آن را از نظر اطلاعاتی کارآمدتر از یادگیری تقویتی می کند، اما از نظر محاسباتی در KL های بزرگ کارآمدتر است.
ما بهعنوان بخشی از کارمان، بهطور فعال خواص مقیاسبندی اهداف پراکسی را مطالعه میکنیم تراز مدل های ما با نیت و ارزش های انسانی. اگر می خواهید در این تحقیق به ما کمک کنید، ما هستیم استخدام!
- AI
- آی هنر
- مولد هنر ai
- ربات ai
- هوش مصنوعی
- گواهی هوش مصنوعی
- هوش مصنوعی در بانکداری
- ربات هوش مصنوعی
- ربات های هوش مصنوعی
- نرم افزار هوش مصنوعی
- بلاکچین
- کنفرانس بلاک چین ai
- coingenius
- هوش مصنوعی محاوره ای
- کنفرانس کریپتو ai
- دل-ه
- یادگیری عمیق
- گوگل ai
- فراگیری ماشین
- OpenAI
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- بازی افلاطون
- PlatoData
- بازی پلاتو
- تحقیق
- مقیاس Ai
- نحو
- زفیرنت