Đo lường định luật Goodhart

Được xuất bản lại bởi Plato

Người theo dõi: 0

Luật Goodhart câu nói nổi tiếng: “Khi một biện pháp trở thành mục tiêu, nó không còn là một biện pháp tốt nữa.” Mặc dù xuất phát từ kinh tế học, nhưng đó là điều chúng tôi phải vật lộn tại OpenAI khi tìm ra cách tối ưu hóa các mục tiêu khó đo lường hoặc tốn kém. Nó thường là cần thiết để giới thiệu một số mục tiêu ủy nhiệm điều đó dễ dàng hơn hoặc rẻ hơn để đo lường, nhưng khi làm điều này, chúng ta cần cẩn thận để không tối ưu hóa nó quá nhiều.

Ví dụ, như một phần công việc của chúng tôi để sắp xếp các mô hình như GPT-3 với ý định và giá trị của con người, chúng tôi muốn tối ưu hóa những thứ như “Làm thế nào hữu ích đây có phải là phản hồi không?”, hoặc “Làm thế nào thực tế chính xác đây có phải là yêu sách không?”. Đây là những mục tiêu phức tạp đòi hỏi con người phải kiểm tra cẩn thận mọi thứ. Vì lý do này, chúng tôi đào tạo một mô hình để dự đoán những sở thích của con người, được gọi là mô hình phần thưởngvà sử dụng các dự đoán của mô hình phần thưởng làm mục tiêu ủy quyền. Nhưng điều quan trọng là phải theo dõi mục tiêu thực sự đang được tối ưu hóa tốt như thế nào.

Trong bài đăng này, chúng ta sẽ xem xét một số toán học đằng sau cách chúng ta thực hiện điều này. Chúng tôi sẽ tập trung vào một cài đặt đặc biệt rõ ràng để phân tích, trong đó chúng tôi có quyền truy cập vào mục tiêu thực sự. Trên thực tế, ngay cả sở thích của con người cũng có thể không đo lường được những gì chúng ta thực sự quan tâm, nhưng chúng tôi sẽ đặt vấn đề đó sang một bên trong bài đăng này.

Lấy mẫu tốt nhất trong số $n$

Có nhiều cách để người ta có thể tối ưu hóa mục tiêu ủy nhiệm, nhưng có lẽ cách đơn giản nhất là lấy mẫu tốt nhất trong số $n$, còn được biết là lấy mẫu từ chối or xếp hạng lại. Chúng tôi chỉ cần lấy mẫu $n$ lần và chọn lần đạt điểm cao nhất theo mục tiêu ủy nhiệm.

Mặc dù phương pháp này rất đơn giản, nhưng nó thực sự có thể cạnh tranh với các kỹ thuật tiên tiến hơn như học tăng cường, mặc dù phải trả giá bằng thời gian tính toán nhiều hơn. Ví dụ, trong WebGPT, mô hình tốt nhất trị giá 64 đô la của chúng tôi hoạt động tốt hơn mô hình học tăng cường của chúng tôi, có lẽ một phần là do mô hình trị giá 64 đô la tốt nhất đã duyệt được nhiều trang web hơn. Ngay cả việc áp dụng mức tốt nhất trong số 4 đô la cũng đã tạo ra một sự thúc đẩy đáng kể đối với sở thích của con người.

Ngoài ra, lấy mẫu best-of-$n$ có hiệu suất đáng tin cậy và dễ phân tích về mặt toán học, làm cho nó rất phù hợp với các nghiên cứu thực nghiệm về định luật Goodhart và các hiện tượng liên quan.

Toán học lấy mẫu tốt nhất của $n$

Hãy nghiên cứu cách lấy mẫu best-of-$n$ chính thức hơn. Giả sử chúng ta có một số không gian mẫu $S$ (chẳng hạn như tập hợp các cặp câu hỏi-câu trả lời có thể), một số phân phối xác suất $P$ trên $S$, một mục tiêu thực sự (hoặc “phần thưởng”) $R_{text{true}}:Stomathbb R$, và một mục tiêu proxy $R_{văn bản{proxy}}:Stomathbb R$. Giả sử rằng bằng cách nào đó chúng tôi tối ưu hóa $R_{text{proxy}}$ và do đó có được một số phân phối mới $P^số nguyên tố$. Thì:

Kỳ vọng $mathbb E_{x^primesim P^prime}left[R_{text{true}}left(x^primeright)right]$ đo lường mức độ chúng tôi đã tối ưu hóa mục tiêu thực sự.
Sản phẩm Phân kỳ KL $D_{text{KL}}left(P^primeparallel Pright)$ đo lường mức độ tối ưu hóa mà chúng tôi đã thực hiện. Ví dụ: nếu $P^prime$ thu được bằng cách lấy mẫu đầu tiên từ $P$ nằm trong một tập hợp con nào đó $S^primesubseteq S$, thì phân kỳ KL này chỉ là xác suất nhật ký âm mà một mẫu từ $P$ nằm trong $S^Prime$.

Hóa ra là trong trường hợp lấy mẫu tốt nhất trong số $n$, cả hai đại lượng này đều có thể được ước tính một cách hiệu quả bằng cách sử dụng các mẫu từ $P$.

Trước tiên hãy nhìn vào kỳ vọng. Cách tiếp cận ngây thơ là sử dụng công cụ ước tính Monte Carlo: chạy lấy mẫu best-of-$n$ nhiều lần, đo lường mục tiêu thực trên các mẫu đó và tính trung bình các kết quả. Tuy nhiên, có một ước tính tốt hơn. Nếu chúng ta có $Ngeq n$ mẫu từ $P$ về tổng thể, thì chúng ta có thể xem xét đồng thời mọi tập hợp con có thể của các mẫu có kích thước $n$ này, tính trọng số của từng mẫu theo số lượng tập hợp con mà mẫu đó là tốt nhất theo mục tiêu ủy quyền, sau đó lấy điểm mục tiêu trung bình thực có trọng số. Trọng số này chỉ là hệ số nhị thức $binom{k-1}{n-1}$, trong đó $k$ là thứ hạng của mẫu theo mục tiêu ủy quyền, từ $1$ (kém nhất) đến $N$ (tốt nhất). Cùng với việc sử dụng các mẫu hiệu quả hơn, điều này cũng cho phép chúng tôi sử dụng lại các mẫu cho các giá trị khác nhau của $n$.

Đối với phân kỳ KL, thật ngạc nhiên, điều này hóa ra lại có một công thức chính xác phù hợp với bất kỳ phân bố xác suất liên tục nào $P$ (tức là, miễn là $P$ không có khối lượng điểm). Người ta có thể ngây thơ đoán rằng câu trả lời là $log n$, vì best-of-$n$ đang làm điều gì đó như lấy $frac 1n$ hàng đầu của phân phối và điều này đại khái là đúng: câu trả lời chính xác là $log n-frac{n-1}n$.

Cùng với nhau, các công cụ ước tính này cho phép chúng tôi dễ dàng phân tích xem mục tiêu thực sự thay đổi như thế nào với mức độ tối ưu hóa được áp dụng cho mục tiêu ủy nhiệm.

Đây là một ví dụ thực tế từ WebGPT:

Hiệu suất tốt nhất trong số $n$ cho WebGPT 175B

Hiệu suất tốt nhất trong $n$ cho WebGPT, với các vùng được tô bóng biểu thị lỗi tiêu chuẩn $pm 1$ và trục KL tuân theo thang căn bậc hai. Ở đây, phân phối ban đầu ($P$) được đưa ra bởi mô hình 175B được đào tạo bằng cách sử dụng nhân bản hành vi, mục tiêu proxy được sử dụng để tính toán giá trị tốt nhất của$n$ ($R_{text{proxy}}$) được đưa ra bởi quá trình đào tạo mô hình phần thưởng và chúng tôi xem xét ba mục tiêu được cho là “đúng” ($R_{text{true}}$): mô hình phần thưởng đào tạo, mô hình phần thưởng xác thực được đào tạo trên dữ liệu được cung cấp và sở thích thực tế của con người. Không có sự tối ưu hóa quá mức đối với mục tiêu proxy, nhưng chúng tôi kỳ vọng sẽ có KL cao hơn.

Không chỉ lấy mẫu tốt nhất trong số $n$

Hạn chế chính của lấy mẫu best-of-$n$ là phân kỳ KL tăng logarit với $n$, do đó, nó chỉ phù hợp để áp dụng một lượng nhỏ tối ưu hóa.

Để áp dụng nhiều tối ưu hóa hơn, chúng tôi thường sử dụng phương pháp học tăng cường. Trong các cài đặt chúng tôi đã nghiên cứu cho đến nay, chẳng hạn như tóm tắt, chúng tôi thường có thể đạt được KL khoảng 10 thiên thần sử dụng học tăng cường trước khi mục tiêu thực sự bắt đầu giảm do định luật Goodhart. Chúng tôi phải mất $n$ vào khoảng 60,000 để đạt được KL này bằng cách sử dụng tốt nhất-$n$, và chúng tôi hy vọng có thể đạt được các KL lớn hơn nhiều so với mức này nhờ những cải tiến đối với mô hình phần thưởng và các phương pháp học tập củng cố của chúng tôi.

Tuy nhiên, không phải tất cả nats đều như nhau. Theo kinh nghiệm, đối với ngân sách KL nhỏ, mức tốt nhất trong $n$ sẽ tối ưu hóa cả mục tiêu ủy quyền và mục tiêu thực sự tốt hơn so với học tăng cường. Theo trực quan, best-of-$n$ là cách tiếp cận “brute Force”, làm cho nó hiệu quả hơn về mặt lý thuyết so với học tăng cường, nhưng kém hiệu quả về mặt tính toán hơn ở các KL lớn.

Chúng tôi đang tích cực nghiên cứu các thuộc tính mở rộng của các mục tiêu proxy như một phần công việc của chúng tôi để sắp xếp mô hình của chúng tôi với ý định và giá trị của con người. Nếu bạn muốn giúp chúng tôi với nghiên cứu này, chúng tôi sẽ thuê!

Dấu thời gian: 13 Tháng Tư, 202224 Tháng Bảy, 2022