Μέτρηση του νόμου του Goodhart

Κόμβος πηγής: 1590955

Ο νόμος του Goodhart Λέει περίφημα: «Όταν ένα μέτρο γίνεται στόχος, παύει να είναι καλό μέτρο». Αν και προέρχεται από την οικονομία, είναι κάτι με το οποίο πρέπει να αντιμετωπίσουμε στο OpenAI όταν ανακαλύπτουμε πώς να βελτιστοποιήσουμε στόχους που είναι δύσκολο ή δαπανηρό να μετρηθούν. Συχνά είναι απαραίτητο να εισαγάγουμε μερικά στόχος πληρεξουσίου είναι πιο εύκολο ή φθηνότερο να μετρηθεί, αλλά όταν το κάνουμε αυτό, πρέπει να προσέχουμε να μην το βελτιστοποιούμε πάρα πολύ.

Για παράδειγμα, ως μέρος της δουλειάς μας να ευθυγράμμιση μοντέλα όπως το GPT-3 με ανθρώπινη πρόθεση και αξίες, θα θέλαμε να βελτιστοποιήσουμε πράγματα όπως «Πώς χρήσιμο είναι αυτή η απάντηση;», ή «Πώς πραγματικά ακριβής είναι αυτός ο ισχυρισμός;». Αυτοί είναι περίπλοκοι στόχοι που απαιτούν από τους ανθρώπους να ελέγχουν προσεκτικά τα πράγματα. Για το λόγο αυτό, εκπαιδεύουμε ένα μοντέλο για να προβλέψουμε αυτές τις ανθρώπινες προτιμήσεις, γνωστό ως α μοντέλο ανταμοιβής, και χρησιμοποιήστε τις προβλέψεις του μοντέλου ανταμοιβής ως στόχο μεσολάβησης. Αλλά είναι σημαντικό να παρακολουθείτε πόσο καλά βελτιστοποιείται ο πραγματικός στόχος.

Σε αυτήν την ανάρτηση θα δούμε μερικά από τα μαθηματικά πίσω από το πώς το κάνουμε αυτό. Θα εστιάσουμε σε μια ρύθμιση που είναι ιδιαίτερα καθαρή στην ανάλυση, στην οποία έχουμε πρόσβαση στον αληθινό στόχο. Στην πράξη, ακόμη και οι ανθρώπινες προτιμήσεις μπορεί να αποτύχουν να μετρήσουν αυτό που πραγματικά μας ενδιαφέρει, αλλά παραμερίζουμε αυτό το ζήτημα σε αυτήν την ανάρτηση.

Βέλτιστη δειγματοληψία $n$

Υπάρχουν πολλοί τρόποι με τους οποίους κάποιος θα μπορούσε να βελτιστοποιήσει τον στόχο του διακομιστή μεσολάβησης, αλλά ίσως ο πιο απλός είναι καλύτερη δειγματοληψία, γνωστός και ως δειγματοληψία απόρριψης or ανακατάταξη. Απλώς κάνουμε δείγμα $n$ φορές και παίρνουμε αυτό που έχει την υψηλότερη βαθμολογία σύμφωνα με τον στόχο του διακομιστή μεσολάβησης.

Αν και αυτή η μέθοδος είναι πολύ απλή, μπορεί στην πραγματικότητα να είναι ανταγωνιστική με πιο προηγμένες τεχνικές όπως η ενισχυτική μάθηση, αν και με κόστος περισσότερο υπολογισμό του χρόνου συμπερασμάτων. Για παράδειγμα, σε WebGPT, το καλύτερο μοντέλο μας των 64$ ξεπέρασε τις επιδόσεις του ενισχυτικού μας μοντέλου εκμάθησης, ίσως εν μέρει επειδή το μοντέλο με το καλύτερο των 64$ χρειάστηκε να περιηγηθεί σε πολλούς περισσότερους ιστότοπους. Ακόμη και η εφαρμογή της καλύτερης τιμής των 4$ παρείχε σημαντική ώθηση στις ανθρώπινες προτιμήσεις.

Επιπλέον, η καλύτερη από $n$ δειγματοληψία έχει αξιόπιστη απόδοση και είναι απλή στη μαθηματική ανάλυση, καθιστώντας την κατάλληλη για εμπειρικές μελέτες του νόμου του Goodhart και συναφών φαινομένων.

Τα μαθηματικά της δειγματοληψίας με το καλύτερο από $n$

Ας μελετήσουμε πιο επίσημα τη δειγματοληψία με το καλύτερο από $n$. Ας υποθέσουμε ότι έχουμε κάποιο χώρο δείγματος $S$ (όπως το σύνολο των πιθανών ζευγών ερώτησης-απάντησης), κάποια κατανομή πιθανότητας πάνω από $P$ $S$, ένας αληθινός στόχος (ή «ανταμοιβή») $R_{text{true}}:Stomathbb R$, και στόχος πληρεξουσίου $R_{text{proxy}}:Stomathbb R$. Ας πούμε ότι βελτιστοποιούμε με κάποιο τρόπο το $R_{text{proxy}}$ και έτσι αποκτάμε κάποια νέα διανομή $P^prime$. Έπειτα:

  • Η προσδοκία $mathbb E_{x^primesim P^prime}left[R_{text{true}}left(x^primeright)right]$ μετρά πόσο καλά έχουμε βελτιστοποιήσει τον πραγματικό στόχο.
  • Η KL απόκλιση Το $D_{text{KL}}left(P^primeparallel Pright)$ μετρά πόση βελτιστοποίηση έχουμε κάνει. Για παράδειγμα, εάν το $P^prime$ λαμβάνεται λαμβάνοντας το πρώτο δείγμα από το $P$ που βρίσκεται σε κάποιο υποσύνολο $S^primesubseteq S$, τότε αυτή η απόκλιση KL είναι απλώς η αρνητική πιθανότητα καταγραφής ότι ένα δείγμα από $P$ βρίσκεται στο $S^prime$.

Αποδεικνύεται ότι στην περίπτωση της καλύτερης δειγματοληψίας $n$, και οι δύο αυτές ποσότητες μπορούν να εκτιμηθούν αποτελεσματικά χρησιμοποιώντας δείγματα από $P$.

Ας δούμε πρώτα την προσδοκία. Η αφελής προσέγγιση είναι να χρησιμοποιήσετε έναν εκτιμητή Monte Carlo: εκτελέστε τη δειγματοληψία με το καλύτερο από $n$ πολλές φορές, μετρήστε τον πραγματικό στόχο σε αυτά τα δείγματα και μέσο όρο των αποτελεσμάτων. Ωστόσο, υπάρχει καλύτερος εκτιμητής. Εάν έχουμε $Ngeq n$ δείγματα από $P$ συνολικά, τότε μπορούμε να εξετάσουμε ταυτόχρονα κάθε πιθανό υποσύνολο από αυτά τα δείγματα μεγέθους $n$, ζυγίστε κάθε δείγμα με τον αριθμό των υποσυνόλων για τα οποία είναι το καλύτερο σύμφωνα με τον στόχο του διακομιστή μεσολάβησης και, στη συνέχεια, λάβετε τη σταθμισμένη μέση τιμή πραγματικού στόχου. Αυτό το βάρος είναι απλώς ο διωνυμικός συντελεστής $binom{k-1}{n-1}$, όπου $k$ είναι η κατάταξη του δείγματος κάτω από τον στόχο του διακομιστή μεσολάβησης, από $1$ (χειρότερο) έως $N$ (καλύτερο). Εκτός από την πιο αποτελεσματική χρήση δειγμάτων, αυτό μας επιτρέπει επίσης να επαναχρησιμοποιούμε δείγματα για διαφορετικές τιμές $n$.

Όσο για την απόκλιση KL, παραδόξως, αυτή αποδεικνύεται ότι έχει έναν ακριβή τύπο που λειτουργεί για οποιαδήποτε συνεχή κατανομή πιθανότητας $P$ (δηλαδή, εφόσον το $P$ δεν έχει σημειακές μάζες). Θα μπορούσε κανείς αφελώς να μαντέψει ότι η απάντηση είναι $log n$, αφού το best-of-$n$ κάνει κάτι σαν να παίρνει το επάνω $frac 1n$ της διανομής, και αυτό είναι περίπου σωστό: η ακριβής απάντηση είναι $log n-frac{n-1}n$.

Μαζί, αυτοί οι εκτιμητές μας επιτρέπουν να αναλύσουμε εύκολα πώς ο πραγματικός στόχος ποικίλλει ανάλογα με το μέγεθος της βελτιστοποίησης που εφαρμόζεται στον στόχο του διακομιστή μεσολάβησης.

Εδώ είναι ένα πραγματικό παράδειγμα από WebGPT:

Η καλύτερη απόδοση των $n$ για το WebGPT 175B

Η καλύτερη απόδοση $n$ για το WebGPT, με τις σκιασμένες περιοχές που αντιπροσωπεύουν το τυπικό σφάλμα $pm 1$ και τον άξονα KL να ακολουθεί μια κλίμακα τετραγωνικής ρίζας. Εδώ, η αρχική κατανομή ($P$) δίνεται από το μοντέλο 175B που εκπαιδεύτηκε με χρήση κλωνοποίησης συμπεριφοράς, ο στόχος διακομιστή μεσολάβησης που χρησιμοποιείται για τον υπολογισμό του best-of-$n$ ($R_{text{proxy}}$) δίνεται από την εκπαίδευση μοντέλο ανταμοιβής και λαμβάνουμε υπόψη τρεις υποθετικά «αληθινούς» στόχους ($R_{text{true}}$): το ίδιο το μοντέλο ανταμοιβής εκπαίδευσης, ένα μοντέλο ανταμοιβής επικύρωσης που εκπαιδεύεται σε δεδομένα και πραγματικές ανθρώπινες προτιμήσεις. Δεν υπάρχει υπερβολική βελτιστοποίηση του στόχου του διακομιστή μεσολάβησης, αλλά θα περιμέναμε να υπάρχει σε υψηλότερα KL.

Πηγαίνοντας πέρα ​​από τη δειγματοληψία με το καλύτερο από $n$

Ο κύριος περιορισμός της δειγματοληψίας best-of-n$ είναι ότι η απόκλιση KL αυξάνεται λογαριθμικά με $n$, επομένως είναι κατάλληλη μόνο για την εφαρμογή μικρής ποσότητας βελτιστοποίησης.

Για να εφαρμόσουμε περισσότερη βελτιστοποίηση, χρησιμοποιούμε συνήθως την ενισχυτική μάθηση. Στις ρυθμίσεις που έχουμε μελετήσει μέχρι τώρα, όπως π.χ συνόψιση, συνήθως καταφέραμε να φτάσουμε σε KL περίπου 10 Υπερατλαντικές χρησιμοποιώντας ενισχυτική μάθηση πριν αρχίσει να μειώνεται ο αληθινός στόχος λόγω του νόμου του Goodhart. Θα πρέπει να πάρουμε $n$ για να είμαστε περίπου 60,000 για να φτάσουμε σε αυτό το KL χρησιμοποιώντας το καλύτερο από $n$, και ελπίζουμε να είμαστε σε θέση να προσεγγίσουμε πολύ μεγαλύτερα KL από αυτό με βελτιώσεις στις πρακτικές μας για τη μοντελοποίηση ανταμοιβής και την ενίσχυση της μάθησης.

Ωστόσο, δεν είναι όλα τα nats ίσα. Εμπειρικά, για μικρούς προϋπολογισμούς KL, το best-of-n$ βελτιστοποιεί καλύτερα τόσο τον διακομιστή μεσολάβησης όσο και τους πραγματικούς στόχους από την ενισχυτική μάθηση. Διαισθητικά, το best-of-n$ είναι η προσέγγιση της «ωμής δύναμης», που την καθιστά πιο αποτελεσματική από άποψη πληροφοριών από την ενισχυτική μάθηση, αλλά λιγότερο αποδοτική υπολογιστικά σε μεγάλα KL.

Μελετάμε ενεργά τις ιδιότητες κλιμάκωσης των στόχων μεσολάβησης ως μέρος της εργασίας μας ευθυγράμμιση τα μοντέλα μας με ανθρώπινη πρόθεση και αξίες. Αν θέλετε να μας βοηθήσετε με αυτήν την έρευνα, είμαστε μίσθωση!

Σφραγίδα ώρας:

Περισσότερα από OpenAI