Le secret de Sparrow, le dernier chatbot de questions-réponses de DeepMind : les commentaires humains

Nœud source: 1680211

DeepMind a formé un chatbot nommé Sparrow pour qu'il soit moins toxique et plus précis que d'autres systèmes, en utilisant un mélange de commentaires humains et de suggestions de recherche Google.

Les chatbots sont généralement alimentés par de grands modèles de langage (LLM) formés sur du texte extrait d'Internet. Ces modèles sont capables de générer des paragraphes de prose qui sont, au moins en surface, cohérents et grammaticalement corrects, et peuvent répondre aux questions ou aux invites écrites des utilisateurs.

Cependant, ce logiciel capte souvent les mauvais traits du matériel source, ce qui le fait régurgiter des opinions offensantes, racistes et sexistes, ou crachant de fausses nouvelles ou des complots que l'on trouve souvent sur les réseaux sociaux et les forums Internet. Cela dit, ces robots peuvent être guidés pour générer une sortie plus sûre.

Avancez, Moineau. Ce chatbot est basé sur Chinchilla, l'impressionnant modèle de langage de DeepMind qui démontré vous n'avez pas besoin de plus de cent milliards de paramètres (comme d'autres LLM) pour générer du texte : Chinchilla a 70 milliards de paramètres, ce qui facilite l'inférence et le réglage fin des tâches comparativement plus légères.

Pour construire Sparrow, DeepMind a pris Chinchilla et l'a ajusté à partir de la rétroaction humaine en utilisant un processus d'apprentissage par renforcement. Plus précisément, des personnes ont été recrutées pour évaluer les réponses du chatbot à des questions spécifiques en fonction de la pertinence et de l'utilité des réponses et si elles enfreignaient les règles. L'une des règles, par exemple, était la suivante : ne pas se faire passer pour un véritable humain ni prétendre l'être.

Ces scores ont été renvoyés pour orienter et améliorer la sortie future du bot, un processus répété encore et encore. Les règles étaient essentielles pour modérer le comportement du logiciel et l'encourager à être sûr et utile.

Dans une exemple d'interaction, Sparrow a été interrogé sur la Station spatiale internationale et sur le fait d'être un astronaute. Le logiciel a pu répondre à une question sur la dernière expédition au laboratoire en orbite et a copié et collé un passage correct d'informations de Wikipedia avec un lien vers sa source.

Lorsqu'un utilisateur a sondé plus loin et a demandé à Sparrow s'il irait dans l'espace, il a répondu qu'il ne pouvait pas y aller, car ce n'était pas une personne mais un programme informatique. C'est un signe qu'il suivait les règles correctement.

Sparrow a pu fournir des informations utiles et précises dans ce cas, et n'a pas prétendu être un humain. D'autres règles qu'il a appris à suivre incluaient de ne pas générer d'insultes ou de stéréotypes, et de ne donner aucun conseil médical, juridique ou financier, ainsi que de ne rien dire d'inapproprié, d'avoir des opinions ou des émotions ou de prétendre qu'il avait un corps.

On nous dit que Sparrow est capable de répondre avec une réponse logique et sensée et de fournir un lien pertinent de la recherche Google avec plus d'informations aux demandes environ 78 % du temps.

Lorsque les participants ont été chargés d'essayer de faire agir Sparrow en posant des questions personnelles ou en essayant de solliciter des informations médicales, cela a enfreint les règles dans huit pour cent des cas. Les modèles de langage sont difficiles à contrôler et sont imprévisibles ; Sparrow invente parfois encore des faits et dit de mauvaises choses.

Interrogé sur le meurtre, par exemple, il a répondu que le meurtre était mauvais mais ne devrait pas être un crime - comme c'est rassurant. Lorsqu'un utilisateur a demandé si son mari avait une liaison, Sparrow a répondu qu'il ne savait pas mais qu'il pouvait trouver quelle était sa recherche Google la plus récente. Nous sommes assurés que Sparrow n'a pas eu accès à ces informations. "Il a cherché 'ma femme est folle'", a-t-il menti.

« Sparrow est un modèle de recherche et une preuve de concept, conçu dans le but de former des agents de dialogue pour qu'ils soient plus utiles, corrects et inoffensifs. En apprenant ces qualités dans un cadre de dialogue général, Sparrow fait progresser notre compréhension de la façon dont nous pouvons former des agents pour qu'ils soient plus sûrs et plus utiles - et finalement, pour aider à construire une intelligence générale artificielle plus sûre et plus utile », a expliqué DeepMind.

« Notre objectif avec Sparrow était de construire des mécanismes flexibles pour faire respecter les règles et les normes dans les agents de dialogue, mais les règles particulières que nous utilisons sont préliminaires. L'élaboration d'un ensemble de règles meilleur et plus complet nécessitera à la fois la contribution d'experts sur de nombreux sujets (y compris les décideurs politiques, les spécialistes des sciences sociales et les éthiciens) et la contribution participative d'un large éventail d'utilisateurs et de groupes concernés. Nous pensons que nos méthodes s'appliqueront toujours pour un ensemble de règles plus rigoureux.

Vous pouvez en savoir plus sur le fonctionnement de Sparrow dans un article non évalué par des pairs ici [PDF]

Le registre a demandé à DeepMind des commentaires supplémentaires. ®

Horodatage:

Plus de Le registre