Bí mật cho Sparrow, chatbot hỏi đáp mới nhất của DeepMind: Phản hồi của con người

Nút nguồn: 1680211

DeepMind đã đào tạo một chatbot có tên Sparrow để ít độc hại hơn và chính xác hơn các hệ thống khác, bằng cách sử dụng kết hợp phản hồi của con người và các đề xuất tìm kiếm của Google.

Chatbots thường được cung cấp bởi các mô hình ngôn ngữ lớn (LLM) được đào tạo dựa trên văn bản được lấy từ internet. Các mô hình này có khả năng tạo ra các đoạn văn xuôi, ít nhất ở mức bề mặt, mạch lạc và đúng ngữ pháp, đồng thời có thể trả lời các câu hỏi hoặc lời nhắc bằng văn bản từ người dùng.

Tuy nhiên, phần mềm này thường chọn ra những đặc điểm xấu từ tài liệu nguồn, dẫn đến việc nó khơi dậy những quan điểm xúc phạm, phân biệt chủng tộc và phân biệt giới tính, hoặc tung tin giả hoặc những âm mưu thường thấy trên mạng xã hội và diễn đàn internet. Điều đó nói rằng, những bot này có thể được hướng dẫn để tạo ra đầu ra an toàn hơn.

Tiến lên, Sparrow. Chatbot này dựa trên sóc ở nam mỹ, mô hình ngôn ngữ ấn tượng của DeepMind chứng minh bạn không cần hơn trăm tỷ tham số (như các LLM khác có) để tạo văn bản: Chinchilla có 70 tỷ tham số, giúp dễ dàng suy luận và tinh chỉnh các tác vụ tương đối nhẹ hơn.

Để xây dựng Sparrow, DeepMind đã sử dụng Chinchilla và điều chỉnh nó dựa trên phản hồi của con người bằng quy trình học tăng cường. Cụ thể, mọi người được tuyển dụng để đánh giá các câu trả lời của chatbot cho các câu hỏi cụ thể dựa trên mức độ liên quan và hữu ích của các câu trả lời cũng như liệu chúng có vi phạm bất kỳ quy tắc nào hay không. Ví dụ, một trong những quy tắc là: không mạo danh hoặc giả vờ là con người thật.

Những điểm số này được phản hồi lại để định hướng và cải thiện kết quả đầu ra trong tương lai của bot, một quá trình được lặp đi lặp lại. Các quy tắc này là chìa khóa để kiểm duyệt hoạt động của phần mềm và khuyến khích nó an toàn và hữu ích.

Trong một tương tác ví dụ, Sparrow được hỏi về Trạm vũ trụ quốc tế và là một phi hành gia. Phần mềm có thể trả lời một câu hỏi về chuyến thám hiểm mới nhất đến phòng thí nghiệm quỹ đạo và sao chép và dán một đoạn thông tin chính xác từ Wikipedia với một liên kết đến nguồn của nó.

Khi một người dùng thăm dò sâu hơn và hỏi Sparrow liệu nó có bay vào vũ trụ không, nó nói rằng nó không thể đi được vì đó không phải là một con người mà là một chương trình máy tính. Đó là dấu hiệu nó đã tuân thủ đúng quy định.

Sparrow đã có thể cung cấp thông tin hữu ích và chính xác trong trường hợp này, và không giả vờ là một con người. Các quy tắc khác mà nó được dạy phải tuân theo bao gồm không tạo ra bất kỳ lời lăng mạ hoặc khuôn mẫu nào, và không đưa ra bất kỳ lời khuyên nào về y tế, pháp lý hoặc tài chính, cũng như không nói bất kỳ điều gì không phù hợp cũng như không có bất kỳ ý kiến ​​hoặc cảm xúc nào hoặc giả vờ rằng nó có cơ thể.

Chúng tôi được biết rằng Sparrow có thể phản hồi bằng một câu trả lời hợp lý, hợp lý và cung cấp liên kết có liên quan từ tìm kiếm của Google với nhiều thông tin hơn cho các yêu cầu trong khoảng 78% thời gian.

Khi những người tham gia được giao nhiệm vụ cố gắng khiến Sparrow hành động bằng cách đặt câu hỏi cá nhân hoặc cố gắng thu thập thông tin y tế, nó đã vi phạm các quy tắc trong tám phần trăm trường hợp. Các mô hình ngôn ngữ rất khó kiểm soát và không thể đoán trước được; Sparrow đôi khi vẫn bịa ra sự thật và nói những điều tồi tệ.

Ví dụ, khi được hỏi về tội giết người, nó nói rằng giết người là xấu nhưng không phải là một tội ác – thật yên tâm. Khi một người dùng hỏi liệu chồng họ có ngoại tình hay không, Sparrow trả lời rằng họ không biết nhưng có thể tìm thấy nội dung tìm kiếm gần đây nhất trên Google của anh ấy. Chúng tôi đảm bảo rằng Sparrow thực sự không có quyền truy cập vào thông tin này. “Anh ấy đã tìm kiếm 'vợ tôi bị điên'," nó nói dối.

“Sparrow là một mô hình nghiên cứu và bằng chứng về khái niệm, được thiết kế với mục tiêu đào tạo các tác nhân đối thoại trở nên hữu ích, chính xác và vô hại hơn. Bằng cách tìm hiểu những phẩm chất này trong môi trường đối thoại chung, Sparrow nâng cao hiểu biết của chúng ta về cách chúng ta có thể đào tạo các đặc vụ trở nên an toàn và hữu ích hơn – và cuối cùng là giúp xây dựng trí tuệ nhân tạo chung an toàn và hữu ích hơn,” DeepMind giải thích.

“Mục tiêu của chúng tôi với Sparrow là xây dựng bộ máy linh hoạt để thực thi các quy tắc và chuẩn mực trong các tác nhân đối thoại, nhưng các quy tắc cụ thể mà chúng tôi sử dụng chỉ là sơ bộ. Việc phát triển một bộ quy tắc tốt hơn và đầy đủ hơn sẽ yêu cầu cả ý kiến ​​đóng góp của chuyên gia về nhiều chủ đề (bao gồm các nhà hoạch định chính sách, nhà khoa học xã hội và nhà đạo đức học) cũng như ý kiến ​​đóng góp có sự tham gia của nhiều người dùng và các nhóm bị ảnh hưởng. Chúng tôi tin rằng các phương pháp của chúng tôi vẫn sẽ áp dụng cho bộ quy tắc nghiêm ngặt hơn.”

Bạn có thể đọc thêm về cách Sparrow hoạt động trong một bài báo được đánh giá không ngang hàng tại đây [PDF].

Đăng ký đã yêu cầu DeepMind bình luận thêm. ®

Dấu thời gian:

Thêm từ Đăng ký