Tất cả mưa đá Cicero, Kẻ chinh phục – AI đánh bại con người trong Ngoại giao

Nút nguồn: 1763695

Meta Platforms Inc, công ty mẹ của Facebook, cho biết họ đã tạo ra một AI có thể thông minh hơn con người trong phiên bản trực tuyến của trò chơi chiến lược nổi tiếng, Diplomacy, trong đó bảy người chơi cạnh tranh để giành quyền kiểm soát địa lý của châu Âu bằng cách di chuyển các mảnh trên bản đồ.

Trong một bài báo đăng trên Science.com, Meta cho biết Cicero, là đặc vụ AI đầu tiên đạt được hiệu suất ở cấp độ con người trong Ngoại giao, một trò chơi liên quan đến cả hợp tác và cạnh tranh, nhấn mạnh vào đàm phán ngôn ngữ tự nhiên và phối hợp chiến thuật giữa bảy người chơi.

Trong tổng số 40 trò chơi Ngoại giao trực tuyến ẩn danh, Meta cho biết Cicero đã đạt được hơn gấp đôi số điểm trung bình của những người chơi là con người và được xếp hạng trong top 10% những người tham gia chơi nhiều hơn một trò chơi.

Tập đoàn công nghệ hàng đầu này cho biết đây là một phần trong mục tiêu chiến lược và dài hạn của họ trong lĩnh vực trí tuệ nhân tạo nhằm xây dựng các tác nhân có thể lập kế hoạch, phối hợp và đàm phán với con người bằng ngôn ngữ tự nhiên.

Cicero quan trọng như thế nào?

Meta cho biết Cicero khá quan trọng vì AI dựa vào môi trường không có đối thủ.

Không giống như trước đây, nơi những thành công lớn trước đây của AI đa tác nhân là trong các môi trường hoàn toàn đối kháng, chẳng hạn như Cờ vua (2), Cờ vây (3) và Xì phé (4), nơi giao tiếp không có giá trị, Cicero sử dụng một công cụ suy luận chiến lược và mô-đun đối thoại có thể kiểm soát.

Vì những lý do này, meta cho biết Ngoại giao đã đóng vai trò là một tiêu chuẩn đầy thách thức cho việc học tập đa tác nhân.

“Cicero kết hợp một mô-đun đối thoại có thể điều khiển được với một công cụ lập luận chiến lược. Tại mỗi thời điểm trong trò chơi, Cicero mô hình hóa cách những người chơi khác có khả năng hành động dựa trên trạng thái trò chơi và các cuộc hội thoại của họ,” Meta nói.

Sau đó, AI lên kế hoạch về cách người chơi có thể phối hợp vì lợi ích chung của họ và ánh xạ các kế hoạch này thành các thông điệp bằng ngôn ngữ tự nhiên.

ngờ vực lành mạnh

Cicero tránh tin tưởng một cách mù quáng vào các đề xuất từ ​​những người chơi khác và từ chối các kế hoạch có “giá trị dự đoán” thấp và chạy song song với lợi ích của chính mình.

Do cuộc đối thoại trong Ngoại giao diễn ra riêng tư giữa các cặp người chơi, Cicero lập luận và phân tích thông tin mà người chơi có quyền truy cập khi đưa ra dự đoán.

Meta cho biết: “Ví dụ: nếu Cicero đang điều phối một cuộc tấn công với một đồng minh chống lại kẻ thù, thì dự đoán của Cicero về chính sách của kẻ thù phải tính đến thực tế là kẻ thù không biết về sự phối hợp dự kiến.

Meta cho biết họ đã vào Cicero một cách ẩn danh trong 40 trò chơi Ngoại giao trong một giải đấu trực tuyến gồm những người chơi là con người từ ngày 19 tháng 13 đến ngày 2022 tháng XNUMX năm XNUMX.

Trong suốt 72 giờ chơi liên quan đến việc gửi 5,277 tin nhắn, Cicero được xếp hạng trong top 10% những người tham gia chơi nhiều hơn một trò chơi.

Meta cho biết họ đã thu thập dữ liệu từ 125,261 trò chơi Ngoại giao được chơi trực tuyến tại webDiplomacy.net. Trong số những trò chơi này, có tổng cộng 40,408 trò chơi có đối thoại, với tổng số 12,901,662 tin nhắn được trao đổi giữa những người chơi.

Lời nhắc: “Robot đánh bại mọi người khác trong trò chơi Ngoại giao” (do AI tạo ra).

Ghi chú meta, AI mới của nó còn lâu mới hoàn hảo

Cicero đã gửi những thông báo có lỗi, đôi khi mâu thuẫn với kế hoạch của chính mình và mắc sai lầm chiến lược.

Nhưng Meta khẳng định rằng con người vẫn chọn cộng tác với AI thay vì những người chơi khác mà không nhận ra đó là Bot.

“Hầu như tất cả các đột phá về AI trước đây trong trò chơi đều ở cài đặt tổng bằng không (2p0s) hai người chơi, bao gồm cờ vua, cờ vây, bài xì phé đối đầu và StarCraft. Trong các trò chơi có thời lượng 2p0 hữu hạn, một số thuật toán học tăng cường (RL) học bằng cách chơi với chính chúng—một quá trình được gọi là tự chơi—sẽ hội tụ thành một chính sách không thể đánh bại trong các trò chơi cân bằng,” Meta cho biết thêm trong bài báo. “Nói cách khác, bất kỳ trò chơi 2p0 hữu hạn nào cũng có thể được giải quyết thông qua chế độ tự chơi với đủ năng lực tính toán và mô hình.”

Tuy nhiên, Meta cho biết liên quan đến các trò chơi liên quan đến hợp tác, việc tự chơi mà không có dữ liệu của con người không còn được đảm bảo để tìm ra một chính sách hoạt động tốt với con người, ngay cả với khả năng tính toán và mô hình vô hạn, bởi vì tác nhân tự chơi có thể hội tụ thành một chính sách không phù hợp với các chuẩn mực và mong đợi của con người.

Meta nói thêm rằng Cicero dự đoán các hành động có thể xảy ra đối với từng người chơi dựa trên trạng thái của bàn cờ và cuộc đối thoại, sử dụng đó làm điểm bắt đầu cho thuật toán lập kế hoạch sử dụng các mô hình được đào tạo bởi RL.

AI sử dụng mô-đun suy luận chiến lược để lựa chọn ý định và hành động một cách thông minh, công ty cho biết.

Sau đó, mô-đun này chạy một thuật toán lập kế hoạch dự đoán chính sách của tất cả những người chơi khác dựa trên trạng thái trò chơi và đối thoại, đồng thời tính đến cả sức mạnh của các hành động khác nhau và khả năng xảy ra của chúng trong các trò chơi của con người. Dựa trên thông tin và các biến này, hành động tối ưu nhất cho Cicero được thực hiện.

Dưới thời người sáng lập kiêm Giám đốc điều hành của Meta, Mark Zuckerberg, công ty đã đầu tư rất nhiều vào AI và metaverse để tận dụng lợi thế của ngành công nghiệp đang phát triển nhanh được coi là tương lai của công nghệ.

Trong MetaNews.

Dấu thời gian:

Thêm từ MetaNews