Cuộc thi Procgen và MineRL

Nút nguồn: 768080

Chúng tôi vui mừng thông báo rằng OpenAI đang đồng tổ chức hai cuộc thi NeurIPS 2020 với AIđám đông, Đại học Carnegie MellonDeepmind, Sử dụng Điểm chuẩn ProcgenMỏRL. Chúng tôi chủ yếu dựa vào những môi trường này trong nội bộ để nghiên cứu về học tập củng cố và chúng tôi mong muốn được thấy những tiến bộ mà cộng đồng đạt được trong các cuộc thi đầy thử thách này.

Cạnh tranh procgen

Đăng ký Procgen

Sản phẩm Cạnh tranh procgen tập trung vào việc nâng cao hiệu quả mẫu và khái quát hóa trong học tập củng cố. Những người tham gia sẽ cố gắng tối đa hóa hiệu suất của các đại lý bằng cách sử dụng một số tương tác môi trường cố định. Các nhân viên sẽ được đánh giá trong từng môi trường trong số 16 môi trường đã được phát hành công khai trong Điểm chuẩn Procgen, cũng như trong bốn môi trường thử nghiệm bí mật được tạo riêng cho cuộc thi này. Bằng cách tổng hợp hiệu suất trên nhiều môi trường đa dạng, chúng tôi có được các chỉ số chất lượng cao để đánh giá các thuật toán cơ bản. Có thể tìm thêm thông tin về chi tiết của từng vòng tại đây.

Vì tất cả nội dung được tạo theo thủ tục, nên về bản chất, mỗi môi trường Procgen đều yêu cầu các tác nhân tổng quát hóa cho các tình huống chưa từng thấy. Do đó, những môi trường này cung cấp một bài kiểm tra mạnh mẽ về khả năng học hỏi của nhân viên trong nhiều môi trường đa dạng. Hơn nữa, chúng tôi thiết kế môi trường Procgen để sử dụng nhanh chóng và đơn giản. Những người tham gia có nguồn tài nguyên tính toán hạn chế sẽ có thể dễ dàng tái tạo kết quả cơ bản của chúng tôi và chạy các thử nghiệm mới. Chúng tôi hy vọng rằng điều này sẽ cho phép người tham gia lặp lại nhanh chóng các phương pháp mới để cải thiện hiệu quả mẫu và tổng quát hóa trong RL.

Cuộc thi MineRL

Đăng ký MineRL

Nhiều thành công nổi tiếng gần đây của trí tuệ nhân tạo, chẳng hạn như AlphaStar, AlphaGo và Năm OpenAI, sử dụng học tập củng cố sâu để đạt được hiệu suất ở cấp độ con người hoặc siêu nhân trong các nhiệm vụ ra quyết định tuần tự. Những cải tiến này cho đến nay đã đòi hỏi một tăng theo cấp số nhân lượng mẫu máy tính và mô phỏng, và do đó khó có thể áp dụng nhiều hệ thống này trực tiếp vào các vấn đề trong thế giới thực nơi mà các mẫu môi trường đắt tiền. Một cách nổi tiếng để giảm độ phức tạp của mẫu môi trường là tận dụng các cơ sở của con người và các minh chứng về hành vi mong muốn.

Hình minh họa bài nộp hạng nhất từ ​​cuộc thi MineRL 1 nhận một cái cuốc sắt.

Để tiếp tục thúc đẩy nghiên cứu theo hướng này, chúng tôi đang đồng tổ chức Cuộc thi MineRL 2020 nhằm mục đích thúc đẩy sự phát triển của các thuật toán có thể tận dụng hiệu quả các cuộc trình diễn của con người để giảm đáng kể số lượng mẫu cần thiết để giải quyết các môi trường phức tạp, phân cấp và thưa thớt. Để đạt được mục tiêu đó, những người tham gia sẽ cạnh tranh để phát triển các hệ thống có thể nhận được một viên kim cương trong Minecraft từ các pixel thô chỉ sử dụng 8,000,000 mẫu từ Trình mô phỏng MineRL và 4 ngày đào tạo trên một máy GPU. Những người tham gia sẽ được cung cấp tập dữ liệu MineRL-v0 (trang mạng, giấy), một bộ sưu tập quy mô lớn gồm hơn 60 triệu khung hình trình diễn của con người, cho phép họ sử dụng quỹ đạo chuyên nghiệp để giảm thiểu tương tác của thuật toán với trình mô phỏng Minecraft.

Cuộc thi này là phần tiếp theo của Cuộc thi MineRL 2019 trong đó đại diện của đội hàng đầu đã có thể lấy một cái cuốc sắt (mục tiêu cuối cùng của cuộc thi) với ngân sách tương tác máy tính và mô phỏng cực kỳ hạn chế này. Theo quan điểm, các hệ thống học tập củng cố tiêu chuẩn hiện đại yêu cầu hàng trăm triệu tương tác với môi trường trên các hệ thống đa GPU lớn để đạt được cùng một mục tiêu. Năm nay, chúng tôi dự đoán các đối thủ cạnh tranh sẽ thúc đẩy sự tân tiến hơn nữa.

Để đảm bảo rằng các đối thủ cạnh tranh phát triển các thuật toán mẫu thực sự hiệu quả, ban tổ chức cuộc thi MineRL đào tạo các mô hình vòng chung kết của đội hàng đầu từ đầu với các ràng buộc nghiêm ngặt về phần cứng, máy tính và tương tác giả lập có sẵn. Cuộc thi MineRL 2020 cũng có một biện pháp mới để tránh các tính năng kỹ thuật thủ công và các giải pháp trang bị quá mức cho miền. Có thể tìm thêm thông tin chi tiết về cấu trúc cuộc thi tại đây.

Nguồn: https://openai.com/blog/procgen-minerl-competitions/

Dấu thời gian:

Thêm từ OpenAI