DeepMind Mengatakan AI Multi-Game Baru Adalah Sebuah Langkah Menuju Kecerdasan yang Lebih Umum

DeepMind Mengatakan AI Multi-Game Baru Adalah Sebuah Langkah Menuju Kecerdasan yang Lebih Umum

Node Sumber: 2390985

AI telah menguasai beberapa permainan paling kompleks yang diketahui manusia, namun model umumnya dirancang untuk memecahkan jenis tantangan tertentu. Algoritme DeepMind baru yang dapat menangani lebih banyak variasi permainan bisa menjadi langkah menuju AI yang lebih umum, kata penciptanya.

Penggunaan game sebagai tolok ukur AI memiliki sejarah yang panjang. Ketika algoritma Deep Blue IBM mengalahkan juara dunia catur Garry Kasparov pada tahun 1997, hal itu dipuji sebagai tonggak sejarah dalam bidang catur. Demikian pula kapan AlphaGo DeepMind dikalahkan salah satu pemain Go top dunia, Lee Sedol, pada tahun 2016, hal ini menimbulkan banyak kegembiraan tentang potensi AI.

DeepMind membangun kesuksesan ini dengan AlphaZero, model yang menguasai berbagai macam permainan, termasuk catur dan shogi. Namun yang mengesankan, AlphaZero hanya bekerja dengan permainan informasi yang sempurna di mana setiap detail permainan, selain niat lawan, dapat dilihat oleh kedua pemain. Ini termasuk permainan seperti Go dan catur di mana kedua pemain selalu dapat melihat semua bidak di papan.

Sebaliknya, permainan informasi yang tidak sempurna melibatkan beberapa detail yang disembunyikan dari pemain lain. Poker adalah contoh klasik karena pemain tidak dapat melihat tangan apa yang dipegang lawannya. Sekarang ada model yang bisa mengalahkan para profesional di jenis permainan ini juga, tapi mereka menggunakan pendekatan yang sama sekali berbeda dari algoritma seperti AlphaZero.

Kini, para peneliti di DeepMind telah menggabungkan elemen dari kedua pendekatan tersebut untuk menciptakan model yang dapat mengalahkan manusia dalam permainan catur, Go, dan poker. Tim tersebut mengklaim terobosan ini dapat mempercepat upaya untuk menciptakan algoritma AI yang lebih umum yang dapat belajar menyelesaikan berbagai macam tugas.

Para peneliti yang membangun AI untuk memainkan permainan informasi yang sempurna umumnya mengandalkan pendekatan yang dikenal sebagai pencarian pohon. Ini mengeksplorasi banyak cara permainan dapat berkembang dari kondisi saat ini, dengan berbagai cabang memetakan rangkaian gerakan potensial. AlphaGo menggabungkan penelusuran pohon dengan teknik pembelajaran mesin di mana model menyempurnakan keterampilannya dengan bermain berulang kali dan belajar dari kesalahannya.

Ketika membahas permainan informasi yang tidak sempurna, para peneliti cenderung mengandalkan teori permainan, menggunakan model matematika untuk memetakan solusi paling rasional terhadap masalah-masalah strategis. Teori permainan digunakan secara luas di bidang ekonomi untuk memahami bagaimana orang membuat pilihan dalam berbagai situasi, yang sebagian besar melibatkan informasi yang tidak sempurna.

Pada tahun 2016, AI menelepon DeepStack mengalahkan profesional manusia di poker tanpa batas, tetapi modelnya sangat terspesialisasi untuk permainan tertentu. Namun, sebagian besar tim DeepStack sekarang bekerja di DeepMind, dan mereka telah menggabungkan teknik yang mereka gunakan untuk membangun DeepStack dengan yang digunakan di AlphaZero.

Algoritme baru, yang disebut Student of Games, menggunakan kombinasi pencarian pohon, permainan mandiri, dan teori permainan untuk menangani permainan informasi yang sempurna dan tidak sempurna. Di sebuah kertas masuk Ilmu, para peneliti melaporkan bahwa algoritme tersebut mengalahkan AI permainan poker terbaik yang tersedia secara terbuka, Slumbot, dan juga dapat memainkan Go dan catur pada level manusia profesional, meskipun tidak dapat menandingi algoritme khusus seperti AlphaZero.

Namun menjadi orang yang ahli dalam segala bidang dan bukan ahli dalam bidang apa pun bisa dibilang merupakan hadiah yang lebih besar dalam penelitian AI. Meskipun pembelajaran mendalam sering kali dapat mencapai kinerja manusia super dalam tugas-tugas tertentu, mengembangkan bentuk AI yang lebih umum yang dapat diterapkan pada berbagai masalah adalah hal yang lebih rumit. Para peneliti mengatakan model yang dapat mengatasi permainan informasi yang sempurna dan tidak sempurna adalah โ€œsebuah langkah penting menuju algoritma yang benar-benar umum untuk lingkungan yang berubah-ubah.โ€

Penting untuk tidak melakukan ekstrapolasi terlalu banyak pada hasil, Michael Rovatsos dari Universitas Edinburgh, Inggris, mengatakan New Scientist. AI masih beroperasi dalam lingkungan game yang sederhana dan terkendali, di mana jumlah tindakan yang mungkin dilakukan terbatas dan aturannya ditentukan dengan jelas. Itu jauh dari kenyataan yang berantakan di dunia nyata.

Namun meskipun ini merupakan langkah kecil, kemampuan menggabungkan pendekatan terdepan terhadap dua jenis permainan yang sangat berbeda dalam satu model merupakan pencapaian yang signifikan. Dan hal ini tentunya bisa menjadi cetak biru untuk model yang lebih mumpuni dan umum di masa depan.

Gambar Kredit: Hassan Pasya / Unsplash

Stempel Waktu:

Lebih dari Hub Singularity