כל הכבוד קיקרו, הכובש - בינה מלאכותית מנצחת בני אדם בדיפלומטיה

צומת המקור: 1763695

Meta Platforms Inc, חברת האם של פייסבוק, אמרה שהיא יצרה AI שיכול להערים על בני אדם בגרסה מקוונת של משחק האסטרטגיה הפופולרי, דיפלומטיה, שבו שבעה שחקנים מתחרים על השליטה הגיאוגרפית באירופה על ידי הזזת חלקים על המפה.

במאמר שפורסם באתר Science.com, אמרה Meta Cicero, היה סוכן הבינה המלאכותית הראשון שהשיג ביצועים ברמה אנושית בדיפלומטיה, משחק המערב שיתוף פעולה ותחרות המדגיש משא ומתן על שפה טבעית ותיאום טקטי בין שבעה שחקנים.

בסך הכל 40 משחקים אנונימיים של דיפלומטיה מקוונת, מטה אמרה שקיקרו השיג יותר מכפול מהניקוד הממוצע של השחקנים האנושיים ודורג ב-10% המובילים של המשתתפים ששיחקו יותר ממשחק אחד.

קבוצת הטכנולוגיה המובילה אמרה שזה חלק מהמטרה האסטרטגית וארוכת הטווח שלה בתחום הבינה המלאכותית לבנות סוכנים שיכולים לתכנן, לתאם ולנהל משא ומתן עם בני אדם בשפה טבעית.

כמה חשוב קיקרו?

Meta אומר ש-Cicero הוא די משמעותי מכיוון שה-AI מסתמך על סביבות לא יריבות.

שלא כמו בעבר, שבהם הצלחות גדולות קודמות של בינה מלאכותית מרובת סוכנים היו בסביבות יריבות גרידא, כמו שחמט (2), גו (3) ופוקר (4), שבהן לתקשורת אין ערך, Cicero משתמש במנוע חשיבה אסטרטגי ומודול דיאלוג ניתן לשליטה.

מסיבות אלו, מטה אומר כי דיפלומטיה שימשה מדד מאתגר ללמידה מרובה סוכנים.

"קיקרו מחבר מודול דיאלוג ניתן לשליטה עם מנוע חשיבה אסטרטגי. בכל נקודה במשחק, Cicero מדגים כיצד סביר להניח שהשחקנים האחרים יפעלו על סמך מצב המשחק והשיחות שלהם", אומר מטה.

לאחר מכן, ה-AI מתכנן כיצד השחקנים יכולים לתאם לטובתם ההדדית וממפה את התוכניות הללו להודעות בשפה טבעית.

חוסר אמון בריא

Cicero נמנע מלסמוך באופן עיוור על הצעות של שחקנים אחרים ודוחה תוכניות בעלות "ערך חזוי" נמוך ואשר פועלות במקביל לאינטרסים שלה.

בשל העובדה שהדיאלוג בדיפלומטיה מתרחש באופן פרטי בין זוגות של שחקנים, Cicero מנמק ומנתח את המידע שיש לשחקנים גישה אליו בעת ביצוע תחזיות.

"לדוגמה, אם קיקרו מתאם התקפה עם בעל ברית נגד יריב, התחזית של קיקרו לגבי מדיניותו של היריב חייבת להסביר את העובדה שהיריב אינו מודע לתיאום המיועד", אמר מטה.

Meta אומרת שהיא נכנסה ל-Cicero בעילום שם ב-40 משחקי דיפלומטיה בליגה מקוונת של שחקנים אנושיים בין ה-19 באוגוסט ל-13 באוקטובר 2022.

במהלך 72 שעות משחק שכללו שליחת 5,277 הודעות, סיקרו דורג ב-10% המובילים של המשתתפים ששיחקו יותר ממשחק אחד.

Meta אומרת שהיא אספה נתונים מ-125,261 משחקים של דיפלומטיה ששיחקו באינטרנט ב-webDiplomacy.net. מתוך המשחקים הללו, בסך הכל 40,408 משחקים הכילו דיאלוג, עם סה"כ 12,901,662 הודעות שהוחלפו בין שחקנים.

הנחיה: "רובוט מנצח את כולם במשחק דיפלומטיה" (נוצר בינה מלאכותית).

מטה מציין, ה-AI החדש שלו רחוק מלהיות מושלם

קיקרו שלחה הודעות שהכילו שגיאות, לפעמים סתרו את תוכניותיה שלה ועשתה טעויות אסטרטגיות.

אבל Meta מתעקש שבני אדם בכל זאת בחרו לשתף פעולה עם ה-AI על פני שחקנים אחרים מבלי להבין שמדובר בבוט.

"כמעט כל פריצות הדרך הקודמות של בינה מלאכותית במשחקים היו בהגדרות של סכום אפס (2p0s) של שני שחקנים, כולל שחמט, Go, ראשי פוקר וסטארקראפט. במשחקי 2p0s סופיים, אלגוריתמים מסוימים של למידת חיזוק (RL) הלומדים על ידי משחק נגד עצמם - תהליך המכונה משחק עצמי - יתכנסו למדיניות שאין לה תחרות בציפיות במשחקים מאוזנים", הוסיפה מטה בעיתון. "במילים אחרות, כל משחק סופי של 2p0s יכול להיפתר באמצעות משחק עצמי עם יכולת חישוב ומודל מספקת."

עם זאת, Meta אמר לגבי משחקים הכוללים שיתוף פעולה, משחק עצמי ללא נתונים אנושיים כבר לא מובטח למצוא מדיניות שמתפקדת היטב עם בני אדם, אפילו עם יכולת חישוב ומודל אינסופית, מכיוון שסוכן המשחק העצמי עשוי להתכנס למדיניות שהיא לא עולה בקנה אחד עם נורמות וציפיות אנושיות.

Meta הוסיפה כי Cicero צופה פעולות סבירות עבור כל שחקן בהתבסס על מצב הלוח והדיאלוג, תוך שימוש בכך כנקודת ההתחלה לאלגוריתם תכנון באמצעות מודלים מאומנים RL.

ה-AI משתמש במודול חשיבה אסטרטגית לבחירה חכמה של כוונות ופעולות, אומרת החברה.

לאחר מכן מודול זה מריץ אלגוריתם תכנון שמנבא את המדיניות של כל השחקנים האחרים בהתבסס על מצב המשחק והדיאלוג ומסביר הן את החוזק של פעולות שונות והן את הסבירות שלהן במשחקים אנושיים. בהתבסס על מידע ומשתנים אלה, ננקטת הפעולה האופטימלית הטובה ביותר עבור Cicero.

תחת המייסד והמנכ"ל של Meta, מארק צוקרברג, החברה השקיעה רבות ב-AI וב-metaverse כדי לנצל את התעשייה הצומחת במהירות הנראית כעתיד הטכנולוגיה.

בעד מטא ניוז.

בול זמן:

עוד מ מטא ניוז