האם אתה יכול ללמד AI שכל ישר?

צומת המקור: 990012

כל ההפעלות מ- Transform 2021 זמינות לפי דרישה כעת. צפה עכשיו.


עוד לפני שהם אומרים את המילים הראשונות שלהם, תינוקות אנושיים מפתחים מודלים מנטליים לגבי חפצים ואנשים. זוהי אחת היכולות המרכזיות המאפשרות לנו, בני האדם, ללמוד לחיות באופן חברתי ולשתף פעולה (או להתחרות) זה עם זה. אבל עבור בינה מלאכותית, אפילו משימות החשיבה ההתנהגותיות הבסיסיות ביותר נותרות אתגר.

מודלים מתקדמים של למידה עמוקה יכול לבצע משימות מסובכות כמו לזהות אנשים וחפצים בתמונות, לפעמים אפילו טוב יותר מבני אדם. אבל הם נאבקים לעבור מעבר לתכונות החזותיות של תמונות ולהסיק מסקנות לגבי מה שסוכנים אחרים עושים או רוצים להשיג.

כדי לעזור למלא את הפער הזה, מדענים מ-IBM, המכון הטכנולוגי של מסצ'וסטס ואוניברסיטת הרווארד פיתחו סדרה של מבחנים שיסייעו להעריך את היכולת של מודלים של AI להגיב כמו ילדים, על ידי התבוננות והיגיון בעולם.

"כמו תינוקות אנושיים, זה קריטי לסוכני מכונות לפתח יכולת נאותה של הבנת מוחות אנושיים, כדי לעסוק בהצלחה באינטראקציות חברתיות", כותבים חוקרי AI ב מאמר חדש שמציג את מערך הנתונים, הנקרא AGENT.

הוצגה השנה בכנס הבינלאומי ללמידת מכונה (ICML), AGENT מספקת אמת מידה חשובה למדידת יכולות החשיבה של מערכות בינה מלאכותית.

התבוננות וחיזוי התנהגות סוכן

יש כמות גדולה של עבודה על בדיקת השכל הישר וההיגיון במערכות AI. רבים מהם מתמקדים בהבנת שפה טבעית, כולל המפורסמים מבחן טיורינג ו סכימות וינוגרד. לעומת זאת, פרויקט AGENT מתמקד בסוגי יכולות החשיבה שבני אדם לומדים לפני שהם מסוגלים לדבר.

"המטרה שלנו, בעקבות הספרות בפסיכולוגיה התפתחותית, היא ליצור אמת מידה להערכת יכולות ספציפיות של השכל הישר הקשורות לפסיכולוגיה אינטואיטיבית שתינוקות לומדים בשלב הקדם-לשוני (ב-18 החודשים הראשונים לחייהם)", דן גוטפרוינד, מנהל חוקר במעבדת MIT-IBM Watson AI, סיפר TechTalks.

כילדים, אנו לומדים להבחין בין אובייקטים לסוכנים על ידי התבוננות בסביבתנו. כאשר אנו צופים באירועים מתפתחים, אנו מפתחים מיומנויות פסיכולוגיות אינטואיטיביות, חוזים את המטרות של אנשים אחרים על ידי התבוננות במעשיהם, וממשיכים לתקן ולעדכן את המנטליות שלנו. אנחנו לומדים את כל זה עם מעט או ללא הוראות.

הרעיון מאחורי מבחן ה-AGENT (פעולה, מטרה, יעילות, coNstraint, UTility) הוא להעריך עד כמה מערכות AI יכולים לחקות את המיומנות הבסיסית הזו, מה הם יכולים לפתח יכולות חשיבה פסיכולוגית, ועד כמה הייצוגים שהם לומדים מכלילים למצבים חדשים. מערך הנתונים כולל רצפים קצרים המציגים סוכן מנווט את דרכו לעבר אחד מכמה אובייקטים. הרצפים הופקו ב-ThreeDWorld, סביבת תלת מימד וירטואלית המיועדת לאימון סוכני AI.

מבחן ה-AGENT מתרחש בשני שלבים. ראשית, ה-AI מוצג עם רצף אחד או שניים שמתארים את התנהגות הסוכן. דוגמאות אלו צריכות להכיר ל-AI את העדפותיו של הסוכן הוירטואלי. לדוגמה, סוכן עשוי לבחור תמיד סוג אחד של אובייקט ללא קשר למכשולים העומדים בדרכו, או שהוא עשוי לבחור את האובייקט הקרוב והנגיש ביותר ללא קשר לסוגו.

לאחר שלב ההיכרות, ה-AI מוצג רצף בדיקה והוא חייב לקבוע אם הסוכן פועל באופן צפוי או מפתיע.

המבחנים, 3,360 בסך הכל, משתרעים על פני ארבעה סוגי תרחישים, החל מהתנהגות פשוטה מאוד (הסוכן מעדיף סוג אחד של אובייקט ללא קשר לסביבה) על פני אתגרים מסובכים יותר (הסוכן מציג הערכת עלות-תגמול, שקלול הקושי להשיג גול כנגד הפרס שהוא יקבל). ה-AI חייב לשקול גם את יעילות הפעולה של הסוכן הפועל (למשל, אסור לו לבצע קפיצות מיותרות כאשר אין מכשולים). ובחלק מהאתגרים, הסצנה חסומה חלקית כדי להקשות על היגיון לגבי הסביבה.

תרחישים מציאותיים בסביבה מלאכותית

מתכנני הבדיקות כללו הטיות אינדוקטיביות אנושיות, מה שאומר שהסוכנים והסביבה נשלטים על ידי כללים שיהיו רציונליים לבני אדם (למשל, עלות הקפיצה או הטיפוס על מכשול גדלה עם הגובה שלו). החלטה זו עוזרת להפוך את האתגרים למציאותיים יותר וקלים יותר להערכה. החוקרים מציינים גם שהטיות מסוג זה חשובות גם כדי לסייע ביצירת מערכות בינה מלאכותית שמתואמות טוב יותר ותואמות להתנהגות אנושית ויכולות לשתף פעולה עם עמיתים אנושיים.

חוקרי הבינה המלאכותית בדקו את האתגרים על מתנדבים אנושיים באמצעות Amazon Mechanical Turk. הממצאים שלהם מראים שבממוצע, בני אדם יכולים לפתור 91 אחוז מהאתגרים על ידי התבוננות ברצפי ההיכרות ושיפוט דוגמאות הבדיקה. זה מרמז שבני אדם משתמשים בידע הקודם שלהם על העולם ועל התנהגות האדם/החיה כדי להבין איך הסוכנים מקבלים החלטה (למשל, כל שאר הדברים שווים, סוכן יבחר את האובייקט עם תגמול גבוה יותר).

חוקרי הבינה המלאכותית הגבילו בכוונה את גודל מערך הנתונים כדי למנוע קיצורי דרך לא חכמים לפתרון הבעיות. בהינתן מערך נתונים גדול מאוד, מודל למידת מכונה עשוי ללמוד לבצע תחזיות נכונות מבלי להשיג את הידע הבסיסי על התנהגות סוכן. "אימון מאפס רק על מערך הנתונים שלנו לא יעבוד. במקום זאת, אנו מציעים שכדי לעבור את המבחנים, יש צורך לרכוש ידע נוסף או באמצעות הטיות אינדוקטיביות בארכיטקטורות, או מהדרכה על נתונים נוספים", כותבים החוקרים.

החוקרים, לעומת זאת, יישמו כמה קיצורי דרך בבדיקות. מערך הנתונים של AGENT כולל מפות עומק, מפות פילוח ותיבות תוחמות של אובייקטים ומכשולים עבור כל פריים של הסצנה. הסצנות גם פשוטות ביותר בפרטים חזותיים ומורכבות משמונה צבעים ברורים. כל זה מקל על מערכות AI לעבד את המידע בסצנה ולהתמקד בחלק ההגיוני של האתגר.

האם AI נוכחי פותר את אתגרי AGENT?

החוקרים בדקו את אתגר AGENT על שני מודלים בסיסיים של AI. הראשון, Bayesian Inverse Planning and Core Knowledge (BIPaCK), הוא מודל מחולל המשלב הדמיית פיזיקה ותכנון.

דגם BIPaCK

למעלה: מודל BIPaCK משתמש במנועי מתכנן ופיזיקה כדי לחזות את המסלול של הסוכן

מודל זה משתמש במידע האמתי המלא המסופק על ידי מערך הנתונים ומזין אותו לתוך הפיזיקה והתכנון שלו כדי לחזות את מסלול הסוכן. הניסויים של החוקרים מראים כי BIPaCK מסוגל לבצע ביצועים ברמה שווה או אפילו טוב יותר מבני אדם כאשר יש לו מידע מלא על הסצנה.

עם זאת, בעולם האמיתי, למערכות בינה מלאכותית אין גישה למידע אמת קרקעית מוערת במדויק, והן חייבות לבצע את המשימה המסובכת של זיהוי עצמים על רקע ותנאי תאורה שונים, בעיה שבני אדם ובעלי חיים פותרים בקלות אך נותרה אתגר עבור המחשב מערכות ראייה.

במאמרם, החוקרים מכירים בכך שה-BIPaCK "דורש שחזור מדויק של מצב התלת-ממד ומודל מובנה של הדינמיקה הפיזית, שלא בהכרח יהיה זמין בסצנות בעולם האמיתי".

המודל השני שהחוקרים בדקו, בשם הקוד ToMnet-G, הוא גרסה מורחבת של Theory of Mind Neural Network (ToMnet), שהוצע על ידי מדענים ב Deepmind בשנת 2018. ToMnet-G משתמשת ברשתות עצביות גרפיות כדי לקודד את מצב הסצנות, כולל האובייקטים, המכשולים ומיקומו של הסוכן. לאחר מכן הוא מזין את הקידודים האלה לתוך רשתות זיכרון לטווח קצר (LSTM) כדי לעקוב אחר מסלול הסוכן על פני רצף הפריימים. המודל משתמש בייצוגים שהוא שואב מסרטוני ההיכרות כדי לחזות את התנהגות הסוכן בסרטוני הבדיקה ולדרג אותם כצפוי או מפתיע.

דגם ToMnet-G

למעלה: מודל ToMnet-G משתמש בגרפים ברשתות עצביות וב-LSTMs כדי להטמיע ייצוגי סצנה ולחזות התנהגות של סוכן

היתרון של ToMnet-G הוא בכך שהוא אינו מצריך את הפיזיקה המוכנה מראש וידע בריא של BIPaCK. הוא לומד הכל מהסרטונים ומההכשרה הקודמת על מערכי נתונים אחרים. מצד שני, ToMnet-G לומד לעתים קרובות את הייצוגים הלא נכונים ואינו יכול להכליל את התנהגותו לתרחישים חדשים או כאשר יש לו מידע מוכר מוגבל.

"ללא קודמים מובנים רבים, ToMnet-G מפגין תוצאות מבטיחות כאשר מאומנים ונבדקים על תרחישים דומים, אך עדיין אין לו יכולת הכללה חזקה הן בתוך תרחישים והן לרוחבם", מציינים החוקרים במאמרם.

הניגוד בין שני המודלים מדגיש את האתגרים של המשימות הפשוטות ביותר שבני אדם לומדים ללא כל הוראות.

"עלינו לזכור שהמדד שלנו, בעיצובו, מתאר תרחישים סינתטיים פשוטים מאוד המתייחסים בכל פעם להיבט ספציפי אחד של השכל הישר", אמר גוטפרוינד. "בעולם האמיתי, בני אדם מסוגלים לנתח מהר מאוד סצנות מורכבות שבהן פועלים בו זמנית היבטים רבים של השכל הישר הקשורים לפיזיקה, פסיכולוגיה, שפה ועוד. מודלים של AI עדיין רחוקים מלהיות מסוגלים לעשות משהו קרוב לזה".

השכל הישר והעתיד של AI

"אנחנו מאמינים שהדרך מ-AI צר לרחבה חייבת לכלול מודלים שיש להם שכל ישר", אמר גוטפרוינד. "יכולות השכל הישר הן אבני בניין חשובות בהבנה ובאינטראקציה בעולם ויכולות להקל על רכישת יכולות חדשות."

מדענים רבים מאמינים שהשכל הישר וההיגיון יכולים לפתור רבות מהבעיות שעומדות בפני מערכות בינה מלאכותית הנוכחיות, כמו הצורך שלהן בכמויות נרחבות של נתוני אימון, המאבק שלהן עם סיבתיות ושבריריותן בהתמודדות עם מצבים חדשים. השכל הישר וההיגיון הם תחומי מחקר חשובים עבור קהילת הבינה המלאכותית, והם הפכו למוקד של כמה מהמוחות המבריקים ביותר בתחום, כולל החלוצים של למידה עמוקה.

פתרון AGENT יכול להיות צעד קטן אך חשוב לקראת יצירת סוכני AI שמתנהגים בצורה איתנה בעולם הבלתי צפוי של בני אדם.

"יהיה קשה לשכנע אנשים לסמוך על סוכנים אוטונומיים אל תתנהג בצורה הגיונית משותפת"אמר גוטפרוינד. "קחו למשל רובוט לסיוע לקשישים. אם הרובוט הזה לא יפעל לפי עיקרון ההיגיון שסוכנים רודפים אחר מטרותיהם ביעילות וינועו בזיגזג ולא בקו ישר כשיתבקשו להביא חלב מהמקרר, זה לא יהיה מעשי במיוחד ולא אמין".

AGENT הוא חלק מה- השכל הישר של מכונה תוכנית (MCS) של Defense Advanced Research Projects Agency (DARPA). MCS עוקב אחר שני יעדים רחבים. הראשון הוא ליצור מכונות שיכולות ללמוד כמו ילדים לחשוב על חפצים, סוכנים וחלל. AGENT נכלל בקטגוריה זו. המטרה השנייה היא לפתח מערכות שיכולות ללמוד על ידי קריאת ידע מובנה ובלתי מובנה מהרשת, כפי שחוקר אנושי היה עושה. זה שונה מהגישות הנוכחיות להבנת שפה טבעית, המתמקדות רק בלכידת מתאמים סטטיסטיים בין מילים ורצפי מילים בגוף גדול מאוד של טקסט.

"אנחנו עובדים כעת על שימוש ב-AGENT כסביבת בדיקה לתינוקות. יחד עם שאר מבצעי תוכנית DARPA MCS אנו מתכננים לחקור תרחישים מורכבים יותר של שכל ישר הקשורים לגורמים רבים (למשל, עזרה או הפרעה זה לזה) ושימוש בכלים להשגת מטרות (למשל, מפתחות לפתיחת דלתות) . אנו עובדים גם על תחומי ידע נוספים הקשורים לפיזיקה אינטואיטיבית והבנה מרחבית", אמר גוטפרוינד.

בן דיקסון הוא מהנדס תוכנה ומייסד חברת TechTalks, בלוג החוקר את הדרכים הטכנולוגיות פותרות ויוצרות בעיות.

סיפור זה הופיע במקור Bdtechtalks.com. זכויות יוצרים 2021

VentureBeat

המשימה של VentureBeat היא להיות כיכר עיר דיגיטלית עבור מקבלי החלטות טכניים כדי לקבל ידע על טכנולוגיה טרנספורמטיבית וביצוע עסקאות. האתר שלנו מספק מידע חיוני על טכנולוגיות נתונים ואסטרטגיות להנחות אותך בזמן שאתה מוביל את הארגונים שלך. אנו מזמינים אותך להיות חבר בקהילה שלנו, לגשת ל:

  • מידע עדכני בנושאים שמעניינים אותך
  • העלונים שלנו
  • תוכן מוביל מחשבה מגודר וגישה מוזלת לאירועים היקרים שלנו, כגון טרנספורמציה 2021: למד עוד
  • תכונות רשת ועוד

להיות חבר

מקור: https://venturebeat.com/2021/07/27/can-you-teach-ai-common-sense/

בול זמן:

עוד מ AI - VentureBeat