Q-Transformer של Google DeepMind: סקירה כללית

הועלה מחדש על ידי אפלטון

עוקב: 0

ה-Q-Transformer, פותח על ידי צוות מ-Google DeepMind, בראשות יבגן צ'בוטאר, Quan Vuong ואחרים, היא ארכיטקטורה חדשנית מפותח ללימוד חיזוקים לא מקוונים עם דגמי רובוטריקים בעלי קיבולת גבוהה, המתאימים במיוחד ללימוד חיזוק רובוטי רב-משימות בקנה מידה גדול (RL). זה נועד להכשיר מדיניות מרובת משימות ממערכי נתונים נרחבים לא מקוונים, תוך מינוף הן של הדגמות אנושיות והן בנתונים שנאספו באופן אוטונומי. זוהי שיטת למידה מחזקת לאימון מדיניות ריבוי משימות ממערכי נתונים לא מקוונים גדולים, תוך מינוף הדגמות אנושיות ונתונים שנאספים באופן אוטונומי. היישום משתמש ב-Transformer כדי לספק ייצוג ניתן להרחבה עבור פונקציות Q שאומנו באמצעות גיבויים של הבדלים זמניים לא מקוונים. העיצוב של ה-Q-Transformer מאפשר ליישם אותו על מערכי נתונים רובוטיים גדולים ומגוונים, כולל נתונים מהעולם האמיתי, והוא הוכיח שהוא מתגבר על אלגוריתמים קודמים של RL לא מקוון וטכניקות למידה חיקוי במגוון משימות מניפולציה רובוטיות. .

תכונות ותרומות מרכזיות של Q-Transformer

ייצוג ניתן להרחבה עבור פונקציות Q: ה-Q-Transformer משתמש במודל שנאי כדי לספק ייצוג ניתן להרחבה עבור פונקציות Q, מאומן באמצעות גיבויים לא מקוונים של הבדלים זמניים. גישה זו מאפשרת טכניקות מודל רצף יעילות בעלות קיבולת גבוהה עבור Q-learning, שהיא יתרון במיוחד בטיפול במערכי נתונים גדולים ומגוונים.

אסימון לפי ממד של ערכי Q: ארכיטקטורה זו מייצרת באופן ייחודי ערכי Q לכל ממד פעולה, ומאפשרת ליישם אותה ביעילות על מגוון רחב של משימות רובוטיות בעולם האמיתי. זה אומת באמצעות מדיניות ריבוי משימות מותנית בטקסט בקנה מידה גדול שנלמד הן בסביבות מדומה והן בניסויים בעולם האמיתי.

אסטרטגיות למידה חדשניות: ה-Q-Transformer משלב Q-learning דיסקרטי, מסדרת Q-function שמרנית ספציפית ללמידה ממערכי נתונים לא מקוונים, ושימוש במונטה קרלו וב-n-step החזרות כדי לשפר את יעילות הלמידה.

טיפול באתגרים ב-RL: הוא מטפל בבעיות הערכת יתר הנפוצות ב-RL עקב שינוי התפלגות על ידי מזעור פונקציית ה-Q בפעולות מחוץ להפצה. זה חשוב במיוחד כאשר עוסקים בתגמולים דלילים, כאשר פונקציית ה-Q המוסדרת יכולה להימנע מלקבל ערכים שליליים למרות כל התגמול המיידי הלא שלילי.

מגבלות וכיוונים עתידיים: היישום הנוכחי של Q-Transformer מתמקד במשימות תגמול בינארי דל, בעיקר עבור בעיות מניפולציה רובוטיות אפיזודיות. יש לו מגבלות בטיפול במרחבי פעולה בממדים גבוהים יותר עקב אורך רצף מוגבר וזמן ההסקה. פיתוחים עתידיים עשויים לחקור שיטות דיסקרטיזציה אדפטיביות ולהרחיב את ה-Q-Transformer לכוונון עדין מקוון, מה שיאפשר שיפור אוטונומי יעיל יותר של מדיניות רובוטית מורכבת.

כדי להשתמש ב-Q-Transformer, בדרך כלל מייבאים את הרכיבים הדרושים מספריית Q-Transformer, מגדירים את המודל עם פרמטרים ספציפיים (כמו מספר פעולות, פחי פעולה, עומק, ראשים והסתברות לנשירה), ומאמנים אותו על מערך נתונים. הארכיטקטורה של ה-Q-Transformer כוללת אלמנטים כמו Vision Transformer (ViT) לעיבוד תמונות ומבנה רשת דו-קרב ללמידה יעילה.

הפיתוח והמקור הפתוח של ה-Q-Transformer נתמכו על ידי StabilityAI, A16Z Open Source AI תוכנית המענקים, וחאגינגפייס, בין נותני החסות האחרים.

לסיכום, ה-Q-Transformer מייצג התקדמות משמעותית בתחום ה-RL הרובוטי, ומציע שיטה מדרגית ויעילה לאימון רובוטים על מערכי נתונים מגוונים וגדולים.

מקור תמונה: Shutterstock

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
מקור: https://Blockchain.News/analysis/google-deepminds-q-transformer-an-overview

בול זמן: ינואר 8, 2024

בול זמן: אוגוסט 1, 2023

Q-Transformer של Google DeepMind: סקירה כללית

הועלה מחדש על ידי אפלטון

עוד מ חדשות

Reddit להפסיק את תוכנית נקודות הקהילה מבוססת בלוקצ'יין

דרום קוריאה קובעת הנחיות להסדרת נכסים דיגיטליים כניירות ערך

ביטקוין עדיין במסלול להגיע ל-100 אלף דולר בטווח הארוך, אומר מנכ"ל OKCoin

שלב הניסוי הראשון הושלם בפרויקט הדיגיטלי הזוכה של דרום קוריאה

סנטור אלבמה טומי טוברוויל מציג מחדש חקיקה המאפשרת לארצות הברית 401k

השותפים של Banxa עם AAX כדי לאפשר רכישת קריפטו עם פיאט ולהיפך

Fireblocks משלב את רשת Astar, משפר את גישת ה-DeFi מאובטחת למוסדות

חוזה ההפקדה של Ethereum 2.0 מגיע ל-ATH ככל שההשקעות מתגברות

Likvidi משיקה פלטפורמה עם Blockchain Tech for Projects גישה לשוקי אשראי פחמן

Bitcoin Miner Bitfarms כרה 378 BTC ונמכר 333 ביולי

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן