מודלים לאימון בינה מלאכותית של 100 טריליון פרמטרים

הועלה מחדש על ידי אפלטון

עוקב: 0

מערכות בינה מלאכותית של ממליצים הן מרכיב חשוב בשירותי האינטרנט כיום: עסקים עם הכנסות של מיליארדי דולרים כמו אמזון ונטפליקס מונעים ישירות על ידי שירותי המלצות.

ממליצים בינה מלאכותית משתפרים ככל שהם גדלים. כמה דגמים שוחררו בעבר עם מיליארד פרמטרים עד אפילו טריליון לאחרונה. כל קפיצה בקיבולת הדגם הביאה לשיפור משמעותי באיכות. העידן של 100 טריליון פרמטרים ממש מעבר לפינה.

רשת עצבית מנוחה מסובכת וצפופה יותר ויותר עתירת חישוב עם יותר מ-100 TFLOPs בכל איטרציה של אימון. לפיכך, חשוב שיהיה מנגנון מתוחכם כלשהו לניהול אשכול עם משאבים הטרוגניים למשימות אימון כאלה.

לאחרונה, Kwai Seattle AI Lab ו-DS3 Lab מ-ETH ציריך שיתפו פעולה כדי להציע מערכת חדשה בשם "פרסיה" כדי להתמודד עם בעיה זו באמצעות תכנון משותף קפדני של אלגוריתם האימון ומערכת ההדרכה. ברמת האלגוריתם, פרס מאמצת אלגוריתם אימון היברידי כדי לטפל בשכבת ההטמעה ובמודולי רשת עצבית צפופה בצורה שונה. שכבת ההטמעה מאומנת באופן אסינכרוני כדי לשפר את התפוקה של דגימות אימון, בעוד שהרשת העצבית של השאר מאומנת באופן סינכרוני כדי לשמר יעילות סטטיסטית. ברמת המערכת, יושמו מגוון רחב של אופטימיזציות מערכת לניהול זיכרון והפחתת תקשורת כדי למצות את מלוא הפוטנציאל של האלגוריתם ההיברידי.

משאבי ענן עבור דגמי AI של 100 טריליון פרמטרים

עומס עבודה של AI של 100 טריליון פרמטרים של פרסיה פועל על המשאבים ההטרוגניים הבאים:

3,000 ליבות של מכונות וירטואליות עתירות מחשוב
8 מכונות וירטואליות A2 מוסיפות בסך הכל 64 A100 GPUs Nvidia
30 מכונות וירטואליות עם זיכרון גבוה, כל אחת עם 12 TB של זיכרון RAM, בסך הכל 360 TB
תזמור עם Kubernetes
היה צורך להפעיל את כל המשאבים במקביל באותו אזור כדי למזער את זמן האחזור של הרשת. Google Cloud הצליח לספק את הקיבולת הנדרשת עם מעט מאוד התראה.

אימון בינה מלאכותית זקוק למשאבים בהתפרצויות.

Google Kubernetes Engine (GKE) שימש כדי לתזמן את הפריסה של 138 ה-VMs ומכולות התוכנה. קבלת עומס העבודה במכולה מאפשרת גם העברה וחזרה על האימון.

תוצאות ומסקנות
עם תמיכה של תשתית Google Cloud, הצוות הדגים את יכולת המדרגיות של פרס עד 100 טריליון פרמטרים. אלגוריתם האימון המבוזר ההיברידי הציג הרפיות מערכת משוכללת לניצול יעיל של אשכולות הטרוגניים, תוך התכנסות מהירה כמו וניל SGD. Google Cloud היה חיוני כדי להתגבר על המגבלות של חומרה מקומית והוכיח סביבת מחשוב אופטימלית להדרכה מבוזרת של Machine Learning בקנה מידה עצום.

Persia שוחרר כפרויקט קוד פתוח ב-github עם הוראות הגדרה עבור Google Cloud - לכל אחד מהאקדמיה ומהתעשייה יהיה קל לאמן מודלים של ממליצים ללמידה עמוקה בקנה מידה של 100 טריליון פרמטרים.

בריאן וואנג הוא מוביל מחשבה עתידני ובלוגר מדע פופולרי עם מיליון קוראים בחודש. הבלוג שלו Nextbigfuture.com מדורג במקום ה -1 בלוג חדשות המדע. הוא מכסה טכנולוגיות ומגמות משבשות רבות, כולל חלל, רובוטיקה, בינה מלאכותית, רפואה, ביוטכנולוגיה אנטי-אייג'ינג וננוטכנולוגיה.

הוא ידוע בזיהוי טכנולוגיות חדישות, כיום הוא מייסד שותף של סטארט-אפ וגיוס תרומות עבור חברות בשלב מוקדם פוטנציאלי. הוא ראש המחקר להקצאות השקעות טכנולוגיות עמוקות ומשקיע אנג'ל במלאכי חלל.

הוא היה דובר תכופים בתאגידים, הוא היה דובר TEDx, דובר באוניברסיטת סינגולריות והתארח בראיונות רבים לרדיו ולפודקאסטים. הוא פתוח לנאום וליווי התקשרויות בפומבי.

בול זמן: אוגוסט אוגוסט