האצת אימון רשתות עצביות בקנה מידה גדול על מעבדים עם ThirdAI ו-AWS Graviton | שירותי האינטרנט של אמזון

האצת אימון רשתות עצביות בקנה מידה גדול על מעבדים עם ThirdAI ו-AWS Graviton | שירותי האינטרנט של אמזון

צומת המקור: 2502319

פוסט אורח זה נכתב על ידי Vihan Lakshman, Tharun Medini, ו-Anshumali Shrivastava מ-ThirdAI.

למידה עמוקה בקנה מידה גדול יצרה לאחרונה התקדמות מהפכנית במגוון עצום של תחומים. למרות שההתקדמות המדהימה הזו בתחום הבינה המלאכותית נותרה יוצאת דופן, העלויות הפיננסיות וצריכת האנרגיה הנדרשות לאימון הדגמים הללו התגלו כצוואר בקבוק קריטי בשל הצורך בחומרה מיוחדת כמו GPUs. באופן מסורתי, אפילו מודלים עצביים בגודל צנוע דרשו מאיצי חומרה יקרים להדרכה, מה שמגביל את מספר הארגונים בעלי האמצעים הפיננסיים לנצל את מלוא היתרונות של הטכנולוגיה הזו.

ThirdAI Corp., שנוסדה בשנת 2021, היא סטארט-אפ המוקדש למשימה של דמוקרטיזציה של טכנולוגיות בינה מלאכותית באמצעות חידושי אלגוריתמים ותוכנה שמשנים מהותית את הכלכלה של למידה עמוקה. פיתחנו מנוע למידה עמוקה דלילה, המכונה BOLT, שתוכנן במיוחד לאימון ופריסה של מודלים על חומרת CPU סטנדרטית, בניגוד למאיצים יקרים ועתירי אנרגיה כמו GPUs. לרבים מהלקוחות שלנו יש דיווח על שביעות רצון חזקה עם היכולת של ThirdAI לאמן ולפרוס מודלים של למידה עמוקה לבעיות עסקיות קריטיות בתשתית CPU חסכונית.

בפוסט זה, אנו חוקרים את הפוטנציאל של מעבד ה-AWS Graviton3 להאיץ אימון רשתות עצביות עבור מנוע הלמידה העמוק של ThirdAI הייחודי של ThirdAI.

היתרונות של מעבדים בעלי ביצועים גבוהים

ב-ThirdAI, אנו משיגים את פריצות הדרך הללו באימון רשתות עצביות יעילה במעבדים באמצעות אלגוריתמים דינמיים דינמיים דלילים המפעילים רק תת-קבוצה של נוירונים עבור קלט נתון (ראה את האיור הבא), ובכך מעקפים את הצורך בחישובים צפופים מלאים. בניגוד לגישות אחרות לאימון רשתות עצביות דלילה, ThirdAI משתמשת hashing רגיש ליישוב כדי לבחור באופן דינמי נוירונים עבור קלט נתון כפי שמוצג בשורות המודגשות למטה. במקרים מסוימים, אפילו ראינו את זה שלנו דגמים דלילים מבוססי מעבד להתאמן מהר יותר מהארכיטקטורה הצפופה המקבילה במעבדי GPU.

ארכיטקטורה עצבית צפופה עם קווים מודגשים המראים אילו נוירונים נבחרים

בהתחשב בכך שרבים מלקוחות היעד שלנו פועלים בענן - וביניהם, רובם משתמשים ב-AWS - היינו נרגשים לנסות את מעבד AWS Graviton3 כדי לראות אם השיפורים המרשימים במחיר-ביצועים של חדשנות הסיליקון של אמזון יתורגמו לעומס העבודה הייחודי שלנו של אימון רשתות עצביות דלילה ובכך לספק חיסכון נוסף ללקוחות. למרות שגם קהילת המחקר וגם צוות AWS Graviton סיפקו התקדמות מלהיבה בהאצה הסקת רשת עצבית במופעי CPU, אנחנו ב-ThirdAI הם, למיטב ידיעתנו, הראשונים שחקרו ברצינות כיצד לאמן מודלים עצביים על מעבדים ביעילות.

כפי שמוצג בתוצאות שלנו, צפינו בהאצת אימון משמעותית עם AWS Graviton3 על פני מופעי Intel ו-NVIDIA הדומים בכמה עומסי עבודה מייצגים של דוגמנות.

סוגי מופעים

להערכתנו, שקלנו שני מקרים דומים של מעבד AWS: מכונת c6i.8xlarge המופעלת על ידי מעבד Ice Lake של אינטל ו-c7g.8xlarge המופעלת על ידי AWS Graviton3. הטבלה הבאה מסכמת את הפרטים של כל מופע.

מופע vCPU RAM (GB) מעבד מחיר לפי דרישה (us-east-1)
c7g.8xlarge 32 64 AWS Graviton3 $ 1.1562 / hr
c6i.8xlarge 32 64 אגם קרח אינטל $ 1.36 / hr
g5g.8xlarge (GPU) 32 64 עם זיכרון GPU של 16 GB מעבדי AWS Graviton2 עם 1 NVIDIA T4G GPU $ 1.3720 / hr

הערכה 1: סיווג קיצוני

להערכה הראשונה שלנו, אנו מתמקדים בבעיה של סיווג ריבוי תוויות קיצוני (XMC), פרדיגמת למידת מכונה (ML) פופולרית יותר ויותר עם מספר יישומים מעשיים בחיפוש והמלצות (כולל ב- אמזון בעברית). להערכתנו, אנו מתמקדים בציבור משימת המלצת מוצר של Amazon-670K, אשר בהינתן מוצר קלט, מזהה מוצרים דומים מאוסף של למעלה מ-670,000 פריטים.

בניסוי זה, אנו מסמנים את מנוע ה-BOLT של ThirdAI מול TensorFlow 2.11 ו-PyTorch 2.0 על אפשרויות החומרה שהוזכרו לעיל: Intel Ice Lake, AWS Graviton3 ו-NVIDIA T4G GPU. עבור הניסויים שלנו על אינטל ו-AWS Graviton, אנו משתמשים ב-AWS Deep Learning AMI (Ubuntu 18.04) גרסה 59.0. להערכת ה-GPU שלנו, אנו משתמשים ב- Arm64 AMI המותאם ל-NVIDIA GPU, זמין דרך AWS Marketplace. עבור הערכה זו, אנו משתמשים ב- ארכיטקטורת דגם SLIDE, שמשיג גם ביצועים תחרותיים במשימת הסיווג הקיצונית הזו וגם ביצועי אימון חזקים במעבדים. להשוואות TensorFlow ו-PyTorch שלנו, אנו מיישמים את הגרסה האנלוגית של ארכיטקטורת ה-SLIDE multi-layer perceptron (MLP) עם הכפלות מטריצות צפופות. אנו מאמנים כל דגם במשך חמש תקופות (עובר מלא במערך ההדרכה) עם גודל אצווה קבוע של 256 וקצב למידה של 0.001. ראינו שכל הדגמים השיגו את אותו דיוק הבדיקה של 33.6%.

הטבלה הבאה משווה את זמן האימון של ה-BOLT של ThirdAI ל-TensorFlow 2.11 ו-PyTorch 2.0 במדד הסיווג הקיצוני של Amazon670k. כל הדגמים משיגים את אותו דיוק בדיקה. אנו רואים ש-AWS Graviton3 מאיץ במידה ניכרת את הביצועים של BOLT מחוץ לקופסה ללא צורך בהתאמות אישיות - בכ-40%. ה-BOLT של ThirdAI ב-AWS Graviton3 גם משיג אימון מהיר בהרבה מדגמי TensorFlow או PyTorch המאומנים על ה-GPU. שים לב שאין תוצאה של ThirdAI במדד ה-NVIDIA GPU מכיוון ש-BOLT נועד לפעול על מעבדים. אנחנו לא כוללים מדדי TensorFlow ו-PyTorch CPU בגלל זמן ההכשרה הארוך ביותר.

Amazon 670k זמן אימון תרשים עמודות המשווה בין מופעים c6i.8xlarge לעומת c7g.8xlarge

הטבלה הבאה מסכמת את זמן האימון ואת דיוק הבדיקה עבור כל מעבד/מעבד מיוחד (GPU).

מעבד מנוע זמן אימון (ים) בדיקת דיוק
Intel Ice Lake (c6i.8xlarge) BOLT 1470 33.6
AWS Graviton3 (c7g.8xlarge) BOLT 935 33.6
NVIDIA T4G (g5g.8xlarge) TensorFlow 7550 33.6
NVIDIA T4G (g5g.8xlarge) PyTorch 5130 33.6

הערכה 2: ניתוח סנטימנט קוטביות Yelp

להערכה השנייה שלנו, אנו מתמקדים בפופולרי Yelp Polarity מדד ניתוח סנטימנטים, הכולל סיווג ביקורת כחיובית או שלילית. לצורך הערכה זו, אנו משווים את של ThirdAI רובוטריקים עמוקים אוניברסליים (UDT) דגם נגד מכוון DistilBERT רשת, מודל שפה דחוס מיומן מראש המשיג ביצועים כמעט מתקדמים עם חביון מסקנות מופחת. מכיוון שכוונון עדין של דגמי DistilBERT על מעבד ייקח הרבה זמן (לפחות מספר ימים), אנו מסמנים את הדגמים מבוססי ה-CPU של ThirdAI מול DistilBERT המכוונים עדין על GPU. אנו מאמנים את כל הדגמים בגודל אצווה של 256 למעבר בודד בנתונים (תקופה אחת). אנו מציינים שאנו יכולים להשיג דיוק מעט גבוה יותר עם BOLT עם מעברים נוספים בנתונים, אך אנו מגבילים את עצמנו למעבר בודד בהערכה זו לצורך עקביות.

כפי שמוצג באיור הבא, AWS Graviton3 שוב מאיץ באופן ניכר את אימון מודל ה-UDT של ThirdAI. יתר על כן, UDT מסוגל להשיג דיוק בדיקה דומה ל-DistilBERT עם שבריר מזמן האימון וללא צורך ב-GPU. אנו מציינים כי הייתה גם עבודה לאחרונה ב אופטימיזציה של הכוונון העדין של Yelp Polarity במעבדים. עם זאת, הדגמים שלנו עדיין משיגים רווחי יעילות גדולים יותר ונמנעים מהעלות של אימון מקדים, שהוא משמעותי ודורש שימוש במאיצי חומרה כמו GPUs.

זמן אימון ב-Yelp Polarity C7g vs c6i

הטבלה הבאה מסכמת את זמן האימון, דיוק הבדיקה וזמן ההסקה.

מעבד מנוע מספר סימוכין זמן אימון (ים) בדיקת דיוק השהיית מסקנות (ms)
Intel Icelake (c6i.8xlarge) BOLT UDT 47 93.2 <1
Graviton3 (c7g.8xlarge) BOLT UDT 29 92.9 <1
T4G GPU (g5g.8xlarge) TensorFlow DistilBERT 4200 93.3 8.7
T4G GPU (g5g.8xlarge) PyTorch DistilBERT 3780 93.4 8.3

הערכה 3: סיווג טקסט רב כיתתי (DBPedia)

להערכה הסופית שלנו, אנו מתמקדים בבעיה של סיווג טקסט מרובה מחלקות, הכוללת הקצאת תווית לטקסט קלט נתון מקבוצה של יותר משתי מחלקות פלט. אנו מתמקדים ב DBPedia benchmark, המורכב מ-14 מחלקות תפוקה אפשריות. שוב, אנו רואים ש-AWS Graviton3 מאיץ את ביצועי UDT לעומת המופע המקביל של אינטל בכ-40%. אנו רואים גם ש-BOLT משיג תוצאות דומות לדגם מבוסס שנאי DistilBERT המכוונן עדין על GPU תוך השגת זמן השהייה של תת-מילישניות.

זמן אימון ThirdAI BOLT ב-c7g לעומת c6i

הטבלה הבאה מסכמת את זמן האימון, דיוק הבדיקה וזמן ההסקה.

מעבד מנוע מספר סימוכין זמן אימון (ים) בדיקת דיוק השהיית מסקנות (ms)
Intel Icelake (c6i.8xlarge) BOLT UDT 23 98.23 <1
Graviton3 (c7g.8xlarge) BOLT UDT 14 98.10 <1
T4G GPU (g5g.8xlarge) TensorFlow DistilBERT 4320 99.23 8.6
T4G GPU (g5g.8xlarge) PyTorch DistilBERT 3480 99.29 8

התחל עם ThirdAI ב-AWS Graviton

תכננו את תוכנת ה-BOLT שלנו להתאמה לכל ארכיטקטורות המעבד העיקריות, כולל AWS Graviton3. למעשה, לא היינו צריכים לבצע התאמות אישיות כלשהן לקוד שלנו כדי לרוץ על AWS Graviton3. לכן, אתה יכול להשתמש ב-ThirdAI להדרכה ופריסה של מודלים ב-AWS Graviton3 ללא מאמץ נוסף. בנוסף, כפי שפורט לאחרונה מחקר לבן, פיתחנו קבוצה של טכניקות מתמטיות חדשות לכוונון אוטומטי של הפרמטרים הייחודיים הקשורים למודלים הדלילים שלנו, מה שמאפשר למודלים שלנו לעבוד היטב מיד מהקופסה.

כמו כן, אנו מציינים כי המודלים שלנו פועלים היטב בעיקר עבור משימות חיפוש, המלצות ועיבוד שפה טבעית, הכוללות בדרך כלל מרחבי פלט גדולים ובממדים גבוהים ודרישה של חביון הסקת הסקה נמוך במיוחד. אנו עובדים באופן פעיל על הרחבת השיטות שלנו לתחומים נוספים, כגון ראייה ממוחשבת, אך שים לב ששיפורי היעילות שלנו אינם מתורגמים לכל תחומי ה-ML בשלב זה.

סיכום

בפוסט זה, חקרנו את הפוטנציאל של מעבד ה-AWS Graviton3 להאיץ אימון ברשתות עצביות עבור מנוע הלמידה העמוק של ThirdAI הייחודי של ThirdAI. המדדים שלנו בנושאי חיפוש, סיווג טקסט והמלצות מצביעים על כך ש-AWS Graviton3 יכול להאיץ את עומסי העבודה של אימון המודלים של ThirdAI ב-30-40% בהשוואה למופעי x86 הדומים עם שיפור מחיר-ביצועים של כמעט 50%. יתר על כן, מכיוון שמופעי AWS Graviton3 זמינים בעלות נמוכה יותר מהמכונות המקבילות של אינטל ו-NVIDIA ומאפשרים זמני אימון והסקת מסקנות קצרים יותר, אתה יכול לשחרר עוד יותר את הערך של מודל השימוש של AWS בתשלום לפי נסיעה על ידי שימוש בעלות נמוכה יותר מכונות לפרקי זמן קצרים יותר.

אנו נרגשים מאוד מהחיסכון במחיר ובביצועים של AWS Graviton3 וננסה להעביר את השיפורים הללו ללקוחותינו כדי שיוכלו ליהנות מאימון ML מהיר יותר ומהסקת ביצועים משופרים במעבדים בעלות נמוכה. כלקוחות של AWS בעצמנו, אנו שמחים מהמהירות שבה AWS Graviton3 מאפשר לנו להתנסות בדגמים שלנו, ואנו מצפים להשתמש בחדשנות סיליקון חדשנית יותר מ-AWS בעתיד. מדריך טכני של Graviton הוא משאב טוב לשקול בעת הערכת עומסי העבודה שלך ב-ML להפעלה על Graviton. אתה יכול גם לנסות מופעים של Graviton t4g ניסיון ללא תשלום.

התוכן והדעות בפוסט זה הם של המחבר של הצד השלישי ו-AWS אינה אחראית לתוכן או לדיוק של פוסט זה. בזמן כתיבת הבלוג המופע העדכני ביותר היה c6i ומכאן שההשוואה נעשתה עם מופעי c6i.


על המחבר

ויהן לקשמן – Vihan Lakshman הוא מדען מחקר ב-ThirdAI Corp. המתמקד בפיתוח מערכות ללמידה עמוקה חסכונית במשאבים. לפני ThirdAI, הוא עבד כמדען יישומי באמזון וקיבל תואר ראשון ותואר שני מאוניברסיטת סטנפורד. Vihan הוא גם מקבל מלגת מחקר של הקרן הלאומית למדע.

ת'רון מדיני – ת'ארון מדיני הוא המייסד וה-CTO של ThirdAI Corp. הוא עשה את הדוקטורט שלו ב"אלגוריתמי גיבוב לחיפוש ואחזור מידע" באוניברסיטת רייס. לפני ThirdAI, Tharun עבד באמזון וב-Target. ת'רון זוכה בפרסים רבים על מחקריו, כולל מלגת BP של מכון קן קנדי, מלגת האגודה האמריקנית של מהנדסים הודים ומלגת בוגר אוניברסיטת רייס.

אנשומלי שריווסטבה – Anshumali Shrivastava הוא פרופסור חבר במחלקה למדעי המחשב באוניברסיטת רייס. הוא גם המייסד והמנכ"ל של ThirdAI Corp, חברה העוסקת בדמוקרטיזציה של AI לחומרת סחורות באמצעות חידושי תוכנה. תחומי המחקר הרחבים שלו כוללים אלגוריתמים הסתברותיים ללמידה עמוקה חסכנית במשאבים. בשנת 2018, Science News כינו אותו כאחד מ-10 המדענים המובילים מתחת לגיל 40 לצפייה. הוא זוכה בפרס הקריירה הלאומית למדע, פרס חוקר צעיר ממשרד חיל האוויר למחקר מדעי, פרס מחקר למידת מכונה מאמזון, ופרס מחקר מדעי הנתונים מ-Adobe. הוא זכה במספר פרסי נייר, כולל פרסי הנייר הטוב ביותר ב-NIPS 2014 ו-MLSys 2022, כמו גם פרס הנייר הניתן לשחזור ביותר ב-SIGMOD 2019. עבודתו על טכנולוגיות למידת מכונה יעילות במעבדים סוקרה על ידי עיתונות פופולרית כולל Wall Street Journal, ניו יורק טיימס, TechCrunch, NDTV וכו'.

בול זמן:

עוד מ למידת מכונות AWS