ChatGLM-6B: אלטרנטיבה קלת משקל, קוד פתוח ל-ChatGPT

צומת המקור: 2074009

ChatGLM-6B: אלטרנטיבה קלת משקל, קוד פתוח ל-ChatGPT
תמונה מאת המחבר
 

לאחרונה כולנו מתקשים מאוד להתעדכן במהדורות האחרונות בתחום ה-LLM. בשבועות האחרונים, מספר חלופות ChatGPT בקוד פתוח הפכו פופולריות. 

ובמאמר זה נלמד על ChatGLM סדרה ו ChatGLM-6B, אלטרנטיבה של ChatGPT בקוד פתוח וקלת משקל. 

בואו נצא לדרך!

חוקרים מאוניברסיטת Tsinghua בסין עבדו על פיתוח סדרת הדגמים ChatGLM בעלי ביצועים דומים לדגמים אחרים כגון GPT-3 ו-BLOOM.

ChatGLM הוא מודל דו לשוני בשפה גדולה המאומן בסינית ובאנגלית כאחד. נכון לעכשיו, הדגמים הבאים זמינים:

  • ChatGLM-130B: LLM בקוד פתוח
  • ChatGLM-100B: לא בקוד פתוח, אבל זמין באמצעות גישה להזמנה בלבד
  • ChatGLM-6B: חלופה קלת משקל בקוד פתוח

למרות שמודלים אלה עשויים להיראות דומים לקבוצת דגמי השפה הגדולים (GPT) של דגמי שפות, מסגרת אימון מקדימה של מודל שפה כללי (GLM). זה מה שעושה אותם שונים. נלמד עוד על כך בסעיף הבא.

בלמידת מכונה, היית מכיר GLMs כמו מודלים ליניאריים מוכללים, אבל ה-GLM ב-ChatGLM מייצג מודל שפה כללי

מסגרת אימון קדם GLM

אימון קדם LLM נחקר רבות והוא עדיין תחום של מחקר פעיל. הבה ננסה להבין את ההבדלים העיקריים בין אימון קדם GLM למודלים בסגנון GPT.

משפחת הדגמים של GPT-3 משתמשת במודלים אוטומטיים של שפה רגרסיבית של מפענח בלבד. ב-GLM, לעומת זאת, אופטימיזציה של המטרה מנוסחת כ-an בעיה במילוי ריק רגרסיבי אוטומטי.

 

ChatGLM-6B: אלטרנטיבה קלת משקל, קוד פתוח ל-ChatGPT
GLM | מקור תמונה
 

במילים פשוטות, מילוי ריק רגרסיבי אוטומטי כולל ריקון טווח רציף של טקסט, ולאחר מכן בנייה מחדש של הטקסט ברצף ריקון זה. בנוסף למסכות קצרות יותר, ישנה מסכה ארוכה יותר המסירה באופן אקראי ריקויות טקסט ארוכים מסוף המשפטים. זה נעשה כדי שהמודל יצליח בצורה סבירה בהבנת השפה הטבעית כמו גם במשימות הדור.

הבדל נוסף הוא בסוג הקשב המשמש. קבוצת ה-GPT של מודלים של שפות גדולות משתמשת בקשב חד-כיווני, בעוד שקבוצת ה-GLM של LLMs משתמשת תשומת לב דו כיוונית. שימוש בתשומת לב דו-כיוונית על פני הקשרים חשופים יכול ללכוד תלות טוב יותר ויכול לשפר את הביצועים במשימות הבנת השפה הטבעית. 

הפעלת GELU

ב-GLM, נעשה שימוש בהפעלה של GELU (יחידות שגיאה קוויות גאוסיות) במקום הפעלת ReLU [1].

 

ChatGLM-6B: אלטרנטיבה קלת משקל, קוד פתוח ל-ChatGPT
הפעלת GELU, ReLU ו-ELU | מקור תמונה
 

ההפעלה של GELU ויש לה ערכים שאינם אפס עבור כל התשומות ובעלת הצורה הבאה [3]:

 

ChatGLM-6B: אלטרנטיבה קלת משקל, קוד פתוח ל-ChatGPT
 

ההפעלה של GELU נמצאה כמשפרת את הביצועים בהשוואה להפעלת ReLU, אם כי אינטנסיבית יותר מבחינה חישובית מ-ReLU.

בסדרת GLM של LLMs, ChatGLM-130B שהוא קוד פתוח ומבצע גם את מודל ה-Da-Vinci של GPT-3. כאמור, נכון לכתיבת מאמר זה, קיימת גרסת ChatGLM-100B, המוגבלת לגישה להזמנה בלבד.

ChatGLM-6B

הפרטים הבאים על ChatGLM-6B כדי להפוך אותו לנגיש יותר למשתמשי קצה:

  • בעל כ-6.2 מיליארד פרמטרים.
  • הדגם מאומן מראש על 1 טריליון אסימונים - באופן שווה מאנגלית וסינית.
  • לאחר מכן, נעשה שימוש בטכניקות כגון כוונון עדין מפוקח ולמידת חיזוק עם משוב אנושי.

בואו נסיים את הדיון שלנו על ידי מעבר על היתרונות והמגבלות של ChatGLM:

יתרונות

מהיותו מודל דו לשוני למודל קוד פתוח שתוכל להפעיל באופן מקומי, ל-ChatGLM-6B יש את היתרונות הבאים:

  • רוב המודלים של שפה גדולה מהמיינסטרים מאומנים על קורפוסים גדולים של טקסט אנגלי, ומודלים של שפות גדולות לשפות אחרות אינם נפוצים באותה מידה. סדרת ChatGLM של LLMs היא דו לשונית ובחירה מצוינת עבור סינית. לדגם יש ביצועים טובים גם באנגלית וגם בסינית.
  • ChatGLM-6B מותאם למכשירי משתמש. למשתמשי קצה יש לעתים קרובות משאבי מחשוב מוגבלים במכשירים שלהם, כך שכמעט בלתי אפשרי להפעיל LLMs מקומית - ללא גישה למעבדי GPU בעלי ביצועים גבוהים. עם קוונטיזציה INT4, ChatGLM-6B יכול לפעול עם דרישת זיכרון צנועה של עד 6GB. 
  • מתפקד היטב במגוון משימות כולל סיכום וצ'אטים בודדים ומרובים שאילתות.
  • למרות מספר הפרמטרים הקטן משמעותית בהשוואה ל-LLMs מיינסטרים אחרים, ChatGLM-6B תומך באורך הקשר של עד 2048.

מגבלות

לאחר מכן, נרשום כמה מגבלות של ChatGLM-6B:

  • למרות ש-ChatGLM הוא מודל דו לשוני, סביר להניח שהביצועים שלו באנגלית לא אופטימליים. ניתן לייחס זאת לכך שההוראות המשמשות באימון הן בעיקר בסינית.
  • כי ChatGLM-6B יש באופן משמעותי פחות פרמטרים בהשוואה ל-LLMs אחרים כגון BLOOM, GPT-3 ו-ChatGLM-130B, הביצועים עשויים להיות גרועים יותר כאשר ההקשר ארוך מדי. כתוצאה מכך, ChatGLM-6B עשוי לתת מידע לא מדויק לעתים קרובות יותר מאשר דגמים עם מספר גדול יותר של פרמטרים.
  • למודלים של שפות קטנות יש קיבולת זיכרון מוגבלת. לכן, בצ'אטים מרובי פניות, ביצועי הדגם עשויים להתדרדר מעט.
  • הטיה, מידע מוטעה ורעילות הם מגבלות של כל ה-LLMs, וגם ChatGLM רגיש לאלה.

כשלב הבא, הפעל את ChatGLM-6B באופן מקומי או נסה את ההדגמה בחללי HuggingFace. אם ברצונך להעמיק בעבודתם של לימודי LLM, הנה רשימה של קורסים בחינם על מודלים של שפות גדולות.

[1] Z Du, Y Qian et al., GLM: General Language Model Pretraining with Autoregressive Blank Infilling, ACL 2022

[2] A Zheng, X Liu et al., GLM-130B – דגם פתוח דו לשוני מראש, ICML 2023 

[3] ד הנדריקס, ק גימפל, יחידות לינאריות של שגיאה גאוסית (GELUs), arXiv, 2016

[4] ChatGLM-6B: הדגמה על HuggingFace Spaces

[5] ריפו של GitHub
 
 
באלה פריה סי הוא כותב טכני שנהנה ליצור תוכן ארוך צורה. תחומי העניין שלה כוללים מתמטיקה, תכנות ומדעי הנתונים. היא חולקת את הלמידה שלה עם קהילת המפתחים על ידי כתיבת מדריכים, מדריכי הדרכה ועוד.

בול זמן:

עוד מ KDnuggets