ChatGLM-6B: یک جایگزین سبک وزن و منبع باز ChatGPT

بازنشر افلاطون

دنبال: 0

ChatGLM-6B: یک جایگزین سبک وزن و منبع باز ChatGPT
تصویر توسط نویسنده

اخیراً همه ما برای رسیدن به آخرین نسخه‌های منتشر شده در فضای LLM با مشکل مواجه بوده‌ایم. در چند هفته گذشته، چندین جایگزین متن باز ChatGPT محبوب شده اند.

و در این مقاله با آن آشنا خواهیم شد ChatGLM سری و ChatGLM-6B، یک جایگزین متن باز و سبک ChatGPT.

بیا بریم!

محققان دانشگاه Tsinghua در چین روی توسعه سری مدل‌های ChatGLM کار کرده‌اند که عملکردی قابل مقایسه با مدل‌های دیگر مانند GPT-3 و BLOOM دارند.

ChatGLM یک مدل زبان بزرگ دوزبانه است که به دو زبان چینی و انگلیسی آموزش داده شده است. در حال حاضر مدل های زیر موجود است:

ChatGLM-130B: یک LLM منبع باز
ChatGLM-100B: منبع باز نیست، اما از طریق دسترسی فقط دعوت شده در دسترس است
ChatGLM-6B: یک جایگزین متن باز سبک وزن

اگرچه این مدل‌ها ممکن است شبیه به گروه مدل‌های زبان بزرگ ترانسفورماتور پیش‌آموزشی (GPT) به نظر برسند، چارچوب پیش‌آموزشی مدل زبان عمومی (GLM). چیزی است که آنها را متفاوت می کند. در بخش بعدی در مورد این موضوع بیشتر خواهیم آموخت.

در یادگیری ماشین، GLM را به عنوان می شناسید مدل های خطی تعمیم یافته، اما GLM در ChatGLM مخفف آن است مدل زبان عمومی.

چارچوب پیش‌آموزشی GLM

آموزش پیش از LLM به طور گسترده مورد مطالعه قرار گرفته است و هنوز منطقه ای از تحقیقات فعال است. بیایید سعی کنیم تفاوت های کلیدی بین پیش آموزش GLM و مدل های سبک GPT را درک کنیم.

خانواده مدل‌های GPT-3 از مدل‌سازی زبان رگرسیون خودکار فقط با رمزگشا استفاده می‌کنند. از سوی دیگر، در GLM، بهینه سازی هدف به صورت فرموله شده است مشکل پر کردن خالی با رگرسیون خودکار.

ChatGLM-6B: یک جایگزین سبک وزن و منبع باز ChatGPT
GLM | منبع تصویر

به زبان ساده، پر کردن خالی رگرسیون خودکار شامل خالی کردن یک گستره پیوسته از متن، و سپس بازسازی متوالی متن این خالی شدن است. علاوه بر ماسک‌های کوتاه‌تر، یک ماسک طولانی‌تر نیز وجود دارد که به‌طور تصادفی خالی‌های طولانی متن را از انتهای جملات حذف می‌کند. این کار به گونه ای انجام می شود که مدل در درک زبان طبیعی و همچنین وظایف تولید به خوبی عمل کند.

تفاوت دیگر در نوع توجه مورد استفاده است. گروه GPT از مدل های زبان بزرگ از توجه یک جهته استفاده می کنند، در حالی که گروه GLM از LLM ها از توجه استفاده می کنند. توجه دو طرفه. استفاده از توجه دو طرفه بر روی زمینه‌های بدون نقاب می‌تواند وابستگی‌ها را بهتر دریافت کند و می‌تواند عملکرد در وظایف درک زبان طبیعی را بهبود بخشد.

فعال سازی GELU

در GLM، فعال سازی GELU (واحد خطی خطای گاوسی) به جای فعال سازی ReLU [1] استفاده می شود.

ChatGLM-6B: یک جایگزین سبک وزن و منبع باز ChatGPT
GELU، ReLU، و ELU فعال سازی | منبع تصویر

فعال سازی GELU و دارای مقادیر غیر صفر برای همه ورودی ها است و به شکل زیر است [3]:

ChatGLM-6B: یک جایگزین سبک وزن و منبع باز ChatGPT

مشخص شده است که فعال‌سازی GELU عملکرد را در مقایسه با فعال‌سازی‌های ReLU بهبود می‌بخشد، اگرچه از نظر محاسباتی فشرده‌تر از ReLU است.

در سری GLM از LLM ها، ChatGLM-130B که منبع باز است و به خوبی مدل Da-Vinci GPT-3 عمل می کند. همانطور که گفته شد، در زمان نوشتن این مقاله، یک نسخه ChatGLM-100B وجود دارد که به دسترسی فقط دعوت‌شده محدود شده است.

ChatGLM-6B

جزئیات زیر در مورد ChatGLM-6B برای دسترسی بیشتر به کاربران نهایی:

حدود 6.2 میلیارد پارامتر دارد.
این مدل روی 1 تریلیون توکن از قبل آموزش داده شده است - به طور مساوی از انگلیسی و چینی.
متعاقباً از تکنیک هایی مانند تنظیم دقیق نظارت شده و یادگیری تقویتی با بازخورد انسانی استفاده می شود.

بیایید بحث خود را با بررسی مزایا و محدودیت‌های ChatGLM به پایان برسانیم:

مزایای

ChatGLM-6B از یک مدل دو زبانه تا یک مدل منبع باز که می توانید به صورت محلی اجرا کنید، مزایای زیر را دارد:

بیشتر مدل‌های اصلی زبان بزرگ بر روی مجموعه‌های بزرگ متن انگلیسی آموزش داده می‌شوند و مدل‌های زبان بزرگ برای سایر زبان‌ها چندان رایج نیستند. سری ChatGLM از LLM ها دو زبانه هستند و برای چینی ها یک انتخاب عالی هستند. این مدل در هر دو زبان انگلیسی و چینی عملکرد خوبی دارد.
ChatGLM-6B برای دستگاه های کاربر بهینه شده است. کاربران نهایی اغلب منابع محاسباتی محدودی بر روی دستگاه های خود دارند، بنابراین اجرای LLM به صورت محلی - بدون دسترسی به GPU های با کارایی بالا، تقریبا غیرممکن می شود. با کوانتیزاسیون INT4، ChatGLM-6B می تواند با نیاز به حافظه کم تا 6 گیگابایت اجرا شود.
در انواع وظایف از جمله خلاصه سازی و چت های تک و چند پرس و جو به خوبی عمل می کند.
علیرغم تعداد بسیار کمتر پارامترها در مقایسه با سایر LLMهای اصلی، ChatGLM-6B از طول زمینه تا 2048 پشتیبانی می کند.

محدودیت ها

در مرحله بعد، اجازه دهید چند محدودیت ChatGLM-6B را فهرست کنیم:

اگرچه ChatGLM یک مدل دو زبانه است، عملکرد آن در انگلیسی احتمالاً کمتر از حد مطلوب است. این را می توان به دستورالعمل های استفاده شده در آموزش بیشتر به زبان چینی نسبت داد.

زیرا ChatGLM-6B بطور قابل ملاحظه ای دارد پارامترهای کمتر در مقایسه با سایر LLM ها مانند BLOOM، GPT-3، و ChatGLM-130B، زمانی که زمینه خیلی طولانی باشد، ممکن است عملکرد بدتر شود. در نتیجه، ChatGLM-6B ممکن است اطلاعات نادرست را بیشتر از مدل هایی با تعداد پارامترهای بیشتر ارائه دهد.
مدل های زبان کوچک دارند ظرفیت حافظه محدود. بنابراین، در چت های چند نوبتی، عملکرد مدل ممکن است اندکی کاهش یابد.
سوگیری، اطلاعات نادرست و سمیت محدودیت‌های همه LLMها هستند و ChatGLM نیز مستعد این موارد است.

به عنوان گام بعدی، ChatGLM-6B را به صورت محلی اجرا کنید یا نسخه آزمایشی را در فضاهای HuggingFace امتحان کنید. اگر می خواهید عمیق تر در کار LLM ها تحقیق کنید، در اینجا لیستی از آنها وجود دارد دوره های رایگان در مورد مدل های زبان بزرگ.

[1] Z Du، Y Qian و همکاران، GLM: پیش‌آموزشی مدل زبان عمومی با پر کردن خالی خود رگرسیون، ACL 2022

[2] A Zheng، X Liu و همکاران، GLM-130B - یک مدل پیش آموزش دوزبانه باز، ICML 2023

[3] دی هندریکس، کی گیمپل، واحدهای خطی خطای گاوسی (GELUs)، arXiv، 2016

[4] ChatGLM-6B: نسخه نمایشی در HuggingFace Spaces

[5] GitHub Repo

بالا پریا سی یک نویسنده فنی است که از ایجاد محتوای طولانی لذت می برد. زمینه های مورد علاقه او شامل ریاضیات، برنامه نویسی و علوم داده است. او با نوشتن آموزش‌ها، راهنماهای نحوه انجام و غیره، آموخته‌های خود را با جامعه توسعه‌دهندگان به اشتراک می‌گذارد.