ChatGLM-6B: легка альтернатива ChatGPT з відкритим кодом

Вихідний вузол: 2074009

ChatGLM-6B: легка альтернатива ChatGPT з відкритим кодом
Зображення автора
 

Останнім часом нам усім було надзвичайно важко наздогнати останні випуски в просторі LLM. За останні кілька тижнів кілька альтернатив ChatGPT з відкритим кодом стали популярними. 

І в цій статті ми дізнаємося про ChatGLM серія та ChatGLM-6B, легка альтернатива ChatGPT з відкритим кодом. 

Давайте йти!

Дослідники з Університету Цінхуа в Китаї працювали над розробкою серії моделей ChatGLM, які мають порівнянну продуктивність з іншими моделями, такими як GPT-3 і BLOOM.

ChatGLM — це двомовна велика мовна модель, яка навчається як китайською, так і англійською. На даний момент доступні такі моделі:

  • ChatGLM-130B: LLM з відкритим кодом
  • ChatGLM-100B: не має відкритого коду, але доступний лише за запрошенням
  • ChatGLM-6B: легка альтернатива з відкритим кодом

Хоча ці моделі можуть здаватися схожими на групу великих мовних моделей Generative Pretrained Transformer (GPT), Структура попереднього навчання загальної мовної моделі (GLM). це те, що робить їх різними. Ми дізнаємося більше про це в наступному розділі.

У машинному навчанні ви знаєте GLM як узагальнені лінійні моделі, але GLM у ChatGLM означає Загальна модель мови

Структура попереднього навчання GLM

Попередня підготовка LLM була широко вивчена і все ще є областю активних досліджень. Давайте спробуємо зрозуміти ключові відмінності між моделями попереднього навчання GLM і моделями в стилі GPT.

Сімейство моделей GPT-3 використовує авторегресивне моделювання мови лише декодера. У GLM, з іншого боку, оптимізація цілі формулюється як проблема автоматичного регресивного заповнення пустих.

 

ChatGLM-6B: легка альтернатива ChatGPT з відкритим кодом
GLM | Image Source
 

Прості слова автоматичне регресивне заповнення бланка включає видалення безперервного проміжку тексту, а потім послідовну реконструкцію тексту цього галення. Окрім коротших масок, існує довша маска, яка випадковим чином видаляє довгі пробіли тексту з кінця речень. Це робиться для того, щоб модель досить добре справлялася з розумінням природної мови, а також із завданнями генерації.

Інша відмінність полягає в типі використовуваної уваги. Група GPT великих мовних моделей використовує односпрямовану увагу, тоді як група GLM LLM використовує двонаправлена ​​увага. Використання двосторонньої уваги над незамаскованими контекстами може краще вловлювати залежності та покращувати продуктивність завдань із розуміння природної мови. 

Активація GELU

У GLM замість активації ReLU використовується активація GELU (Gaussian Error Linear Units) [1].

 

ChatGLM-6B: легка альтернатива ChatGPT з відкритим кодом
Активації GELU, ReLU та ELU | Image Source
 

Активація GELU і має ненульові значення для всіх входів і має такий вигляд [3]:

 

ChatGLM-6B: легка альтернатива ChatGPT з відкритим кодом
 

Встановлено, що активація GELU покращує продуктивність порівняно з активаціями ReLU, хоча з точки зору обчислень є більш інтенсивною, ніж ReLU.

У серії LLM GLM ChatGLM-130B з відкритим вихідним кодом працює так само добре, як модель Da-Vinci GPT-3. Як згадувалося, на момент написання цієї статті існує версія ChatGLM-100B, яка обмежена доступом лише за запрошеннями.

ChatGLM-6B

Наступні відомості про ChatGLM-6B, щоб зробити його більш доступним для кінцевих користувачів:

  • Має близько 6.2 млрд параметрів.
  • Модель попередньо навчена на 1 трильйоні токенів — порівну з англійської та китайської мов.
  • Згодом використовуються такі методи, як контрольована точна настройка та навчання з підкріпленням із зворотним зв’язком людини.

Давайте завершимо наше обговорення, переглянувши переваги та обмеження ChatGLM:

Переваги

Від двомовної моделі до моделі з відкритим кодом, яку можна запускати локально, ChatGLM-6B має такі переваги:

  • Більшість стандартних великих мовних моделей навчаються на великих корпусах англійського тексту, а великі мовні моделі для інших мов не такі поширені. Серія LLM ChatGLM є двомовною та чудовим вибором для китайської мови. Модель має хорошу продуктивність як англійською, так і китайською.
  • ChatGLM-6B оптимізовано для пристроїв користувачів. Кінцеві користувачі часто мають обмежені обчислювальні ресурси на своїх пристроях, тому стає практично неможливо запускати LLM локально — без доступу до високопродуктивних графічних процесорів. с Квантування INT4, ChatGLM-6B може працювати зі скромними вимогами до пам’яті всього 6 ГБ. 
  • Добре виконує різноманітні завдання, включаючи підбиття підсумків і чати з одним і кількома запитами.
  • Незважаючи на значно меншу кількість параметрів порівняно з іншими основними LLM, ChatGLM-6B підтримує довжину контексту до 2048.

Недоліки

Далі перелічимо кілька обмежень ChatGLM-6B:

  • Хоча ChatGLM є двомовною моделлю, її продуктивність англійською мовою, ймовірно, є неоптимальною. Це можна пояснити тим, що інструкції, які використовуються під час навчання, переважно китайською мовою.
  • Тому що ChatGLM-6B має істотно менше параметрів порівняно з іншими LLM, такими як BLOOM, GPT-3 і ChatGLM-130B, продуктивність може бути гіршою, якщо контекст надто довгий. В результаті ChatGLM-6B може видавати недостовірну інформацію частіше, ніж моделі з більшою кількістю параметрів.
  • Малі мовні моделі мають обмежений обсяг пам'яті. Тому в багатоповоротних чатах продуктивність моделі може дещо знизитися.
  • Упередженість, дезінформація та токсичність є обмеженнями всіх LLM, і ChatGLM також сприйнятливий до них.

Наступним кроком запустіть ChatGLM-6B локально або спробуйте демонстрацію на просторах HuggingFace. Якщо ви хочете глибше заглибитися в роботу LLM, ось список безкоштовні курси з великих мовних моделей.

[1] Z Du, Y Qian та ін., GLM: Попередня підготовка загальної мовної моделі з авторегресійним заповненням порожніх місць, ACL 2022

[2] A Zheng, X Liu та ін., GLM-130B – відкрита двомовна попередньо навчена модель, ICML 2023 

[3] Д. Хендрікс, К. Гімпель, Лінійні одиниці похибки Гауса (GELU), arXiv, 2016

[4] ChatGLM-6B: демонстрація на HuggingFace Spaces

[5] GitHub Repo
 
 
Бала Прія С є технічним автором, який любить створювати довгий контент. Сфери її інтересів включають математику, програмування та науку про дані. Вона ділиться своїми знаннями зі спільнотою розробників, створюючи навчальні посібники, інструкції тощо.

Часова мітка:

Більше від KDnuggets