Зображення автора
Останнім часом нам усім було надзвичайно важко наздогнати останні випуски в просторі LLM. За останні кілька тижнів кілька альтернатив ChatGPT з відкритим кодом стали популярними.
І в цій статті ми дізнаємося про ChatGLM серія та ChatGLM-6B, легка альтернатива ChatGPT з відкритим кодом.
Давайте йти!
Дослідники з Університету Цінхуа в Китаї працювали над розробкою серії моделей ChatGLM, які мають порівнянну продуктивність з іншими моделями, такими як GPT-3 і BLOOM.
ChatGLM — це двомовна велика мовна модель, яка навчається як китайською, так і англійською. На даний момент доступні такі моделі:
- ChatGLM-130B: LLM з відкритим кодом
- ChatGLM-100B: не має відкритого коду, але доступний лише за запрошенням
- ChatGLM-6B: легка альтернатива з відкритим кодом
Хоча ці моделі можуть здаватися схожими на групу великих мовних моделей Generative Pretrained Transformer (GPT), Структура попереднього навчання загальної мовної моделі (GLM). це те, що робить їх різними. Ми дізнаємося більше про це в наступному розділі.
У машинному навчанні ви знаєте GLM як узагальнені лінійні моделі, але GLM у ChatGLM означає Загальна модель мови.
Структура попереднього навчання GLM
Попередня підготовка LLM була широко вивчена і все ще є областю активних досліджень. Давайте спробуємо зрозуміти ключові відмінності між моделями попереднього навчання GLM і моделями в стилі GPT.
Сімейство моделей GPT-3 використовує авторегресивне моделювання мови лише декодера. У GLM, з іншого боку, оптимізація цілі формулюється як проблема автоматичного регресивного заповнення пустих.
GLM | Image Source
Прості слова автоматичне регресивне заповнення бланка включає видалення безперервного проміжку тексту, а потім послідовну реконструкцію тексту цього галення. Окрім коротших масок, існує довша маска, яка випадковим чином видаляє довгі пробіли тексту з кінця речень. Це робиться для того, щоб модель досить добре справлялася з розумінням природної мови, а також із завданнями генерації.
Інша відмінність полягає в типі використовуваної уваги. Група GPT великих мовних моделей використовує односпрямовану увагу, тоді як група GLM LLM використовує двонаправлена увага. Використання двосторонньої уваги над незамаскованими контекстами може краще вловлювати залежності та покращувати продуктивність завдань із розуміння природної мови.
Активація GELU
У GLM замість активації ReLU використовується активація GELU (Gaussian Error Linear Units) [1].
Активації GELU, ReLU та ELU | Image Source
Активація GELU і має ненульові значення для всіх входів і має такий вигляд [3]:
Встановлено, що активація GELU покращує продуктивність порівняно з активаціями ReLU, хоча з точки зору обчислень є більш інтенсивною, ніж ReLU.
У серії LLM GLM ChatGLM-130B з відкритим вихідним кодом працює так само добре, як модель Da-Vinci GPT-3. Як згадувалося, на момент написання цієї статті існує версія ChatGLM-100B, яка обмежена доступом лише за запрошеннями.
ChatGLM-6B
Наступні відомості про ChatGLM-6B, щоб зробити його більш доступним для кінцевих користувачів:
- Має близько 6.2 млрд параметрів.
- Модель попередньо навчена на 1 трильйоні токенів — порівну з англійської та китайської мов.
- Згодом використовуються такі методи, як контрольована точна настройка та навчання з підкріпленням із зворотним зв’язком людини.
Давайте завершимо наше обговорення, переглянувши переваги та обмеження ChatGLM:
Переваги
Від двомовної моделі до моделі з відкритим кодом, яку можна запускати локально, ChatGLM-6B має такі переваги:
- Більшість стандартних великих мовних моделей навчаються на великих корпусах англійського тексту, а великі мовні моделі для інших мов не такі поширені. Серія LLM ChatGLM є двомовною та чудовим вибором для китайської мови. Модель має хорошу продуктивність як англійською, так і китайською.
- ChatGLM-6B оптимізовано для пристроїв користувачів. Кінцеві користувачі часто мають обмежені обчислювальні ресурси на своїх пристроях, тому стає практично неможливо запускати LLM локально — без доступу до високопродуктивних графічних процесорів. с Квантування INT4, ChatGLM-6B може працювати зі скромними вимогами до пам’яті всього 6 ГБ.
- Добре виконує різноманітні завдання, включаючи підбиття підсумків і чати з одним і кількома запитами.
- Незважаючи на значно меншу кількість параметрів порівняно з іншими основними LLM, ChatGLM-6B підтримує довжину контексту до 2048.
Недоліки
Далі перелічимо кілька обмежень ChatGLM-6B:
- Хоча ChatGLM є двомовною моделлю, її продуктивність англійською мовою, ймовірно, є неоптимальною. Це можна пояснити тим, що інструкції, які використовуються під час навчання, переважно китайською мовою.
- Тому що ChatGLM-6B має істотно менше параметрів порівняно з іншими LLM, такими як BLOOM, GPT-3 і ChatGLM-130B, продуктивність може бути гіршою, якщо контекст надто довгий. В результаті ChatGLM-6B може видавати недостовірну інформацію частіше, ніж моделі з більшою кількістю параметрів.
- Малі мовні моделі мають обмежений обсяг пам'яті. Тому в багатоповоротних чатах продуктивність моделі може дещо знизитися.
- Упередженість, дезінформація та токсичність є обмеженнями всіх LLM, і ChatGLM також сприйнятливий до них.
Наступним кроком запустіть ChatGLM-6B локально або спробуйте демонстрацію на просторах HuggingFace. Якщо ви хочете глибше заглибитися в роботу LLM, ось список безкоштовні курси з великих мовних моделей.
[1] Z Du, Y Qian та ін., GLM: Попередня підготовка загальної мовної моделі з авторегресійним заповненням порожніх місць, ACL 2022
[2] A Zheng, X Liu та ін., GLM-130B – відкрита двомовна попередньо навчена модель, ICML 2023
[3] Д. Хендрікс, К. Гімпель, Лінійні одиниці похибки Гауса (GELU), arXiv, 2016
[4] ChatGLM-6B: демонстрація на HuggingFace Spaces
[5] GitHub Repo
Бала Прія С є технічним автором, який любить створювати довгий контент. Сфери її інтересів включають математику, програмування та науку про дані. Вона ділиться своїми знаннями зі спільнотою розробників, створюючи навчальні посібники, інструкції тощо.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoAiStream. Web3 Data Intelligence. Розширення знань. Доступ тут.
- Карбування майбутнього з Адріенн Ешлі. Доступ тут.
- джерело: https://www.kdnuggets.com/2023/04/chatglm6b-lightweight-opensource-chatgpt-alternative.html?utm_source=rss&utm_medium=rss&utm_campaign=chatglm-6b-a-lightweight-open-source-chatgpt-alternative
- : має
- :є
- : ні
- $UP
- 1
- a
- МЕНЮ
- доступ
- доступною
- Активація
- активації
- активний
- доповнення
- Переваги
- AL
- ВСІ
- альтернатива
- альтернативи
- an
- та
- ЕСТЬ
- ПЛОЩА
- області
- стаття
- AS
- At
- увагу
- авторство
- автоматичний
- доступний
- BE
- ставати
- стає
- було
- буття
- Краще
- між
- Мільярд
- Цвісти
- обидва
- але
- by
- CAN
- захоплення
- ChatGPT
- Китай
- китайський
- вибір
- загальний
- співтовариство
- порівнянний
- порівняний
- обчислення
- зміст
- контекст
- контексти
- безперервний
- курси
- створення
- В даний час
- дані
- наука про дані
- глибше
- Демонстрація
- деталі
- Розробник
- розвивається
- прилади
- різниця
- Відмінності
- різний
- обговорення
- зроблений
- E&T
- кінець
- англійська
- помилка
- сім'я
- зворотний зв'язок
- кілька
- менше
- після
- для
- форма
- знайдений
- від
- Загальне
- покоління
- генеративний
- отримати
- Давати
- буде
- добре
- Графічні процесори
- великий
- Group
- Гід
- рука
- Жорсткий
- Мати
- має
- її
- тут
- висока продуктивність
- HTML
- HTTPS
- HuggingFace
- людина
- if
- неможливе
- удосконалювати
- in
- неточні
- включати
- У тому числі
- інформація
- замість
- інструкції
- інтерес
- в
- включає в себе
- IT
- ЙОГО
- JPG
- KDnuggets
- ключ
- Знати
- мова
- мови
- великий
- більше
- останній
- останній
- УЧИТЬСЯ
- вивчення
- довжина
- легкий
- як
- Ймовірно
- недоліки
- обмеженою
- список
- локально
- Довго
- довше
- низький
- машина
- навчання за допомогою машини
- Mainstream
- зробити
- РОБОТИ
- маска
- маски
- математики
- Може..
- пам'ять
- згаданий
- Дезінформація
- модель
- моделювання
- Моделі
- більше
- Природний
- Природна мова
- Розуміння природної мови
- наступний
- номер
- Nvidia
- мета
- of
- часто
- on
- відкрити
- з відкритим вихідним кодом
- оптимізація
- оптимізований
- or
- Інше
- наші
- з
- над
- параметри
- продуктивність
- виступає
- plato
- Інформація про дані Платона
- PlatoData
- популярний
- попередньо
- Програмування
- навчання
- Релізи
- вимога
- дослідження
- ресурси
- обмежений
- результат
- прогін
- s
- наука
- розділ
- Серія
- кілька
- акції
- вона
- аналогічний
- простий
- один
- менше
- So
- Простір
- пробіли
- span
- стенди
- Крок
- Як і раніше
- навчався
- такі
- Super
- Опори
- схильний
- завдання
- технічний
- методи
- terms
- ніж
- Що
- Команда
- їх
- Їх
- потім
- Там.
- отже
- Ці
- це
- через
- час
- до
- занадто
- навчений
- Навчання
- трильйон
- Цінхуа
- навчальні посібники
- тип
- розуміти
- розуміння
- одиниць
- університет
- використання
- використовуваний
- користувач
- користувачі
- використання
- Цінності
- різноманітність
- версія
- тижня
- ДОБРЕ
- Що
- коли
- який
- ВООЗ
- з
- працював
- робочий
- гірше
- обернути
- письменник
- лист
- X
- ви
- зефірнет