ChatGLM-6B: легкая альтернатива ChatGPT с открытым исходным кодом

Переиздано Платоном

Читают: 0

ChatGLM-6B: легкая альтернатива ChatGPT с открытым исходным кодом
Изображение по автору

В последнее время нам всем было очень трудно следить за последними выпусками в пространстве LLM. За последние несколько недель стали популярными несколько альтернатив ChatGPT с открытым исходным кодом.

И в этой статье мы узнаем о ЧатGLM серия и ЧатGLM-6B, легкая альтернатива ChatGPT с открытым исходным кодом.

Давайте идти!

Исследователи из Университета Цинхуа в Китае работали над созданием серии моделей ChatGLM, производительность которых сравнима с другими моделями, такими как GPT-3 и BLOOM.

ChatGLM — это двуязычная крупноязыковая модель, обученная как китайскому, так и английскому языку. На данный момент доступны следующие модели:

ChatGLM-130B: LLM с открытым исходным кодом
ChatGLM-100B: не с открытым исходным кодом, но доступен только по приглашению.
ChatGLM-6B: легкая альтернатива с открытым исходным кодом

Хотя эти модели могут показаться похожими на группу больших языковых моделей Generative Pretrained Transformer (GPT), Структура предварительной подготовки General Language Model (GLM) это то, что делает их разными. Мы узнаем больше об этом в следующем разделе.

В машинном обучении вы бы знали GLM как обобщенные линейные модели, но GLM в ChatGLM означает Общая языковая модель.

Структура предварительной подготовки GLM

Предварительное обучение LLM было тщательно изучено и до сих пор является областью активных исследований. Давайте попробуем разобраться в ключевых различиях между предобучением GLM и моделями в стиле GPT.

Семейство моделей GPT-3 использует авторегрессивное языковое моделирование только для декодера. С другой стороны, в GLM оптимизация цели формулируется как авторегрессивная проблема с заполнением бланка.

ChatGLM-6B: легкая альтернатива ChatGPT с открытым исходным кодом
ГЛМ | Image Source

Проще говоря, авторегрессивное заполнение бланка включает в себя гашение непрерывного фрагмента текста, а затем последовательное восстановление текста этого гашения. В дополнение к более коротким маскам существует более длинная маска, которая случайным образом удаляет длинные пробелы текста в конце предложений. Это сделано для того, чтобы модель достаточно хорошо работала в задачах понимания естественного языка, а также в задачах генерации.

Еще одно отличие заключается в типе используемого внимания. Группа больших языковых моделей GPT использует однонаправленное внимание, тогда как группа LLM GLM использует двунаправленное внимание. Использование двунаправленного внимания в немаскированных контекстах может лучше фиксировать зависимости и повысить производительность при выполнении задач понимания естественного языка.

GELU Активация

В GLM активация GELU (линейные единицы ошибки Гаусса) используется вместо активации ReLU [1].

ChatGLM-6B: легкая альтернатива ChatGPT с открытым исходным кодом
Активации GELU, ReLU и ELU | Image Source

Активация GELU и имеет ненулевые значения для всех входов и имеет следующий вид [3]:

ChatGLM-6B: легкая альтернатива ChatGPT с открытым исходным кодом

Обнаружено, что активация GELU повышает производительность по сравнению с активациями ReLU, хотя требует больше вычислительных ресурсов, чем ReLU.

В серии LLM GLM ChatGLM-130B с открытым исходным кодом работает так же, как модель Da-Vinci GPT-3. Как уже упоминалось, на момент написания этой статьи существует версия ChatGLM-100B, доступ к которой ограничен только по приглашению.

ЧатGLM-6B

Следующие сведения о ChatGLM-6B, чтобы сделать его более доступным для конечных пользователей:

Имеет около 6.2 миллиарда параметров.
Модель предварительно обучена на 1 триллионе токенов — поровну с английского и китайского языков.
Впоследствии используются такие методы, как контролируемая точная настройка и обучение с подкреплением с обратной связью с человеком.

Давайте завершим наше обсуждение, рассмотрев преимущества и ограничения ChatGLM:

Преимущества

От двуязычной модели до модели с открытым исходным кодом, которую вы можете запускать локально, ChatGLM-6B имеет следующие преимущества:

Большинство основных моделей больших языков обучаются на больших корпусах английских текстов, а модели больших языков для других языков встречаются не так часто. Серия ChatGLM LLM двуязычна и отлично подходит для китайского языка. Модель имеет хорошие показатели как на английском, так и на китайском языке.
ChatGLM-6B оптимизирован для пользовательских устройств. Конечные пользователи часто имеют ограниченные вычислительные ресурсы на своих устройствах, поэтому становится практически невозможно запускать LLM локально — без доступа к высокопроизводительным графическим процессорам. С Квантование INT4, ChatGLM-6B может работать со скромными требованиями к памяти — всего 6 ГБ.
Хорошо справляется с различными задачами, включая обобщение и чаты с одним и несколькими запросами.
Несмотря на существенно меньшее количество параметров по сравнению с другими основными LLM, ChatGLM-6B поддерживает длину контекста до 2048.

ограничения

Далее перечислим несколько ограничений ChatGLM-6B:

Хотя ChatGLM является двуязычной моделью, его производительность на английском языке, вероятно, не оптимальна. Это можно объяснить тем, что инструкции, используемые при обучении, в основном написаны на китайском языке.

Поскольку ChatGLM-6B существенно меньше параметров по сравнению с другими LLM, такими как BLOOM, GPT-3 и ChatGLM-130B, производительность может быть хуже, когда контекст слишком длинный. В результате ChatGLM-6B может давать неверную информацию чаще, чем модели с большим количеством параметров.
Небольшие языковые модели имеют ограниченный объем памяти. Поэтому в многооборотных чатах производительность модели может немного ухудшиться.
Предвзятость, дезинформация и токсичность являются ограничениями всех LLM, и ChatGLM также подвержен им.

В качестве следующего шага запустите ChatGLM-6B локально или опробуйте демоверсию на пространствах HuggingFace. Если вы хотите глубже изучить работу LLM, вот список бесплатные курсы по большим языковым моделям.

[1] Z Du, Y Qian и др., GLM: предварительное обучение общей языковой модели с авторегрессивным заполнением пробелов, АКЛ 2022

[2] А Чжэн, С Лю и др., GLM-130B — открытая двуязычная предварительно обученная модель, МЦМЛ 2023

[3] Д. Хендрикс, К. Гимпель, Линейные единицы ошибки Гаусса (GELU), архив, 2016

[4] ChatGLM-6B: демонстрация на HuggingFace Spaces

[5] Репозиторий GitHub

Бала Прия С — технический писатель, которому нравится создавать объемный контент. В сферу ее интересов входят математика, программирование и наука о данных. Она делится своими знаниями с сообществом разработчиков, создавая учебные пособия, практические руководства и многое другое.