ChatGLM-6B：轻量级开源 ChatGPT 替代方案

关注： 0

ChatGLM-6B：轻量级开源 ChatGPT 替代方案
图片作者

最近，我们都很难赶上 LLM 领域的最新版本。在过去的几周里，一些开源的 ChatGPT 替代品变得流行起来。

在这篇文章中，我们将了解 聊天GLM 系列， 聊天GLM-6B，一种开源且轻量级的 ChatGPT 替代方案。

我们走吧！

中国清华大学的研究人员致力于开发 ChatGLM 系列模型，其性能可与 GPT-3 和 BLOOM 等其他模型相媲美。

ChatGLM 是一种双语大型语言模型，在中文和英文上都进行了训练。目前有以下型号可供选择：

尽管这些模型可能看起来类似于大型语言模型的生成预训练转换器 (GPT)，但 通用语言模型 (GLM) 预训练框架 是什么让他们与众不同。我们将在下一节中了解更多相关信息。

在机器学习中，您会知道 GLM 是 广义线性模型, 但 ChatGLM 中的 GLM 代表 通用语言模型.

GLM 预训练框架

LLM 预训练已经被广泛研究，并且仍然是一个活跃的研究领域。让我们尝试了解 GLM 预训练和 GPT 样式模型之间的主要区别。

GPT-3 系列模型使用仅解码器的自回归语言建模。另一方面，在 GLM 中，目标的优化被表述为 自回归空白填充问题.

简单来说， 自回归空白填充 涉及消隐一段连续的文本，然后按顺序重建这个消隐的文本。除了较短的掩码外，还有一种较长的掩码可以随机删除句子末尾的长文本空白。这样做是为了让模型在自然语言理解和生成任务中表现得相当好。

另一个区别在于所使用的注意力类型。大型语言模型的 GPT 组使用单向注意力，而 LLM 的 GLM 组使用 双向注意. 在未屏蔽的上下文上使用双向注意力可以更好地捕获依赖关系，并可以提高自然语言理解任务的性能。

在 GLM 中，使用 GELU（高斯误差线性单元）激活代替 ReLU 激活 [1]。

ChatGLM-6B：轻量级开源 ChatGPT 替代方案
GELU、ReLU 和 ELU 激活 | 图片来源

GELU 激活并且所有输入都具有非零值，并且具有以下形式 [3]：

ChatGLM-6B：轻量级开源 ChatGPT 替代方案

与 ReLU 激活相比，GELU 激活被发现可以提高性能，尽管在计算上比 ReLU 更密集。

在LLM的GLM系列中，ChatGLM-130B是开源的，性能与GPT-3的达芬奇模型一样好。如前所述，在撰写本文时，有一个 ChatGLM-100B 版本，仅限受邀访问。

以下有关 ChatGLM-6B 的详细信息，以使其更易于最终用户使用：

让我们通过回顾 ChatGLM 的优点和局限性来结束我们的讨论：

从双语模型到可以在本地运行的开源模型，ChatGLM-6B 具有以下优势：

大多数主流的大型语言模型都是在大型英语文本语料库上训练的，其他语言的大型语言模型并不常见。 ChatGLM 系列的 LLM 是双语的，是中国人的绝佳选择。该模型在英文和中文中都有很好的表现。
ChatGLM-6B 针对用户设备进行了优化。最终用户的设备上的计算资源通常有限，因此在没有访问高性能 GPU 的情况下，几乎不可能在本地运行 LLM。和 INT4量化, ChatGLM-6B 可以在低至 6GB 的适度内存要求下运行。
在各种任务上表现出色，包括摘要以及单查询和多查询聊天。
尽管与其他主流 LLM 相比参数数量少得多，但 ChatGLM-6B 支持高达 2048 的上下文长度。

接下来，我们来列举一下ChatGLM-6B的几个局限性：

因为 ChatGLM-6B 有很大的 更少的参数 与 BLOOM、GPT-3 和 ChatGLM-130B 等其他 LLM 相比，当上下文太长时，性能可能会更差。因此，ChatGLM-6B 可能比具有更多参数的模型更频繁地提供不准确的信息。
小语言模型有 内存容量有限. 因此，在多轮聊天中，模型的性能可能会略有下降。
偏见、错误信息和毒性是所有 LLM 的局限性，ChatGLM 也容易受到这些影响。

下一步，在本地运行 ChatGLM-6B 或在 HuggingFace 空间上试用演示。如果您想更深入地研究 LLM 的工作，这里有一份清单大型语言模型免费课程.

[3] D 亨德里克斯，K 金佩尔，高斯误差线性单位 (GELU), arXiv, 2016

[5] GitHub回购

巴拉普里亚 C 是一位喜欢创作长篇内容的技术作家。她感兴趣的领域包括数学、编程和数据科学。她通过编写教程、操作指南等与开发人员社区分享她的学习成果。