ChatGLM-6B:轻量级开源 ChatGPT 替代方案

源节点: 2074009

ChatGLM-6B:轻量级开源 ChatGPT 替代方案
图片作者
 

最近,我们都很难赶上 LLM 领域的最新版本。 在过去的几周里,一些开源的 ChatGPT 替代品变得流行起来。 

在这篇文章中,我们将了解 聊天GLM 系列, 聊天GLM-6B,一种开源且轻量级的 ChatGPT 替代方案。 

我们走吧!

中国清华大学的研究人员致力于开发 ChatGLM 系列模型,其性能可与 GPT-3 和 BLOOM 等其他模型相媲美。

ChatGLM 是一种双语大型语言模型,在中文和英文上都进行了训练。 目前有以下型号可供选择:

  • ChatGLM-130B:开源 LLM
  • ChatGLM-100B:不是开源的,但只能通过受邀访问获得
  • ChatGLM-6B:轻量级开源替代品

尽管这些模型可能看起来类似于大型语言模型的生成预训练转换器 (GPT),但 通用语言模型 (GLM) 预训练框架 是什么让他们与众不同。 我们将在下一节中了解更多相关信息。

在机器学习中,您会知道 GLM 是 广义线性模型, 但 ChatGLM 中的 GLM 代表 通用语言模型

GLM 预训练框架

LLM 预训练已经被广泛研究,并且仍然是一个活跃的研究领域。 让我们尝试了解 GLM 预训练和 GPT 样式模型之间的主要区别。

GPT-3 系列模型使用仅解码器的自回归语言建模。 另一方面,在 GLM 中,目标的优化被表述为 自回归空白填充问题.

 

ChatGLM-6B:轻量级开源 ChatGPT 替代方案
GLM | 图片来源
 

简单来说, 自回归空白填充 涉及消隐一段连续的文本,然后按顺序重建这个消隐的文本。 除了较短的掩码外,还有一种较长的掩码可以随机删除句子末尾的长文本空白。 这样做是为了让模型在自然语言理解和生成任务中表现得相当好。

另一个区别在于所使用的注意力类型。 大型语言模型的 GPT 组使用单向注意力,而 LLM 的 GLM 组使用 双向注意. 在未屏蔽的上下文上使用双向注意力可以更好地捕获依赖关系,并可以提高自然语言理解任务的性能。 

格鲁激活

在 GLM 中,使用 GELU(高斯误差线性单元)激活代替 ReLU 激活 [1]。

 

ChatGLM-6B:轻量级开源 ChatGPT 替代方案
GELU、ReLU 和 ELU 激活 | 图片来源
 

GELU 激活并且所有输入都具有非零值,并且具有以下形式 [3]:

 

ChatGLM-6B:轻量级开源 ChatGPT 替代方案
 

与 ReLU 激活相比,GELU 激活被发现可以提高性能,尽管在计算上比 ReLU 更密集。

在LLM的GLM系列中,ChatGLM-130B是开源的,性能与GPT-3的达芬奇模型一样好。 如前所述,在撰写本文时,有一个 ChatGLM-100B 版本,仅限受邀访问。

聊天GLM-6B

以下有关 ChatGLM-6B 的详细信息,以使其更易于最终用户使用:

  • 有大约6.2亿个参数。
  • 该模型在 1 万亿个标记上进行了预训练——同样来自英语和汉语。
  • 随后,使用了监督微调和带有人类反馈的强化学习等技术。

让我们通过回顾 ChatGLM 的优点和局限性来结束我们的讨论:

优势

从双语模型到可以在本地运行的开源模型,ChatGLM-6B 具有以下优势:

  • 大多数主流的大型语言模型都是在大型英语文本语料库上训练的,其他语言的大型语言模型并不常见。 ChatGLM 系列的 LLM 是双语的,是中国人的绝佳选择。 该模型在英文和中文中都有很好的表现。
  • ChatGLM-6B 针对用户设备进行了优化。 最终用户的设备上的计算资源通常有限,因此在没有访问高性能 GPU 的情况下,几乎不可能在本地运行 LLM。 和 INT4量化, ChatGLM-6B 可以在低至 6GB 的适度内存要求下运行。 
  • 在各种任务上表现出色,包括摘要以及单查询和多查询聊天。
  • 尽管与其他主流 LLM 相比参数数量少得多,但 ChatGLM-6B 支持高达 2048 的上下文长度。

限制

接下来,我们来列举一下ChatGLM-6B的几个局限性:

  • 虽然 ChatGLM 是一个双语模型,但它在英语方面的表现可能并不理想。 这可以归因于培训中使用的说明大多是中文的。
  • 因为 ChatGLM-6B 有很大的 更少的参数 与 BLOOM、GPT-3 和 ChatGLM-130B 等其他 LLM 相比,当上下文太长时,性能可能会更差。 因此,ChatGLM-6B 可能比具有更多参数的模型更频繁地提供不准确的信息。
  • 小语言模型有 内存容量有限. 因此,在多轮聊天中,模型的性能可能会略有下降。
  • 偏见、错误信息和毒性是所有 LLM 的局限性,ChatGLM 也容易受到这些影响。

下一步,在本地运行 ChatGLM-6B 或在 HuggingFace 空间上试用演示。 如果您想更深入地研究 LLM 的工作,这里有一份清单 大型语言模型免费课程.

[1] Z Du, Y Qian 等, GLM:具有自回归空白填充的通用语言模型预训练,ACL 2022

[2] 阿政, X Liu 等, GLM-130B – 一个开放的双语预训练模型,ICML 2023 

[3] D 亨德里克斯,K 金佩尔, 高斯误差线性单位 (GELU), arXiv, 2016

[4] ChatGLM-6B:HuggingFace 空间演示

[5] GitHub回购
 
 
巴拉普里亚 C 是一位喜欢创作长篇内容的技术作家。 她感兴趣的领域包括数学、编程和数据科学。 她通过编写教程、操作指南等与开发人员社区分享她的学习成果。

时间戳记:

更多来自 掘金队