ChatGLM-6B: 가벼운 오픈 소스 ChatGPT 대안

플라톤에 의해 재발행

팔로워 : 0

ChatGLM-6B: 가벼운 오픈 소스 ChatGPT 대안
작성자 별 이미지

최근 우리 모두는 LLM 공간의 최신 릴리스를 따라잡는 데 매우 어려움을 겪고 있습니다. 지난 몇 주 동안 여러 오픈 소스 ChatGPT 대안이 인기를 얻었습니다.

그리고 이번 글에서는 채팅GLM 시리즈와 채팅GLM-6B, 오픈 소스 및 경량 ChatGPT 대안입니다.

가자!

중국 Tsinghua University의 연구원들은 GPT-3 및 BLOOM과 같은 다른 모델과 비슷한 성능을 가진 ChatGLM 모델 시리즈를 개발하는 데 노력해 왔습니다.

ChatGLM은 중국어와 영어 모두에 대해 훈련된 이중 언어 대형 언어 모델입니다. 현재 다음 모델을 사용할 수 있습니다.

ChatGLM-130B: 오픈 소스 LLM
ChatGLM-100B: 오픈 소스는 아니지만 초대 전용 액세스를 통해 사용 가능
ChatGLM-6B: 경량 오픈 소스 대안

이러한 모델은 대규모 언어 모델의 GPT(Generative Pretrained Transformer) 그룹과 유사해 보일 수 있지만 일반 언어 모델(GLM) 사전 학습 프레임워크 그것이 그들을 다르게 만드는 것입니다. 이에 대해 다음 섹션에서 자세히 알아보겠습니다.

기계 학습에서는 GLM을 다음과 같이 알 수 있습니다. 일반화 선형 모델, 그러나 ChatGLM의 GLM은 다음을 의미합니다. 일반 언어 모델.

GLM 사전 훈련 프레임워크

LLM 사전 교육은 광범위하게 연구되어 왔으며 여전히 활발한 연구 분야입니다. GLM 사전 학습과 GPT 스타일 모델 간의 주요 차이점을 이해해 보겠습니다.

GPT-3 모델 제품군은 디코더 전용 자동 회귀 언어 모델링을 사용합니다. 반면 GLM에서는 목표 최적화가 다음과 같이 공식화됩니다. 자동 회귀 빈 채우기 문제.

ChatGLM-6B: 가벼운 오픈 소스 ChatGPT 대안
GLM | 이미지 소스

간단히 말해서, 자동 회귀 공백 채우기 연속적인 텍스트 범위를 비운 다음 이 공백으로 인해 텍스트를 순차적으로 재구성하는 작업이 포함됩니다. 더 짧은 마스크 외에도 문장 끝에서 긴 텍스트 공백을 무작위로 제거하는 더 긴 마스크가 있습니다. 이는 모델이 자연어 이해 및 생성 작업에서 합리적으로 잘 수행되도록 수행됩니다.

또 다른 차이점은 사용되는 주의 유형에 있습니다. 대규모 언어 모델의 GPT 그룹은 단방향 주의를 사용하는 반면, LLM의 GLM 그룹은 양방향 주의. 마스크되지 않은 컨텍스트에 대해 양방향 주의를 사용하면 종속성을 더 잘 포착하고 자연어 이해 작업의 성능을 향상시킬 수 있습니다.

GELU 활성화

GLM에서는 ReLU 활성화 대신 GELU(Gaussian Error Linear Units) 활성화가 사용됩니다[1].

ChatGLM-6B: 가벼운 오픈 소스 ChatGPT 대안
GELU, ReLU 및 ELU 활성화 | 이미지 소스

GELU 활성화는 모든 입력에 대해 3이 아닌 값을 가지며 다음 형식을 갖습니다 [XNUMX]:

ChatGLM-6B: 가벼운 오픈 소스 ChatGPT 대안

GELU 활성화는 ReLU 활성화에 비해 성능을 향상시키는 것으로 밝혀졌지만 ReLU보다 계산 집약적입니다.

LLM의 GLM 시리즈에서는 오픈 소스이며 GPT-130의 Da-Vinci 모델과 동일한 성능을 발휘하는 ChatGLM-3B가 있습니다. 언급했듯이 이 기사를 쓰는 시점에는 초대 전용 액세스로 제한된 ChatGLM-100B 버전이 있습니다.

채팅GLM-6B

최종 사용자가 더 쉽게 접근할 수 있도록 ChatGLM-6B에 대한 다음 세부 정보를 제공합니다.

약 6.2억 개의 매개변수가 있습니다.
이 모델은 영어와 중국어로 동일하게 1조 개의 토큰으로 사전 훈련되었습니다.
그 후, 감독된 미세 조정 및 인간 피드백을 통한 강화 학습과 같은 기술이 사용됩니다.

ChatGLM의 장점과 한계를 검토하여 논의를 마무리하겠습니다.

장점

이중 언어 모델부터 로컬로 실행할 수 있는 오픈 소스 모델까지 ChatGLM-6B에는 다음과 같은 장점이 있습니다.

대부분의 주류 대형 언어 모델은 대규모 영어 텍스트 말뭉치를 대상으로 훈련되며, 다른 언어에 대한 대형 언어 모델은 흔하지 않습니다. LLM의 ChatGLM 시리즈는 이중 언어를 구사하며 중국어를 위한 훌륭한 선택입니다. 이 모델은 영어와 중국어 모두에서 좋은 성능을 발휘합니다.
ChatGLM-6B는 사용자 장치에 최적화되어 있습니다. 최종 사용자는 자신의 장치에 컴퓨팅 리소스가 제한되어 있는 경우가 많으므로 고성능 GPU에 액세스하지 않고 로컬에서 LLM을 실행하는 것이 거의 불가능합니다. 와 함께 INT4 양자화, ChatGLM-6B는 6GB 정도의 적당한 메모리 요구 사항으로 실행될 수 있습니다.
요약, 단일 및 다중 쿼리 채팅을 포함한 다양한 작업을 잘 수행합니다.
다른 주류 LLM에 비해 매개변수 수가 훨씬 적음에도 불구하고 ChatGLM-6B는 최대 2048개의 컨텍스트 길이를 지원합니다.

제한 사항

다음으로 ChatGLM-6B의 몇 가지 제한 사항을 나열해 보겠습니다.

ChatGLM은 이중 언어 모델이지만 영어 성능은 차선책일 가능성이 높습니다. 이는 훈련에 사용되는 지침이 대부분 중국어로 되어 있기 때문일 수 있습니다.

ChatGLM-6B는 실질적으로 더 적은 매개변수 BLOOM, GPT-3 및 ChatGLM-130B와 같은 다른 LLM과 비교할 때 컨텍스트가 너무 길면 성능이 저하될 수 있습니다. 결과적으로 ChatGLM-6B는 더 많은 수의 매개변수를 가진 모델보다 더 자주 부정확한 정보를 제공할 수 있습니다.
소규모 언어 모델에는 제한된 메모리 용량. 따라서 다단계 채팅에서는 모델의 성능이 약간 저하될 수 있습니다.
편견, 잘못된 정보 및 독성은 모든 LLM의 한계이며 ChatGLM도 이러한 영향을 받기 쉽습니다.

다음 단계로 ChatGLM-6B를 로컬에서 실행하거나 HuggingFace 공간에서 데모를 사용해 보세요. LLM의 업무에 대해 더 자세히 알고 싶다면 다음 목록을 참조하세요. 대규모 언어 모델에 대한 무료 강좌.

[1] Z Du, Y Qian 외, GLM: 자동회귀 공백 채우기를 사용한 일반 언어 모델 사전 훈련, ACL 2022

[2] A Zheng, X Liu 등, GLM-130B – 개방형 이중 언어 사전 학습 모델, ICML 2023

[3] D 헨드릭스, K 김펠, GELU(가우스 오류 선형 단위), arXiv, 2016

[4] ChatGLM-6B: HuggingFace Spaces 데모

[5] GitHub 저장소

발라 프리야 C 장편 콘텐츠 제작을 즐기는 테크니컬 라이터입니다. 그녀의 관심 분야는 수학, 프로그래밍 및 데이터 과학입니다. 그녀는 자습서, 사용 방법 가이드 등을 작성하여 개발자 커뮤니티와 학습 내용을 공유합니다.