ChatGLM-6B: Giải pháp thay thế ChatGPT mã nguồn mở, nhẹ

Nút nguồn: 2074009

ChatGLM-6B: Giải pháp thay thế ChatGPT mã nguồn mở, nhẹ
Hình ảnh của Tác giả
 

Gần đây, tất cả chúng tôi đều gặp khó khăn trong việc bắt kịp các bản phát hành mới nhất trong không gian LLM. Trong vài tuần qua, một số giải pháp thay thế ChatGPT mã nguồn mở đã trở nên phổ biến. 

Và trong bài này chúng ta sẽ tìm hiểu về Trò chuyệnGLM loạt và Trò chuyệnGLM-6B, một giải pháp thay thế ChatGPT mã nguồn mở và nhẹ. 

Hãy bắt đầu!

Các nhà nghiên cứu tại Đại học Thanh Hoa ở Trung Quốc đã nghiên cứu phát triển loạt mô hình ChatGLM có hiệu suất tương đương với các mô hình khác như GPT-3 và BLOOM.

ChatGLM là một mô hình ngôn ngữ lớn song ngữ được đào tạo bằng cả tiếng Trung và tiếng Anh. Hiện tại, các mô hình sau đây có sẵn:

  • ChatGLM-130B: một LLM mã nguồn mở
  • ChatGLM-100B: không có mã nguồn mở nhưng khả dụng thông qua quyền truy cập chỉ dành cho những người được mời
  • ChatGLM-6B: một giải pháp thay thế nguồn mở nhẹ

Mặc dù các mô hình này có vẻ giống với nhóm các mô hình ngôn ngữ lớn Generative Pretraining Transformer (GPT), Khuôn khổ đào tạo trước Mô hình ngôn ngữ chung (GLM) là những gì làm cho họ khác nhau. Chúng ta sẽ tìm hiểu thêm về điều này trong phần tiếp theo.

Trong học máy, bạn sẽ biết GLM là mô hình tuyến tính tổng quát, nhưng GLM trong ChatGLM là viết tắt của Mô hình ngôn ngữ chung

Khuôn khổ đào tạo GLM

Đào tạo trước LLM đã được nghiên cứu rộng rãi và vẫn là một lĩnh vực nghiên cứu tích cực. Hãy cố gắng tìm hiểu sự khác biệt chính giữa mô hình chuẩn bị GLM và mô hình kiểu GPT.

Dòng mô hình GPT-3 sử dụng mô hình ngôn ngữ hồi quy tự động chỉ dành cho bộ giải mã. Mặt khác, trong GLM, việc tối ưu hóa mục tiêu được hình thành như một vấn đề điền trống hồi quy tự động.

 

ChatGLM-6B: Giải pháp thay thế ChatGPT mã nguồn mở, nhẹ
GLM | Nguồn hình ảnh
 

Trong thuật ngữ đơn giản, điền vào chỗ trống hồi quy tự động liên quan đến việc xóa một đoạn văn bản liên tục, sau đó tuần tự xây dựng lại văn bản trong khoảng trống này. Ngoài các mặt nạ ngắn hơn, còn có một mặt nạ dài hơn loại bỏ ngẫu nhiên các khoảng trống văn bản dài ở cuối câu. Điều này được thực hiện để mô hình thực hiện khá tốt trong việc hiểu ngôn ngữ tự nhiên cũng như các tác vụ tạo.

Một sự khác biệt khác là trong loại chú ý được sử dụng. Nhóm GPT của các mô hình ngôn ngữ lớn sử dụng sự chú ý một chiều, trong khi nhóm LLM của GLM sử dụng chú ý hai chiều. Sử dụng sự chú ý hai chiều đối với các bối cảnh không được che giấu có thể nắm bắt các yếu tố phụ thuộc tốt hơn và có thể cải thiện hiệu suất đối với các tác vụ hiểu ngôn ngữ tự nhiên. 

Kích hoạt GELU

Trong GLM, kích hoạt GELU (Đơn vị tuyến tính lỗi Gaussian) được sử dụng thay vì kích hoạt ReLU [1].

 

ChatGLM-6B: Giải pháp thay thế ChatGPT mã nguồn mở, nhẹ
Kích hoạt GELU, ReLU và ELU | Nguồn hình ảnh
 

Kích hoạt GELU và có các giá trị khác không cho tất cả các đầu vào và có dạng sau [3]:

 

ChatGLM-6B: Giải pháp thay thế ChatGPT mã nguồn mở, nhẹ
 

Kích hoạt GELU được phát hiện là cải thiện hiệu suất so với kích hoạt ReLU, mặc dù tính toán chuyên sâu hơn ReLU.

Trong sê-ri GLM của LLM, ChatGLM-130B là mã nguồn mở và hoạt động tốt như mô hình Da-Vinci của GPT-3. Như đã đề cập, khi viết bài này, có một phiên bản ChatGLM-100B, bị hạn chế đối với quyền truy cập chỉ dành cho những người được mời.

Trò chuyệnGLM-6B

Các chi tiết sau đây về ChatGLM-6B để giúp người dùng cuối dễ tiếp cận hơn:

  • Có khoảng 6.2 tỷ tham số.
  • Mô hình được đào tạo trước trên 1 nghìn tỷ mã thông báo — bằng nhau từ tiếng Anh và tiếng Trung.
  • Sau đó, các kỹ thuật như tinh chỉnh có giám sát và học tăng cường với phản hồi của con người được sử dụng.

Hãy kết thúc cuộc thảo luận của chúng ta bằng cách điểm qua những ưu điểm và hạn chế của ChatGLM:

Ưu điểm

Từ một mô hình song ngữ thành một mô hình nguồn mở mà bạn có thể chạy cục bộ, ChatGLM-6B có ​​những ưu điểm sau:

  • Hầu hết các mô hình ngôn ngữ lớn chính thống được đào tạo trên khối văn bản tiếng Anh lớn và các mô hình ngôn ngữ lớn cho các ngôn ngữ khác không phổ biến. Loạt ChatGLM của LLM là song ngữ và là sự lựa chọn tuyệt vời cho người Trung Quốc. Mô hình có hiệu suất tốt bằng cả tiếng Anh và tiếng Trung.
  • ChatGLM-6B được tối ưu hóa cho thiết bị người dùng. Người dùng cuối thường có tài nguyên máy tính hạn chế trên thiết bị của họ, do đó gần như không thể chạy LLM cục bộ—nếu không có quyền truy cập vào GPU hiệu suất cao. Với lượng tử hóa INT4, ChatGLM-6B có ​​thể chạy với yêu cầu bộ nhớ khiêm tốn, thấp nhất là 6GB. 
  • Thực hiện tốt nhiều nhiệm vụ khác nhau bao gồm tóm tắt và trò chuyện đơn và đa truy vấn.
  • Mặc dù có số lượng tham số nhỏ hơn đáng kể so với các LLM chính thống khác, ChatGLM-6B hỗ trợ độ dài ngữ cảnh lên tới 2048.

Hạn chế

Tiếp theo, hãy liệt kê một số hạn chế của ChatGLM-6B:

  • Mặc dù ChatGLM là một mô hình song ngữ, nhưng hiệu suất của nó bằng tiếng Anh có thể chưa đạt mức tối ưu. Điều này có thể là do các hướng dẫn được sử dụng trong đào tạo chủ yếu bằng tiếng Trung Quốc.
  • Bởi vì ChatGLM-6B có ​​đáng kể ít tham số hơn so với các LLM khác như BLOOM, GPT-3 và ChatGLM-130B, hiệu suất có thể kém hơn khi ngữ cảnh quá dài. Do đó, ChatGLM-6B có ​​thể cung cấp thông tin không chính xác thường xuyên hơn so với các mẫu có số lượng tham số lớn hơn.
  • Các mô hình ngôn ngữ nhỏ có dung lượng bộ nhớ hạn chế. Do đó, trong các cuộc trò chuyện nhiều lượt, hiệu suất của kiểu máy có thể giảm nhẹ.
  • Xu hướng, thông tin sai lệch và độc tính là những hạn chế của tất cả các LLM và ChatGLM cũng dễ mắc phải những hạn chế này.

Bước tiếp theo, hãy chạy ChatGLM-6B cục bộ hoặc thử bản trình diễn trên không gian HuggingFace. Nếu bạn muốn tìm hiểu sâu hơn về hoạt động của LLM, đây là danh sách các khóa học miễn phí về các mô hình ngôn ngữ lớn.

[1] Z Du, Y Qian và cộng sự, GLM: Đào tạo trước mô hình ngôn ngữ chung với điền vào chỗ trống tự hồi quy, ACL 2022

[2] A Zheng, X Liu và cộng sự, GLM-130B – Mô hình đào tạo trước song ngữ mở, ICML 2023 

[3] D Hendryks, K Gimpel, Đơn vị tuyến tính lỗi Gaussian (GELU), arXiv, 2016

[4] ChatGLM-6B: Demo trên Không gian ôm mặt

[5] Kho lưu trữ GitHub
 
 
Bala Priya C là một nhà văn kỹ thuật thích tạo nội dung dài. Các lĩnh vực cô quan tâm bao gồm toán học, lập trình và khoa học dữ liệu. Cô ấy chia sẻ kiến ​​thức của mình với cộng đồng nhà phát triển bằng cách biên soạn các hướng dẫn, hướng dẫn cách thực hiện, v.v.

Dấu thời gian:

Thêm từ Xe đẩy