ChatGLM-6B: ทางเลือก ChatGPT แบบโอเพ่นซอร์สน้ำหนักเบา

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ChatGLM-6B: ทางเลือก ChatGPT แบบโอเพ่นซอร์สน้ำหนักเบา
ภาพโดยผู้เขียน

เมื่อเร็ว ๆ นี้ เราทุกคนมีช่วงเวลาที่ยากลำบากอย่างยิ่งในการติดตามรุ่นล่าสุดในพื้นที่ LLM ในช่วงไม่กี่สัปดาห์ที่ผ่านมา ทางเลือก ChatGPT แบบโอเพ่นซอร์สหลายรายการได้รับความนิยม

และในบทความนี้เราจะมาเรียนรู้เกี่ยวกับ แชทGLM ชุดและ แชทGLM-6Bซึ่งเป็นทางเลือก ChatGPT แบบโอเพ่นซอร์สและมีน้ำหนักเบา

เริ่มกันเลย!

นักวิจัยจากมหาวิทยาลัย Tsinghua ในประเทศจีนได้ทำงานเพื่อพัฒนาโมเดลในซีรีส์ ChatGLM ที่มีประสิทธิภาพเทียบเท่ากับโมเดลอื่นๆ เช่น GPT-3 และ BLOOM

ChatGLM เป็นโมเดลสองภาษาขนาดใหญ่ที่ได้รับการฝึกฝนทั้งภาษาจีนและภาษาอังกฤษ ปัจจุบันมีรุ่นต่อไปนี้:

ChatGLM-130B: LLM แบบโอเพ่นซอร์ส
ChatGLM-100B: ไม่ใช่แบบโอเพ่นซอร์ส แต่มีให้ผ่านการเข้าถึงที่ได้รับเชิญเท่านั้น
ChatGLM-6B: ทางเลือกโอเพ่นซอร์สที่มีน้ำหนักเบา

แม้ว่าโมเดลเหล่านี้อาจดูคล้ายกับกลุ่ม Generative Pretrained Transformer (GPT) ของโมเดลภาษาขนาดใหญ่ เฟรมเวิร์กการเตรียมการล่วงหน้าของ General Language Model (GLM) คือสิ่งที่ทำให้พวกเขาแตกต่าง เราจะเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้ในหัวข้อถัดไป

ในแมชชีนเลิร์นนิง คุณจะรู้จัก GLM เป็น โมเดลเชิงเส้นทั่วไปแต่ GLM ใน ChatGLM ย่อมาจาก โมเดลภาษาทั่วไป.

กรอบการฝึกอบรมล่วงหน้าของ GLM

การฝึกอบรมล่วงหน้า LLM ได้รับการศึกษาอย่างกว้างขวางและยังคงเป็นพื้นที่ของการวิจัยที่ใช้งานอยู่ มาลองทำความเข้าใจความแตกต่างที่สำคัญระหว่างการฝึกล่วงหน้าของ GLM และโมเดลรูปแบบ GPT

โมเดลตระกูล GPT-3 ใช้การสร้างโมเดลภาษาถดถอยอัตโนมัติอย่างเดียวสำหรับตัวถอดรหัส ในทางกลับกัน ใน GLM การเพิ่มประสิทธิภาพของวัตถุประสงค์ถูกกำหนดเป็น ปัญหาการเติมช่องว่างแบบถดถอยอัตโนมัติ.

ChatGLM-6B: ทางเลือก ChatGPT แบบโอเพ่นซอร์สน้ำหนักเบา
จีแอลเอ็ม | แหล่งที่มาของภาพ

ในแง่ง่ายๆ, การเติมช่องว่างแบบถดถอยอัตโนมัติ เกี่ยวข้องกับการเว้นช่องว่างของข้อความที่ต่อเนื่องกัน แล้วสร้างข้อความขึ้นใหม่ตามลำดับ การเว้นช่องว่างนี้ นอกจากมาสก์ที่สั้นกว่าแล้ว ยังมีมาสก์ที่ยาวกว่าซึ่งสุ่มลบข้อความยาวออกจากส่วนท้ายของประโยค สิ่งนี้ทำเพื่อให้แบบจำลองทำงานได้ดีพอสมควรในการทำความเข้าใจภาษาธรรมชาติรวมถึงงานสร้าง

ความแตกต่างอีกประการหนึ่งคือประเภทของความสนใจที่ใช้ กลุ่ม GPT ของโมเดลภาษาขนาดใหญ่ใช้ความสนใจแบบทิศทางเดียว ในขณะที่กลุ่ม GLM ของ LLM ใช้ ความสนใจแบบสองทิศทาง. การใช้ความสนใจแบบสองทิศทางเหนือบริบทที่ไม่ได้ปิดบังสามารถจับการพึ่งพาได้ดีขึ้นและสามารถปรับปรุงประสิทธิภาพในงานการทำความเข้าใจภาษาธรรมชาติได้

การเปิดใช้งาน GELU

ใน GLM การเปิดใช้งาน GELU (Gaussian Error Linear Units) จะใช้แทนการเปิดใช้งาน ReLU [1]

ChatGLM-6B: ทางเลือก ChatGPT แบบโอเพ่นซอร์สน้ำหนักเบา
การเปิดใช้งาน GELU, ReLU และ ELU | แหล่งที่มาของภาพ

การเปิดใช้งาน GELU และมีค่าที่ไม่ใช่ศูนย์สำหรับอินพุตทั้งหมด และมีรูปแบบต่อไปนี้ [3]:

ChatGLM-6B: ทางเลือก ChatGPT แบบโอเพ่นซอร์สน้ำหนักเบา

การเปิดใช้งาน GELU พบว่าช่วยปรับปรุงประสิทธิภาพเมื่อเทียบกับการเปิดใช้งาน ReLU แม้ว่าจะมีการคำนวณที่เข้มข้นกว่า ReLU

ในซีรีส์ GLM ของ LLM ChatGLM-130B ซึ่งเป็นโอเพ่นซอร์สและทำงานได้ดีกับโมเดล Da-Vinci ของ GPT-3 ดังที่ได้กล่าวไว้ ณ ตอนที่เขียนบทความนี้ มีเวอร์ชัน ChatGLM-100B ซึ่งจำกัดให้เข้าถึงได้เฉพาะผู้ที่ได้รับเชิญเท่านั้น

แชทGLM-6B

รายละเอียดต่อไปนี้เกี่ยวกับ ChatGLM-6B เพื่อให้ผู้ใช้ปลายทางเข้าถึงได้มากขึ้น:

มีประมาณ 6.2 พันล้านพารามิเตอร์
โมเดลดังกล่าวได้รับการฝึกฝนล่วงหน้าบนโทเค็น 1 ล้านล้านโทเค็น—จากภาษาอังกฤษและภาษาจีนเท่าๆ กัน
ต่อจากนั้นจึงใช้เทคนิคต่างๆ เช่น การปรับอย่างละเอียดภายใต้การดูแลและการเรียนรู้แบบเสริมแรงด้วยความคิดเห็นจากมนุษย์

เรามาสรุปการสนทนาของเราโดยพูดถึงข้อดีและข้อจำกัดของ ChatGLM:

ข้อดี

ChatGLM-6B มีข้อดีดังนี้

โมเดลภาษาขนาดใหญ่กระแสหลักส่วนใหญ่ได้รับการฝึกฝนบนข้อความภาษาอังกฤษขนาดใหญ่ และโมเดลภาษาขนาดใหญ่สำหรับภาษาอื่นก็ไม่เหมือนกัน ชุด LLM ของ ChatGLM เป็นแบบสองภาษาและเป็นตัวเลือกที่ยอดเยี่ยมสำหรับชาวจีน โมเดลมีประสิทธิภาพที่ดีทั้งภาษาอังกฤษและภาษาจีน
ChatGLM-6B ได้รับการปรับให้เหมาะกับอุปกรณ์ของผู้ใช้ ผู้ใช้ปลายทางมักมีทรัพยากรการประมวลผลจำกัดในอุปกรณ์ ดังนั้นจึงแทบจะเป็นไปไม่ได้เลยที่จะเรียกใช้ LLM ภายในเครื่องโดยไม่ต้องเข้าถึง GPU ประสิทธิภาพสูง กับ INT4 การหาปริมาณ, ChatGLM-6B สามารถทำงานได้ด้วยความต้องการหน่วยความจำเล็กน้อยถึง 6GB
ทำงานได้ดีกับงานที่หลากหลาย รวมถึงการสรุปผลและการสนทนาแบบเดี่ยวและหลายข้อความค้นหา
แม้จะมีจำนวนพารามิเตอร์ที่น้อยกว่ามากเมื่อเทียบกับ LLM หลักอื่นๆ แต่ ChatGLM-6B รองรับความยาวของบริบทได้สูงสุด 2048

ข้อ จำกัด

ต่อไป มาดูข้อจำกัดบางประการของ ChatGLM-6B:

แม้ว่า ChatGLM จะเป็นรูปแบบสองภาษา แต่ประสิทธิภาพของมันในภาษาอังกฤษก็มีแนวโน้มว่าจะไม่ดีเท่าที่ควร อาจเป็นเพราะคำแนะนำที่ใช้ในการฝึกอบรมส่วนใหญ่เป็นภาษาจีน

เพราะ ChatGLM-6B มีมากมายมหาศาล พารามิเตอร์น้อยลง เมื่อเปรียบเทียบกับ LLM อื่นๆ เช่น BLOOM, GPT-3 และ ChatGLM-130B ประสิทธิภาพอาจแย่ลงเมื่อบริบทยาวเกินไป ส่งผลให้ ChatGLM-6B อาจให้ข้อมูลที่ไม่ถูกต้องบ่อยกว่ารุ่นที่มีพารามิเตอร์จำนวนมาก
โมเดลภาษาขนาดเล็กมี ความจุหน่วยความจำที่จำกัด. ดังนั้นในการสนทนาแบบหลายเทิร์น ประสิทธิภาพของโมเดลอาจลดลงเล็กน้อย
อคติ ข้อมูลที่ผิด และความเป็นพิษเป็นข้อจำกัดของ LLM ทั้งหมด และ ChatGLM ก็อ่อนไหวต่อสิ่งเหล่านี้เช่นกัน

ในขั้นตอนถัดไป ให้เรียกใช้ ChatGLM-6B ในเครื่องหรือลองใช้การสาธิตบนพื้นที่ HuggingFace หากคุณต้องการเจาะลึกลงไปในการทำงานของ LLM นี่คือรายการของ หลักสูตรฟรีเกี่ยวกับโมเดลภาษาขนาดใหญ่.

[1] Z Du, Y Qian และคณะ GLM: โมเดลภาษาทั่วไปที่เตรียมการล่วงหน้าด้วยการเติมช่องว่างอัตโนมัติ, เอซีแอล 2022

[2] A Zheng, X Liu และคณะ GLM-130B – โมเดลสองภาษาที่ได้รับการฝึกฝนแบบเปิด, ไอซีเอ็มแอล 2023

[3] ดี เฮนดรี้ส, เค กิมเพล, Gaussian Error Linear Units (GELU), arXiv, 2016

[4] ChatGLM-6B: การสาธิต HuggingFace Spaces

[5] ที่เก็บ GitHub

บาลา ปรียา ซี เป็นนักเขียนเชิงเทคนิคที่ชอบสร้างเนื้อหาขนาดยาว สาขาวิชาที่เธอสนใจ ได้แก่ คณิตศาสตร์ การเขียนโปรแกรม และวิทยาศาสตร์ข้อมูล เธอแบ่งปันการเรียนรู้ของเธอกับชุมชนนักพัฒนาโดยเขียนบทช่วยสอน คู่มือวิธีใช้ และอื่นๆ