ChatGLM-6B: Alternatif ChatGPT Sumber Terbuka yang Ringan

Diterbitkan Ulang Oleh Plato

Followers: 0

ChatGLM-6B: Alternatif ChatGPT Sumber Terbuka yang Ringan
Gambar oleh Penulis

Baru-baru ini kita semua mengalami kesulitan untuk mengejar rilis terbaru di ruang LLM. Dalam beberapa minggu terakhir, beberapa alternatif ChatGPT sumber terbuka telah menjadi populer.

Dan dalam artikel ini kita akan belajar tentang ObrolanGLM seri dan ObrolanGLM-6B, alternatif ChatGPT sumber terbuka dan ringan.

Mari kita pergi!

Para peneliti di Universitas Tsinghua di Cina telah bekerja untuk mengembangkan seri model ChatGLM yang memiliki kinerja yang sebanding dengan model lain seperti GPT-3 dan BLOOM.

ChatGLM adalah model bahasa besar dwibahasa yang dilatih dalam bahasa Cina dan Inggris. Saat ini, model berikut tersedia:

ChatGLM-130B: LLM sumber terbuka
ChatGLM-100B: tidak bersumber terbuka, tetapi tersedia melalui akses khusus undangan
ChatGLM-6B: alternatif sumber terbuka yang ringan

Meskipun model ini mungkin tampak mirip dengan kelompok model bahasa besar Generative Pretrained Transformer (GPT), Kerangka prapelatihan Model Bahasa Umum (GLM). adalah apa yang membuat mereka berbeda. Kita akan belajar lebih banyak tentang ini di bagian selanjutnya.

Dalam pembelajaran mesin, Anda akan mengenal GLM sebagai model linier umum, tetapi GLM di ChatGLM adalah singkatan dari Model Bahasa Umum.

Kerangka Prapelatihan GLM

Pra pelatihan LLM telah dipelajari secara ekstensif dan masih merupakan bidang penelitian aktif. Mari kita coba memahami perbedaan utama antara prapelatihan GLM dan model gaya GPT.

Rangkaian model GPT-3 menggunakan pemodelan bahasa regresif otomatis khusus dekoder. Di GLM, di sisi lain, optimalisasi tujuan dirumuskan sebagai suatu masalah pengisian kosong regresif otomatis.

ChatGLM-6B: Alternatif ChatGPT Sumber Terbuka yang Ringan
GLM | Sumber Gambar

Secara sederhana, pengisian kosong regresif otomatis melibatkan pengosongan rentang teks yang berkelanjutan, dan kemudian secara berurutan merekonstruksi teks pengosongan ini. Selain topeng yang lebih pendek, ada topeng yang lebih panjang yang secara acak menghilangkan teks panjang yang kosong dari akhir kalimat. Hal ini dilakukan agar model tampil cukup baik dalam pemahaman bahasa alami serta tugas pembangkitan.

Perbedaan lainnya adalah pada jenis perhatian yang digunakan. Grup GPT dari model bahasa besar menggunakan perhatian searah, sedangkan grup GLM dari LLM menggunakan perhatian dua arah. Menggunakan perhatian dua arah pada konteks terbuka dapat menangkap ketergantungan dengan lebih baik dan dapat meningkatkan kinerja pada tugas pemahaman bahasa alami.

Aktivasi GELU

Dalam GLM, aktivasi GELU (Gaussian Error Linear Units) digunakan sebagai pengganti aktivasi ReLU [1].

ChatGLM-6B: Alternatif ChatGPT Sumber Terbuka yang Ringan
Aktivasi GELU, ReLU, dan ELU | Sumber Gambar

Aktivasi GELU dan memiliki nilai bukan nol untuk semua input dan memiliki bentuk berikut [3]:

ChatGLM-6B: Alternatif ChatGPT Sumber Terbuka yang Ringan

Aktivasi GELU ditemukan untuk meningkatkan kinerja dibandingkan dengan aktivasi ReLU, meskipun secara komputasi lebih intensif daripada ReLU.

Dalam seri GLM dari LLM, ChatGLM-130B yang open-source dan bekerja sebaik model Da-Vinci GPT-3. Seperti yang disebutkan, saat artikel ini ditulis, ada versi ChatGLM-100B, yang dibatasi untuk akses khusus undangan.

ObrolanGLM-6B

Detail berikut tentang ChatGLM-6B agar lebih mudah diakses oleh pengguna akhir:

Memiliki sekitar 6.2 miliar parameter.
Model ini dilatih sebelumnya dengan 1 triliun token—sama-sama dari bahasa Inggris dan Cina.
Selanjutnya, teknik seperti fine-tuning yang diawasi dan pembelajaran penguatan dengan umpan balik manusia digunakan.

Mari akhiri diskusi kita dengan membahas kelebihan dan keterbatasan ChatGLM:

Kelebihan

Dari model dwibahasa hingga model sumber terbuka yang dapat Anda jalankan secara lokal, ChatGLM-6B memiliki keunggulan sebagai berikut:

Sebagian besar model bahasa besar arus utama dilatih pada kumpulan besar teks bahasa Inggris, dan model bahasa besar untuk bahasa lain tidak begitu umum. Seri LLM ChatGLM bersifat dwibahasa dan merupakan pilihan tepat untuk bahasa Mandarin. Model ini memiliki kinerja yang baik dalam bahasa Inggris dan Cina.
ChatGLM-6B dioptimalkan untuk perangkat pengguna. Pengguna akhir sering kali memiliki sumber daya komputasi yang terbatas pada perangkat mereka, sehingga hampir tidak mungkin menjalankan LLM secara lokal—tanpa akses ke GPU berperforma tinggi. Dengan kuantisasi INT4, ChatGLM-6B dapat berjalan dengan kebutuhan memori sederhana serendah 6GB.
Berkinerja baik pada berbagai tugas termasuk peringkasan dan obrolan tunggal dan multi-permintaan.
Meskipun jumlah parameter jauh lebih kecil dibandingkan dengan LLM arus utama lainnya, ChatGLM-6B mendukung panjang konteks hingga 2048.

keterbatasan

Selanjutnya, mari kita buat daftar beberapa batasan ChatGLM-6B:

Meskipun ChatGLM adalah model dwibahasa, kinerjanya dalam bahasa Inggris sepertinya kurang optimal. Ini dapat dikaitkan dengan instruksi yang digunakan dalam pelatihan yang sebagian besar dalam bahasa Cina.

Karena ChatGLM-6B memiliki substansial parameter yang lebih sedikit dibandingkan dengan LLM lain seperti BLOOM, GPT-3, dan ChatGLM-130B, kinerjanya mungkin lebih buruk jika konteksnya terlalu panjang. Akibatnya, ChatGLM-6B dapat memberikan informasi yang tidak akurat lebih sering daripada model dengan jumlah parameter yang lebih banyak.
Model bahasa kecil memiliki kapasitas memori terbatas. Oleh karena itu, dalam obrolan multi-putaran, kinerja model mungkin sedikit menurun.
Bias, misinformasi, dan toksisitas adalah batasan semua LLM, dan ChatGLM juga rentan terhadap hal ini.

Sebagai langkah selanjutnya, jalankan ChatGLM-6B secara lokal atau coba demo di ruang HuggingFace. Jika Anda ingin mempelajari lebih dalam cara kerja LLM, berikut adalah daftarnya kursus gratis tentang model bahasa besar.

[1] Z Du, Y Qian dkk., GLM: Pretraining Model Bahasa Umum dengan Autoregressive Blank Infilling,ACL 2022

[2] A Zheng, X Liu dkk., GLM-130B – Model Pra-latihan Bilingual Terbuka,ICML 2023

[3] D Hendryks, K Gimpel, Satuan Linear Galat Gaussian (GELU), arXiv, 2016

[4] ChatGLM-6B: Demo di HuggingFace Spaces

[5] Repo GitHub

Bala Priya C adalah penulis teknis yang suka membuat konten berdurasi panjang. Bidang minatnya meliputi matematika, pemrograman, dan ilmu data. Dia berbagi pembelajarannya dengan komunitas developer dengan menulis tutorial, panduan cara kerja, dan banyak lagi.