Gambar oleh Penulis
Baru-baru ini kita semua mengalami kesulitan untuk mengejar rilis terbaru di ruang LLM. Dalam beberapa minggu terakhir, beberapa alternatif ChatGPT sumber terbuka telah menjadi populer.
Dan dalam artikel ini kita akan belajar tentang ObrolanGLM seri dan ObrolanGLM-6B, alternatif ChatGPT sumber terbuka dan ringan.
Mari kita pergi!
Para peneliti di Universitas Tsinghua di Cina telah bekerja untuk mengembangkan seri model ChatGLM yang memiliki kinerja yang sebanding dengan model lain seperti GPT-3 dan BLOOM.
ChatGLM adalah model bahasa besar dwibahasa yang dilatih dalam bahasa Cina dan Inggris. Saat ini, model berikut tersedia:
- ChatGLM-130B: LLM sumber terbuka
- ChatGLM-100B: tidak bersumber terbuka, tetapi tersedia melalui akses khusus undangan
- ChatGLM-6B: alternatif sumber terbuka yang ringan
Meskipun model ini mungkin tampak mirip dengan kelompok model bahasa besar Generative Pretrained Transformer (GPT), Kerangka prapelatihan Model Bahasa Umum (GLM). adalah apa yang membuat mereka berbeda. Kita akan belajar lebih banyak tentang ini di bagian selanjutnya.
Dalam pembelajaran mesin, Anda akan mengenal GLM sebagai model linier umum, tetapi GLM di ChatGLM adalah singkatan dari Model Bahasa Umum.
Kerangka Prapelatihan GLM
Pra pelatihan LLM telah dipelajari secara ekstensif dan masih merupakan bidang penelitian aktif. Mari kita coba memahami perbedaan utama antara prapelatihan GLM dan model gaya GPT.
Rangkaian model GPT-3 menggunakan pemodelan bahasa regresif otomatis khusus dekoder. Di GLM, di sisi lain, optimalisasi tujuan dirumuskan sebagai suatu masalah pengisian kosong regresif otomatis.
GLM | Sumber Gambar
Secara sederhana, pengisian kosong regresif otomatis melibatkan pengosongan rentang teks yang berkelanjutan, dan kemudian secara berurutan merekonstruksi teks pengosongan ini. Selain topeng yang lebih pendek, ada topeng yang lebih panjang yang secara acak menghilangkan teks panjang yang kosong dari akhir kalimat. Hal ini dilakukan agar model tampil cukup baik dalam pemahaman bahasa alami serta tugas pembangkitan.
Perbedaan lainnya adalah pada jenis perhatian yang digunakan. Grup GPT dari model bahasa besar menggunakan perhatian searah, sedangkan grup GLM dari LLM menggunakan perhatian dua arah. Menggunakan perhatian dua arah pada konteks terbuka dapat menangkap ketergantungan dengan lebih baik dan dapat meningkatkan kinerja pada tugas pemahaman bahasa alami.
Aktivasi GELU
Dalam GLM, aktivasi GELU (Gaussian Error Linear Units) digunakan sebagai pengganti aktivasi ReLU [1].
Aktivasi GELU, ReLU, dan ELU | Sumber Gambar
Aktivasi GELU dan memiliki nilai bukan nol untuk semua input dan memiliki bentuk berikut [3]:
Aktivasi GELU ditemukan untuk meningkatkan kinerja dibandingkan dengan aktivasi ReLU, meskipun secara komputasi lebih intensif daripada ReLU.
Dalam seri GLM dari LLM, ChatGLM-130B yang open-source dan bekerja sebaik model Da-Vinci GPT-3. Seperti yang disebutkan, saat artikel ini ditulis, ada versi ChatGLM-100B, yang dibatasi untuk akses khusus undangan.
ObrolanGLM-6B
Detail berikut tentang ChatGLM-6B agar lebih mudah diakses oleh pengguna akhir:
- Memiliki sekitar 6.2 miliar parameter.
- Model ini dilatih sebelumnya dengan 1 triliun tokenโsama-sama dari bahasa Inggris dan Cina.
- Selanjutnya, teknik seperti fine-tuning yang diawasi dan pembelajaran penguatan dengan umpan balik manusia digunakan.
Mari akhiri diskusi kita dengan membahas kelebihan dan keterbatasan ChatGLM:
Kelebihan
Dari model dwibahasa hingga model sumber terbuka yang dapat Anda jalankan secara lokal, ChatGLM-6B memiliki keunggulan sebagai berikut:
- Sebagian besar model bahasa besar arus utama dilatih pada kumpulan besar teks bahasa Inggris, dan model bahasa besar untuk bahasa lain tidak begitu umum. Seri LLM ChatGLM bersifat dwibahasa dan merupakan pilihan tepat untuk bahasa Mandarin. Model ini memiliki kinerja yang baik dalam bahasa Inggris dan Cina.
- ChatGLM-6B dioptimalkan untuk perangkat pengguna. Pengguna akhir sering kali memiliki sumber daya komputasi yang terbatas pada perangkat mereka, sehingga hampir tidak mungkin menjalankan LLM secara lokalโtanpa akses ke GPU berperforma tinggi. Dengan kuantisasi INT4, ChatGLM-6B dapat berjalan dengan kebutuhan memori sederhana serendah 6GB.
- Berkinerja baik pada berbagai tugas termasuk peringkasan dan obrolan tunggal dan multi-permintaan.
- Meskipun jumlah parameter jauh lebih kecil dibandingkan dengan LLM arus utama lainnya, ChatGLM-6B mendukung panjang konteks hingga 2048.
keterbatasan
Selanjutnya, mari kita buat daftar beberapa batasan ChatGLM-6B:
- Meskipun ChatGLM adalah model dwibahasa, kinerjanya dalam bahasa Inggris sepertinya kurang optimal. Ini dapat dikaitkan dengan instruksi yang digunakan dalam pelatihan yang sebagian besar dalam bahasa Cina.
- Karena ChatGLM-6B memiliki substansial parameter yang lebih sedikit dibandingkan dengan LLM lain seperti BLOOM, GPT-3, dan ChatGLM-130B, kinerjanya mungkin lebih buruk jika konteksnya terlalu panjang. Akibatnya, ChatGLM-6B dapat memberikan informasi yang tidak akurat lebih sering daripada model dengan jumlah parameter yang lebih banyak.
- Model bahasa kecil memiliki kapasitas memori terbatas. Oleh karena itu, dalam obrolan multi-putaran, kinerja model mungkin sedikit menurun.
- Bias, misinformasi, dan toksisitas adalah batasan semua LLM, dan ChatGLM juga rentan terhadap hal ini.
Sebagai langkah selanjutnya, jalankan ChatGLM-6B secara lokal atau coba demo di ruang HuggingFace. Jika Anda ingin mempelajari lebih dalam cara kerja LLM, berikut adalah daftarnya kursus gratis tentang model bahasa besar.
[1] Z Du, Y Qian dkk., GLM: Pretraining Model Bahasa Umum dengan Autoregressive Blank Infilling,ACL 2022
[2] A Zheng, X Liu dkk., GLM-130B โ Model Pra-latihan Bilingual Terbuka,ICML 2023
[3] D Hendryks, K Gimpel, Satuan Linear Galat Gaussian (GELU), arXiv, 2016
[4] ChatGLM-6B: Demo di HuggingFace Spaces
[5] Repo GitHub
Bala Priya C adalah penulis teknis yang suka membuat konten berdurasi panjang. Bidang minatnya meliputi matematika, pemrograman, dan ilmu data. Dia berbagi pembelajarannya dengan komunitas developer dengan menulis tutorial, panduan cara kerja, dan banyak lagi.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- PlatoAiStream. Kecerdasan Data Web3. Pengetahuan Diperkuat. Akses Di Sini.
- Mencetak Masa Depan bersama Adryenn Ashley. Akses Di Sini.
- Sumber: https://www.kdnuggets.com/2023/04/chatglm6b-lightweight-opensource-chatgpt-alternative.html?utm_source=rss&utm_medium=rss&utm_campaign=chatglm-6b-a-lightweight-open-source-chatgpt-alternative
- :memiliki
- :adalah
- :bukan
- $NAIK
- 1
- a
- Tentang Kami
- mengakses
- dapat diakses
- Activation
- aktivasi
- aktif
- tambahan
- keuntungan
- AL
- Semua
- alternatif
- alternatif
- an
- dan
- ADALAH
- DAERAH
- daerah
- artikel
- AS
- At
- perhatian
- menulis
- mobil
- tersedia
- BE
- menjadi
- menjadi
- menjadi
- makhluk
- Lebih baik
- antara
- Milyar
- Berkembang
- kedua
- tapi
- by
- CAN
- menangkap
- ChatGPT
- Tiongkok
- Cina
- pilihan
- Umum
- masyarakat
- sebanding
- dibandingkan
- komputasi
- Konten
- konteks
- Konteks
- kontinu
- Pelatihan
- membuat
- Sekarang
- data
- ilmu data
- lebih dalam
- Demo
- rincian
- Pengembang
- berkembang
- Devices
- perbedaan
- perbedaan
- berbeda
- diskusi
- dilakukan
- E&T
- akhir
- Inggris
- kesalahan
- keluarga
- umpan balik
- beberapa
- sedikit
- berikut
- Untuk
- bentuk
- ditemukan
- dari
- Umum
- generasi
- generatif
- mendapatkan
- Memberikan
- akan
- baik
- GPU
- besar
- Kelompok
- Panduan
- tangan
- Sulit
- Memiliki
- memiliki
- dia
- di sini
- kinerja tinggi
- HTML
- HTTPS
- MemelukWajah
- manusia
- if
- mustahil
- memperbaiki
- in
- tidak akurat
- memasukkan
- Termasuk
- informasi
- sebagai gantinya
- instruksi
- bunga
- ke
- melibatkan
- IT
- NYA
- jpg
- KDnugget
- kunci
- Tahu
- bahasa
- Bahasa
- besar
- lebih besar
- Terakhir
- Terbaru
- BELAJAR
- pengetahuan
- Panjang
- ringan
- 'like'
- Mungkin
- keterbatasan
- Terbatas
- Daftar
- lokal
- Panjang
- lagi
- Rendah
- mesin
- Mesin belajar
- Arus utama
- membuat
- MEMBUAT
- masker
- masker
- matematika
- Mungkin..
- Memori
- tersebut
- Keterangan yg salah
- model
- pemodelan
- model
- lebih
- Alam
- Bahasa Alami
- Pemahaman Bahasa Alamiah
- berikutnya
- jumlah
- Nvidia
- tujuan
- of
- sering
- on
- Buka
- open source
- optimasi
- dioptimalkan
- or
- Lainnya
- kami
- di luar
- lebih
- parameter
- prestasi
- melakukan
- plato
- Kecerdasan Data Plato
- Data Plato
- Populer
- pra
- Pemrograman
- penguatan pembelajaran
- Pers
- kebutuhan
- penelitian
- Sumber
- terbatas
- mengakibatkan
- Run
- s
- Ilmu
- Bagian
- Seri
- beberapa
- saham
- dia
- mirip
- Sederhana
- tunggal
- lebih kecil
- So
- Space
- spasi
- merentang
- berdiri
- Langkah
- Masih
- belajar
- seperti itu
- besar
- Mendukung
- rentan
- tugas
- Teknis
- teknik
- istilah
- dari
- bahwa
- Grafik
- mereka
- Mereka
- kemudian
- Sana.
- karena itu
- Ini
- ini
- Melalui
- waktu
- untuk
- terlalu
- terlatih
- Pelatihan
- Triliun
- Tsinghua
- tutorial
- mengetik
- memahami
- pemahaman
- unit
- universitas
- menggunakan
- bekas
- Pengguna
- Pengguna
- menggunakan
- Nilai - Nilai
- variasi
- versi
- minggu
- BAIK
- Apa
- ketika
- yang
- SIAPA
- dengan
- bekerja
- kerja
- lebih buruk
- membungkus
- penulis
- penulisan
- X
- kamu
- zephyrnet.dll