Bangun Chatbot Tentang Seri Favorit Anda Dalam 30 Menit

Diterbitkan Ulang Oleh Plato

Followers: 0

Perluas portofolio NLP Anda menggunakan BERT dan Haystack untuk menjawab semua pertanyaan Anda!

Jika Anda mencoba mempelajari Pemrosesan Bahasa Alami (NLP), membuat Bot Perselisihan, atau hanya tertarik untuk bermain-main dengan Transformers sebentar, ini adalah proyek untuk Anda!

Dalam contoh ini, kami akan membuat Chatbot yang mengetahui segalanya tentang Dragon Ball, tetapi Anda dapat melakukan apa pun yang Anda inginkan! Ini bisa berupa chatbot yang menjawab pertanyaan tentang seri lain, kursus universitas, hukum suatu negara, dll. Pertama, mari kita lihat bagaimana hal itu mungkin terjadi dengan BERT.

Bagaimana BERT bekerja sebagai Chatbot

BERT adalah teknik Machine Learning untuk NLP yang dibuat dan diterbitkan oleh Google pada tahun 2018. Pada fase pertama, model dilatih sebelumnya pada kumpulan data bahasa besar dengan cara semi-diawasi.

Pada fase ini, model belum dapat menjawab pertanyaan, tetapi mempelajari penyisipan kontekstual untuk kata-kata.

BERT menciptakan embeddings kontekstual untuk kata-kata sehingga dapat memperhitungkan konteks untuk setiap kemunculan kata yang diberikan. Sumber: Penulis

Pada fase kedua, BERT kemudian disesuaikan untuk tugas tertentu. Karena kami mencoba membangun Chatbot, kami membutuhkan model yang disesuaikan dengan tugas Menjawab Pertanyaan.

BERT menggunakan Transfer Learning: model telah dilatih sebelumnya dalam jumlah data yang besar dan pembelajaran tersebut kemudian dapat ditransfer agar model dapat disesuaikan dengan jumlah data yang relatif kecil untuk tugas tertentu.

Setelah model difinishing untuk Question Answering, kita harus menyediakan Input Dataset agar model mengetahui dari mana harus mengekstrak jawabannya. Akhirnya, pengguna kemudian dapat memasukkan pertanyaan. Model akan mengekstrak jawaban dari dataset input.

Setelah memberikan model sebuah dataset dengan konteks untuk menjawab pertanyaan, pengguna kemudian dapat menggunakan model BERT Finetuned kami. Sumber: Penulis

Dengan demikian, pertama-tama, kita perlu mendapatkan Input Dataset dari mana model akan mengekstrak jawabannya.

Mengambil Data

Dalam contoh ini, chatbot kami akan menjadi Master Bola Naga, jadi kami akan mengambil data dari Wiki Bola Naga dengan BeautifulSoup. Scraping bukanlah fokus dari posting ini, jadi kami hanya akan memaksanya sedikit untuk mendapatkan semua data yang kami butuhkan.

Menggores bisa lebih kuat, tetapi ini adalah cara sederhana untuk melakukannya. Sumber: Imgur

Kami mengambil data dari bab dan juga dari seri yang berbeda (Dragon Ball Z, Dragon Ball GT, dll). Informasi terpenting yang akan kami ambil adalah apa yang sebenarnya terjadi di setiap bab dan, melalui halaman-halaman seri yang berbeda, kami juga memiliki jenis informasi lain (pencipta, perusahaan produksi, tanggal penayangan, dll).

Contoh scraping dilakukan untuk mendapatkan semua informasi yang kemudian akan dimasukkan ke dalam model. Sumber: penulis

Setelah mendapatkan semua ringkasan setiap episode, Haystack membutuhkan data untuk diformat sebagai daftar kamus, yang memiliki dua kunci utama. Salah satu kuncinya disebut "konten", di mana model akan mengekstrak semua informasi yang diperlukan untuk menjawab semua pertanyaan. Kunci lainnya disebut "meta" dan memiliki kamus bersarang dengan semua metadata yang Anda butuhkan. Dalam contoh ini, saya memberikan kamus dengan judul dan nomor dari episode yang ringkasannya diambil.

Kamus memiliki dua kunci: konten (dari mana data diekstraksi) dan meta (tempat metadata disimpan). Sumber: Penulis

Sekarang setelah kita memiliki semua informasi tentang apa yang terjadi dalam rangkaian, kita perlu menginisialisasi model kita!

Memulai BERT

Untuk bagian ini, saya akan menggunakan Google Collab karena dua alasan:

jauh lebih mudah untuk mengatur Haystack: Haystack adalah perpustakaan untuk NLP yang memiliki banyak ketergantungan dan terkadang membuatnya bekerja di komputer pribadi Anda tidak terlalu mulus, terutama untuk pemula yang tidak terbiasa mengatur lingkungan;
kita akan menggunakan model BERT, yang merupakan model besar yang bekerja lebih cepat dengan GPU — yang disediakan Google Colab secara gratis!

Penggambaran nyata dari GPU Colab membuat Chatbot kami bekerja secepat kilat. Sumber: pinterest

Kita perlu memilih Retriever dan Reader untuk digunakan. Retriever adalah filter ringan yang menelusuri seluruh database dokumen kami dan memilih sejumlah X dokumen yang mungkin menjawab pertanyaan yang diajukan pengguna. Dalam hal ini, kami akan meminta Retriever untuk mengembalikan 10 dokumen.

Retriever menelusuri database kami dengan sangat cepat, mengambil dokumen yang terkait dengan pertanyaan, dan kemudian meneruskannya ke Pembaca, yang menganalisisnya secara lebih rinci dan mengekstrak jawaban darinya.

Retriever meneruskan 10 dokumen ini ke Reader. Dalam hal ini, kami akan menggunakan BERT sebagai Pembaca kami. Lebih khusus lagi, kami akan menggunakan model BERT bahasa Inggris yang sudah disesuaikan untuk Jawaban Pertanyaan Ekstraktif. Intinya, itu berarti model tersebut telah dilatih sebelumnya dalam bahasa Inggris dan kemudian dilatih untuk QA Ekstraktif di lapisan pelatihan terakhir. Karena data Dragon Ball sudah dalam bahasa Inggris, modelnya sudah siap untuk menjawab pertanyaan kami!

PS: Jika Anda memiliki data dalam bahasa lain, Anda dapat mencari model yang dilatih dalam bahasa tersebut di MemelukWajah.

Di sini kami mengimpor model roberta-base-squad2, tetapi Anda dapat menggunakan model apa pun yang Anda inginkan MemelukWajah! Sumber: Penulis

Kami akan meminta model untuk mengembalikan 5 jawaban benar yang paling mungkin dari 10 dokumen yang paling mungkin untuk mendapatkan jawabannya! Ingat: Retriever menemukan dokumen yang tepat dan Pembaca menemukan jawaban yang tepat (dalam hal ini, pembaca kami adalah robert-base-squad2)! Ini adalah output dari model setelah memasukkan pertanyaan sederhana tentang Dragon Ball:

Model mendapat jawaban yang benar! Mentor dari Goku adalah Master Roshi dan Raja Kai!

Mentor pertama Goku sebenarnya adalah Master Roshi seperti yang dikatakan model! Sumber: pinterest

Sekali lagi, ini benar, kami tidak perlu melatih model apa pun pada data kami!

Menguji Chatbot kami

Setelah membuat fungsi yang membuat output kita lebih cantik, mari kita lihat hasilnya!

Mari kita tanyakan dengan siapa Vegeta menikah:

Itu benar! Jawaban pertamanya adalah Bulma! Mari kita coba pertanyaan lain dan lihat hasilnya:

Model menjawab cukup baik untuk banyak pertanyaan!

Tingkat kekuatan BERT memang cukup mengesankan. Sumber: pinterest

Tetapi jika kita menambahkan beberapa variasi dalam cara kita mengajukan beberapa pertanyaan, itu mulai menjadi kurang tepat…

Hanya karena kami mengubah kata "kakek" menjadi "kakek", model memberikan jawaban yang salah!

Saya cukup yakin Dragon Ball Z memiliki lebih banyak episode dari ini

Ini hanya beberapa contoh bagaimana modelnya masih belum sempurna.

Ia masih harus banyak belajar. Sumber: pemberi

Jangan khawatir, karena kami dapat melatihnya lebih lanjut pada data kami jika kami mau! Haystack memiliki tutorial sederhana tentang cara melakukan ini juga. Namun, itu bisa menjadi seluruh posting barunya. Jika Anda merasa ini berguna, Anda dapat mengirimi saya pesan atau komentar dan saya akan mencoba membuat posting yang menjelaskannya selangkah demi selangkah.

Pekerjaan selanjutnya

Perpustakaan Haystack memiliki dokumentasi yang sangat bagus dan posting ini sebenarnya didasarkan pada salah satu buku catatan tutorial mereka. Kami dapat mencoba menambahkan lebih banyak data tentang seri lain dan mencoba melihat apakah model mempertahankan kinerjanya. Ini dia tautan ke Repositori Github proyek jika Anda ingin mengakses buku catatan yang digunakan.

Saya harap Anda menikmati membuat chatbot pertama Anda dengan BERT

Sampai jumpa lain waktu! Sumber: pemberi

Bangun Chatbot tentang serial favorit Anda dalam 30 menit awalnya diterbitkan di Kehidupan Chatbots on Medium, di mana orang-orang melanjutkan pembicaraan dengan menyoroti dan merespons cerita ini.

Stempel Waktu: Juni 8, 2022