Konsep Yang Harus Anda Ketahui Sebelum Menjadi Transformers

Konsep Yang Harus Anda Ketahui Sebelum Menjadi Transformers

Node Sumber: 1894868

Neural network belajar melalui angka, sehingga setiap kata akan dipetakan ke vektor untuk mewakili kata tertentu. Lapisan penyisipan dapat dianggap sebagai tabel pencarian yang menyimpan penyematan kata dan mengambilnya menggunakan indeks.

 

Konsep yang harus Anda ketahui sebelum Masuk ke Transformer
 

Kata-kata yang memiliki arti yang sama akan dekat dalam hal euclidian distance/cosine similarity. misalnya, dalam representasi kata di bawah ini, "Sabtu", "Minggu", dan "Senin" dikaitkan dengan konsep yang sama, sehingga kita dapat melihat bahwa kata-kata yang dihasilkan serupa.
 

Konsep yang harus Anda ketahui sebelum Masuk ke Transformer

Penentuan Posisi Kata Mengapa kita perlu menentukan posisi kata? karena, encoder transformator tidak memiliki perulangan seperti jaringan saraf berulang, kita harus menambahkan beberapa informasi tentang posisi ke input embeddings. Ini dilakukan dengan menggunakan pengkodean posisi. Penulis makalah menggunakan fungsi berikut untuk memodelkan posisi sebuah kata.

 

Konsep yang harus Anda ketahui sebelum Masuk ke Transformer
 

Kami akan mencoba menjelaskan Encoding posisional.

 

Konsep yang harus Anda ketahui sebelum Masuk ke Transformer
 

Di sini "pos" mengacu pada posisi "kata" dalam urutan. P0 mengacu pada posisi penyisipan kata pertama; “d” berarti ukuran kata/token yang disematkan. Dalam contoh ini d=5. Akhirnya, "i" mengacu pada masing-masing dari 5 dimensi individual dari penyematan (yaitu 0, 1,2,3,4)

jika "i" bervariasi dalam persamaan di atas, Anda akan mendapatkan banyak kurva dengan frekuensi yang berbeda-beda. Membaca nilai penyisipan posisi terhadap frekuensi yang berbeda, memberikan nilai yang berbeda pada dimensi penyematan yang berbeda untuk P0 dan P4.

Konsep yang harus Anda ketahui sebelum Masuk ke Transformer
 

Dalam permintaan, Q mewakili kata vektor, the kunci K adalah semua kata lain dalam kalimat, dan nilai V mewakili vektor dari kata tersebut.

Tujuan perhatian adalah untuk menghitung pentingnya istilah kunci dibandingkan dengan istilah kueri yang terkait dengan orang/benda atau konsep yang sama.

Dalam kasus kami, V sama dengan Q.

Mekanisme perhatian memberi kita pentingnya kata dalam sebuah kalimat.

 

Konsep yang harus Anda ketahui sebelum Masuk ke Transformer
 

Saat kami menghitung produk titik yang dinormalisasi antara kueri dan kunci, kami mendapatkan tensor yang mewakili kepentingan relatif dari setiap kata lain untuk kueri.

 

Konsep yang harus Anda ketahui sebelum Masuk ke Transformer
 

Saat menghitung produk titik antara Q dan KT, kami mencoba memperkirakan bagaimana vektor (yaitu kata antara kueri dan kunci) diselaraskan dan mengembalikan bobot untuk setiap kata dalam kalimat.

Kemudian, kami menormalkan hasil kuadrat dari d_k dan fungsi softmax mengatur istilah dan menskala ulang antara 0 dan 1.

Terakhir, kita mengalikan hasil (yaitu bobot) dengan nilai (yaitu semua kata) untuk mengurangi pentingnya kata yang tidak relevan dan hanya berfokus pada kata yang paling penting.

Vektor output perhatian berkepala banyak ditambahkan ke penyematan input posisi asli. Ini disebut koneksi residual/melewati koneksi. Output dari koneksi residual melewati normalisasi lapisan. Output residual yang dinormalisasi dilewatkan melalui jaringan feed-forward pointwise untuk diproses lebih lanjut.

 

Konsep yang harus Anda ketahui sebelum Masuk ke Transformer

Topeng adalah matriks dengan ukuran yang sama dengan skor perhatian yang diisi dengan nilai 0 dan infinitas negatif.

 

Konsep yang harus Anda ketahui sebelum Masuk ke Transformer
 

Alasan penyamaran adalah setelah Anda mengambil softmax dari skor bertopeng, infinitas negatif mendapatkan nol, meninggalkan skor perhatian nol untuk token di masa mendatang.

Ini memberi tahu model untuk tidak fokus pada kata-kata itu.

Tujuan dari fungsi softmax adalah untuk mengambil bilangan real (positif dan negatif) dan mengubahnya menjadi bilangan positif yang jumlahnya sama dengan 1.

 

Konsep yang harus Anda ketahui sebelum Masuk ke Transformer

 
 
Ravikumar Naduvin sibuk membangun dan memahami tugas NLP menggunakan PyTorch.

 
Original. Diposting ulang dengan izin.
 

Stempel Waktu:

Lebih dari KDnugget