Transformatörlere Başlamadan Önce Bilmeniz Gereken Kavramlar

Transformatörlere Başlamadan Önce Bilmeniz Gereken Kavramlar

Kaynak Düğüm: 1894868

Sinir ağları sayılar aracılığıyla öğrenir, böylece her kelime belirli bir kelimeyi temsil edecek vektörlerle eşleştirilir. Gömme katmanı, sözcük yerleştirmelerini saklayan ve bunları dizinler kullanarak alan bir arama tablosu olarak düşünülebilir.

 

Trafoya Başlamadan Önce Bilmeniz Gereken Kavramlar
 

Aynı anlama gelen kelimeler öklid uzaklığı/kosinüs benzerliği açısından birbirine yakın olacaktır. örneğin aşağıdaki kelime gösteriminde “Cumartesi”, “Pazar” ve “Pazartesi” aynı kavramla ilişkilendirildiğinden kelimelerin benzer sonuçlandığını görebiliriz.
 

Trafoya Başlamadan Önce Bilmeniz Gereken Kavramlar

Kelimenin konumunu belirleme, Neden kelimenin konumunu belirlememiz gerekiyor? Transformatör kodlayıcının tekrarlayan sinir ağları gibi yinelemesi olmadığından, giriş yerleştirmelerine konumlar hakkında bazı bilgiler eklememiz gerekir. Bu konumsal kodlama kullanılarak yapılır. Makalenin yazarları bir kelimenin konumunu modellemek için aşağıdaki işlevleri kullandılar.

 

Trafoya Başlamadan Önce Bilmeniz Gereken Kavramlar
 

Konumsal Kodlamayı açıklamaya çalışacağız.

 

Trafoya Başlamadan Önce Bilmeniz Gereken Kavramlar
 

Burada “pos”, “kelimenin” dizideki konumunu ifade etmektedir. P0, ilk kelimenin gömülü konumunu ifade eder; “d”, gömülen kelimenin/belirtecin boyutu anlamına gelir. Bu örnekte d=5. Son olarak “i” yerleştirmenin 5 ayrı boyutunun her birini ifade eder (yani 0, 1,2,3,4)

Yukarıdaki denklemde "i" değişirse, değişen frekanslara sahip bir grup eğri elde edersiniz. Pozisyon gömme değerlerinin farklı frekanslara karşı okunması, P0 ve P4 için farklı gömme boyutlarında farklı değerler verilmesi.

Trafoya Başlamadan Önce Bilmeniz Gereken Kavramlar
 

Bu sorgu, S bir vektör kelimesini temsil eder, tuşları K cümledeki tüm diğer kelimeler ve değer V kelimenin vektörünü temsil eder.

Dikkatin amacı aynı kişi/şey veya kavrama ilişkin sorgu terimine göre anahtar terimin önemini hesaplamaktır.

Bizim durumumuzda V, Q'ya eşittir.

Dikkat mekanizması bize cümledeki kelimenin önemini verir.

 

Trafoya Başlamadan Önce Bilmeniz Gereken Kavramlar
 

Sorgu ile anahtarlar arasındaki normalleştirilmiş nokta çarpımı hesapladığımızda, her bir kelimenin sorgu için göreli önemini temsil eden bir tensör elde ederiz.

 

Trafoya Başlamadan Önce Bilmeniz Gereken Kavramlar
 

Q ve KT arasındaki nokta çarpımı hesaplarken, vektörlerin (yani sorgu ve anahtarlar arasındaki kelimelerin) nasıl hizalandığını tahmin etmeye çalışırız ve cümledeki her kelime için bir ağırlık veririz.

Daha sonra d_k'nin sonucunun karesini normalleştiririz ve softmax işlevi terimleri düzenler ve 0 ile 1 arasında yeniden ölçeklendirir.

Son olarak, alakasız kelimelerin önemini azaltmak ve yalnızca en önemli kelimelere odaklanmak için sonucu (yani ağırlıkları) değerle (yani tüm kelimelerle) çarpıyoruz.

Çok başlı dikkat çıkış vektörü, orijinal konumsal girdi yerleştirmeye eklenir. Buna artık bağlantı/atlama bağlantısı denir. Artık bağlantının çıkışı katman normalleştirmesinden geçer. Normalleştirilmiş artık çıktı, daha sonraki işlemler için noktasal ileri beslemeli bir ağdan geçirilir.

 

Trafoya Başlamadan Önce Bilmeniz Gereken Kavramlar

Maske, 0'lar ve negatif sonsuzluk değerleriyle dolu, dikkat puanlarıyla aynı büyüklükte bir matristir.

 

Trafoya Başlamadan Önce Bilmeniz Gereken Kavramlar
 

Maskenin nedeni, maskelenmiş puanların softmax'ını aldığınızda, negatif sonsuzlukların sıfır alması ve gelecekteki belirteçler için sıfır dikkat puanı bırakmasıdır.

Bu, modele bu kelimelere odaklanmamasını söyler.

Softmax fonksiyonunun amacı gerçek sayıları (pozitif ve negatif) alıp bunları toplamı 1 olan pozitif sayılara dönüştürmektir.

 

Trafoya Başlamadan Önce Bilmeniz Gereken Kavramlar

 
 
Ravikumar Naduvin PyTorch'u kullanarak NLP görevlerini oluşturmak ve anlamakla meşgul.

 
orijinal. İzinle yeniden yayınlandı.
 

Zaman Damgası:

Den fazla KDNuggets