Những Khái Niệm Bạn Nên Biết Trước Khi Bắt Đầu Làm Máy Biến Hình

Những Khái Niệm Bạn Nên Biết Trước Khi Bắt Đầu Làm Máy Biến Hình

Nút nguồn: 1894868

Mạng lưới thần kinh học thông qua các con số, vì vậy mỗi từ sẽ được ánh xạ tới các vectơ để biểu thị một từ cụ thể. Lớp nhúng có thể được coi là một bảng tra cứu lưu trữ các từ nhúng và truy xuất chúng bằng cách sử dụng các chỉ số.

 

Những Khái Niệm Bạn Nên Biết Trước Khi Làm Quen Với Máy Biến Áp
 

Các từ có cùng nghĩa sẽ gần nhau về khoảng cách euclidian/độ tương tự cosine. ví dụ: trong biểu diễn từ bên dưới, “Saturday”, “Sunday” và “Monday” được liên kết với cùng một khái niệm, vì vậy chúng ta có thể thấy rằng các từ này có kết quả tương tự nhau.
 

Những Khái Niệm Bạn Nên Biết Trước Khi Làm Quen Với Máy Biến Áp

Việc xác định vị trí của từ, Vì sao cần xác định vị trí của từ? bởi vì, bộ mã hóa biến áp không có tính lặp lại như mạng thần kinh tái phát, chúng ta phải thêm một số thông tin về các vị trí vào phần nhúng đầu vào. Điều này được thực hiện bằng cách sử dụng mã hóa vị trí. Các tác giả của bài báo đã sử dụng các chức năng sau để mô hình hóa vị trí của một từ.

 

Những Khái Niệm Bạn Nên Biết Trước Khi Làm Quen Với Máy Biến Áp
 

Chúng tôi sẽ cố gắng giải thích Mã hóa vị trí.

 

Những Khái Niệm Bạn Nên Biết Trước Khi Làm Quen Với Máy Biến Áp
 

Ở đây “pos” đề cập đến vị trí của “từ” trong chuỗi. P0 đề cập đến vị trí nhúng của từ đầu tiên; “d” có nghĩa là kích thước của từ/mã thông báo nhúng. Trong ví dụ này d=5. Cuối cùng, “i” đề cập đến từng thứ nguyên trong số 5 thứ nguyên riêng lẻ của quá trình nhúng (tức là 0, 1,2,3,4)

nếu “i” thay đổi trong phương trình trên, bạn sẽ nhận được một loạt các đường cong với tần số thay đổi. Đọc các giá trị nhúng vị trí theo các tần số khác nhau, đưa ra các giá trị khác nhau ở các kích thước nhúng khác nhau cho P0 và P4.

Những Khái Niệm Bạn Nên Biết Trước Khi Làm Quen Với Máy Biến Áp
 

Với truy vấn, Q đại diện cho một từ vector, các phím K là tất cả các từ khác trong câu, và giá trị V đại diện cho vectơ của từ.

Mục đích của sự chú ý là tính toán mức độ quan trọng của thuật ngữ chính so với thuật ngữ truy vấn liên quan đến cùng một người/sự vật hoặc khái niệm.

Trong trường hợp của chúng ta, V bằng Q.

Cơ chế chú ý cho chúng ta tầm quan trọng của từ trong câu.

 

Những Khái Niệm Bạn Nên Biết Trước Khi Làm Quen Với Máy Biến Áp
 

Khi chúng tôi tính toán sản phẩm dấu chấm được chuẩn hóa giữa truy vấn và các khóa, chúng tôi nhận được một tenxơ biểu thị tầm quan trọng tương đối của từng từ khác đối với truy vấn.

 

Những Khái Niệm Bạn Nên Biết Trước Khi Làm Quen Với Máy Biến Áp
 

Khi tính toán tích vô hướng giữa Q và KT, chúng tôi cố gắng ước tính cách các vectơ (tức là các từ nằm giữa truy vấn và khóa) được căn chỉnh và trả về trọng số cho mỗi từ trong câu.

Sau đó, chúng tôi chuẩn hóa bình phương kết quả của d_k và Hàm softmax chuẩn hóa các thuật ngữ và thay đổi kích thước của chúng trong khoảng từ 0 đến 1.

Cuối cùng, chúng tôi nhân kết quả (tức là trọng số) với giá trị (tức là tất cả các từ) để giảm tầm quan trọng của các từ không liên quan và chỉ tập trung vào các từ quan trọng nhất.

Vectơ đầu ra chú ý nhiều đầu được thêm vào nhúng đầu vào vị trí ban đầu. Điều này được gọi là kết nối còn lại/bỏ qua kết nối. Đầu ra của kết nối còn lại trải qua quá trình chuẩn hóa lớp. Đầu ra còn lại được chuẩn hóa được truyền qua mạng chuyển tiếp nguồn cấp dữ liệu theo chiều kim đồng hồ để xử lý thêm.

 

Những Khái Niệm Bạn Nên Biết Trước Khi Làm Quen Với Máy Biến Áp

Mặt nạ là một ma trận có cùng kích thước với điểm chú ý được lấp đầy bằng các giá trị 0 và vô cực âm.

 

Những Khái Niệm Bạn Nên Biết Trước Khi Làm Quen Với Máy Biến Áp
 

Lý do của mặt nạ là một khi bạn lấy softmax của các điểm số được che dấu, các điểm vô cực âm sẽ bằng XNUMX, không để lại điểm số chú ý cho các mã thông báo trong tương lai.

Điều này yêu cầu người mẫu không tập trung vào những từ đó.

Mục đích của hàm softmax là lấy các số thực (dương và âm) và biến chúng thành số dương có tổng bằng 1.

 

Những Khái Niệm Bạn Nên Biết Trước Khi Làm Quen Với Máy Biến Áp

 
 
Ravikumar Naduvin đang bận xây dựng và tìm hiểu các tác vụ NLP bằng PyTorch.

 
Nguyên. Đăng lại với sự cho phép.
 

Dấu thời gian:

Thêm từ Xe đẩy