مفاهیمی که قبل از ورود به ترانسفورماتورها باید بدانید

مفاهیمی که قبل از ورود به ترانسفورماتورها باید بدانید

گره منبع: 1894868

شبکه های عصبی از طریق اعداد یاد می گیرند، بنابراین هر کلمه به بردارها نگاشت می شود تا یک کلمه خاص را نشان دهد. لایه embedding را می توان به عنوان یک جدول جستجو در نظر گرفت که جاسازی های کلمه را ذخیره می کند و آنها را با استفاده از شاخص ها بازیابی می کند.

 

مفاهیمی که باید قبل از ورود به Transformer بدانید
 

کلماتی که معنی یکسانی دارند از نظر فاصله اقلیدینی/ شباهت کسینوس نزدیک خواهند بود. برای مثال، در نمایش کلمه زیر، "شنبه"، "یکشنبه" و "دوشنبه" با یک مفهوم مرتبط است، بنابراین می‌توانیم ببینیم که کلمات مشابه هستند.
 

مفاهیمی که باید قبل از ورود به Transformer بدانید

تعیین جایگاه کلمه، چرا باید جایگاه کلمه را تعیین کنیم؟ از آنجایی که رمزگذار ترانسفورماتور مانند شبکه های عصبی بازگشتی تکراری ندارد، باید اطلاعاتی در مورد موقعیت ها به جاسازی های ورودی اضافه کنیم. این کار با استفاده از رمزگذاری موقعیتی انجام می شود. نویسندگان مقاله از توابع زیر برای مدلسازی موقعیت یک کلمه استفاده کردند.

 

مفاهیمی که باید قبل از ورود به Transformer بدانید
 

ما سعی خواهیم کرد رمزگذاری موقعیتی را توضیح دهیم.

 

مفاهیمی که باید قبل از ورود به Transformer بدانید
 

در اینجا "pos" به موقعیت "کلمه" در دنباله اشاره دارد. P0 به جاسازی موقعیت کلمه اول اشاره دارد. "d" به معنای اندازه کلمه / نشانه است. در این مثال d=5. در نهایت، "i" به هر یک از 5 بعد جداگانه تعبیه (یعنی 0، 1,2,3,4،XNUMX،XNUMX،XNUMX) اشاره دارد.

اگر "i" در معادله بالا متفاوت باشد، دسته ای از منحنی ها با فرکانس های متفاوت دریافت خواهید کرد. خواندن مقادیر جاسازی موقعیت در برابر فرکانس های مختلف، دادن مقادیر مختلف در ابعاد مختلف جاسازی برای P0 و P4.

مفاهیمی که باید قبل از ورود به Transformer بدانید
 

در این پرس و جو، س نشان دهنده یک کلمه برداری است کلیدهای K همه کلمات دیگر در جمله هستند، و ارزش V نشان دهنده بردار کلمه است.

هدف از توجه، محاسبه اهمیت عبارت کلیدی در مقایسه با عبارت پرس و جو مربوط به همان شخص/شیء یا مفهوم است.

در مورد ما V برابر است با Q.

مکانیسم توجه اهمیت کلمه را در یک جمله به ما می دهد.

 

مفاهیمی که باید قبل از ورود به Transformer بدانید
 

هنگامی که حاصل ضرب نقطه نرمال شده را بین پرس و جو و کلیدها محاسبه می کنیم، یک تانسور به دست می آوریم که نشان دهنده اهمیت نسبی یک کلمه دیگر برای پرس و جو است.

 

مفاهیمی که باید قبل از ورود به Transformer بدانید
 

هنگام محاسبه حاصل ضرب نقطه ای بین Q و KT، ما سعی می کنیم نحوه تراز شدن بردارها (یعنی کلمات بین پرس و جو و کلیدها) را تخمین بزنیم و برای هر کلمه در جمله وزنی برمی گردانیم.

سپس، نتیجه مجذور d_k را نرمال می کنیم و تابع softmax عبارت ها را منظم می کند و آنها را بین 0 و 1 تغییر مقیاس می دهد.

در نهایت، ما نتیجه (یعنی وزن ها) را در مقدار (یعنی همه کلمات) ضرب می کنیم تا از اهمیت کلمات غیر مرتبط کاسته شود و فقط روی مهم ترین کلمات تمرکز کنیم.

بردار خروجی توجه چند سر به تعبیه ورودی موقعیتی اصلی اضافه شده است. این یک اتصال باقیمانده / اتصال پرش نامیده می شود. خروجی اتصال باقیمانده از طریق نرمال سازی لایه می رود. خروجی باقیمانده نرمال شده برای پردازش بیشتر از طریق یک شبکه پیش‌خور نقطه‌ای منتقل می‌شود.

 

مفاهیمی که باید قبل از ورود به Transformer بدانید

ماسک ماتریسی است که به اندازه امتیازهای توجه پر شده با مقادیر 0 و بی نهایت منفی است.

 

مفاهیمی که باید قبل از ورود به Transformer بدانید
 

دلیل این ماسک این است که وقتی softmax امتیازهای ماسک‌شده را بگیرید، بی‌نهایت‌های منفی صفر می‌شوند و امتیاز توجه صفر برای توکن‌های آینده باقی می‌ماند.

این به مدل می گوید که روی آن کلمات تمرکزی نداشته باشد.

هدف از تابع softmax گرفتن اعداد واقعی (مثبت و منفی) و تبدیل آنها به اعداد مثبت است که مجموع آنها 1 است.

 

مفاهیمی که باید قبل از ورود به Transformer بدانید

 
 
راویکومار نادوین در ساخت و درک وظایف NLP با استفاده از PyTorch مشغول است.

 
اصلی. مجدداً با اجازه دوباره ارسال شد.
 

تمبر زمان:

بیشتر از kdnuggets