وہ تصورات جو آپ کو ٹرانسفارمرز میں داخل ہونے سے پہلے معلوم ہونے چاہئیں

وہ تصورات جو آپ کو ٹرانسفارمرز میں داخل ہونے سے پہلے معلوم ہونے چاہئیں

ماخذ نوڈ: 1894868

عصبی نیٹ ورک نمبرز کے ذریعے سیکھتے ہیں، اس لیے ہر لفظ کو کسی خاص لفظ کی نمائندگی کرنے کے لیے ویکٹر پر نقشہ بنایا جائے گا۔ سرایت کرنے والی پرت کو ایک تلاش کی میز کے طور پر سوچا جا سکتا ہے جو الفاظ کی سرایت کو ذخیرہ کرتا ہے اور انڈیکس کا استعمال کرتے ہوئے انہیں بازیافت کرتا ہے۔

 

ٹرانسفارمر میں جانے سے پہلے آپ کو معلوم ہونا چاہیے۔
 

وہ الفاظ جن کا ایک ہی مطلب ہے یوکلیڈین فاصلے/کوزائن مماثلت کے لحاظ سے قریب ہوں گے۔ مثال کے طور پر، ذیل میں لفظ کی نمائندگی میں، "ہفتہ"، اتوار"، اور" پیر" ایک ہی تصور سے وابستہ ہیں، لہذا ہم دیکھ سکتے ہیں کہ الفاظ ایک جیسے نکل رہے ہیں۔
 

ٹرانسفارمر میں جانے سے پہلے آپ کو معلوم ہونا چاہیے۔

لفظ کی پوزیشن کا تعین، ہمیں لفظ کی پوزیشن کا تعین کرنے کی ضرورت کیوں ہے؟ کیونکہ، ٹرانسفارمر انکوڈر میں ریکرنٹ نیورل نیٹ ورکس کی طرح کوئی ریکرنس نہیں ہے، ہمیں ان پٹ ایمبیڈنگز میں پوزیشنز کے بارے میں کچھ معلومات شامل کرنی چاہیے۔ یہ پوزیشنل انکوڈنگ کا استعمال کرتے ہوئے کیا جاتا ہے۔ کاغذ کے مصنفین نے لفظ کی پوزیشن کو ماڈل کرنے کے لیے درج ذیل افعال کا استعمال کیا۔

 

ٹرانسفارمر میں جانے سے پہلے آپ کو معلوم ہونا چاہیے۔
 

ہم پوزیشنل انکوڈنگ کی وضاحت کرنے کی کوشش کریں گے۔

 

ٹرانسفارمر میں جانے سے پہلے آپ کو معلوم ہونا چاہیے۔
 

یہاں "pos" سے مراد ترتیب میں "لفظ" کی پوزیشن ہے۔ P0 سے مراد پہلے لفظ کی پوزیشن ایمبیڈنگ ہے۔ "d" کا مطلب لفظ/ٹوکن ایمبیڈنگ کا سائز ہے۔ اس مثال میں d=5۔ آخر میں، "i" سے مراد سرایت کے 5 انفرادی جہتوں میں سے ہر ایک ہے (یعنی 0, 1,2,3,4)

اگر اوپر کی مساوات میں "i" مختلف ہے، تو آپ کو مختلف تعدد کے ساتھ منحنی خطوط کا ایک گروپ ملے گا۔ مختلف تعدد کے خلاف پوزیشن ایمبیڈنگ اقدار کو پڑھنا، P0 اور P4 کے لیے مختلف ایمبیڈنگ ڈائمینشنز پر مختلف ویلیوز دینا۔

ٹرانسفارمر میں جانے سے پہلے آپ کو معلوم ہونا چاہیے۔
 

اس میں سوال، Q ایک ویکٹر لفظ کی نمائندگی کرتا ہے، چابیاں K جملہ میں دوسرے تمام الفاظ ہیں، اور قدر V لفظ کے ویکٹر کی نمائندگی کرتا ہے۔

توجہ کا مقصد ایک ہی شخص/چیز یا تصور سے متعلق استفسار کی اصطلاح کے مقابلے کلیدی اصطلاح کی اہمیت کا حساب لگانا ہے۔

ہمارے معاملے میں، V برابر ہے Q کے۔

توجہ کا طریقہ کار ہمیں ایک جملے میں لفظ کی اہمیت دیتا ہے۔

 

ٹرانسفارمر میں جانے سے پہلے آپ کو معلوم ہونا چاہیے۔
 

جب ہم استفسار اور کلیدوں کے درمیان نارملائزڈ ڈاٹ پروڈکٹ کا حساب لگاتے ہیں تو ہمیں ایک ٹینسر ملتا ہے جو استفسار کے لیے ایک دوسرے کے لفظ کی نسبتی اہمیت کو ظاہر کرتا ہے۔

 

ٹرانسفارمر میں جانے سے پہلے آپ کو معلوم ہونا چاہیے۔
 

Q اور KT کے درمیان ڈاٹ پروڈکٹ کو کمپیوٹنگ کرتے وقت، ہم یہ اندازہ لگانے کی کوشش کرتے ہیں کہ ویکٹرز (یعنی استفسار اور کلیدوں کے درمیان الفاظ) کیسے سیدھے ہوئے ہیں اور جملے میں ہر لفظ کے لیے ایک وزن واپس کرتے ہیں۔

پھر، ہم d_k کے نتیجے کے مربع کو نارملائز کرتے ہیں اور softmax فنکشن شرائط کو ریگولرائز کرتا ہے اور انہیں 0 اور 1 کے درمیان ری اسکیل کرتا ہے۔

آخر میں، ہم نتیجہ (یعنی وزن) کو قدر (یعنی تمام الفاظ) سے ضرب دیتے ہیں تاکہ غیر متعلقہ الفاظ کی اہمیت کو کم کیا جا سکے اور صرف اہم ترین الفاظ پر توجہ مرکوز کی جا سکے۔

ملٹی ہیڈڈ توجہ آؤٹ پٹ ویکٹر کو اصل پوزیشنل ان پٹ ایمبیڈنگ میں شامل کیا جاتا ہے۔ اسے بقایا کنکشن/سکپ کنکشن کہا جاتا ہے۔ بقایا کنکشن کا آؤٹ پٹ پرت نارملائزیشن سے گزرتا ہے۔ نارمل شدہ بقایا پیداوار کو مزید پروسیسنگ کے لیے پوائنٹ وائز فیڈ فارورڈ نیٹ ورک کے ذریعے منتقل کیا جاتا ہے۔

 

ٹرانسفارمر میں جانے سے پہلے آپ کو معلوم ہونا چاہیے۔

ماسک ایک میٹرکس ہے جس کا سائز 0 اور منفی انفینٹیز کی قدروں سے بھرا ہوا توجہ کے اسکور جیسا ہے۔

 

ٹرانسفارمر میں جانے سے پہلے آپ کو معلوم ہونا چاہیے۔
 

ماسک کی وجہ یہ ہے کہ ایک بار جب آپ ماسکڈ اسکورز کا سافٹ میکس لیتے ہیں، تو منفی انفینٹیز صفر ہوجاتی ہیں، جس سے مستقبل کے ٹوکنز کے لیے توجہ کے اسکور صفر رہ جاتے ہیں۔

یہ ماڈل سے کہتا ہے کہ ان الفاظ پر کوئی توجہ نہ دیں۔

سافٹ میکس فنکشن کا مقصد حقیقی اعداد (مثبت اور منفی) کو پکڑنا اور انہیں مثبت اعداد میں تبدیل کرنا ہے جن کا مجموعہ 1 ہے۔

 

ٹرانسفارمر میں جانے سے پہلے آپ کو معلوم ہونا چاہیے۔

 
 
روی کمار ناڈوین PyTorch کا استعمال کرتے ہوئے NLP کاموں کو بنانے اور سمجھنے میں مصروف ہے۔

 
حقیقی. اجازت کے ساتھ دوبارہ پوسٹ کیا۔
 

ٹائم اسٹیمپ:

سے زیادہ KDnuggets