ट्रांसफॉर्मर में प्रवेश करने से पहले आपको जिन अवधारणाओं को जानना चाहिए

ट्रांसफॉर्मर में प्रवेश करने से पहले आपको जिन अवधारणाओं को जानना चाहिए

स्रोत नोड: 1894868

तंत्रिका नेटवर्क संख्याओं के माध्यम से सीखते हैं, इसलिए प्रत्येक शब्द को एक विशेष शब्द का प्रतिनिधित्व करने के लिए वैक्टर में मैप किया जाएगा। एम्बेडिंग परत को एक लुकअप टेबल के रूप में सोचा जा सकता है जो शब्द एम्बेडिंग को संग्रहीत करता है और सूचकांकों का उपयोग करके उन्हें पुनः प्राप्त करता है।

 

अवधारणाएँ जो आपको ट्रांसफार्मर में उतरने से पहले पता होनी चाहिए
 

जिन शब्दों का अर्थ समान है वे यूक्लिडियन दूरी/कोसाइन समानता के संदर्भ में करीब होंगे। उदाहरण के लिए, नीचे दिए गए शब्द प्रतिनिधित्व में, "शनिवार", "रविवार", और "सोमवार" एक ही अवधारणा से जुड़े हैं, इसलिए हम देख सकते हैं कि शब्दों का परिणाम समान है।
 

अवधारणाएँ जो आपको ट्रांसफार्मर में उतरने से पहले पता होनी चाहिए

शब्द की स्थिति का निर्धारण, हमें शब्द की स्थिति निर्धारित करने की आवश्यकता क्यों है? क्योंकि, ट्रांसफार्मर एनकोडर में आवर्ती तंत्रिका नेटवर्क की तरह कोई पुनरावृत्ति नहीं होती है, हमें इनपुट एम्बेडिंग में स्थिति के बारे में कुछ जानकारी जोड़नी होगी। यह स्थितीय एन्कोडिंग का उपयोग करके किया जाता है। पेपर के लेखकों ने किसी शब्द की स्थिति को मॉडल करने के लिए निम्नलिखित कार्यों का उपयोग किया।

 

अवधारणाएँ जो आपको ट्रांसफार्मर में उतरने से पहले पता होनी चाहिए
 

हम स्थितीय एन्कोडिंग को समझाने का प्रयास करेंगे।

 

अवधारणाएँ जो आपको ट्रांसफार्मर में उतरने से पहले पता होनी चाहिए
 

यहां "पॉज़" अनुक्रम में "शब्द" की स्थिति को संदर्भित करता है। P0 पहले शब्द की स्थिति एम्बेडिंग को संदर्भित करता है; "डी" का अर्थ शब्द/टोकन एम्बेडिंग का आकार है। इस उदाहरण में d=5. अंत में, "i" एम्बेडिंग के 5 अलग-अलग आयामों में से प्रत्येक को संदर्भित करता है (यानी 0, 1,2,3,4)

यदि उपरोक्त समीकरण में "i" भिन्न है, तो आपको अलग-अलग आवृत्तियों वाले वक्रों का एक समूह मिलेगा। विभिन्न आवृत्तियों के विरुद्ध स्थिति एम्बेडिंग मानों को पढ़ना, P0 और P4 के लिए अलग-अलग एम्बेडिंग आयामों पर अलग-अलग मान देना।

अवधारणाएँ जो आपको ट्रांसफार्मर में उतरने से पहले पता होनी चाहिए
 

इस में प्रश्न, प्र एक सदिश शब्द का प्रतिनिधित्व करता है, the चाबियाँ के वाक्य में अन्य सभी शब्द हैं, और मूल्य वी शब्द के वेक्टर का प्रतिनिधित्व करता है।

ध्यान का उद्देश्य एक ही व्यक्ति/वस्तु या अवधारणा से संबंधित क्वेरी शब्द की तुलना में मुख्य शब्द के महत्व की गणना करना है।

हमारे मामले में, V, Q के बराबर है।

ध्यान तंत्र हमें वाक्य में शब्द का महत्व बताता है।

 

अवधारणाएँ जो आपको ट्रांसफार्मर में उतरने से पहले पता होनी चाहिए
 

जब हम क्वेरी और कुंजियों के बीच सामान्यीकृत डॉट उत्पाद की गणना करते हैं, तो हमें एक टेंसर मिलता है जो क्वेरी के लिए एक दूसरे शब्द के सापेक्ष महत्व को दर्शाता है।

 

अवधारणाएँ जो आपको ट्रांसफार्मर में उतरने से पहले पता होनी चाहिए
 

Q और K.T के बीच डॉट उत्पाद की गणना करते समय, हम यह अनुमान लगाने का प्रयास करते हैं कि वेक्टर (अर्थात् क्वेरी और कुंजियों के बीच के शब्द) कैसे संरेखित होते हैं और वाक्य में प्रत्येक शब्द के लिए एक भार लौटाते हैं।

फिर, हम d_k के परिणाम वर्ग को सामान्यीकृत करते हैं और सॉफ्टमैक्स फ़ंक्शन शर्तों को नियमित करता है और उन्हें 0 और 1 के बीच पुनः स्केल करता है।

अंत में, हम गैर-प्रासंगिक शब्दों के महत्व को कम करने और केवल सबसे महत्वपूर्ण शब्दों पर ध्यान केंद्रित करने के लिए परिणाम (यानी वजन) को मूल्य (यानी सभी शब्दों) से गुणा करते हैं।

मल्टी-हेडेड अटेंशन आउटपुट वेक्टर को मूल स्थितीय इनपुट एम्बेडिंग में जोड़ा जाता है। इसे अवशिष्ट कनेक्शन/स्किप कनेक्शन कहा जाता है। अवशिष्ट कनेक्शन का आउटपुट परत सामान्यीकरण के माध्यम से जाता है। सामान्यीकृत अवशिष्ट आउटपुट को आगे की प्रक्रिया के लिए बिंदुवार फ़ीड-फ़ॉरवर्ड नेटवर्क के माध्यम से पारित किया जाता है।

 

अवधारणाएँ जो आपको ट्रांसफार्मर में उतरने से पहले पता होनी चाहिए

मास्क एक मैट्रिक्स है जिसका आकार ध्यान स्कोर के समान होता है जो 0 और नकारात्मक अनंत के मान से भरा होता है।

 

अवधारणाएँ जो आपको ट्रांसफार्मर में उतरने से पहले पता होनी चाहिए
 

मास्क का कारण यह है कि एक बार जब आप मास्क्ड स्कोर का सॉफ्टमैक्स लेते हैं, तो नकारात्मक अनन्तता शून्य हो जाती है, जिससे भविष्य के टोकन के लिए शून्य ध्यान स्कोर रह जाता है।

यह मॉडल को उन शब्दों पर कोई ध्यान केंद्रित नहीं करने के लिए कहता है।

सॉफ्टमैक्स फ़ंक्शन का उद्देश्य वास्तविक संख्याओं (सकारात्मक और नकारात्मक) को पकड़ना और उन्हें सकारात्मक संख्याओं में बदलना है जिनका योग 1 होता है।

 

अवधारणाएँ जो आपको ट्रांसफार्मर में उतरने से पहले पता होनी चाहिए

 
 
रविकुमार नाडुविन PyTorch का उपयोग करके NLP कार्यों को बनाने और समझने में व्यस्त है।

 
मूल। अनुमति के साथ पुनर्प्रकाशित।
 

समय टिकट:

से अधिक केडनगेट्स

अग्रणी प्रयोग विशेषज्ञ रॉनी कोहावी (पूर्व-अमेज़ॅन, एयरबीएनबी, माइक्रोसॉफ्ट) से भरोसेमंद A/B परीक्षणों को डिज़ाइन, मापना और कार्यान्वित करना सीखें।

स्रोत नोड: 1927772
समय टिकट: जनवरी 24, 2023

डेटा साइंस, डेटा इंजीनियरिंग, मशीन लर्निंग, एमएलओपीएस और जेनरेटिव एआई में महारत हासिल करने के लिए 25 निःशुल्क पाठ्यक्रम - केडीनगेट्स

स्रोत नोड: 2416182
समय टिकट: दिसम्बर 27, 2023