در مورد ترانسفورماتور، TimeSformers، و توجه

بازنشر افلاطون

دنبال: 0

ترانسفورماتورها و توجه

ترانسفورماتورها یک مدل یادگیری عمیق بسیار قدرتمند هستند که توانسته اند در بسیاری از وظایف پردازش زبان طبیعی به یک استاندارد تبدیل شوند و در حوزه بینایی کامپیوتر نیز انقلابی ایجاد کنند.

همه چیز در سال 2017 زمانی آغاز شد که Google Brain مقاله ای را منتشر کرد که قرار بود همه چیز را تغییر دهد، توجه همه آن چیزی است که شما نیاز دارید [4]. محققان این معماری جدید را برای چندین مشکل پردازش زبان طبیعی به کار می‌برند، و بلافاصله مشخص می‌شود که تا چه حد می‌تواند بر برخی از محدودیت‌هایی که RNN‌ها را که به طور سنتی برای کارهایی مانند ترجمه از یک زبان به زبان دیگر استفاده می‌شوند، رنج می‌برد، غلبه کند.

اگر این محتوای آموزشی عمیق برای شما مفید است، در لیست پستی تحقیقات هوش مصنوعی ما مشترک شوید زمانی که مطالب جدید را منتشر می کنیم هشدار داده شود.

با گذشت سالها، Transformers به یک موسسه در زمینه پردازش زبان طبیعی تبدیل شده است و Google Brain در سال 2020 می پرسد که آیا آنها به همان اندازه روی تصاویر موثر خواهند بود؟ پاسخ این است که بله، Vision Transformers متولد شده اند و با تغییرات اولیه در تصاویر، موفق به بهره برداری از معماری کلاسیک ترانسفورماتورها می شوند و به زودی در بسیاری از مشکلات در این زمینه نیز به سطح هنر می رسند.

هیجان فوق العاده است و پس از چند ماه، در ابتدای سال 2021، محققان فیس بوک این بار نسخه جدیدی از Transformers را منتشر کردند، البته به طور خاص برای ویدیو، TimeSformers. بدیهی است، حتی در این مورد، با برخی تغییرات ساختاری جزئی، این معماری به زودی در ویدیو برنده می شود و فیس بوک در فوریه 2021 اعلام می کند که از آن با ویدیوهای شبکه اجتماعی خود برای ایجاد مدل های جدید برای اهداف مختلف استفاده می کند.

چرا به ترانسفورماتور نیاز داریم؟

اما بیایید یک قدم به عقب برگردیم و انگیزه هایی را که محققان گوگل را به جستجوی یک معماری جایگزین جدید برای حل وظایف پردازش زبان طبیعی سوق داد، بررسی کنیم.

به طور سنتی، کاری مانند ترجمه با استفاده از شبکه‌های عصبی بازگشتی انجام می‌شد که به مشکلات متعددی معروف هستند. یکی از مشکلات اصلی، عملکرد متوالی آن است. به عنوان مثال، برای ترجمه یک جمله از انگلیسی به ایتالیایی، با این نوع شبکه ها، اولین کلمه جمله ای که باید ترجمه شود به همراه یک حالت اولیه به یک رمزگذار منتقل می شود و حالت بعدی سپس به رمزگذار دوم با کلمه دوم جمله و همینطور تا آخرین کلمه. سپس حالت حاصل از آخرین رمزگذار به رمزگشا منتقل می شود که هم اولین کلمه ترجمه شده و هم حالت بعدی را به عنوان خروجی برمی گرداند که به رمزگشای دیگر و غیره ارسال می شود.

مشکل اینجا کاملا واضح است، برای تکمیل مرحله بعدی باید نتیجه مرحله قبل را داشته باشم. این یک نقص بزرگ است زیرا شما از قابلیت موازی سازی پردازنده های گرافیکی مدرن استفاده نمی کنید و در نتیجه از نظر عملکرد ضرر می کنید. همچنین مشکلات دیگری مانند انفجار گرادیان، عدم توانایی در تشخیص وابستگی بین کلمات دور در یک جمله و غیره وجود دارد.

توجه تنها چیزی است که نیاز دارید؟

سپس این سوال مطرح شد که آیا مکانیزمی وجود دارد که بتوانیم آن را به صورت موازی محاسبه کنیم که به ما امکان می دهد اطلاعات مورد نیاز خود را از جمله استخراج کنیم؟ پاسخ مثبت است و آن مکانیسم توجه است.

اگر بخواهیم توجه را تعریف کنیم و برای لحظه ای جنبه های فنی و اجرایی را فراموش کنیم، چگونه این کار را انجام می دهیم؟

بیایید یک جمله مثال بزنیم و از خود بپرسیم، با تمرکز بر کلمه "داده"، برای افزودن معنی به این کلمه باید به چه کلمات دیگری در جمله توجه کنم؟ ممکنه یه سری سوال از خودم بپرسم مثلا کی داده؟ و در این مورد، من روی کلمه "من" تمرکز می کنم و سپس ممکن است بپرسم به چه کسی داده است؟ توجه من در این مورد به کلمه چارلی و در نهایت ممکن است بپرسم چه چیزی داده است؟ در نهایت بر روی کلمه غذا تمرکز می کنیم.

با پرسیدن این سوالات از خودم و شاید انجام این کار برای هر یک از کلمات جمله، شاید بتوانم معنی و جنبه های آن را درک کنم. مشکل در این مرحله این است که چگونه این مفهوم را در عمل پیاده کنم؟

برای درک محاسبات توجه، می‌توان موارد مشابهی را با دنیای پایگاه‌های داده ترسیم کرد. هنگامی که ما جستجویی را در پایگاه داده انجام می دهیم یک پرس و جو ارسال می کنیم (Q) و در میان داده های موجود یک یا چند کلید را جستجو می کنیم که پرس و جو را برآورده کند. خروجی مقدار مرتبط با کلید مربوط به پرس و جو است.

آنچه در مورد محاسبه توجه اتفاق می افتد بسیار مشابه است.

ما با نگاه کردن به جمله ای که توجه را به عنوان مجموعه ای از بردارها محاسبه می کنیم، شروع می کنیم. هر کلمه، از طریق مکانیزم جاسازی کلمه، در یک بردار کدگذاری می شود. ما این بردارها را به‌عنوان کلیدهایی برای جستجو در میان، با توجه به پرسشی که در جستجوی آن هستیم، در نظر می‌گیریم که می‌تواند کلمه‌ای از همان جمله (توجه به خود) یا از جمله دیگری باشد. در این مرحله، باید شباهت بین پرس و جو و هر یک از کلیدهای موجود را به صورت ریاضی از طریق حاصل ضرب نقطه مقیاس شده محاسبه کنیم. این فرآیند یک سری مقادیر واقعی را برمی گرداند، شاید با یکدیگر بسیار متفاوت باشند، اما از آنجایی که می خواهیم وزن هایی بین 0 و 1 بدست آوریم که مجموع آنها برابر با 1 است، یک SoftMax را به نتایج اعمال می کنیم. پس از به دست آوردن وزن ها، باید وزن هر کلمه و بنابراین ارتباط آن با پرس و جو را در بردار نشان دهنده آن ضرب کنیم. در نهایت ترکیب این محصولات را به عنوان بردار توجه برمی گردانیم.

برای ساختن این مکانیسم از لایه های خطی استفاده می کنیم که با شروع از بردار ورودی، کلیدها، پرس و جوها و مقادیر را با ضرب ماتریس تولید می کنند. ترکیب کلیدها و پرس و جوها امکان به دست آوردن صحیح ترین تطابق بین این دو مجموعه را فراهم می کند، که سپس نتیجه آن با مقادیر ترکیب می شود تا مرتبط ترین ترکیب را به دست آورد.

اما اگر بخواهیم بر روی یک کلمه تمرکز کنیم، این مکانیسم کافی خواهد بود، اما اگر بخواهیم از چند دیدگاه به جمله نگاه کنیم و سپس چندین بار به موازات آن توجه را محاسبه کنیم، چه؟ ما از به اصطلاح توجه چند سر استفاده می کنیم، با ساختاری مشابه که نتایج آن به سادگی در انتها ترکیب می شوند تا یک بردار خلاصه کننده تمام توجه محاسبه شده را برگردانند.

اکنون که فهمیدیم از کدام مکانیسم استفاده کنیم و از موازی بودن آن مطمئن شدیم، بیایید ساختاری را که توجه چند سر در آن تعبیه شده و ترانسفورماتور را تشکیل می دهد، تجزیه و تحلیل کنیم.

با در نظر گرفتن همیشه یک کار ترجمه، اجازه دهید ابتدا روی قسمت سمت چپ تصویر تمرکز کنیم، قسمت رمزگذاری، که کل جمله را به عنوان ورودی از انگلیسی به ایتالیایی ترجمه می کند. در حال حاضر در اینجا می بینیم که انقلاب عظیمی در مقایسه با رویکرد RNN وجود دارد زیرا به جای پردازش کلمه به کلمه جمله، به طور کامل ارائه می شود. قبل از انجام محاسبات توجه، بردارهایی که کلمات را نشان می‌دهند با مکانیزم رمزگذاری موقعیتی، بر اساس سینوس و کسینوس ترکیب می‌شوند که اطلاعاتی درباره موقعیت کلمات در جمله در بردارها تعبیه می‌کند. این بسیار مهم است زیرا می دانیم که در هر زبانی جایگاه کلمات در جمله بیش از حد مرتبط است و اگر بخواهیم ارزیابی درستی انجام دهیم نمی توانیم مطلقاً از دست بدهیم. تمام این اطلاعات به یک مکانیسم توجه چند سر منتقل می شود که نتیجه آن عادی شده و به یک فید فوروارد منتقل می شود. رمزگذاری را می توان N بار انجام داد تا اطلاعات معنی داری بیشتری به دست آورد.

اما جمله ای که باید ترجمه شود تنها ورودی ترانسفورماتور نیست، ما یک بلوک دوم داریم، رمزگشا که خروجی اجرای قبلی ترانسفورماتور را می گیرد. اگر فرض کنیم که مثلاً دو کلمه اول را قبلا ترجمه کرده ایم و می خواهیم کلمه سوم جمله را به زبان ایتالیایی پیش بینی کنیم، دو کلمه ترجمه شده اول را در رمزگشا پاس می کنیم. رمزگذاری موقعیتی و توجه چند سر روی این کلمات انجام می شود و نتیجه با نتیجه رمزگذار ترکیب می شود. توجه مجدد روی ترکیب محاسبه می شود و نتیجه، با استفاده از یک لایه خطی و یک Softmax، بردار کلمات کاندید بالقوه برای تبدیل شدن به کلمه جدید ترجمه شده با احتمال مرتبط با هر یک از آنها خواهد بود. در تکرار بعدی، رمزگشا علاوه بر کلمات قبلی، این کلمه را نیز وارد می کند.

بنابراین ثابت شده است که این ساختار فوق العاده مؤثر و کارآمد است، زیرا جمله را به طور کامل پردازش می کند و نه کلمه به کلمه، اطلاعاتی را در مورد موقعیت کلمات در جمله حفظ می کند و از توجه استفاده می کند که مکانیزمی است که می تواند به طور مؤثر بیان کند. محتوای جمله

بعد از این همه توضیح خوب ممکن است فکر کنید که ترانسفورماتورها بی نقص و بدون هیچ گونه نقصی هستند. معلومه که اینطور نیست و یکی از نقاط قوتش هم ضعفش هست، محاسبه توجه!

برای محاسبه توجه هر کلمه با توجه به بقیه، باید محاسبات N² را انجام دهم که حتی اگر تا حدی قابل موازی سازی باشد، باز هم بسیار گران هستند. با چنین پیچیدگی، بیایید تصور کنیم که محاسبه توجه، بارها، روی پاراگراف صدها و صدها کلمه به چه معناست.

از نظر گرافیکی می توانید ماتریسی را تصور کنید که باید با مقادیر توجه هر کلمه در مقایسه با هر کلمه دیگر پر شود و این به وضوح هزینه مربوطه را دارد. ذکر این نکته ضروری است که به صورت اختیاری و معمولاً روی رمزگشا، امکان محاسبه توجه پنهان شده وجود دارد که در آن از محاسبه توجه بین کلمه پرس و جو و تمام موارد بعدی اجتناب می کنید.

ممکن است برخی استدلال کنند، اما اگر بسیاری از مزایای ترانسفورماتورها به مکانیسم توجه مربوط می شود، آیا ما واقعاً به تمام ساختاری که در بالا مشاهده شد نیاز داریم؟ اما آیا اولین مقاله Google Brain در سال 2017 نمی گوید "توجه تنها چیزی است که شما نیاز دارید"؟ [4] مطمئناً مشروع است، اما در مارس 2021، مجدداً محققان Google مقاله‌ای با عنوان «توجه تمام چیزی نیست که نیاز دارید» منتشر کردند [6]. معنی آن چیست؟ محققان آزمایش‌هایی را برای تجزیه و تحلیل رفتار مکانیسم توجه به خود انجام دادند که بدون هیچ یک از اجزای دیگر ترانسفورماتورها انجام شد و دریافتند که این مکانیسم به ماتریس رتبه 1 با نرخ نمایی دو برابر همگرا می‌شود. این بدان معناست که این مکانیسم به خودی خود عملاً بی فایده است. پس چرا ترانسفورماتورها اینقدر قدرتمند هستند؟ این به دلیل کشمکش بین مکانیزم توجه به خود است که تمایل به کاهش رتبه ماتریس و دو جزء دیگر ترانسفورماتورها، اتصالات پرش و MLP دارد.

اولی اجازه می دهد تا توزیع مسیرها را با اجتناب از به دست آوردن همه مسیرهای یکسان متنوع کنید و این احتمال کاهش ماتریس به رتبه 1 را به شدت کاهش می دهد. MLP در عوض می تواند رتبه ماتریس حاصل را به دلیل غیر خطی بودن آن افزایش دهد. در مقابل، نشان داده شده است که عادی سازی هیچ نقشی در اجتناب از این رفتار مکانیسم توجه به خود ایفا نمی کند. بنابراین، توجه تنها چیزی نیست که شما نیاز دارید، اما معماری ترانسفورماتور موفق می شود از آن به نفع خود برای دستیابی به نتایج چشمگیر استفاده کند.

ترانسفورماتورهای بینایی

با رسیدن به این نقطه در سال 2020، دوباره محققان گوگل متعجب شدند، "اما اگر ترانسفورماتورها در زمینه پردازش زبان طبیعی تا این حد موثر هستند، چگونه با تصاویر کار می کنند؟" کمی مانند آن که با NLP انجام شد، از مفهوم توجه شروع می کنیم اما این بار روی تصاویر اعمال می شود. بیایید سعی کنیم آن را از طریق یک مثال درک کنیم.

تصویر از «یک تصویر ارزش 16×16 کلمه دارد» (Dosovitskiy et al)

اگر عکس سگی را در نظر بگیریم که در مقابل دیوار ایستاده است، هر کدام از ما می گوییم که این یک «تصویر سگ» است نه «تصویر دیوار»، این به این دلیل است که ما تمرکز خود را بر روی موضوع غالب و متمایز کننده تصویر و این دقیقاً همان کاری است که مکانیسم توجه اعمال شده به تصاویر انجام می دهد.

اکنون که فهمیدیم مفهوم توجه را می توان به تصاویر نیز تعمیم داد، فقط باید راهی برای وارد کردن تصاویر به یک ترانسفورماتور کلاسیک پیدا کنیم.

می دانیم که ترانسفورماتور بردارهای ورودی کلمات را می گیرد، پس چگونه می توانیم یک تصویر را به بردار تبدیل کنیم؟ مطمئنا اولین راه حل استفاده از تمام پیکسل های تصویر و قرار دادن آنها به صورت "داخلی" برای به دست آوردن یک برداری است. اما بیایید یک لحظه بایستیم و ببینیم اگر این گزینه را انتخاب کنیم چه اتفاقی می افتد.

قبلاً گفتیم که محاسبه توجه دارای پیچیدگی برابر با O(N²) است، به این معنی که اگر بخواهیم پیچیدگی هر پیکسل را نسبت به بقیه محاسبه کنیم، در یک تصویر با وضوح پایین مانند 256×256 پیکسل خواهیم داشت. محاسبات بسیار زیاد و کاملاً غیرقابل حل با منابع امروزی. بنابراین این رویکرد قطعا قابل اجرا نیست.

راه حل بسیار ساده است و در مقاله "یک تصویر ارزش 16×16 کلمه دارد" [2] پیشنهاد شده است که تصویر را به تکه‌هایی تقسیم کرده و سپس با استفاده از یک طرح خطی که تکه‌ها را در یک بردار ترسیم می‌کند، هر وصله را به یک بردار تبدیل کنید. فضا.

حالا فقط باید برویم و معماری Vision Transformer را ببینیم.

سپس تصویر به تکه‌هایی تقسیم می‌شود که از یک طرح خطی عبور می‌کنند تا بردارهایی را به‌دست آورند، که با اطلاعاتی در مورد موقعیت وصله درون تصویر همراه شده و به یک ترانسفورماتور کلاسیک ارسال می‌شود. افزودن اطلاعات در مورد موقعیت اصلی وصله در داخل تصویر اساسی است زیرا در طول طرح ریزی خطی این اطلاعات از بین می رود حتی اگر درک کامل محتوای تصویر بسیار مهم باشد. بردار دیگری درج شده است که مستقل از تصویر مورد تجزیه و تحلیل است و برای به دست آوردن اطلاعات کلی در مورد کل تصویر استفاده می شود و در واقع خروجی مربوط به این وصله تنها موردی است که در نظر گرفته شده و به یک MLP ارسال می شود که باز خواهد گشت. کلاس پیش بینی شده

با این حال، نقطه ای در این فرآیند وجود دارد که در آن اطلاعات بسیار قابل توجهی از دست می رود. در واقع در انتقال از Patch به Vector، هر نوع اطلاعاتی در مورد موقعیت پیکسل ها در پچ از بین می رود. نویسندگان Transformer in Transformer (TnT) [3] به این نکته اشاره می کنند که مطمئناً این یک چیز جدی است زیرا چینش پیکسل ها در بخشی از تصویر مورد تجزیه و تحلیل اطلاعات خاصی است که ما نمی خواهیم برای ایجاد کیفیت از دست بدهیم. پیش بینی.

سپس نویسندگان TnT از خود پرسیدند، آیا می توان راه بهتری برای ارسال بردارها به ترانسفورماتور پیدا کرد؟
سپس پیشنهاد آنها این است که هر پچ (pxp) از تصویر را که خود تصاویری در 3 کانال RGB هستند، گرفته و آن را به یک تانسور C-channel تبدیل کنند. سپس این تانسور به قسمت های p با p' تقسیم می شود.

سپس آنها را به هم متصل کرده و به صورت خطی پیش بینی می کنند تا به اندازه بردار به دست آمده از طرح خطی پچ اصلی و ترکیب با آن شوند.

با انجام این کار، بردارهای ورودی به ترانسفورماتور نیز تحت تأثیر آرایش پیکسل ها در وصله ها قرار می گیرند و با انجام این کار، نویسندگان موفق به بهبود عملکرد در وظایف مختلف بینایی رایانه شده اند.

TimeSformers

با توجه به موفقیت های بزرگ ترانسفورماتورها ابتدا در NLP و سپس در کاربرد آنها در تصاویر، در سال 2021 محققان فیس بوک سعی کردند این معماری را در ویدیو نیز اعمال کنند.

به طور شهودی، واضح است که انجام این کار امکان پذیر است زیرا همه ما می دانیم که یک ویدیو چیزی بیش از مجموعه ای از فریم ها پشت سر هم نیست و فریم ها چیزی بیش از تصاویر نیستند.

تنها یک جزئیات کوچک وجود دارد که آنها را از Vision Transformers متمایز می کند، شما باید نه تنها فضا بلکه زمان را نیز در نظر بگیرید. در این مورد، در واقع، وقتی می‌خواهیم توجه را محاسبه کنیم، نمی‌توانیم به قاب‌ها به‌عنوان تصاویر مجزا نگاه کنیم، بلکه باید نوعی از توجه را پیدا کنیم که تغییراتی را که بین فریم‌های متوالی رخ می‌دهد، در نظر بگیرد، زیرا در ارزیابی از اهمیت زیادی برخوردار است. یک ویدیو

برای تلاش برای حل این مشکل، نویسندگان چندین مکانیسم توجه جدید را پیشنهاد کرده‌اند، از مکانیسم‌هایی که منحصراً بر فضا تمرکز می‌کنند، که عمدتاً به عنوان نقطه مرجع استفاده می‌شوند، تا مکانیسم‌هایی که توجه را به صورت محوری، پراکنده یا مشترک بین فضا و زمان محاسبه می‌کنند.

با این حال، روشی که بهترین نتایج را به دست آورده است، توجه فضا-زمان تقسیم شده است. این شامل یک قاب در لحظه t و یکی از وصله های آن به عنوان پرس و جو می شود تا توجه مکانی را در کل فریم و سپس توجه زمانی را در همان پچ پرس و جو اما در فریم قبلی و بعدی محاسبه کند.

اما چرا این رویکرد اینقدر خوب عمل می کند؟ دلیل آن این است که ویژگی‌های مجزای بیشتری نسبت به روش‌های دیگر می‌آموزد و بنابراین بهتر می‌تواند ویدیوهای دسته‌های مختلف را درک کند. ما می توانیم این را در تجسم زیر مشاهده کنیم که در آن هر ویدیو با یک نقطه در فضا نشان داده می شود و رنگ آن نشان دهنده دسته ای است که به آن تعلق دارد.

نویسندگان همچنین ارتباط وضوح فیلم ها و تعداد فریم های موجود در آنها را زیر سوال بردند و دریافتند که هرچه وضوح بالاتر باشد دقت مدل تا حدی بهتر است. در مورد تعداد فریم ها، باز هم با افزایش تعداد فریم ها، دقت نیز افزایش می یابد. نکته جالب این است که نمی‌توان تست‌هایی با تعداد فریم‌های بالاتر از آنچه در نمودار نشان داده شده است انجام داد و بنابراین به طور بالقوه دقت همچنان می‌تواند بهبود یابد، ما هنوز حد بالایی این بهبود را پیدا نکرده‌ایم.

در Vision Transformers مشخص است که مجموعه داده های آموزشی بزرگتر اغلب منجر به دقت بهتر می شود. این نیز توسط نویسندگان در TimeSformers بررسی شد و دوباره، با افزایش تعداد ویدیوهای آموزشی در نظر گرفته شده، دقت نیز افزایش می یابد.

نتیجه گیری

حالا چه کاری باقی مانده است؟ ترانسفورماتورها به تازگی وارد دنیای بینایی کامپیوتر شده اند و به نظر می رسد بیش از حد مصمم هستند که جایگزین شبکه های کانولوشن سنتی شوند یا حداقل نقش مهمی را برای خود در این زمینه ایفا کنند. بنابراین جامعه علمی برای تلاش برای بهبود بیشتر ترانسفورماتورها، ترکیب آنها با تکنیک های مختلف و استفاده از آنها در مشکلات واقعی، در آشفتگی است و در نهایت قادر به انجام کارهایی است که تا همین اواخر امکان پذیر نبود. غول‌های بزرگی مانند فیس‌بوک و گوگل فعالانه در حال کار برای توسعه و استفاده از Transformers هستند و ما احتمالاً هنوز سطح آن را خراشیده‌ایم.

مقاله را دوست داشتید؟ به من در لینکدین بپیوندید! و اگر به ترانسفورماتور علاقه مند هستید مقاله من در مورد DINO را بخوانید!