ترانسفورماتورها یک مدل یادگیری عمیق بسیار قدرتمند هستند که توانسته اند در بسیاری از وظایف پردازش زبان طبیعی به یک استاندارد تبدیل شوند و در حوزه بینایی کامپیوتر نیز انقلابی ایجاد کنند.
همه چیز در سال 2017 زمانی آغاز شد که Google Brain مقاله ای را منتشر کرد که قرار بود همه چیز را تغییر دهد، توجه همه آن چیزی است که شما نیاز دارید [4]. محققان این معماری جدید را برای چندین مشکل پردازش زبان طبیعی به کار میبرند، و بلافاصله مشخص میشود که تا چه حد میتواند بر برخی از محدودیتهایی که RNNها را که به طور سنتی برای کارهایی مانند ترجمه از یک زبان به زبان دیگر استفاده میشوند، رنج میبرد، غلبه کند.
اگر این محتوای آموزشی عمیق برای شما مفید است، در لیست پستی تحقیقات هوش مصنوعی ما مشترک شوید زمانی که مطالب جدید را منتشر می کنیم هشدار داده شود.
با گذشت سالها، Transformers به یک موسسه در زمینه پردازش زبان طبیعی تبدیل شده است و Google Brain در سال 2020 می پرسد که آیا آنها به همان اندازه روی تصاویر موثر خواهند بود؟ پاسخ این است که بله، Vision Transformers متولد شده اند و با تغییرات اولیه در تصاویر، موفق به بهره برداری از معماری کلاسیک ترانسفورماتورها می شوند و به زودی در بسیاری از مشکلات در این زمینه نیز به سطح هنر می رسند.
هیجان فوق العاده است و پس از چند ماه، در ابتدای سال 2021، محققان فیس بوک این بار نسخه جدیدی از Transformers را منتشر کردند، البته به طور خاص برای ویدیو، TimeSformers. بدیهی است، حتی در این مورد، با برخی تغییرات ساختاری جزئی، این معماری به زودی در ویدیو برنده می شود و فیس بوک در فوریه 2021 اعلام می کند که از آن با ویدیوهای شبکه اجتماعی خود برای ایجاد مدل های جدید برای اهداف مختلف استفاده می کند.
چرا به ترانسفورماتور نیاز داریم؟
اما بیایید یک قدم به عقب برگردیم و انگیزه هایی را که محققان گوگل را به جستجوی یک معماری جایگزین جدید برای حل وظایف پردازش زبان طبیعی سوق داد، بررسی کنیم.
به طور سنتی، کاری مانند ترجمه با استفاده از شبکههای عصبی بازگشتی انجام میشد که به مشکلات متعددی معروف هستند. یکی از مشکلات اصلی، عملکرد متوالی آن است. به عنوان مثال، برای ترجمه یک جمله از انگلیسی به ایتالیایی، با این نوع شبکه ها، اولین کلمه جمله ای که باید ترجمه شود به همراه یک حالت اولیه به یک رمزگذار منتقل می شود و حالت بعدی سپس به رمزگذار دوم با کلمه دوم جمله و همینطور تا آخرین کلمه. سپس حالت حاصل از آخرین رمزگذار به رمزگشا منتقل می شود که هم اولین کلمه ترجمه شده و هم حالت بعدی را به عنوان خروجی برمی گرداند که به رمزگشای دیگر و غیره ارسال می شود.
مشکل اینجا کاملا واضح است، برای تکمیل مرحله بعدی باید نتیجه مرحله قبل را داشته باشم. این یک نقص بزرگ است زیرا شما از قابلیت موازی سازی پردازنده های گرافیکی مدرن استفاده نمی کنید و در نتیجه از نظر عملکرد ضرر می کنید. همچنین مشکلات دیگری مانند انفجار گرادیان، عدم توانایی در تشخیص وابستگی بین کلمات دور در یک جمله و غیره وجود دارد.
توجه تنها چیزی است که نیاز دارید؟
سپس این سوال مطرح شد که آیا مکانیزمی وجود دارد که بتوانیم آن را به صورت موازی محاسبه کنیم که به ما امکان می دهد اطلاعات مورد نیاز خود را از جمله استخراج کنیم؟ پاسخ مثبت است و آن مکانیسم توجه است.
اگر بخواهیم توجه را تعریف کنیم و برای لحظه ای جنبه های فنی و اجرایی را فراموش کنیم، چگونه این کار را انجام می دهیم؟
بیایید یک جمله مثال بزنیم و از خود بپرسیم، با تمرکز بر کلمه "داده"، برای افزودن معنی به این کلمه باید به چه کلمات دیگری در جمله توجه کنم؟ ممکنه یه سری سوال از خودم بپرسم مثلا کی داده؟ و در این مورد، من روی کلمه "من" تمرکز می کنم و سپس ممکن است بپرسم به چه کسی داده است؟ توجه من در این مورد به کلمه چارلی و در نهایت ممکن است بپرسم چه چیزی داده است؟ در نهایت بر روی کلمه غذا تمرکز می کنیم.
با پرسیدن این سوالات از خودم و شاید انجام این کار برای هر یک از کلمات جمله، شاید بتوانم معنی و جنبه های آن را درک کنم. مشکل در این مرحله این است که چگونه این مفهوم را در عمل پیاده کنم؟
برای درک محاسبات توجه، میتوان موارد مشابهی را با دنیای پایگاههای داده ترسیم کرد. هنگامی که ما جستجویی را در پایگاه داده انجام می دهیم یک پرس و جو ارسال می کنیم (Q) و در میان داده های موجود یک یا چند کلید را جستجو می کنیم که پرس و جو را برآورده کند. خروجی مقدار مرتبط با کلید مربوط به پرس و جو است.
آنچه در مورد محاسبه توجه اتفاق می افتد بسیار مشابه است.
ما با نگاه کردن به جمله ای که توجه را به عنوان مجموعه ای از بردارها محاسبه می کنیم، شروع می کنیم. هر کلمه، از طریق مکانیزم جاسازی کلمه، در یک بردار کدگذاری می شود. ما این بردارها را بهعنوان کلیدهایی برای جستجو در میان، با توجه به پرسشی که در جستجوی آن هستیم، در نظر میگیریم که میتواند کلمهای از همان جمله (توجه به خود) یا از جمله دیگری باشد. در این مرحله، باید شباهت بین پرس و جو و هر یک از کلیدهای موجود را به صورت ریاضی از طریق حاصل ضرب نقطه مقیاس شده محاسبه کنیم. این فرآیند یک سری مقادیر واقعی را برمی گرداند، شاید با یکدیگر بسیار متفاوت باشند، اما از آنجایی که می خواهیم وزن هایی بین 0 و 1 بدست آوریم که مجموع آنها برابر با 1 است، یک SoftMax را به نتایج اعمال می کنیم. پس از به دست آوردن وزن ها، باید وزن هر کلمه و بنابراین ارتباط آن با پرس و جو را در بردار نشان دهنده آن ضرب کنیم. در نهایت ترکیب این محصولات را به عنوان بردار توجه برمی گردانیم.
برای ساختن این مکانیسم از لایه های خطی استفاده می کنیم که با شروع از بردار ورودی، کلیدها، پرس و جوها و مقادیر را با ضرب ماتریس تولید می کنند. ترکیب کلیدها و پرس و جوها امکان به دست آوردن صحیح ترین تطابق بین این دو مجموعه را فراهم می کند، که سپس نتیجه آن با مقادیر ترکیب می شود تا مرتبط ترین ترکیب را به دست آورد.
اما اگر بخواهیم بر روی یک کلمه تمرکز کنیم، این مکانیسم کافی خواهد بود، اما اگر بخواهیم از چند دیدگاه به جمله نگاه کنیم و سپس چندین بار به موازات آن توجه را محاسبه کنیم، چه؟ ما از به اصطلاح توجه چند سر استفاده می کنیم، با ساختاری مشابه که نتایج آن به سادگی در انتها ترکیب می شوند تا یک بردار خلاصه کننده تمام توجه محاسبه شده را برگردانند.
اکنون که فهمیدیم از کدام مکانیسم استفاده کنیم و از موازی بودن آن مطمئن شدیم، بیایید ساختاری را که توجه چند سر در آن تعبیه شده و ترانسفورماتور را تشکیل می دهد، تجزیه و تحلیل کنیم.
با در نظر گرفتن همیشه یک کار ترجمه، اجازه دهید ابتدا روی قسمت سمت چپ تصویر تمرکز کنیم، قسمت رمزگذاری، که کل جمله را به عنوان ورودی از انگلیسی به ایتالیایی ترجمه می کند. در حال حاضر در اینجا می بینیم که انقلاب عظیمی در مقایسه با رویکرد RNN وجود دارد زیرا به جای پردازش کلمه به کلمه جمله، به طور کامل ارائه می شود. قبل از انجام محاسبات توجه، بردارهایی که کلمات را نشان میدهند با مکانیزم رمزگذاری موقعیتی، بر اساس سینوس و کسینوس ترکیب میشوند که اطلاعاتی درباره موقعیت کلمات در جمله در بردارها تعبیه میکند. این بسیار مهم است زیرا می دانیم که در هر زبانی جایگاه کلمات در جمله بیش از حد مرتبط است و اگر بخواهیم ارزیابی درستی انجام دهیم نمی توانیم مطلقاً از دست بدهیم. تمام این اطلاعات به یک مکانیسم توجه چند سر منتقل می شود که نتیجه آن عادی شده و به یک فید فوروارد منتقل می شود. رمزگذاری را می توان N بار انجام داد تا اطلاعات معنی داری بیشتری به دست آورد.
اما جمله ای که باید ترجمه شود تنها ورودی ترانسفورماتور نیست، ما یک بلوک دوم داریم، رمزگشا که خروجی اجرای قبلی ترانسفورماتور را می گیرد. اگر فرض کنیم که مثلاً دو کلمه اول را قبلا ترجمه کرده ایم و می خواهیم کلمه سوم جمله را به زبان ایتالیایی پیش بینی کنیم، دو کلمه ترجمه شده اول را در رمزگشا پاس می کنیم. رمزگذاری موقعیتی و توجه چند سر روی این کلمات انجام می شود و نتیجه با نتیجه رمزگذار ترکیب می شود. توجه مجدد روی ترکیب محاسبه می شود و نتیجه، با استفاده از یک لایه خطی و یک Softmax، بردار کلمات کاندید بالقوه برای تبدیل شدن به کلمه جدید ترجمه شده با احتمال مرتبط با هر یک از آنها خواهد بود. در تکرار بعدی، رمزگشا علاوه بر کلمات قبلی، این کلمه را نیز وارد می کند.
بنابراین ثابت شده است که این ساختار فوق العاده مؤثر و کارآمد است، زیرا جمله را به طور کامل پردازش می کند و نه کلمه به کلمه، اطلاعاتی را در مورد موقعیت کلمات در جمله حفظ می کند و از توجه استفاده می کند که مکانیزمی است که می تواند به طور مؤثر بیان کند. محتوای جمله
بعد از این همه توضیح خوب ممکن است فکر کنید که ترانسفورماتورها بی نقص و بدون هیچ گونه نقصی هستند. معلومه که اینطور نیست و یکی از نقاط قوتش هم ضعفش هست، محاسبه توجه!
برای محاسبه توجه هر کلمه با توجه به بقیه، باید محاسبات N² را انجام دهم که حتی اگر تا حدی قابل موازی سازی باشد، باز هم بسیار گران هستند. با چنین پیچیدگی، بیایید تصور کنیم که محاسبه توجه، بارها، روی پاراگراف صدها و صدها کلمه به چه معناست.
از نظر گرافیکی می توانید ماتریسی را تصور کنید که باید با مقادیر توجه هر کلمه در مقایسه با هر کلمه دیگر پر شود و این به وضوح هزینه مربوطه را دارد. ذکر این نکته ضروری است که به صورت اختیاری و معمولاً روی رمزگشا، امکان محاسبه توجه پنهان شده وجود دارد که در آن از محاسبه توجه بین کلمه پرس و جو و تمام موارد بعدی اجتناب می کنید.
ممکن است برخی استدلال کنند، اما اگر بسیاری از مزایای ترانسفورماتورها به مکانیسم توجه مربوط می شود، آیا ما واقعاً به تمام ساختاری که در بالا مشاهده شد نیاز داریم؟ اما آیا اولین مقاله Google Brain در سال 2017 نمی گوید "توجه تنها چیزی است که شما نیاز دارید"؟ [4] مطمئناً مشروع است، اما در مارس 2021، مجدداً محققان Google مقالهای با عنوان «توجه تمام چیزی نیست که نیاز دارید» منتشر کردند [6]. معنی آن چیست؟ محققان آزمایشهایی را برای تجزیه و تحلیل رفتار مکانیسم توجه به خود انجام دادند که بدون هیچ یک از اجزای دیگر ترانسفورماتورها انجام شد و دریافتند که این مکانیسم به ماتریس رتبه 1 با نرخ نمایی دو برابر همگرا میشود. این بدان معناست که این مکانیسم به خودی خود عملاً بی فایده است. پس چرا ترانسفورماتورها اینقدر قدرتمند هستند؟ این به دلیل کشمکش بین مکانیزم توجه به خود است که تمایل به کاهش رتبه ماتریس و دو جزء دیگر ترانسفورماتورها، اتصالات پرش و MLP دارد.
اولی اجازه می دهد تا توزیع مسیرها را با اجتناب از به دست آوردن همه مسیرهای یکسان متنوع کنید و این احتمال کاهش ماتریس به رتبه 1 را به شدت کاهش می دهد. MLP در عوض می تواند رتبه ماتریس حاصل را به دلیل غیر خطی بودن آن افزایش دهد. در مقابل، نشان داده شده است که عادی سازی هیچ نقشی در اجتناب از این رفتار مکانیسم توجه به خود ایفا نمی کند. بنابراین، توجه تنها چیزی نیست که شما نیاز دارید، اما معماری ترانسفورماتور موفق می شود از آن به نفع خود برای دستیابی به نتایج چشمگیر استفاده کند.
ترانسفورماتورهای بینایی
با رسیدن به این نقطه در سال 2020، دوباره محققان گوگل متعجب شدند، "اما اگر ترانسفورماتورها در زمینه پردازش زبان طبیعی تا این حد موثر هستند، چگونه با تصاویر کار می کنند؟" کمی مانند آن که با NLP انجام شد، از مفهوم توجه شروع می کنیم اما این بار روی تصاویر اعمال می شود. بیایید سعی کنیم آن را از طریق یک مثال درک کنیم.
اگر عکس سگی را در نظر بگیریم که در مقابل دیوار ایستاده است، هر کدام از ما می گوییم که این یک «تصویر سگ» است نه «تصویر دیوار»، این به این دلیل است که ما تمرکز خود را بر روی موضوع غالب و متمایز کننده تصویر و این دقیقاً همان کاری است که مکانیسم توجه اعمال شده به تصاویر انجام می دهد.
اکنون که فهمیدیم مفهوم توجه را می توان به تصاویر نیز تعمیم داد، فقط باید راهی برای وارد کردن تصاویر به یک ترانسفورماتور کلاسیک پیدا کنیم.
می دانیم که ترانسفورماتور بردارهای ورودی کلمات را می گیرد، پس چگونه می توانیم یک تصویر را به بردار تبدیل کنیم؟ مطمئنا اولین راه حل استفاده از تمام پیکسل های تصویر و قرار دادن آنها به صورت "داخلی" برای به دست آوردن یک برداری است. اما بیایید یک لحظه بایستیم و ببینیم اگر این گزینه را انتخاب کنیم چه اتفاقی می افتد.
قبلاً گفتیم که محاسبه توجه دارای پیچیدگی برابر با O(N²) است، به این معنی که اگر بخواهیم پیچیدگی هر پیکسل را نسبت به بقیه محاسبه کنیم، در یک تصویر با وضوح پایین مانند 256×256 پیکسل خواهیم داشت. محاسبات بسیار زیاد و کاملاً غیرقابل حل با منابع امروزی. بنابراین این رویکرد قطعا قابل اجرا نیست.
راه حل بسیار ساده است و در مقاله "یک تصویر ارزش 16×16 کلمه دارد" [2] پیشنهاد شده است که تصویر را به تکههایی تقسیم کرده و سپس با استفاده از یک طرح خطی که تکهها را در یک بردار ترسیم میکند، هر وصله را به یک بردار تبدیل کنید. فضا.
حالا فقط باید برویم و معماری Vision Transformer را ببینیم.
سپس تصویر به تکههایی تقسیم میشود که از یک طرح خطی عبور میکنند تا بردارهایی را بهدست آورند، که با اطلاعاتی در مورد موقعیت وصله درون تصویر همراه شده و به یک ترانسفورماتور کلاسیک ارسال میشود. افزودن اطلاعات در مورد موقعیت اصلی وصله در داخل تصویر اساسی است زیرا در طول طرح ریزی خطی این اطلاعات از بین می رود حتی اگر درک کامل محتوای تصویر بسیار مهم باشد. بردار دیگری درج شده است که مستقل از تصویر مورد تجزیه و تحلیل است و برای به دست آوردن اطلاعات کلی در مورد کل تصویر استفاده می شود و در واقع خروجی مربوط به این وصله تنها موردی است که در نظر گرفته شده و به یک MLP ارسال می شود که باز خواهد گشت. کلاس پیش بینی شده
با این حال، نقطه ای در این فرآیند وجود دارد که در آن اطلاعات بسیار قابل توجهی از دست می رود. در واقع در انتقال از Patch به Vector، هر نوع اطلاعاتی در مورد موقعیت پیکسل ها در پچ از بین می رود. نویسندگان Transformer in Transformer (TnT) [3] به این نکته اشاره می کنند که مطمئناً این یک چیز جدی است زیرا چینش پیکسل ها در بخشی از تصویر مورد تجزیه و تحلیل اطلاعات خاصی است که ما نمی خواهیم برای ایجاد کیفیت از دست بدهیم. پیش بینی.
سپس نویسندگان TnT از خود پرسیدند، آیا می توان راه بهتری برای ارسال بردارها به ترانسفورماتور پیدا کرد؟
سپس پیشنهاد آنها این است که هر پچ (pxp) از تصویر را که خود تصاویری در 3 کانال RGB هستند، گرفته و آن را به یک تانسور C-channel تبدیل کنند. سپس این تانسور به قسمت های p با p' تقسیم می شود.
سپس آنها را به هم متصل کرده و به صورت خطی پیش بینی می کنند تا به اندازه بردار به دست آمده از طرح خطی پچ اصلی و ترکیب با آن شوند.
با انجام این کار، بردارهای ورودی به ترانسفورماتور نیز تحت تأثیر آرایش پیکسل ها در وصله ها قرار می گیرند و با انجام این کار، نویسندگان موفق به بهبود عملکرد در وظایف مختلف بینایی رایانه شده اند.
TimeSformers
با توجه به موفقیت های بزرگ ترانسفورماتورها ابتدا در NLP و سپس در کاربرد آنها در تصاویر، در سال 2021 محققان فیس بوک سعی کردند این معماری را در ویدیو نیز اعمال کنند.
به طور شهودی، واضح است که انجام این کار امکان پذیر است زیرا همه ما می دانیم که یک ویدیو چیزی بیش از مجموعه ای از فریم ها پشت سر هم نیست و فریم ها چیزی بیش از تصاویر نیستند.
تنها یک جزئیات کوچک وجود دارد که آنها را از Vision Transformers متمایز می کند، شما باید نه تنها فضا بلکه زمان را نیز در نظر بگیرید. در این مورد، در واقع، وقتی میخواهیم توجه را محاسبه کنیم، نمیتوانیم به قابها بهعنوان تصاویر مجزا نگاه کنیم، بلکه باید نوعی از توجه را پیدا کنیم که تغییراتی را که بین فریمهای متوالی رخ میدهد، در نظر بگیرد، زیرا در ارزیابی از اهمیت زیادی برخوردار است. یک ویدیو
برای تلاش برای حل این مشکل، نویسندگان چندین مکانیسم توجه جدید را پیشنهاد کردهاند، از مکانیسمهایی که منحصراً بر فضا تمرکز میکنند، که عمدتاً به عنوان نقطه مرجع استفاده میشوند، تا مکانیسمهایی که توجه را به صورت محوری، پراکنده یا مشترک بین فضا و زمان محاسبه میکنند.
با این حال، روشی که بهترین نتایج را به دست آورده است، توجه فضا-زمان تقسیم شده است. این شامل یک قاب در لحظه t و یکی از وصله های آن به عنوان پرس و جو می شود تا توجه مکانی را در کل فریم و سپس توجه زمانی را در همان پچ پرس و جو اما در فریم قبلی و بعدی محاسبه کند.
اما چرا این رویکرد اینقدر خوب عمل می کند؟ دلیل آن این است که ویژگیهای مجزای بیشتری نسبت به روشهای دیگر میآموزد و بنابراین بهتر میتواند ویدیوهای دستههای مختلف را درک کند. ما می توانیم این را در تجسم زیر مشاهده کنیم که در آن هر ویدیو با یک نقطه در فضا نشان داده می شود و رنگ آن نشان دهنده دسته ای است که به آن تعلق دارد.
نویسندگان همچنین ارتباط وضوح فیلم ها و تعداد فریم های موجود در آنها را زیر سوال بردند و دریافتند که هرچه وضوح بالاتر باشد دقت مدل تا حدی بهتر است. در مورد تعداد فریم ها، باز هم با افزایش تعداد فریم ها، دقت نیز افزایش می یابد. نکته جالب این است که نمیتوان تستهایی با تعداد فریمهای بالاتر از آنچه در نمودار نشان داده شده است انجام داد و بنابراین به طور بالقوه دقت همچنان میتواند بهبود یابد، ما هنوز حد بالایی این بهبود را پیدا نکردهایم.
در Vision Transformers مشخص است که مجموعه داده های آموزشی بزرگتر اغلب منجر به دقت بهتر می شود. این نیز توسط نویسندگان در TimeSformers بررسی شد و دوباره، با افزایش تعداد ویدیوهای آموزشی در نظر گرفته شده، دقت نیز افزایش می یابد.
نتیجه گیری
حالا چه کاری باقی مانده است؟ ترانسفورماتورها به تازگی وارد دنیای بینایی کامپیوتر شده اند و به نظر می رسد بیش از حد مصمم هستند که جایگزین شبکه های کانولوشن سنتی شوند یا حداقل نقش مهمی را برای خود در این زمینه ایفا کنند. بنابراین جامعه علمی برای تلاش برای بهبود بیشتر ترانسفورماتورها، ترکیب آنها با تکنیک های مختلف و استفاده از آنها در مشکلات واقعی، در آشفتگی است و در نهایت قادر به انجام کارهایی است که تا همین اواخر امکان پذیر نبود. غولهای بزرگی مانند فیسبوک و گوگل فعالانه در حال کار برای توسعه و استفاده از Transformers هستند و ما احتمالاً هنوز سطح آن را خراشیدهایم.
مقاله را دوست داشتید؟ به من در لینکدین بپیوندید! و اگر به ترانسفورماتور علاقه مند هستید مقاله من در مورد DINO را بخوانید!
مراجع و بینش
[1] "گداس برتاسیوس، هنگ وانگ، و لورنزو تورسانی". ”آیا توجه فضا-زمان تنها چیزی است که برای درک ویدیو نیاز دارید؟".
[2] "الکسی دوسوویتسکی و همکاران". ”ارزش یک تصویر 16×16 کلمه است: ترانسفورماتورها برای تشخیص تصویر در مقیاس".
[3] "کای هان و همکاران". ”ترانسفورماتور در ترانسفورماتور".
[4] "آشیش واسوانی و همکاران". ”توجه تنها چیزی است که نیاز دارید".
[5] "Qizhe Xie و همکاران". ”خودآموزی با Noisy Student طبقه بندی ImageNet را بهبود می بخشد".
[6] "Yihe Dong et al."، "توجه تنها چیزی نیست که شما نیاز دارید: توجه خالص به طور تصاعدی با عمق رتبه خود را از دست می دهد."
[7] "نیکولا مسینا و همکاران"، "شبکه استدلال ترانسفورماتور برای تطبیق و بازیابی تصویر-متن"
[8] "نیکولا مسینا و همکاران"، "تراز متنی بصری ریز برای بازیابی متقابل با استفاده از رمزگذارهای ترانسفورماتور"
[9] "دیوید کوکومینی"، "TimeSformer برای طبقه بندی ویدئو با کد آموزشی"
این مقاله در اصل در تاریخ منتشر شد به سمت علم داده و با اجازه نویسنده مجدداً در TOPBOTS منتشر شد.
از این مقاله لذت می برید؟ برای به روز رسانی های بیشتر هوش مصنوعی ثبت نام کنید.
زمانی که آموزش فنی بیشتری را منتشر کنیم به شما اطلاع خواهیم داد.
مربوط
منبع: https://www.topbots.com/transformers-timesformers-and-attention/
- 2020
- 2021
- 7
- 9
- حساب
- مزیت - فایده - سود - منفعت
- AI
- تحقیق ai
- معرفی
- در میان
- اعلام
- کاربرد
- معماری
- محدوده
- هنر
- مقاله
- نویسندگان
- بهترین
- بیت
- ساختن
- تغییر دادن
- کانال
- طبقه بندی
- انجمن
- محاسبه
- چشم انداز کامپیوتر
- اتصالات
- محتوا
- داده ها
- پایگاه داده
- پایگاه های داده
- یادگیری عمیق
- جزئیات
- توسعه
- آموزش
- آموزش
- موثر
- انگلیسی
- اعدام
- بهره برداری
- فیس بوک
- امکانات
- سرانجام
- نام خانوادگی
- نقص
- تمرکز
- غذا
- فرم
- GIF
- جهانی
- گوگل
- GPU ها
- بزرگ
- اینجا کلیک نمایید
- چگونه
- HTTPS
- بزرگ
- صدها نفر
- تصویر
- شناسایی تصویر
- IMAGEnet
- افزایش
- اطلاعات
- موسسه
- IT
- کلید
- کلید
- زبان
- یادگیری
- لینک
- نقشه
- مارس
- مدل
- ماه
- زبان طبیعی
- پردازش زبان طبیعی
- شبکه
- شبکه
- عصبی
- شبکه های عصبی
- nlp
- گزینه
- سفارش
- دیگر
- دیگران
- مقاله
- وصله
- پچ های
- کارایی
- تصویر
- پیکسل
- طاعون
- پیش گویی
- محصول
- محصولات
- طرح پیشنهادی
- کیفیت
- كاهش دادن
- تحقیق
- منابع
- نتایج
- بازده
- جستجو
- سلسله
- تنظیم
- ساده
- اندازه
- کوچک
- So
- آگاهی
- حل
- فضا
- فضایی
- شروع
- دولت
- دانشجو
- ارسال
- سطح
- فنی
- تست
- نمودار
- زمان
- آموزش
- ترجمه
- به روز رسانی
- us
- ارزش
- تصویری
- فیلم های
- چشم انداز
- دید
- تجسم
- جنگ
- WHO
- در داخل
- کلمات
- مهاجرت کاری
- جهان
- با ارزش
- سال