یادگیری بدون نظارت: دانش آموز کنجکاو

گره منبع: 749902

انتقال یادگیری

از منظر هوش عمومی، جالب‌ترین چیز در مورد واژگان AlexNet این است که می‌توان از آن دوباره استفاده کرد یا به کارهای بصری دیگری غیر از آنچه در آن آموزش دیده بود، مانند تشخیص، استفاده کرد. صحنه های کامل به جای اشیاء منفرد. انتقال در دنیایی که دائماً در حال تغییر است ضروری است و انسان ها در آن برتری دارند: ما می توانیم مهارت ها و درکی را که از تجربیاتمان ("مدل جهانی" ما) به دست آورده ایم به سرعت با هر موقعیتی که در دست داریم تطبیق دهیم. به عنوان مثال، یک پیانیست با آموزش کلاسیک می تواند پیانوی جاز را با سهولت نسبی بلند کند. بر اساس استدلال، عوامل مصنوعی که بازنمایی های داخلی درستی از جهان را تشکیل می دهند، باید بتوانند به همین ترتیب عمل کنند.

با این وجود، نمایش‌هایی که توسط طبقه‌بندی‌کننده‌هایی مانند AlexNet آموخته می‌شوند محدودیت‌هایی دارند. به طور خاص، از آنجایی که شبکه فقط برای برچسب زدن تصاویر با یک کلاس (گربه، سگ، ماشین، آتشفشان) آموزش دیده است، هر گونه اطلاعاتی که برای استنباط برچسب مورد نیاز نیست - مهم نیست که چقدر برای کارهای دیگر مفید باشد - ممکن است نادیده گرفته شده است. برای مثال، اگر برچسب همیشه به پیش‌زمینه اشاره داشته باشد، ممکن است نمایش‌ها نتوانند پس‌زمینه تصویر را ثبت کنند. یک راه حل ممکن، ارائه سیگنال های آموزشی جامع تر است، مانند زیرنویس های دقیق که تصاویر را توصیف می کند: نه فقط "سگ"، بلکه "کورگی در حال گرفتن فریزبی در یک پارک آفتابی." با این حال، ارائه چنین اهدافی، به ویژه در مقیاس، دشوار است و ممکن است هنوز برای به دست آوردن تمام اطلاعات مورد نیاز برای تکمیل یک کار کافی نباشد. فرض اصلی یادگیری بدون نظارت این است که بهترین راه برای یادگیری بازنمایی های غنی و قابل انتقال، تلاش برای یادگیری هر چیزی است که می توان در مورد داده ها یاد گرفت.

اگر مفهوم انتقال از طریق یادگیری بازنمایی بیش از حد انتزاعی به نظر می رسد، کودکی را در نظر بگیرید که یاد گرفته است افراد را به عنوان چهره های چوبی ترسیم کند. او نمایشی از شکل انسان را کشف کرده است که هم بسیار فشرده و هم به سرعت سازگار است. او می‌تواند با افزودن ویژگی‌های هر یک از چوب‌ها، پرتره‌هایی از همه همکلاسی‌هایش بسازد: عینک برای بهترین دوستش، همکارش با تی‌شرت قرمز مورد علاقه‌اش. و او این مهارت را نه برای تکمیل یک کار خاص یا دریافت جایزه، بلکه در پاسخ به میل اساسی خود برای انعکاس دنیای اطراف خود توسعه داده است.

یادگیری با ایجاد: مدل های مولد

شاید ساده ترین هدف برای یادگیری بدون نظارت، آموزش الگوریتمی برای تولید نمونه های خود از داده باشد. به اصطلاح مدل‌های مولد نباید به سادگی داده‌هایی را که بر روی آنها آموزش دیده‌اند، بازتولید کنند (عملی غیر جالب برای حفظ کردن)، بلکه باید مدلی از کلاس زیربنایی که آن داده‌ها از آن استخراج شده‌اند بسازند: نه یک عکس خاص از یک اسب یا یک رنگین کمان، اما مجموعه تمام عکس های اسب و رنگین کمان. نه یک گفته خاص از یک گوینده خاص، بلکه توزیع کلی گفته های گفتاری. اصل راهنمای مدل‌های مولد این است که توانایی ساختن یک مثال قانع‌کننده از داده‌ها قوی‌ترین مدرک برای درک آن است: همانطور که ریچارد فاینمن می‌گوید، «آنچه را نمی‌توانم خلق کنم، نمی‌فهمم».

برای تصاویر، موفق‌ترین مدل تولیدی تاکنون، مدل بوده است شبکهی مولد متقابل (به اختصار GAN)، که در آن دو شبکه - یک مولد و یک تبعیض - در یک مسابقه تشخیص شبیه به یک جاعل هنری و یک کارآگاه شرکت می کنند. مولد تصاویر را با هدف فریب دادن متمایزکننده به منظور واقعی بودن آنها تولید می کند. در همین حال، تبعیض‌کننده برای شناسایی جعلی‌ها پاداش می‌گیرد. تصاویر تولید شده، ابتدا درهم و برهم و تصادفی، در چندین تکرار پالایش می‌شوند و پویایی مداوم بین شبکه‌ها منجر به تصاویر واقعی‌تر می‌شود که در بسیاری از موارد این تصاویر واقعی‌تر هستند. غیر قابل تشخیص از عکس های واقعی. شبکه های متخاصم مولد همچنین می توانند جزئیات مناظر را در خواب ببینند توسط طرح های خشن کاربران تعریف شده است.

نگاهی اجمالی به تصاویر زیر کافی است تا ما را متقاعد کند که شبکه یاد گرفته است بسیاری از ویژگی های کلیدی عکس هایی را که بر روی آنها آموزش دیده اند، نمایش دهد، مانند ساختار بدن حیوانات، بافت چمن، و اثرات دقیق نور و سایه (حتی زمانی که از طریق حباب صابون شکسته شود). بازرسی دقیق ناهنجاری‌های جزئی را نشان می‌دهد، مانند پای اضافی ظاهری سگ سفید و جریان راست‌زاویه عجیب یکی از فواره‌ها در فواره. در حالی که سازندگان مدل‌های مولد تلاش می‌کنند تا از چنین نقص‌هایی اجتناب کنند، قابل مشاهده بودن آن‌ها یکی از مزایای بازآفرینی داده‌های آشنا مانند تصاویر را برجسته می‌کند: با بازرسی نمونه‌ها، محققان می‌توانند استنباط کنند که مدل چه چیزی را یاد گرفته است و چه چیزی را یاد نگرفته است.

منبع: https://deepmind.com/blog/article/unsupervised-learning

تمبر زمان:

بیشتر از Deep Mind - آخرین پست