Meta Researchers Build An AI That Learns Equally Well From Visual, Written Or Spoken Materials

بازنشر افلاطون

دنبال: 0

پیشرفت‌ها در قلمرو هوش مصنوعی دائماً در حال ظهور هستند، اما معمولاً به یک دامنه محدود می‌شوند: به عنوان مثال، یک روش جدید جالب برای تولید گفتار مصنوعی نیست. همچنین راهی برای تشخیص عبارات صورت انسان محققان متا (AKA Facebook) در حال کار بر روی چیزی کمی همه‌کاره‌تر هستند: هوش مصنوعی که می‌تواند به تنهایی یاد بگیرد، چه در مطالب گفتاری، نوشتاری یا بصری این کار را انجام دهد.

روش سنتی آموزش یک مدل هوش مصنوعی برای تفسیر درست چیزی این است که نمونه‌های برچسب‌گذاری شده زیادی (مثل میلیون‌ها) به آن ارائه شود. تصویری از یک گربه با برچسب‌گذاری قسمتی از گربه، مکالمه با سخنرانان و کلمات رونویسی شده، و غیره. اما این رویکرد دیگر مرسوم نیست زیرا محققان دریافتند که دیگر امکان‌پذیر نیست که به‌طور دستی پایگاه‌های داده با اندازه‌های مورد نیاز برای آموزش بعدی ایجاد کنند. هوش مصنوعی نسل. چه کسی می خواهد 50 میلیون عکس گربه را برچسب بزند؟ خوب، احتمالاً چند نفر - اما چه کسی می خواهد 50 میلیون عکس از میوه ها و سبزیجات رایج را برچسب بزند؟

در حال حاضر برخی از امیدوارکننده‌ترین سیستم‌های هوش مصنوعی آن‌هایی هستند که خود نظارتی نامیده می‌شوند: مدل‌هایی که می‌توانند با استفاده از مقادیر زیادی داده‌های بدون برچسب، مانند کتاب‌ها یا ویدیوهای تعامل افراد، کار کنند و درک ساختار یافته‌ای از قوانین سیستم ایجاد کنند. برای مثال، با خواندن هزاران کتاب، موقعیت‌های نسبی کلمات و ایده‌ها در مورد ساختار گرامری را می‌آموزد، بدون اینکه کسی به او بگوید که اشیاء یا مقاله‌ها یا کاماها چیست - آن را با استنتاج از مثال‌های فراوان دریافت کرد.

این به طور شهودی بیشتر شبیه نحوه یادگیری افراد است، که بخشی از این است که چرا محققان آن را دوست دارند. اما مدل‌ها هنوز هم تمایل دارند تک وجهی باشند، و تمام کارهایی که برای راه‌اندازی یک سیستم یادگیری نیمه‌نظارتی برای تشخیص گفتار انجام می‌دهید، به هیچ وجه برای تجزیه و تحلیل تصویر اعمال نمی‌شود - آنها به سادگی بسیار متفاوت هستند. اینجاست که آخرین تحقیقات فیسبوک/متا، نام جذاب data2vec، جلو می آید.

ایده data2vec این بود که یک چارچوب هوش مصنوعی بسازد که به روشی انتزاعی‌تر یاد بگیرد، به این معنی که با شروع از صفر، می‌توانید کتاب‌هایی را برای خواندن یا تصاویر برای اسکن کردن یا گفتار به صدا در اختیار آن قرار دهید، و بعد از کمی آموزش این کار را انجام دهید. هر یک از آن چیزها را یاد بگیرید کمی شبیه شروع با یک دانه است، اما بسته به اینکه چه غذای گیاهی به آن می دهید، به گل نرگس، پانسی یا لاله تبدیل می شود.

آزمایش data2vec پس از اینکه به آن اجازه داد روی داده‌های مختلف آموزش ببیند، نشان داد که با مدل‌های اختصاصی با اندازه مشابه برای آن روش رقابتی است و حتی عملکرد بهتری دارد. (یعنی اگر همه مدل‌ها به 100 مگابایت محدود شوند، data2vec بهتر عمل می‌کند – مدل‌های تخصصی احتمالاً همچنان با رشد از آن بهتر عمل می‌کنند.)

ایده اصلی این رویکرد یادگیری به طور کلی تر است: هوش مصنوعی باید قادر به یادگیری انجام بسیاری از وظایف مختلف، از جمله کارهای کاملاً ناآشنا باشد. این تیم در یک پست وبلاگ نوشت. ما همچنین امیدواریم data2vec ما را به دنیایی نزدیک‌تر کند که در آن رایانه‌ها برای انجام وظایف به داده‌های برچسب‌دار بسیار کمی نیاز دارند.»

مارک زاکربرگ، مدیر عامل شرکت، در مورد این تحقیق اظهار داشت: مردم دنیا را از طریق ترکیبی از بینایی، صدا و کلمات تجربه می‌کنند و سیستم‌هایی مانند این می‌توانند روزی دنیا را به روشی که ما انجام می‌دهیم درک کنند.

این هنوز یک تحقیق در مراحل اولیه است، بنابراین انتظار نداشته باشید که "هوش مصنوعی عمومی" افسانه ای به طور ناگهانی ظاهر شود - اما داشتن یک هوش مصنوعی که ساختار یادگیری تعمیم یافته ای دارد که با دامنه ها و انواع داده های مختلف کار می کند بهتر به نظر می رسد. راه حل ظریف تر از مجموعه تکه تکه خردهوش هایی که امروز با آن ها کنار می آییم.

کد data2vec منبع باز است. آن و برخی از مدل های از پیش آموزش دیده در اینجا موجود است.

منبع: https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-written-or-spoken-materials/

تمبر زمان: ژانویه 20، 2022