Навчання з нульовим ударом, пояснення

Перевидано Платоном

читають: 0

Навчання з нульовим ударом, пояснення
Брюс Воррінгтон через Unsplash

Причина, чому моделі машинного навчання загалом стають розумнішими, полягає в їх залежності від використання мічених даних, які допомагають їм розрізняти два схожі об’єкти.

Однак без цих позначених наборів даних ви зіткнетеся з серйозними перешкодами під час створення найефективнішої та надійної моделі машинного навчання. Позначені набори даних на етапі навчання моделі важливі.

Глибоке навчання широко використовується для вирішення таких завдань, як комп’ютерне бачення, за допомогою навчання під наглядом. Однак, як і багато в чому в житті, тут є обмеження. Контрольована класифікація вимагає великої кількості та якості маркованих навчальних даних для створення надійної моделі. Це означає, що модель класифікації не може обробляти невидимі класи.

І всі ми знаємо, скільки обчислювальної потужності, перенавчання, часу та грошей потрібно для навчання моделі глибокого навчання.

Але чи все-таки модель може розрізняти два об’єкти без використання навчальних даних? Так, це називається нульовим навчанням. Безпосереднє навчання — це здатність моделі виконувати завдання без отримання або використання будь-яких навчальних прикладів.

Люди від природи здатні навчатися без особливих зусиль. Наш мозок уже зберігає словники та дозволяє нам розрізняти об’єкти, дивлячись на їхні фізичні властивості завдяки нашій поточній базі знань. Ми можемо використовувати цю базу знань, щоб побачити подібності та відмінності між об’єктами та знайти зв’язок між ними.

Наприклад, скажімо, ми намагаємося побудувати модель класифікації видів тварин. Відповідно до OurWorldInData, у 2.13 році було підраховано 2021 мільйона видів. Тому, якщо ми хочемо створити найефективнішу модель класифікації видів тварин, нам знадобиться 2.13 мільйона різних класів. Також буде потрібно багато даних. Важко знайти дані великої кількості та якості.

Отже, як нульове навчання вирішує цю проблему?

Оскільки нульове навчання не вимагає, щоб модель вивчала навчальні дані та те, як класифікувати класи, це дозволяє нам менше покладатися на потребу моделі в позначених даних.

Нижче наведено те, з чого повинні складатися ваші дані, щоб продовжити безпосереднє навчання.

Переглянуті класи

Він складається з класів даних, які раніше використовувалися для навчання моделі.

Невидимі класи

Він складається з класів даних, які НЕ використовувалися для навчання моделі, і нова модель навчання з нульовим випадком буде узагальнюватися.

Допоміжна інформація

Оскільки дані в невидимих класах не позначені, для нульового навчання знадобиться допоміжна інформація для навчання та пошуку кореляцій, зв’язків і властивостей. Це може бути у формі вбудованих слів, описів і семантичної інформації.

Методи нульового навчання

Навчання з нульовим ударом зазвичай використовується в:

Методи на основі класифікатора
Методи на основі екземплярів

стажування

Zero-shot training використовується для побудови моделей для класів, які не навчаються з використанням мічених даних, тому вимагає цих двох етапів:

1. Навчання

Етап навчання – це процес навчання, який намагається отримати якомога більше знань про якість даних. Ми можемо розглядати це як етап навчання.

2. Умовивід

Під час етапу логічного висновку всі знання, отримані на етапі навчання, застосовуються та використовуються для класифікації прикладів у новий набір класів. Ми можемо розглядати це як фазу прогнозування.

Як це працює?

Знання з видимих класів будуть передані в невидимі класи у високовимірному векторному просторі; це називається семантичним простором. Наприклад, у класифікації зображень семантичний простір разом із зображенням проходитиме два етапи:

1. Спільний закладний простір

Сюди проектуються семантичні вектори та вектори візуальних ознак.

2. Найвища схожість

Тут функції зіставляються з функціями невидимого класу.

Щоб допомогти зрозуміти процес із двома етапами (навчання та висновки), давайте застосуємо їх до використання класифікації зображень.

Навчання

Навчання з нульовим ударом, пояснення
Ярі Гітонен через Unsplash

Як людина, якби ви прочитали текст праворуч на зображенні вище, ви б миттєво припустили, що в коричневому кошику є 4 кошеняти. Але припустімо, ви не маєте уявлення про те, що таке «кошеня». Ви припустите, що є коричневий кошик із 4 речами всередині, які називаються «кошенята». Коли ви натрапите на більше зображень, які містять щось схоже на «кошеня», ви зможете відрізнити «кошеня» від інших тварин.

Це те, що відбувається, коли ви використовуєте Попередня підготовка контрастного мовного образу (CLIP) від OpenAI для нульового навчання класифікації зображень. Вона відома як допоміжна інформація.

Ви можете подумати: «це просто позначені дані». Я розумію, чому ви так думаєте, але це не так. Допоміжна інформація не є мітками даних, це форма спостереження, яка допомагає моделі навчатися на етапі навчання.

Коли навчальна модель нульового удару бачить достатню кількість пар зображення та тексту, вона зможе диференціювати та розуміти фрази та те, як вони співвідносяться з певними шаблонами на зображеннях. Використовуючи техніку «контрастного навчання» CLIP, модель нульового навчання змогла накопичити хорошу базу знань, щоб мати можливість робити прогнози щодо завдань класифікації.

Це стислий виклад підходу CLIP, коли вони разом навчають кодувальник зображень і кодувальник тексту, щоб передбачити правильні пари для групи прикладів навчання (зображення, текст). Перегляньте зображення нижче:

Навчання з нульовим ударом, пояснення
Вивчення переносних візуальних моделей із нагляду за природною мовою

Висновок

Після того, як модель пройшла стадію навчання, вона має хорошу базу знань про поєднання зображень і тексту, і тепер її можна використовувати для прогнозування. Але перш ніж ми зможемо відразу приступити до прогнозування, нам потрібно налаштувати завдання класифікації, створивши список усіх можливих міток, які може вивести модель.

Наприклад, дотримуючись завдання класифікації зображень видів тварин, нам знадобиться список усіх видів тварин. Кожна з цих міток буде закодована, T? до Т? за допомогою попередньо навченого текстового кодувальника, який стався на етапі навчання.

Після кодування міток ми можемо вводити зображення через попередньо навчений кодувальник зображень. Ми будемо використовувати метричну косинусну подібність відстані, щоб обчислити подібність між кодуванням зображення та кодуванням кожної текстової мітки.

Класифікація зображення здійснюється на основі мітки з найбільшою схожістю із зображенням. І саме так досягається нульове навчання, зокрема в класифікації зображень.

Дефіцит даних

Як згадувалося раніше, отримати дані великої кількості та якості важко. На відміну від людей, які вже володіють здатністю до нульового навчання, машинам потрібні вхідні дані з мітками, щоб навчатися, а потім мати можливість адаптуватися до відхилень, які можуть виникнути природним чином.

Якщо ми подивимося на приклад видів тварин, то їх було дуже багато. І оскільки кількість категорій продовжує зростати в різних доменах, потрібно буде багато працювати, щоб не відставати від збору анотованих даних.

Завдяки цьому нульове навчання стало для нас більш цінним. Все більше і більше дослідників зацікавлені в автоматичному розпізнаванні атрибутів, щоб компенсувати брак доступних даних.

Маркування даних

Ще однією перевагою нульового навчання є його властивості маркування даних. Позначення даних може бути трудомістким і дуже виснажливим, і через це може призвести до помилок під час процесу. Для маркування даних потрібні експерти, наприклад медичні працівники, які працюють над набором біомедичних даних, що є дуже дорогим і трудомістким.

Навчання з нульовим ударом стає все більш популярним через зазначені вище обмеження даних. Є кілька документів, які я б рекомендував вам прочитати, якщо ви зацікавлені в його здібностях:

Ніша Арья є дослідником даних і позаштатним технічним автором. Вона особливо зацікавлена в наданні порад щодо кар'єри в галузі Data Science або підручників та теоретичних знань із Data Science. Вона також хоче дослідити різні способи, якими штучний інтелект є/може сприяти довговічності людського життя. Захоплено навчається, прагне розширити свої технічні знання та навички письма, водночас допомагаючи орієнтувати інших.