Uczenie się od zera, wyjaśnione

Uczenie się od zera, wyjaśnione

Węzeł źródłowy: 1776319

Uczenie się od zera, wyjaśnione
Bruce'a Warringtona przez Unsplash
 

Powodem, dla którego modele uczenia maszynowego stają się ogólnie inteligentniejsze, jest ich zależność od używania oznaczonych danych, które pomagają im rozróżnić dwa podobne obiekty. 

Jednak bez tych oznaczonych zestawów danych napotkasz poważne przeszkody podczas tworzenia najbardziej efektywnego i godnego zaufania modelu uczenia maszynowego. Etykietowane zestawy danych podczas fazy uczenia modelu są ważne. 

Głębokie uczenie się jest szeroko stosowane do rozwiązywania zadań, takich jak widzenie komputerowe przy użyciu nadzorowanego uczenia się. Jednak, jak z wieloma rzeczami w życiu, wiąże się to z ograniczeniami. Klasyfikacja nadzorowana wymaga dużej ilości i jakości oznaczonych danych treningowych w celu stworzenia solidnego modelu. Oznacza to, że model klasyfikujący nie może obsłużyć niewidocznych klas. 

Wszyscy wiemy, ile mocy obliczeniowej, ponownego szkolenia, czasu i pieniędzy potrzeba, aby wyszkolić model głębokiego uczenia.

Ale czy model nadal może rozróżnić dwa obiekty bez korzystania z danych treningowych? Tak, to się nazywa zero-shot learning. Uczenie się bez strzału to zdolność modelu do wykonania zadania bez otrzymania lub użycia jakichkolwiek przykładów szkoleniowych. 

Ludzie są naturalnie zdolni do uczenia się bez większego wysiłku. Nasze mózgi już przechowują słowniki i pozwalają nam rozróżniać obiekty, patrząc na ich właściwości fizyczne dzięki naszej aktualnej bazie wiedzy. Możemy użyć tej bazy wiedzy, aby zobaczyć podobieństwa i różnice między obiektami i znaleźć powiązanie między nimi.

Załóżmy na przykład, że próbujemy zbudować model klasyfikacji gatunków zwierząt. Według NaszŚwiatWDanych, w 2.13 r. obliczono 2021 mln gatunków. Dlatego, jeśli chcemy stworzyć najskuteczniejszy model klasyfikacji gatunków zwierząt, potrzebowalibyśmy 2.13 mln różnych klas. Potrzebne będzie również dużo danych. Dane o dużej ilości i jakości są trudne do znalezienia.

W jaki więc sposób zero-shot learning rozwiązuje ten problem?

Ponieważ uczenie się bez strzału nie wymaga, aby model nauczył się danych treningowych i sposobu klasyfikowania klas, pozwala nam w mniejszym stopniu polegać na potrzebie modelu w zakresie danych z etykietami. 

Oto, z czego będą musiały składać się Twoje dane, aby kontynuować naukę bez strzału.

Widziane klasy

Składa się z klas danych, które były wcześniej używane do uczenia modelu. 

Niewidoczne klasy

Składa się z klas danych, które NIE zostały użyte do trenowania modelu, a nowy model uczenia zero-shot zostanie uogólniony. 

Informacje pomocnicze

Ponieważ dane w niewidocznych klasach nie są oznaczone, uczenie zerowe będzie wymagało informacji pomocniczych w celu uczenia się i znajdowania korelacji, powiązań i właściwości. Może to mieć formę osadzania słów, opisów i informacji semantycznych.

Metody uczenia się bez strzału

Nauka zero-shot jest zwykle stosowana w:

  • Metody oparte na klasyfikatorach
  • Metody oparte na instancjach

Praktyki

Zero-shot learning służy do budowania modeli dla klas, które nie trenują przy użyciu oznaczonych danych, dlatego wymaga tych dwóch etapów:

1. Trening

Etap szkolenia to proces uczenia się metody starający się uchwycić jak najwięcej wiedzy o właściwościach danych. Możemy to postrzegać jako fazę uczenia się. 

2. Wnioskowanie

Na etapie wnioskowania cała zdobyta wiedza z etapu szkolenia jest stosowana i wykorzystywana w celu zaklasyfikowania przykładów do nowego zestawu klas. Możemy to postrzegać jako fazę tworzenia prognoz. 

Jak to działa?

Wiedza z klas widzialnych zostanie przeniesiona do klas niewidzialnych w wielowymiarowej przestrzeni wektorowej; nazywa się to przestrzenią semantyczną. Na przykład w klasyfikacji obrazów przestrzeń semantyczna wraz z obrazem przejdzie dwa etapy:

1. Wspólna przestrzeń do osadzania

To tutaj rzutowane są wektory semantyczne i wektory cechy wizualnej. 

2. Najwyższe podobieństwo

W tym miejscu funkcje są dopasowywane do cech niewidocznej klasy. 

Aby pomóc w zrozumieniu procesu z dwoma etapami (trening i wnioskowanie), zastosujmy je przy użyciu klasyfikacji obrazów.

Trening

Uczenie się od zera, wyjaśnione
Jariego Hytönena przez Unsplash
 

Jako istota ludzka, gdybyś przeczytał tekst po prawej stronie powyższego obrazka, od razu założyłbyś, że w brązowym koszyku są 4 kocięta. Ale powiedzmy, że nie masz pojęcia, co to jest „kotek”. Zakładasz, że jest tam brązowy kosz z 4 rzeczami, które nazywają się „kociętami”. Gdy natkniesz się na więcej obrazów, które zawierają coś, co wygląda jak „kotek”, będziesz w stanie odróżnić „kotka” od innych zwierząt. 

Tak się dzieje, gdy używasz Kontrastowe szkolenie językowo-obrazowe (CLIP) firmy OpenAI do bezstresowego uczenia się klasyfikacji obrazów. Nazywa się to informacją pomocniczą. 

Być może myślisz: „cóż, to tylko oznaczone dane”. Rozumiem, dlaczego tak myślisz, ale tak nie jest. Informacje pomocnicze nie są etykietami danych, są formą nadzoru pomagającego modelowi uczyć się na etapie uczenia.

Kiedy model uczenia się bez strzału zobaczy wystarczającą liczbę par obraz-tekst, będzie w stanie rozróżnić i zrozumieć frazy oraz ich korelację z określonymi wzorami na obrazach. Wykorzystując technikę CLIP „uczenie się kontrastowe”, model uczenia „zero-shot” był w stanie zgromadzić dobrą bazę wiedzy, aby móc przewidywać zadania klasyfikacyjne. 

Jest to podsumowanie podejścia CLIP, w którym trenują razem koder obrazu i koder tekstu w celu przewidzenia prawidłowych par partii przykładów szkoleniowych (obraz, tekst). Proszę zobaczyć obrazek poniżej:

 

Uczenie się od zera, wyjaśnione
Uczenie się przenośnych modeli wizualnych z nadzoru nad językiem naturalnym

Wnioskowanie

Po przejściu przez etap szkolenia model ma dobrą bazę wiedzy na temat parowania obrazu z tekstem i może być teraz używany do prognozowania. Zanim jednak przejdziemy od razu do tworzenia prognoz, musimy skonfigurować zadanie klasyfikacji, tworząc listę wszystkich możliwych etykiet, które może wygenerować model. 

Na przykład, pozostając przy zadaniu klasyfikacji obrazów gatunków zwierząt, będziemy potrzebować listy wszystkich gatunków zwierząt. Każda z tych etykiet będzie zakodowana, T? do T? przy użyciu wstępnie przeszkolonego kodera tekstu, który wystąpił na etapie uczenia. 

Po zakodowaniu etykiet możemy wprowadzać obrazy za pomocą wstępnie przeszkolonego kodera obrazu. Użyjemy podobieństwa kosinusowego metryki odległości, aby obliczyć podobieństwa między kodowaniem obrazu a kodowaniem każdej etykiety tekstowej.

Klasyfikacja obrazu odbywa się na podstawie etykiety o największym podobieństwie do obrazu. I w ten sposób osiąga się uczenie zero-shot, szczególnie w klasyfikacji obrazów. 

Niedobór danych

Jak wspomniano wcześniej, dane o dużej ilości i jakości są trudne do zdobycia. W przeciwieństwie do ludzi, którzy już posiadają zdolność uczenia się bez strzału, maszyny wymagają wprowadzania oznaczonych danych, aby się uczyć, a następnie być w stanie dostosować się do odchyleń, które mogą naturalnie wystąpić. 

Jeśli spojrzymy na przykład gatunku zwierząt, było ich tak wiele. Ponieważ liczba kategorii w różnych domenach stale rośnie, nadążanie za gromadzeniem danych z adnotacjami będzie wymagało dużo pracy.

Dzięki temu zero-shot learning stał się dla nas cenniejszy. Coraz więcej badaczy jest zainteresowanych automatycznym rozpoznawaniem atrybutów, aby zrekompensować brak dostępnych danych. 

Etykietowanie danych

Kolejną zaletą uczenia się bez strzału są jego właściwości etykietowania danych. Etykietowanie danych może być pracochłonne i bardzo żmudne, przez co może prowadzić do błędów w trakcie procesu. Etykietowanie danych wymaga ekspertów, takich jak pracownicy służby zdrowia, którzy pracują nad zbiorem danych biomedycznych, co jest bardzo kosztowne i czasochłonne. 

Nauka zero-shot staje się coraz bardziej popularna ze względu na powyższe ograniczenia danych. Jest kilka artykułów, które polecam przeczytać, jeśli jesteś zainteresowany jego możliwościami:

 
 
Nisza Arja jest analitykiem danych i niezależnym pisarzem technicznym. Jest szczególnie zainteresowana udzielaniem porad zawodowych lub samouczków w dziedzinie Data Science oraz wiedzy teoretycznej na temat Data Science. Chce również zbadać różne sposoby, w jakie sztuczna inteligencja może wpływać na długowieczność ludzkiego życia. Zapalona uczennica, która chce poszerzyć swoją wiedzę techniczną i umiejętności pisania, jednocześnie pomagając innym kierować.
 

Znak czasu:

Więcej z Knuggety