Jak transformatory wydają się naśladować części mózgu?

Węzeł źródłowy: 1661484

Zrozumienie, w jaki sposób mózg organizuje informacje przestrzenne i uzyskuje do nich dostęp – gdzie jesteśmy, co jest za rogiem, jak się tam dostać – pozostaje ogromnym wyzwaniem. Proces ten obejmuje przywoływanie całej sieci wspomnień i przechowywanych danych przestrzennych z dziesiątek miliardów neuronów, z których każdy jest połączony z tysiącami innych. Neuronaukowcy zidentyfikowali kluczowe elementy, takie jak: komórki siatki, neurony mapujące lokalizacje. Ale wejście głębiej okaże się trudne: nie jest tak, że naukowcy mogą usuwać i badać wycinki ludzkiej istoty szarej, aby obserwować, jak oparte na lokalizacji wspomnienia obrazów, dźwięków i zapachów przepływają i łączą się ze sobą.

Sztuczna inteligencja oferuje inne rozwiązanie. Przez lata neuronaukowcy wykorzystywali wiele rodzajów sieci neuronowych — silników, które napędzają większość aplikacji głębokiego uczenia — do modelowania odpalania neuronów w mózgu. W ostatnich pracach naukowcy wykazali, że hipokamp, ​​struktura mózgu mająca krytyczne znaczenie dla pamięci, jest w zasadzie specjalnym rodzajem sieci neuronowej, znanej jako transformator, w przebraniu. Ich nowy model śledzi informacje przestrzenne w sposób, który odpowiada wewnętrznemu działaniu mózgu. Odnieśli niezwykły sukces.

„Fakt, że wiemy, że te modele mózgu są odpowiednikami transformatora, oznacza, że ​​nasze modele działają znacznie lepiej i są łatwiejsze do trenowania” – powiedział. Jamesa Whittingtona, neurobiolog kognitywny, który dzieli swój czas między Uniwersytet Stanforda a laboratorium Tima Behrensa na Uniwersytecie Oksfordzkim.

Badania przeprowadzone przez Whittingtona i innych wskazują, że transformatory mogą znacznie poprawić zdolność modeli sieci neuronowych do naśladowania rodzajów obliczeń przeprowadzanych przez komórki siatkowe i inne części mózgu. Takie modele mogą popchnąć naszą wiedzę na temat działania sztucznych sieci neuronowych, a jeszcze bardziej prawdopodobne, w jaki sposób obliczenia są przeprowadzane w mózgu, powiedział Whittington.

„Nie próbujemy odtworzyć mózgu”, powiedział Dawid Ha, informatyk w Google Brain, który pracuje również nad modelami transformatorów. „Ale czy możemy stworzyć mechanizm, który zrobi to, co robi mózg?”

Transformatory pojawiły się po raz pierwszy pięć lat temu jako nowy sposób przetwarzania języka przez sztuczną inteligencję. Są tajnym sosem w tych zajmujących nagłówki programach dopełniających zdania, takich jak BERTI oraz GPT-3, który potrafi generować przekonujące teksty piosenek, komponować sonety Szekspira i podszywać się pod przedstawicieli obsługi klienta.

Transformatory działają przy użyciu mechanizmu zwanego samouważaniem, w którym każde wejście — słowo, piksel, liczba w sekwencji — jest zawsze połączone z każdym innym wejściem. (Inne sieci neuronowe łączą wejścia tylko z pewnymi innymi wejściami). Ale chociaż transformatory zostały zaprojektowane do zadań językowych, od tego czasu doskonale sprawdzają się w innych zadaniach, takich jak klasyfikowanie obrazów — a teraz modelowanie mózgu.

W 2020 roku grupa kierowana przez Seppa Hochreitera, informatyk z Johannes Kepler University Linz w Austrii, użył transformatora do przebudowania potężnego, istniejącego od dawna modelu odzyskiwania pamięci zwanego siecią Hopfielda. Po raz pierwszy wprowadzone 40 lat temu przez fizyka z Princeton, Johna Hopfielda, sieci te działają zgodnie z ogólną zasadą: neurony, które są aktywne w tym samym czasie, tworzą ze sobą silne połączenia.

Hochreiter i jego współpracownicy, zauważając, że badacze poszukiwali lepszych modeli odzyskiwania pamięci, dostrzegli związek między sposobem, w jaki sieci Hopfielda odzyskują wspomnienia, a sposobem, w jaki transformatory zwracają uwagę. Zmodernizowali sieć Hopfield, zasadniczo zmieniając ją w transformator. Ta zmiana pozwoliła modelowi przechowywać i odzyskiwać więcej wspomnień dzięki bardziej efektywnym połączeniom, powiedział Whittington. Sam Hopfield wraz z Dmitrijem Krotovem z MIT-IBM Watson AI Lab udowodnili, że sieć Hopfielda oparta na transformatorach jest biologicznie wiarygodna.

Następnie, wcześniej w tym roku, Whittington i Behrens pomogli w dalszym udoskonaleniu podejścia Hochreitera, modyfikując transformator tak, aby zamiast traktować wspomnienia jako ciąg liniowy — jak ciąg słów w zdaniu — zakodował je jako współrzędne w przestrzeniach wyższego wymiaru. Ten „skręt”, jak nazwali to naukowcy, jeszcze bardziej poprawił wydajność modelu w zadaniach neuronauki. Wykazali również, że model był matematycznie równoważny modelom wzorców odpalania komórek siatki, które neuronaukowcy widzą na skanach fMRI.

„Komórki siatkowe mają tego rodzaju ekscytującą, piękną, regularną strukturę i uderzające wzorce, które raczej nie pojawią się przypadkowo” – powiedział Caswell Barry, neurobiolog z University College London. Nowa praca pokazała, w jaki sposób transformatory odtwarzają dokładnie te wzorce obserwowane w hipokampie. „Uznali, że transformator może dowiedzieć się, gdzie jest oparty na poprzednich stanach i w jaki sposób jest poruszany, a także w sposób, który jest kluczem do tradycyjnych modeli komórek siatkowych”.

Inne niedawne prace sugerują, że transformatory mogą również pogłębić naszą wiedzę na temat innych funkcji mózgu. W zeszłym roku Martin Schrimpf, neurobiolog obliczeniowy z Massachusetts Institute of Technology, przeanalizował 43 różne modele sieci neuronowych aby zobaczyć, jak dobrze przewidzieli pomiary ludzkiej aktywności nerwowej, zgłoszone przez fMRI i elektrokortykografię. Odkrył, że transformatory są obecnie wiodącymi, najnowocześniejszymi sieciami neuronowymi, przewidującymi prawie wszystkie zmienności znalezione w obrazowaniu.

I Ha wraz z kolegą informatykiem Yujin Tang, niedawno zaprojektowali model, który może celowo przesyłać duże ilości danych przez transformator w losowy, nieuporządkowany sposób, naśladując sposób, w jaki ludzkie ciało przesyła obserwacje sensoryczne do mózgu. Ich transformator, podobnie jak nasze mózgi, mógłby z powodzeniem poradzić sobie z nieuporządkowanym przepływem informacji.

„Sieci neuronowe są okablowane na stałe, aby przyjąć określone dane wejściowe”, powiedział Tang. Ale w prawdziwym życiu zbiory danych często szybko się zmieniają, a większość sztucznej inteligencji nie ma możliwości dostosowania się. „Chcieliśmy poeksperymentować z architekturą, która mogłaby się bardzo szybko dostosować”.

Pomimo tych oznak postępu Behrens postrzega transformatory jako tylko krok w kierunku dokładnego modelu mózgu — a nie koniec poszukiwań. „Muszę być sceptycznym neurobiologiem” – powiedział. „Nie sądzę, aby transformatory były na przykład sposobem, w jaki myślimy o języku w mózgu, mimo że mają najlepszy obecny model zdań”.

„Czy jest to najskuteczniejsza podstawa do przewidywania tego, gdzie jestem i co zobaczę dalej? Jeśli mam być szczery, jest za wcześnie, żeby to stwierdzić — powiedział Barry.

Schrimpf również zauważył, że nawet najlepsze transformatory są ograniczone i działają dobrze na przykład w przypadku słów i krótkich fraz, ale nie w przypadku zadań językowych na większą skalę, takich jak opowiadanie historii.

„Mam wrażenie, że ta architektura, ten transformator, umieszcza cię we właściwej przestrzeni do zrozumienia struktury mózgu i można ją poprawić poprzez trening” – powiedział Schrimpf. „To dobry kierunek, ale dziedzina jest bardzo złożona”.

Znak czasu:

Więcej z Magazyn ilościowy