Kreatywność napędzana sztuczną inteligencją daje potężnym komputerom coś, co w końcu się opłaca

Węzeł źródłowy: 1729591

Kolumna Do niedawna wydawało się, że sprzęt komputerowy przerósł wszelkie wymagania, jakie oprogramowanie mogło mu narzucić. Nawet gry z najwyższej półki – tradycyjnie wiodące wymagania użytkowników w zakresie wydajności – ledwo obciążyły potężny, najwyższej klasy układ krzemowy. Potem pojawiła się sztuka AI.

Mikroprocesor Apple M1 Ultra ma liczbę tranzystorów na północ od 100 miliardów. Nvidia właśnie wydała swój flagowy procesor graficzny RTX 4090, z 76 miliardami tranzystorów – trzykrotny wzrost w porównaniu z poprzednią generacją, produktem najnowszego węzła procesowego i bezwzględnym podejściem do zużycia energii. Prawie 500W TDP? Podkręć go i ogrzej swój dom tej zimy.

Ale w jakim celu? Bitwa królewska w Fortnite z szybkością 300 klatek na sekundę? W kwietniu Pisałem: „Te potwory trzeba oswoić, wyszkolić i zmusić do pracy”. Technologia nie znosi próżni – nauczyły mnie tego cztery dekady w tej dziedzinie. Tam, gdzie jest pojemność, pojawi się coś, co ją wykorzysta.

Ten drugi but spadł na początku września, kiedy Przytulanie twarzy AI – prywatna firma tworząca narzędzia programowe wykorzystujące najnowocześniejsze techniki sztucznej inteligencji – wydana Stabilna dyfuzja.

Podobny do systemów takich jak DALL•E i W połowie drogi, Stabilna dyfuzja przesuwa się, a następnie redukuje miliardy obrazów do symbolicznie ważonych tokenów, które można przywrócić do widoczności za pomocą odpowiednio spreparowanego monitu tekstowego. Całość znajduje się właśnie po tej stronie czarów – a jednak działa wyjątkowo dobrze.

W przeciwieństwie do DALL•E lub Midjourney, Stable Diffusion jest zarówno całkowicie samowystarczalny – może działać na każdej wystarczająco wydajnej maszynie – jak i czystym FOSS. Oznaczało to, że chociaż początkowa wersja wymagała niektórych z najwyższej klasy procesorów graficznych Nvidii, w ciągu tygodnia współtwórcy projektu mieli odebrano mu swój kod i zmniejszyły wymagania sprzętowe. Obecna wersja może działać całkiem wygodnie na potężnym komputerze, który kupiłem sześć lat temu, aby odkrywać nowo odrodzony świat wirtualnej rzeczywistości – a także na prawie każdym Macu opartym na M1. Wiele komputerów i laptopów do gier może obsługiwać stabilną dyfuzję na tyle dobrze, aby używać go do kreatywnych potrzeb związanych z projektami – lub po prostu dla zabawy.

Następnie grupa badaczy opublikował artykuł na czymś, co nazwali Dreamfusion – zdolnym do wyczarowania nieskończonej serii w pełni zrealizowanych modeli 3D z podpowiedzi tekstowych. Wpisz pineapple, a komputer pomyśli, a następnie wygeneruje najlepsze przybliżenie tego, jak ten model powinien wyglądać. Chociaż ta grupa nie wydała jeszcze swojego kodu, artykuł dostarczył wystarczającego planu dla ambitnego programisty, który zaadaptował bazę kodu Stable Diffusion w celu stworzenia Stabilna fuzja snów – co znowu wymaga dość mocnego sprzętu.

Obraz wyprodukowany przez Stable Diffusion z monitu tekstowego „Robot malujący obraz podczas biegania na bieżni”… Kliknij, aby powiększyć

Aby nie zostać gorszym, inna grupa na Uniwersytecie w Tel Awiwie zadziwiła świat Model dyfuzji ruchu człowieka. Ten artykuł pokazał, w jaki sposób naukowcy wykorzystali techniki sztucznej inteligencji opartej na dyfuzji, aby przekonwertować monit, taki jak „the person walks forward two steps and does a cartwheel” w humanoidalną animację. Tydzień później sami badacze wydali swój kod jako FOSS.

Nadal jesteśmy trochę wcześnie w tym wykładniczym rozwoju możliwości sztucznej inteligencji, aby wiedzieć, dokąd to wszystko doprowadzi. Już teraz zarówno Canva, jak i Microsoft zintegrowały w swoich kreatywnych narzędziach generatory obrazów oparte na podpowiedziach. Meta, Google, a inni zademonstrowali własne generatory zachęt do wideo. Zgodnie z obecnym trendem nie będziemy musieli długo czekać, aż będziemy mieli odpowiedniki FOSS do zabawy.

Sztuki wizualne mają potężne nowe narzędzia, które nie są wyłączną domeną gigantów takich jak Google czy OpenAI – ta ostatnia firma, która od samego początku obiecywała demokratyzację AI, ale przewrotnie wydaje się, że skupiła się na stworzeniu własnego imperium z Microsoft jako swoim nieoficjalny właściciel.

W jednym z moich pierwszych felietonów dla Rejestr wskazałem na koniec niekończącego się cyklu aktualizacji dla komputerów PC. Nigdy więcej bieżni: wystarczy, że zostaną wymienione tylko wtedy, gdy się zużyją. Z wyjątkiem mnóstwa ulepszeń, aby pomieścić wideokonferencje wywołane pandemią ta prognoza się sprawdziła.

Ale komputer osobisty zrzucił skórę, odsłaniając nową, zgrabną formę kreatywnego superkomputera: napędzanego dyfuzją i zdolnego twórczo w sposób, w jaki stary komputer PC nie mógł się do niego zbliżyć. Zamiast oferować nowy rysik lub pędzel, te jakościowo różne narzędzia tworzą nowy rodzaj kreatywnego partnerstwa.

W czerwcu dokonałem zakupu wysokiej klasy laptopa do komputera PC – i od razu poczułem się winny, myśląc, że nigdy tak naprawdę nie wykorzystam go do pracy. Dziś w pełni wykorzystuję maszynę, która potrafi robić zarówno codzienność, jak i to, co niewiarygodne. Z perspektywy czasu ten zakup wygląda jak sprytna okazja – zwiastun prawdziwego renesansu – gdy odrodzony PC zaczyna działać. ®

Znak czasu:

Więcej z Rejestr