AI-driven kreativitet ger övermäktiga datorer äntligen något värt att göra

Källnod: 1729591

Kolumn Tills nyligen verkade persondatorhårdvara ha sprungit förbi alla krav som programvara kan ställa på den. Till och med avancerade spel – traditionellt sett i framkant när det gäller användarkrav på prestanda – beskattade knappt det massivt övermäktiga kisel av högsta kvalitet som finns tillgängligt. Sedan kom AI-konsten.

Apples M1 Ultra-mikroprocessor har ett transistorantal norr om 100 miljarder. Nvidia har precis släppt sin flaggskepp RTX 4090 GPU, med 76 miljarder transistorer – en trefaldig ökning jämfört med föregående generation, produkten av den senaste processnoden och en jävla mån om attityd till strömförbrukning. Nästan 500W TDP? Sätt igång det och värm upp ditt hem i vinter.

Men i vilket syfte? En 300 fps Fortnite Battle Royale? I april Jag skrev: "Dessa monster måste tämjas, tränas och sättas i arbete." Tekniken avskyr ett vakuum – fyra decennier inom området har lärt mig det. Där det finns kapacitet, kommer något att anställa den.

Den andra skon tappade i början av september, då HuggingFace AI – ett privat företag som skapar mjukvaruverktyg som utnyttjar banbrytande tekniker för artificiell intelligens – släpptes Stabil diffusion.

Liknar system som DALL•E och midjourney, Stable Diffusion hamnar upp och reducerar sedan miljarder bilder till symboliskt viktade tokens som kan trollas tillbaka till synlighet med en lämpligt utformad textprompt. Det hela sitter bara på den här sidan av häxkonsten – men det fungerar anmärkningsvärt bra.

Till skillnad från DALL•E eller Midjourney är Stable Diffusion både helt fristående – kan köras på vilken kraftfull maskin som helst – och ren FOSS. Detta innebar att även om den initiala utgåvan krävde några av Nvidias högsta GPU:er, hade projektbidragsgivare inom en vecka strippade tillbaka dess kod och minskade dess hårdvarukrav. Den nuvarande versionen kan köras ganska bekvämt på den biffiga PC som jag köpte för sex år sedan för att utforska den nyfödda världen av virtuell verklighet – såväl som på i stort sett vilken M1-baserad Mac som helst. Många speldatorer och bärbara datorer kan köra Stable Diffusion tillräckligt bra för att använda den för projektbaserade kreativa behov – eller bara för skojs skull.

Sedan en grupp forskare publicerade ett papper på något de kallade Dreamfusion – som kan trolla fram en oändlig serie av fullt realiserade 3D-modeller från textuppmaningar. Skriv in pineapple, och datorn kommer att tänka efter och sedan generera sin bästa uppskattning av hur den modellen ska se ut. Även om den gruppen ännu inte har släppt sin kod, gav tidningen tillräckligt med en ritning för en ambitiös kodare att anpassa den stabila diffusionskodbasen för att skapa Stabil Dreamfusion – vilket återigen kräver ganska kraftfull hårdvara.

En bild producerad av Stable Diffusion från textuppmaningen 'En robot som målar en bild medan du springer på ett löpband' … Klicka för att förstora

En annan grupp vid Tel Aviv-universitetet förvånade världen med det för att inte överträffas Mänsklig rörelsediffusionsmodell. Den här artikeln visade hur forskare hade använt diffusionsbaserade AI-tekniker för att konvertera en prompt som "the person walks forward two steps and does a cartwheel” till en humaniform animation. En vecka senare, forskarna själva släppte sin kod som FOSS.

Vi är fortfarande lite tidigt i denna exponentiella tillväxt av AI-kapacitet för att veta vart något av det kommer att leda. Redan har både Canva och Microsoft integrerat promptbaserade bildgeneratorer i sina kreativa verktyg. Meta, Google, och andra har demonstrerat proprietära prompt-to-video-generatorer. Med nuvarande trend behöver vi inte vänta länge tills vi har FOSS-motsvarigheter att spela med.

Bildkonsten har kraftfulla nya verktyg som inte är den exklusiva domänen för jättar som Google eller OpenAI – det senare ett företag som lovade att demokratisera AI vid sin grund, men perverst verkar ha fokuserat på att skapa sitt eget proprietära imperium med Microsoft som sin inofficiell ägare.

I en av mina första kolumner för Registret jag pekade på änden av den ändlösa uppgraderingscykeln för datorer. Inget mer löpband: bra nog, de skulle bara bytas ut när de var utslitna. Med undantag för en uppsjö av uppgraderingar att ta emot pandemidrivna videokonferenser den förutsägelsen har visat sig korrekt.

Men persondatorn har tappat skinnet och avslöjar sin snygga nya form som en kreativ superdator: diffusionsdriven och kreativt kapabel på ett sätt som den gamla datorn inte kunde börja närma sig. Istället för att erbjuda en ny penna eller pensel skapar dessa kvalitativt annorlunda verktyg en ny typ av kreativt partnerskap.

I juni köpte jag en bärbar dator med hög specifikation – och kände mig direkt skyldig för det och trodde att jag aldrig riktigt skulle få den att fungera. Idag utnyttjar jag till fullo en maskin som kan göra både det mesta och det otroliga. I efterhand ser det köpet ut som ett smart fynd – ett förebud om en sann renässans – när datorn, återfödd, börjar fungera. ®

Tidsstämpel:

Mer från Registret