Introduksjon
På en solrik dag på slutten av 1987 kjørte en Chevy varebil ned en svingete skogkledd sti på campus ved Carnegie Mellon University i Pittsburgh. Det store kjøretøyet, kalt Navlab, var ikke kjent for sin skjønnhet eller hastighet, men for sin hjerne: Det var en eksperimentell versjon av et autonomt kjøretøy, ledet av fire kraftige datamaskiner (for sin tid) i lasterommet.
Først ingeniørene bak Navlab forsøkte å kontrollere kjøretøyet med en navigasjonsalgoritme, men som mange tidligere forskere fant de det vanskelig å redegjøre for det store spekteret av kjøreforhold med et enkelt sett med instruksjoner. Så de prøvde igjen, denne gangen ved å bruke en tilnærming til kunstig intelligens kalt maskinlæring: Varebilen ville lære seg selv å kjøre. En doktorgradsstudent ved navn Dean Pomerleau konstruerte et kunstig nevralt nettverk, laget av små logiske prosesseringsenheter ment å fungere som hjerneceller, og satte ut for å trene den med fotografier av veier under forskjellige forhold. Men å ta nok bilder til å dekke det enorme spekteret av potensielle kjøresituasjoner var for vanskelig for det lille teamet, så Pomerleau genererte 1,200 syntetiske veibilder på en datamaskin og brukte disse til å trene opp systemet. Den selvlærte maskinen kjørte like bra som alt annet forskerne kom på.
Navlab førte ikke direkte til noen store gjennombrudd innen autonom kjøring, men prosjektet viste kraften til syntetiske data for å trene AI-systemer. Etter hvert som maskinlæring steg fremover i de påfølgende tiårene, utviklet den en umettelig appetitt på treningsdata. Men data er vanskelig å få tak i: Det kan være dyrt, privat eller mangelvare. Som et resultat tyr forskere i økende grad til syntetiske data for å supplere eller til og med erstatte naturlige data for å trene nevrale nettverk. "Maskinlæring har lenge slitt med dataproblemet," sa Sergey Nikolenko, leder for AI hos Synthesis AI, et selskap som genererer syntetiske data for å hjelpe kunder med å lage bedre AI-modeller. "Syntetiske data er en av de mest lovende måtene å løse det problemet på."
Heldigvis, ettersom maskinlæring har blitt mer sofistikert, så har verktøyene for å generere nyttige syntetiske data.
Et område hvor syntetiske data viser seg å være nyttige, er å håndtere bekymringer om ansiktsgjenkjenning. Mange ansiktsgjenkjenningssystemer er trent med enorme biblioteker av bilder av ekte ansikter, noe som reiser spørsmål om personvernet til personene på bildene. Bias er også et problem, siden ulike populasjoner er over- og underrepresentert i disse bibliotekene. Forskere ved Microsofts Mixed Reality & AI Lab har taklet disse bekymringene, gi ut en samling av 100,000 500 syntetiske ansikter for trening av AI-systemer. Disse ansiktene er generert fra et sett på XNUMX personer som ga tillatelse til at ansiktene deres ble skannet.
Microsofts system tar elementer av ansikter fra det første settet for å lage nye og unike kombinasjoner, og legger deretter til visuell stil med detaljer som sminke og hår. Forskerne sier at datasettet deres spenner over et bredt spekter av etnisiteter, aldre og stiler. «Det er alltid en lang hale av menneskelig mangfold. Vi tror og håper vi fanger mye av det, sa vi Tadas Baltrušaitis, en Microsoft-forsker som jobber med prosjektet.
En annen fordel med de syntetiske ansiktene er at datamaskinen kan merke hver del av hvert ansikt, noe som hjelper det nevrale nettet å lære raskere. Ekte bilder må i stedet merkes for hånd, noe som tar mye lengre tid og aldri er like konsistente eller nøyaktige.
Resultatene er ikke fotorealistiske – ansiktene ser litt ut som karakterer fra en Pixar-film – men Microsoft har brukt dem til å trene ansiktsgjenkjenningsnettverk hvis nøyaktighet nærmer seg nøyaktigheten til nettverk som er trent på millioner av ekte ansikter.
Introduksjon
Datamaskiners evne til å generere nyttige syntetiske data har også forbedret seg i det siste, delvis på grunn av bedre GPUer – en type brikke designet for grafisk behandling som kan produsere mer realistiske bilder. Erroll Wood, en forsker hos Google som også hjalp til med å lage de syntetiske ansiktene, stolte på GPU-er for et øyesporingsprosjekt. Øyesporing er en vanskelig oppgave for datamaskiner, siden det innebærer å følge de små bevegelsene til øyne som ser annerledes ut under varierte lysforhold, selv i ekstreme vinkler med øyeeplet bare så vidt synlig. Normalt vil det ta tusenvis av bilder av menneskeøyne for en maskin å finne ut hvor en person ser – og disse bildene er vanskelige å få tak i og uoverkommelig dyre.
Woods team viste at en datamaskin drevet av en GPU og kjører Unity, en programvarepakke for å produsere videospill, kunne generere de nødvendige bildene – inkludert detaljerte refleksjoner av digitale bilder pakket rundt det buede, våte menneskelige øyeeplet. Det tok GPU-systemet bare 23 millisekunder å generere hvert bilde. (Faktisk tok hvert bilde faktisk bare 3.6 millisekunder å produsere; resten av tiden ble brukt til å lagre bildet.) Forskerne produserte 1 million øyebilder og brukte dem til å trene et nevralt nettverk, som presterte like bra som det samme nettverket trent på ekte bilder av menneskeøyne, for en brøkdel av prisen og på mye kortere tid. Som med Microsofts syntetiske ansikter, hadde øyesporingsnettverket fordel av datamaskinens evne til å bruke pikselperfekte etiketter på treningsbildene.
Forskere bruker også de nyeste AI-systemene for å lage dataene som trengs for å trene AI-systemer. I medisin, for eksempel, har et langvarig mål vært å skape et nevralt nettverk som kan tolke radiologiske bilder like godt som menneskelige radiologer kan. Men det er vanskelig å få de nødvendige dataene for å trene disse systemene, siden røntgen og CT-skanninger av ekte pasienter er privat helseinformasjon. Det er en byrde å få tilgang til de tusenvis eller millioner av bilder som er nødvendige for å trene opp en virkelig nøyaktig modell.
Tidligere i år, Hazrat Ali, en informatiker ved COMSATS University i Pakistan, beskrevet hans tidlige eksperimenter med DALL·E 2, en populær diffusjonsmodell, for å lage realistiske røntgen- og CT-bilder av lunger, inkludert representasjoner av spesifikke lungetilstander. Disse bildene kan deretter brukes til å trene et nevralt nettverk for å oppdage svulster og andre abnormiteter. Innen et år forventer han at diffusjonsmodeller vil sette en ny standard for AI-radiologiverktøy. "Når vi er i stand til å syntetisere mer realistiske MR-er, CT-er og kanskje ultralyd, vil dette øke hastigheten på forskning og til syvende og sist klinisk oversettelse, uten å vekke bekymring for pasienters personvern og datadeling."
Mens Navlab forsiktig rullet gjennom CMU-campus, trodde tilskuere sannsynligvis ikke at de så på fødselen til en viktig teknologi. Men den langsomme reisen bidro til å introdusere verden for syntetiske data, som har fått en nøkkelrolle i utviklingen av kunstig intelligens. Og den rollen kan bli virkelig viktig i fremtiden. "Syntetiske data er kommet for å bli," sa Marina Ivasic-Kos, en maskinlæringsforsker ved universitetet i Rijeka i Kroatia. "Sluttspillet er å fullstendig erstatte ekte data med syntetiske data."
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- EVM Finans. Unified Interface for desentralisert økonomi. Tilgang her.
- Quantum Media Group. IR/PR forsterket. Tilgang her.
- PlatoAiStream. Web3 Data Intelligence. Kunnskap forsterket. Tilgang her.
- kilde: https://www.quantamagazine.org/neural-networks-need-data-to-learn-even-if-its-fake-20230616/
- : har
- :er
- :hvor
- ][s
- $OPP
- 000
- 1
- 100
- 200
- 23
- 500
- a
- evne
- I stand
- Om oss
- adgang
- Logg inn
- nøyaktighet
- nøyaktig
- ACM
- faktisk
- adressering
- Legger
- Fordel
- en gang til
- Ages
- AI
- AI-systemer
- algoritme
- også
- alltid
- an
- og
- noen
- hva som helst
- appetitt
- Påfør
- tilnærming
- tilnærminger
- ER
- AREA
- rundt
- kunstig
- kunstig intelligens
- AS
- At
- autonom
- autonome kjøretøy
- BE
- Beauty
- bli
- vært
- bak
- benchmark
- Bedre
- Bias
- fødsel
- Brain
- hjerneceller
- gjennombrudd
- byrde
- men
- by
- som heter
- kom
- Campus
- CAN
- fange
- Cargo
- Carnegie Mellon
- Carnegie mellon universitet
- Celler
- tegn
- chip
- Klinisk
- CMU
- kombinasjoner
- Selskapet
- helt
- datamaskin
- datamaskiner
- bekymringer
- forhold
- konsistent
- kontroll
- kunne
- dekke
- skape
- Kroatia
- CT-skanninger
- I dag
- Kunder
- dato
- datasett
- datadeling
- dag
- tiår
- designet
- detaljert
- detaljer
- utviklet
- Utvikling
- gJORDE
- forskjellig
- vanskelig
- kringkasting
- digitalt
- direkte
- Mangfold
- ned
- stasjonen
- kjøring
- to
- hver enkelt
- Tidlig
- elementer
- ellers
- Ingeniører
- nok
- avgjørende
- Eter (ETH)
- Selv
- Hver
- eksempel
- forventer
- dyrt
- eksperimenter
- ekstrem
- øye
- øye sporing
- øyne
- Face
- ansiktsgjenkjenning
- ansikter
- ansikts
- ansiktsgjenkjenning
- Faktisk
- forfalskning
- raskere
- Først
- teft
- etter
- Til
- Forward
- funnet
- fire
- brøkdel
- fra
- framtid
- Games
- ga
- generere
- generert
- genererer
- genererer
- få
- GitHub
- mål
- skal
- GPU
- GPU
- oppgradere
- voksen
- Hår
- hånd
- Hard
- Ha
- he
- hode
- Helse
- helseinformasjon
- hjelpe
- hjulpet
- hjelper
- her.
- hans
- håp
- Hvordan
- Hvordan
- HTTPS
- stort
- menneskelig
- IEEE
- if
- bilde
- bilder
- viktig
- forbedret
- in
- Inkludert
- stadig
- informasjon
- innledende
- i stedet
- instruksjoner
- Intelligens
- introdusere
- innebærer
- saker
- IT
- DET ER
- selv
- reise
- bare
- nøkkel
- lab
- Etiketten
- etiketter
- Late
- siste
- føre
- LÆRE
- læring
- mindre
- bibliotekene
- Belysning
- i likhet med
- lite
- Lang
- langvarige
- lenger
- Se
- ser
- Lot
- Lunger
- maskin
- maskinlæring
- laget
- magazine
- større
- gjøre
- sminke
- mange
- Kan..
- ment
- medisin
- Mellon
- Microsoft
- millioner
- millioner
- minutt
- blandet
- blandet virkelighet
- modell
- modeller
- mer
- mest
- bevegelser
- film
- mye
- må
- oppkalt
- Naturlig
- Navigasjon
- nødvendig
- Trenger
- nødvendig
- nett
- nettverk
- nettverk
- neural
- nevrale nettverket
- nevrale nettverk
- aldri
- Ny
- normalt
- bemerkelsesverdig
- få
- of
- on
- ONE
- bare
- or
- Annen
- ut
- pakke
- Pakistan
- del
- banen
- pasienter
- Ansatte
- utført
- kanskje
- tillatelse
- bilde
- fotografier
- Fotorealistisk
- Bilder
- Bilder
- Pittsburgh
- Pixar
- plato
- Platon Data Intelligence
- PlatonData
- Populær
- populasjoner
- potensiell
- makt
- powered
- kraftig
- forrige
- pris
- privatliv
- privat
- sannsynligvis
- Problem
- prosessering
- produsere
- produsert
- prosjekt
- lovende
- Quantamagazin
- radiologi
- hever
- heve
- område
- ekte
- realistisk
- Reality
- nylig
- anerkjennelse
- Refleksjoner
- erstatte
- forskning
- forsker
- forskere
- REST
- resultere
- Resultater
- vei
- veier
- Rolle
- Valsede
- rennende
- Sa
- samme
- sier
- skanner
- Forsker
- sett
- deling
- Kort
- Vis
- siden
- enkelt
- situasjoner
- langsom
- liten
- So
- Software
- LØSE
- sofistikert
- spenn
- spesifikk
- fart
- brukt
- opphold
- Sliter
- Student
- senere
- supplere
- levere
- syntetisk
- syntetiske data
- system
- Systemer
- Ta
- tatt
- tar
- ta
- Oppgave
- lag
- Teknologi
- Det
- De
- Fremtiden
- verden
- deres
- Dem
- deretter
- Disse
- de
- Tenk
- denne
- dette året
- De
- tusener
- Gjennom
- tid
- til
- også
- tok
- verktøy
- Sporing
- Tog
- trent
- Kurs
- Oversettelse
- prøvd
- virkelig
- Turning
- typen
- Til syvende og sist
- etter
- underrepresenterte
- unik
- lomper
- enhet
- universitet
- brukt
- ved hjelp av
- ulike
- kjøretøy
- versjon
- video
- videospill
- synlig
- var
- se
- måter
- we
- webp
- VI VIL
- var
- hvilken
- HVEM
- hvem sin
- bred
- Bred rekkevidde
- med
- innenfor
- uten
- tre
- Arbeid
- arbeid
- verden
- ville
- Innpakket
- røntgen
- år
- zephyrnet