The Power Of Synthetic Images To Train AI Models

Republicat de Platon

Urmaritori: 0

Îmbunătățiți tehnologia și strategia de date a întreprinderii la Transformă anul 2021.

Inteligența artificială este gata să perturbe aproape fiecare industrie până la sfârșitul deceniului, cu promisiunea unei eficiențe sporite, profitabilitate mai mare și decizii de afaceri mai inteligente, bazate pe date.

Și totuși, așa cum Gartner a făcut publicitate, 85% dintre proiectele AI eșuează. Sunt citate în mod repetat patru bariere: aptitudinile personalului; calitatea datelor; caz de afaceri neclar; și securitate și confidențialitate. Un studiu de Dimensional Research a arătat că 96% dintre organizații au probleme cu calitatea și cantitatea datelor de instruire și că majoritatea proiectelor AI necesită mai mult de 100,000 de mostre de date pentru succes.

Securitatea datelor este un aspect din ce în ce mai important în aproape fiecare industrie. Legile privind confidențialitatea se extind rapid, ceea ce duce la o lipsă de seturi de date disponibile; chiar dacă există datele necesare pentru antrenarea modelelor AI, este posibil să nu fie disponibile din cauza cerințelor de conformitate.

Drept urmare, companiile caută acum modalități de a adopta AI fără seturi mari de date. Mai multe date nu sunt neapărat mai bune. Cheia sunt datele bune, nu doar datele mari.

Dar ce faci atunci când date bune pur și simplu nu sunt disponibile? Din ce în ce mai mult, întreprinderile descoperă că golul poate fi umplut cu date sintetice – o mișcare care promite să revoluționeze industria, permițând mai multor companii să folosească AI pentru a îmbunătăți procesele și a rezolva problemele de afaceri cu inteligența mașinii.

Date sintetice sunt date artificiale generate prin intermediul unui program de calculator în loc de evenimente din lumea reală. În mod ideal, datele sintetice sunt create dintr-o „sămânță” de date reale - câteva pozitive și negative false și câteva pozitive și negative adevărate. Apoi acele bucăți reale de date pot fi manipulate în diferite moduri pentru a crea setul de date sintetice suficient de bun și suficient de mare pentru a conduce la crearea de modele AI de succes.

Există mulți generatori de date sintetice pe piață pentru date structurate, cum ar fi Gretel, MOSTLY AI, Synthetic IO, Synthesized IO, Tonic și Open-source Synthetic Data Vault. Scikit-learn este o bibliotecă software gratuită de învățare automată pentru Python, cu unele capacități de generare de date sintetice. Pe lângă generatoarele de date sintetice, oamenii de știință de date pot efectua sarcina manual cu mai mult efort.

Rețele generative adverse (Gans) sunt un tip de rețea neuronală care generează copii realiste ale datelor reale. GAN-urile generează noi mostre în setul de date cu amestecarea și traducerea imaginilor. Acest tip de muncă necesită forță de muncă, dar oferă o modalitate de a rezolva provocările AI aparent de nerezolvat.

În timp ce mai multe generatoare de date sintetice în curs de dezvoltare există astăzi pe piață, de multe ori aceste instrumente „din cutie” fie sunt insuficiente pentru a rezolva problema fără personalizare semnificativă și/sau nu au capacitatea de a aborda seturi de date nestructurate - cum ar fi fotografiile și Videoclipuri.

Antrenarea unui model AI pentru un producător auto global cu date sintetice

Un proiect la care echipa mea a lucrat recent cu unul dintre cei mai mari trei producători de automobile din lume oferă un exemplu bun despre modul în care puteți implementa rapid date sintetice pentru a umple un gol de date.

Mai exact, acest exemplu arată cum să creați date sintetice atunci când datele sunt sub forma unei imagini. Datorită caracterului său nestructurat, manipularea imaginilor este mai complexă decât seturile de date structurate numerice sau bazate pe text.

Compania are un sistem de garanție a produselor care solicită clienților și dealerilor să trimită fotografii pentru a depune o cerere de garanție. Procesul de examinare manuală a milioanelor de trimiteri la garanție este consumator de timp și costisitor. Compania a vrut să folosească AI pentru a automatiza procesul: să creeze un model pentru a vedea fotografiile, să valideze simultan piesa în cauză și să detecteze anomalii.

Crearea unui model de date AI pentru a recunoaște automat produsul din fotografii și a determina valabilitatea garanției nu a fost o sarcină imposibilă. Captura: din motive de confidențialitate a datelor, setul de date disponibil a fost inaccesibil. În loc de zeci de mii de fotografii ale produselor pentru a antrena modelele AI, acestea au putut oferi doar câteva zeci de imagini.

Sincer, am simțit că este un spectacol. Fără un set de date considerabil, știința convențională a datelor s-a oprit.

Și totuși, acolo unde există voință, există o cale. Am început cu câteva zeci de imagini cu un amestec de exemple bune și rele și am replicat acele imagini folosind un instrument proprietar pentru date sintetice - inclusiv tehnici creative de filtrare, modificări ale schemei de colorare și modificări ale luminii - la fel cum face un designer de studio pentru a crea diferite efecte.

Una dintre provocările principale ale utilizării datelor sintetice este să ne gândim la fiecare scenariu posibil și să creați date în acele circumstanțe. Am început cu 30 până la 40 de imagini de garanție de la producătorul auto. Pe baza acestor câteva imagini furnizate cu exemple bune și rele, am putut crea false pozitive, false negative, adevărate pozitive și adevărate negative. Mai întâi am instruit modelul să recunoască piesa în cauză pentru garanție, apoi l-am antrenat să facă diferența între alte lucruri din imagine - de exemplu, diferența dintre strălucirea lentilei camerei și o zgârietură pe o roată.

Provocarea a fost că, pe măsură ce mergeam, lipseau valorile aberante. Când creați date sintetice, este important să vă opriți, să priviți setul de date complet și să vedeți ce ar putea fi necesar pentru a îmbunătăți succesul modelului în a prezice ceea ce este în fotografie. Aceasta înseamnă să luați în considerare fiecare variabilă posibilă, inclusiv unghiuri, iluminare, estompare, vizibilitate parțială și multe altele. Deoarece multe dintre fotografiile de garanție au fost făcute afară, a trebuit să luăm în considerare zilele înnorate, ploaia și alți factori de mediu și să le adăugăm și la fotografiile sintetice.

Am început cu o rată de succes de 70% de identificare a piesei potrivite și de a prezice dacă este bine sau rău și, prin urmare, dacă să aplicăm garanția. După manipularea ulterioară, modelul AI a devenit din ce în ce mai inteligent până când am atins o rată de precizie de peste 90%.

Rezultatul: în mai puțin de 90 de zile, clientul a avut o dovadă de concept bazată pe web care le-a permis să încarce orice imagine și să producă un răspuns da/nu dacă imaginea conținea partea corectă în cauză și un răspuns da/nu dacă o parte a eșuat de fapt. Un model AI a fost antrenat cu succes cu doar câteva zeci de date reale, iar golurile au fost completate cu date sintetice.

Inteligența artificială fără date devine majoră

Această poveste nu este exclusivă pentru producătorii auto. Lucrări interesante sunt în desfășurare pentru a revoluționa industriile de la asigurări și servicii financiare la îngrijirea sănătății, educație, producție și retail.

Datele sintetice nu fac datele reale irelevante sau inutile. Datele sintetice nu sunt un glonț de argint. Cu toate acestea, poate realiza două lucruri cheie:

Rapidează dovezile de concept pentru a înțelege viabilitatea acestora;
Accelerați antrenamentul modelului AI prin creșterea datelor reale.

Nu faceți greșeli: datele – și, mai important, datele unificate în întreaga întreprindere – sunt cheia avantajului competitiv. Cu cât sunt mai multe date reale antrenate printr-un sistem AI, cu atât devin mai inteligente.

Pentru multe întreprinderi de astăzi, fiecare proiect AI reprezintă milioane sau zeci de milioane de dolari și ani de efort. Cu toate acestea, dacă companiile pot valida dovezile de concept în luni - nu în ani - cu seturi limitate de date susținute cu date sintetice, costurile AI vor scădea radical, iar adoptarea AI se va accelera într-un ritm exponențial.

David Yunger este CEO al companiei de dezvoltare software și AI Vaital.

VentureBeat

Misiunea VentureBeat este de a fi o piață digitală pentru factorii de decizie tehnică pentru a dobândi cunoștințe despre tehnologia transformatoare și tranzacționează. Site-ul nostru oferă informații esențiale despre tehnologiile și strategiile de date pentru a vă ghida în timp ce vă conduceți organizațiile. Vă invităm să deveniți membru al comunității noastre, să accesați:

informații actualizate despre subiectele care vă interesează
buletinele noastre informative
conținut gandit de lider și acces redus la evenimentele noastre prețioase, cum ar fi Transformă anul 2021: Aflați mai multe
funcții de rețea și multe altele

Deveniți membru

Sursa: https://venturebeat.com/2021/05/30/the-power-of-synthetic-images-to-train-ai-models/

Timestamp-ul: 30 Mai, 2021