Sarcinile de lucru AI/ML au nevoie de securitate suplimentară

Republicat de Platon

Urmaritori: 0

Nevoia de securitate pătrunde în toate sistemele electronice. Dar, având în vedere creșterea calculului de învățare automată a centrelor de date, care se ocupă cu date extrem de valoroase, unele companii acordă o atenție deosebită gestionării în siguranță a acestor date.

Toate soluțiile obișnuite de securitate ale centrelor de date trebuie aplicate, dar este nevoie de un efort suplimentar pentru a se asigura că modelele și seturile de date sunt protejate atunci când sunt stocate, atât atunci când sunt transferate la și de la lame de accelerație, cât și atunci când sunt procesate pe un sistem care găzduiește mai mult de un chiriaș în același timp pe același server.

„Modelele de inferență, algoritmii de inferență, modelele de antrenament și seturile de date de antrenament sunt considerate drept proprietate intelectuală valoroasă și au nevoie de protecție – mai ales că aceste active valoroase sunt predate centrelor de date pentru procesare pe resurse partajate”, a declarat Bart Stevens, director senior de marketing de produse. pentru IP de securitate la Rambus, într-o prezentare recentă.

Orice modificare a datelor de antrenament AI poate duce la crearea unui model defect. Și orice modificare a unui model bine antrenat poate duce la tragerea de concluzii incorecte de către motorul AI. „Toate cele trei tipuri principale de învățare (supravegheată, nesupravegheată și de întărire) folosesc calcule ponderate pentru a produce un rezultat”, a spus Gajinder Panesar, coleg la Siemens EDA. „Dacă aceste ponderi sunt învechite, corupte sau modificate, atunci rezultatul poate fi un rezultat pur și simplu greșit.”

Implicațiile unui atac asupra unei sarcini de lucru AI vor depinde de aplicație, dar rezultatul nu va fi niciodată bun. Singura întrebare este dacă va cauza daune sau vătămări grave.

Deși atacurile reprezintă principalul obiectiv de protecție, ele nu sunt singurele domenii de îngrijorare. „Amenințările” se împart în două mari categorii – interferența intenționată a unui actor rău și problemele neintenționate, care în general pot fi considerate erori, fie în hardware, fie în software”, a spus Panesar.

Fundația de securitate
Există noțiuni fundamentale de securitate care se aplică oricărui mediu de calcul, iar computerul AI nu face excepție. Deși trebuie acordată o atenție deosebită anumitor aspecte ale sarcinii de lucru AI, nu doar această sarcină de lucru trebuie protejată. „Trebuie să ne gândim la integritatea funcționării întregului sistem, nu doar la un anumit cip sau subsistem pe cip cu care avem de-a face”, a spus Panesar.

După cum a subliniat Stevens, există patru aspecte ale securității care trebuie gestionate. În primul rând, datele și calcularea trebuie păstrate private. În al doilea rând, un atacator nu ar trebui să poată modifica datele oriunde și în orice moment. În al treilea rând, toate entitățile care participă la calcul trebuie să fie cunoscute ca fiind autentice. Și în al patrulea rând, nu ar trebui să fie posibil ca un atacator să interfereze cu funcționarea normală a platformei de calcul.

Acest lucru duce la câteva concepte de securitate de bază care sperăm că vor fi familiare oricui implicați în proiectarea unui sistem securizat. Prima dintre acestea este protecția datelor în trei faze:

1. Date în repaus, care includ orice date stocate;
2. Datele în mișcare pe măsură ce sunt comunicate dintr-un loc în altul și
3. Date în uz, care sunt active și vii în platforma de calcul pe măsură ce se lucrează.

O altă cerință familiară este mediul de execuție de încredere (TEE). Acesta este un mediu de calcul limitat la software de mare încredere și accesibil pentru restul platformei de calcul numai prin canale extrem de controlate și de încredere. Orice hardware critic sau alte active care nu pot fi compromise vor fi plasate în acest mediu și nu vor fi direct accesibile în afara TEE.

TEE oferă o modalitate fundamentală de a gestiona operațiunile critice de securitate într-un mod mult mai puțin supus interferențelor din partea software-ului extern. Menține software-ul aplicației separat de operațiunile de securitate de nivel inferior. De asemenea, gestionează procesul de pornire pentru a se asigura că se desfășoară în siguranță și fiabil, prinzând orice încercare de a porni codul neautentic.

Există o gamă largă de operațiuni necesare pentru calcularea securizată. Autentificarea asigură că entitățile cu care se comunică sunt cu adevărat cine spun că sunt. Criptarea protejează datele de privirile indiscrete. Software-ul și alte artefacte de date pot avea garanție pentru proveniența lor prin operațiuni de hashing și semnare. Și toate aceste funcții necesită chei suficient de puternice pentru a proteja împotriva hacking-ului cu forță brută, ceea ce face ca furnizarea și gestionarea eficientă a cheilor să fie esențială.

Protecții suplimentare sunt asigurate prin asigurarea faptului că TEE-urile și alte circuite de securitate critice sunt protejate împotriva încercărilor fie de a pătrunde sau de a întrerupe funcționarea. Canalele laterale trebuie protejate pentru a se asigura că nu există nicio modalitate de a căuta date sau chei prin măsurarea artefactelor electronice detectabile extern, cum ar fi puterea sau radiația electromagnetică.

Și, în sfârșit, un alt nivel de protecție poate fi asigurat de circuite care monitorizează evenimentele interne pentru a atrage o alertă dacă ceva suspect pare să se întâmple.

Aplicând acest lucru în mod specific AI
Menținerea în siguranță a încărcăturilor de lucru AI începe cu aceste cerințe de securitate de bază, fie că se antrenează sau se deduce, fie că se face acest lucru într-un centru de date, un server local sau în echipamente de vârf. Dar există considerații suplimentare specifice sarcinilor de lucru AI care trebuie luate în considerare.

„Implementările AI securizate sunt necesare pentru a preveni extragerea sau furtul algoritmilor de inferență, modelelor și parametrilor, algoritmilor de antrenament și seturi de antrenament”, a explicat Stevens. „Acest lucru ar însemna și prevenirea înlocuirii neintenționate a acestor active cu algoritmi sau seturi de date rău intenționate. Acest lucru ar evita otrăvirea sistemului pentru a modifica rezultatele inferenței, provocând o clasificare greșită.”

Noile arhitecturi hardware de procesare AI oferă o altă parte a sistemului care are nevoie de protecție. „Inima sistemului este, evident, gama de cipuri acceleratoare puternice, variind de la o mână până la o matrice mare de unități de procesare AI dedicate, cu propriul pool de memorie și cu o singură sarcină, care este să proceseze cât mai multe date posibil în cel mai scurt interval de timp”, a remarcat Stevens.

Designerii trebuie mai întâi să țină cont de activele specifice care au nevoie de protecție. Cel mai evident este hardware-ul de antrenament sau de inferență. „În mod obișnuit, pe blade se vede un procesor gateway, cu un flash dedicat și DDR”, a spus Stevens. „Sarcina sa este să gestioneze modelele, să adauge activele. și controlul acceleratoarelor. Apoi există conexiunea la țesătură — o rețea de mare viteză sau interfețe PCIe-4 sau -5. Unele lame au, de asemenea, legături proprii între lame.”

Fig. 1: Un blade AI generalizat pentru un centru de date. Pe lângă procesorul obișnuit, memoria dinamică și conexiunea la rețea, acceleratoarele vor face munca grea, asistate de SRAM intern. Sursa: Rambus

În plus, există diferite tipuri de date care trebuie protejate, iar acestea depind de operațiunea de antrenament sau de inferență. Când antrenați un model, eșantioanele de date de antrenament și modelul de bază care este antrenat trebuie protejate. Atunci când se deduce, modelul antrenat, toate ponderile, datele de intrare și rezultatele de ieșire au nevoie de protecție.

Din punct de vedere operațional, aceasta este o zonă nouă, care evoluează rapid și, prin urmare, este probabilă depanarea. Orice depanare trebuie efectuată în siguranță - și orice capabilități de depanare trebuie să fie oprite atunci când nu sunt utilizate autentificate.

Iar modificările la cod sau la oricare dintre celelalte active trebuie să fie livrate în actualizări bine securizate. În special, este probabil ca modelele să se îmbunătățească în timp. Așadar, trebuie să existe o modalitate de a înlocui versiunile vechi cu altele mai noi, fără a permite în același timp nici unei persoane neautorizate să înlocuiască un model valabil cu unul neautentic.

„Actualizările securizate de firmware, precum și capacitatea de a putea depana sistemul într-un mod sigur, devin mize de masă în aceste zile”, a menționat Stevens.

Riscuri de încălcare a datelor
Este destul de evident că datele trebuie protejate împotriva furtului. Orice astfel de furt este în mod clar o încălcare a confidențialității, dar ramificațiile acestuia sunt și mai grave acolo unde sunt implicate reglementările guvernamentale. Exemple de astfel de reglementări sunt regulile GDPR din Europa și regulile de îngrijire a sănătății HIPAA din Statele Unite.

Dar, pe lângă furtul total, este și manipularea datelor. Datele de antrenament, de exemplu, ar putea fi modificate fie ca un mijloc de a descoperi un secret, fie pur și simplu pentru a otrăvi antrenamentul, astfel încât modelul rezultat să funcționeze prost.

O mare parte din calcul – mai ales atunci când antrenați un model – va avea loc într-un centru de date, iar asta poate implica servere multi-chiriași pentru operare cu costuri mai mici. „Mai multe companii și echipe se bazează pe resurse de cloud computing partajate dintr-o varietate de motive, mai ales pentru scalabilitate și cost”, a observat Dana Neustadter, manager senior de marketing de produse pentru securitate IP la Synopsys.

Asta înseamnă mai multe joburi care coexistă pe același hardware. Și totuși, acele joburi trebuie să se execute nu mai puțin sigur decât dacă ar fi pe servere separate. Ele trebuie izolate de software într-o manieră care să împiedice orice - date sau altfel - să se scurgă de la un job la altul.

„Mutarea computerului în cloud poate aduce potențiale riscuri de securitate atunci când sistemul nu mai este sub controlul dumneavoastră”, a spus Neustadter. „Fie că sunt greșite sau rău intenționate, datele unui utilizator pot fi malware-ul altui utilizator. Utilizatorii trebuie să aibă încredere în furnizorul de cloud pentru a îndeplini standardele de conformitate, pentru a efectua evaluări ale riscurilor, pentru a controla accesul utilizatorilor și așa mai departe.”

Containerizarea ajută de obicei la izolarea proceselor într-un mediu cu mai mulți chiriași, dar este totuși posibil ca un proces necinstit să îi afecteze pe alții. „O problemă care cauzează ca o aplicație să obțină resurse de procesare poate afecta alți chiriași”, a menționat Panesar. „Acest lucru este deosebit de important în medii critice, cum ar fi raportarea medicală sau oriunde chiriașii au un SLA (acord de nivel de serviciu) obligatoriu.”

În cele din urmă, deși s-ar putea să nu afecteze rezultatul specific al unui calcul sau confidențialitatea datelor, operațiunile din centrul de date trebuie să se asigure că operațiunile administrative sunt protejate de manipulare. „De asemenea, securitatea ar trebui să fie prezentă pentru a asigura facturarea corectă a serviciilor și pentru a preveni utilizarea neetică, cum ar fi profilarea rasială”, a subliniat Stevens.

Noile standarde vor ajuta dezvoltatorii să se asigure că acopera toate bazele necesare.

„Industria dezvoltă standarde precum securitatea interfeței PCIe, PCI-SIG conducând la o specificație de integritate și criptare a datelor (IDE), completată de măsurarea și autentificarea componentelor (CMA) și I/O pentru mediu de execuție de încredere (TEE-I/). O),” a spus Neustadter. „Protocolul de securitate al interfeței dispozitivului atribuibil (ADISP) și alte protocoale extind capacitățile de virtualizare ale mașinilor virtuale de încredere utilizate pentru a menține încărcăturile de lucru confidențiale izolate de mediile de găzduire, susținute de autentificare puternică și management al cheilor.”

Fig. 2: Calculul AI implică o serie de active și fiecare are nevoi specifice de securitate. Sursa: Rambus

Fig. 2: Calculul AI implică o serie de active și fiecare are nevoi specifice de securitate. Sursa: Rambus

Implementarea protectiei
Având în vedere un mediu de calcul AI tipic, există mai mulți pași care trebuie luați pentru a bloca operațiunile. Încep cu un hardware rădăcină de încredere (HRoT).

Un HRoT este un mediu de încredere, opac, în care pot fi efectuate operațiuni securizate precum autentificarea și criptarea fără a expune cheile sau alte secrete utilizate. Ar putea fi o componentă critică a unui TEE. Ele sunt de obicei asociate cu un procesor într-o arhitectură clasică, dar aici există de obicei mai mult de un element de procesare.

În special, cipurile hardware mai noi dedicate procesării AI nu au capabilități integrate de root-of-trust. „Multe proiecte recente de accelerare AI/ML – în special ale startup-urilor – s-au concentrat în principal pe obținerea celei mai optime procesări NPU la bord”, a explicat Stevens într-un interviu ulterioar. „Securitatea nu a fost punctul central sau nu era pe radarul lor.”

Asta înseamnă că un sistem va trebui să furnizeze un HRoT în altă parte și există câteva opțiuni pentru asta.

O abordare, care se concentrează pe datele în uz, este de a oferi fiecărui element de calcul — cip gazdă și cip accelerator, de exemplu — propriul HRoT. Fiecare HRoT își va manipula propriile chei și va efectua operațiuni la direcția procesorului său asociat. Ele pot fi integrate monolitic pe SoC-uri, deși nu este cazul în prezent pentru procesoarele neuronale.

Cealaltă opțiune, care se concentrează pe datele în mișcare, este de a oferi un HRoT la conexiunea de rețea pentru a se asigura că toate datele care intră pe placă sunt curate. „Pentru datele în mișcare, cerințele de debit sunt extrem de mari, cu cerințe de latență foarte scăzute”, a spus Stevens. „Sistemele folosesc chei efemere, deoarece funcționează de obicei cu chei de sesiune.”

„Pentru autentificare, o lamă ar trebui să obțină un numar de identificare, care nu trebuie ținut neapărat secret”, a continuat el. „Trebuie doar să fie unic și imuabil. Pot fi mai multe ID-uri, unul pentru fiecare cip sau unul pentru lama sau aparatul în sine.”

Este posibil ca aceste HRoT externe să nu fie necesare atunci când securitatea este construită în viitoarele unități de procesare neuronală (NPU). „În cele din urmă, când dovezile inițiale ale conceptului NPU ale startup-urilor s-au dovedit a fi de succes, arhitectura celei de-a doua versiuni a acestor design-uri va avea în ele capacități de încredere, care vor avea mai multe capacități criptografice pentru a gestiona sarcinile mai mari de lucru.” a adăugat Stevens.

Datele care se deplasează de la SRAM la DRAM, sau invers, ar trebui, de asemenea, să fie criptate pentru a se asigura că nu pot fi căutate. Același lucru s-ar aplica oricărei conexiuni laterale directe la o placă vecină.

Cu atâta criptare încorporată într-un calcul deja intens, riscăm să blochezi operațiunea. Operarea sigură este critică, dar nu servește nimănui dacă paralizează operațiunea în sine.

„Legătura de rețea sau PCI Express la fabrică ar trebui să fie protejată prin inserarea unui motor de pachete de securitate L2 sau L3 de înaltă performanță”, a adăugat Stevens. „Un astfel de motor de pachete necesită puțin suport din partea procesorului.”

Acest lucru se poate aplica și pentru memorie și criptarea traficului blade-to-blade. „Conținutul gateway-ului CPU DDR și al acceleratorului GDDR local AI poate fi protejat de un motor de criptare a memoriei inline”, a spus el. „Dacă există un canal lateral dedicat de la lamă la lamă, acesta poate fi protejat de AES-GCM de mare performanță [Mod Galois/Counter] acceleratoare de criptare a legăturilor.”

În cele din urmă, protecțiile standard de securitate pot fi susținute de o monitorizare continuă care urmărește funcționarea efectivă. „Trebuie să aduni informații din hardware care să îți spună cum se comportă sistemul”, a spus Panesar. „Acest lucru trebuie să fie statistic în timp real, instantaneu și pe termen lung. De asemenea, trebuie să fie ușor de înțeles (fie de către un om, fie de către o mașină) și să poată fi acționat. Datele despre temperatură, tensiune și sincronizare sunt toate foarte bune, dar aveți nevoie și de informații de nivel superior, mai sofisticate.”

Dar acest lucru nu înlocuiește securitatea riguroasă. „Scopul este de a identifica problemele care ar putea evita protecțiile de securitate convenționale – dar nu este un substitut pentru o astfel de protecție”, a adăugat el.

Muncă grea înainte
Aceste elemente nu sunt neapărat simplu de implementat. Asta necesită muncă grea. „Reziliența, capacitatea de a actualiza în siguranță un sistem și capacitatea de a vă recupera după un atac de succes sunt provocări reale”, a menționat Mike Borza, arhitect IP de securitate la Synopsys. „Construirea unor astfel de sisteme este foarte, foarte grea.”

Dar, pe măsură ce calculul AI devine din ce în ce mai de rutină, inginerii care nu sunt specialiști în modelarea datelor sau în securitate se vor îndrepta din ce în ce mai mult către serviciile ML pe măsură ce folosesc AI în aplicațiile lor. Ei trebuie să poată conta pe infrastructură, având grijă de datele lor importante, astfel încât modelele și calculele pe care le vor folosi pentru a-și diferenția produsele să nu ajungă pe mâini greșite.

Legate de
Compensații de securitate în cipuri și sisteme AI
Experții de la masă: Cum afectează securitatea puterea și performanța, de ce sistemele AI sunt atât de greu de securizat și de ce confidențialitatea este un aspect din ce în ce mai mare.
Biți de cercetare de securitate
Noi lucrări tehnice de securitate prezentate la Simpozionul de securitate USENIX din 21 august.
Întotdeauna activat, întotdeauna în pericol
Preocupările privind securitatea cipurilor cresc odată cu mai multe elemente de procesare, trezire automată, actualizări over-the-air și conectivitate mai mare.
Centru de cunoștințe de securitate
Povești de top, cărți albe, bloguri, videoclipuri despre securitatea hardware
Centrul de cunoștințe AI

Sursa: https://semiengineering.com/ai-ml-workloads-need-extra-security/

Timestamp-ul: Noiembrie 15, 2021