AI/ML-arbejdsbelastninger kræver ekstra sikkerhed

Genudgivet af Platon

Abonnenter: 0

Behovet for sikkerhed gennemsyrer alle elektroniske systemer. Men i betragtning af væksten i datacenter-maskinlæringscomputere, som omhandler ekstremt værdifulde data, er nogle virksomheder særlig opmærksomme på at håndtere disse data sikkert.

Alle de sædvanlige datacentersikkerhedsløsninger skal bringes i anvendelse, men der er behov for en ekstra indsats for at sikre, at modeller og datasæt er beskyttet, når de opbevares, både når de overføres til og fra acceleratorblade, og når de behandles på et system, der hoster mere end én lejer på samme tid inden for samme server.

"Inferensmodeller, inferensalgoritmer, træningsmodeller og træningsdatasæt betragtes som værdifuld intellektuel ejendom og har brug for beskyttelse - især da disse værdifulde aktiver afleveres til datacentre til behandling på delte ressourcer," sagde Bart Stevens, seniordirektør for produktmarketing for sikkerheds-IP på Rambus, i en nylig præsentation.

Enhver manipulation med AI-træningsdata kan forårsage oprettelse af en defekt model. Og enhver ændring af en veltrænet model kan resultere i, at AI-motoren drager forkerte konklusioner. "Alle tre hovedtyper af læring (overvåget, uovervåget og forstærkning) bruger vægtede beregninger til at producere et resultat," sagde Gajinder Panesar, stipendiat ved Siemens EDA. "Hvis disse vægtninger er forældede, korrupte eller manipuleret med, så kan resultatet blive et resultat, der simpelthen er forkert."

Implikationerne af et angreb på en AI-arbejdsbelastning vil afhænge af applikationen, men resultatet bliver aldrig godt. Spørgsmålet er kun, om det vil forårsage alvorlig skade eller skade.

Selvom angreb er hovedfokus for beskyttelse, er de ikke de eneste bekymringsområder. "Truslerne" falder i to brede kategorier - bevidst indblanding fra en dårlig skuespiller og utilsigtede problemer, som generelt kan opfattes som fejl, enten i hardwaren eller softwaren," sagde Panesar.

Sikkerhedsgrundlaget
Der er grundlæggende sikkerhedsbegreber, der gælder for ethvert computermiljø, og AI computing er ingen undtagelse. Selvom der skal lægges særlig vægt på visse aspekter af en AI-arbejdsbyrde, er det ikke kun den arbejdsbyrde, der skal beskyttes. "Vi er nødt til at tænke på integriteten af driften af hele systemet, ikke kun den særlige chip eller on-chip subsystem, vi har med at gøre," sagde Panesar.

Som beskrevet af Stevens er der fire aspekter af sikkerhed, der skal håndteres. For det første skal data og computere holdes private. For det andet bør det ikke være muligt for en hacker at ændre nogen af dataene hvor som helst til enhver tid. For det tredje skal alle enheder, der deltager i databehandlingen, være kendt for at være autentiske. Og for det fjerde burde det ikke være muligt for en angriber at forstyrre den normale drift af computerplatformen.

Dette fører til nogle grundlæggende sikkerhedskoncepter, som forhåbentlig vil være velkendte for alle, der er involveret i design af sikre systemer. Den første af disse er beskyttelsen af data i tre faser:

1. Data i hvile, som omfatter alle lagrede data;
2. Data i bevægelse, når de kommunikeres fra et sted til et andet, og
3. Data i brug, som er aktiv og levende i computerplatformen, mens der arbejdes på dem.

Endnu et velkendt krav er det betroede eksekveringsmiljø (TEE). Dette er et computermiljø begrænset til højt betroet software og kun tilgængeligt for resten af computerplatformen gennem stærkt kontrollerede og betroede kanaler. Enhver kritisk hardware eller andre aktiver, der ikke kan kompromitteres, vil blive placeret i dette miljø og vil ikke være direkte tilgængelige uden for TEE.

TEE giver en grundlæggende måde at håndtere kritiske sikkerhedsoperationer på på en måde, der er langt mindre udsat for interferens fra ekstern software. Det holder applikationssoftware adskilt fra sikkerhedsoperationer på lavere niveau. Den styrer også opstartsprocessen for at sikre, at den forløber sikkert og pålideligt, og fanger alle forsøg på at starte uægte kode.

Der kræves en bred vifte af operationer for sikker databehandling. Autentificering sikrer, at enheder, som man kommunikerer med, virkelig er dem, de siger, de er. Kryptering beskytter data mod nysgerrige øjne. Software og andre dataartefakter kan få deres oprindelse garanteret ved hash- og signeringsoperationer. Og alle disse funktioner kræver nøgler med tilstrækkelig styrke til at beskytte mod brute force hacking, og det gør effektiv nøgleforsyning og -administration afgørende.

Yderligere beskyttelse er tilvejebragt ved at sikre, at TEE'er og andre kritiske sikkerhedskredsløb er beskyttet mod forsøg på enten at bryde ind eller forstyrre driften. Sidekanaler skal beskyttes for at sikre, at der ikke er mulighed for at snoope data eller nøgler ved at måle eksternt detekterbare elektroniske artefakter som strøm eller elektromagnetisk stråling.

Og endelig kan der ydes et yderligere beskyttelseslag af kredsløb, der overvåger de interne handlinger for at give en alarm, hvis noget mistænkeligt ser ud til at være på vej.

Anvender dette specifikt til AI
At holde AI-arbejdsbelastninger sikre starter med disse grundlæggende sikkerhedskrav, uanset om det er træning eller udledning, og uanset om det gøres i et datacenter, en lokal server eller i edge-udstyr. Men der er yderligere overvejelser, der er specifikke for AI-arbejdsbelastninger, der skal tages i betragtning.

"Sikker AI-implementering er påkrævet for at forhindre udtrækning eller tyveri af inferensalgoritmer, modeller og parametre, træningsalgoritmer og træningssæt," forklarede Stevens. "Dette ville også betyde at forhindre utilsigtet udskiftning af disse aktiver med ondsindede algoritmer eller datasæt. Dette ville undgå at forgifte systemet for at ændre slutningsresultaterne, hvilket forårsager forkert klassificering."

De nye AI-behandlingshardwarearkitekturer giver en anden del af systemet, der har brug for beskyttelse. "Hjertet i systemet er naturligvis rækken af kraftfulde acceleratorchips, der spænder fra en håndfuld til en stor matrix af dedikerede AI-behandlingsenheder med deres egen pulje af hukommelse og med kun én opgave, som er at behandle så mange data som muligt i den korteste tidsramme,” bemærkede Stevens.

Designere skal først redegøre for de specifikke aktiver, der har brug for beskyttelse. Mest oplagt er trænings- eller inferenshardwaren. "Typisk ses på blade en gateway CPU, med en dedikeret flash og DDR," sagde Stevens. "Dens opgave er at styre modeller, tilføje aktiverne. og styre acceleratorer. Så er der forbindelsen til stoffet - et højhastighedsnetværk eller PCIe-4- eller -5-grænseflader. Nogle klinger har også proprietære koblinger mellem klinger."

Fig. 1: En generaliseret AI-blade til et datacenter. Ud over den sædvanlige CPU, dynamisk hukommelse og netværksforbindelse, vil acceleratorer klare det tunge løft, assisteret af intern SRAM. Kilde: Rambus

Derudover er der forskellige typer data, der skal beskyttes, og de afhænger af, om operationen er træning eller slutning. Når du træner en model, skal træningsdataprøverne og den grundlæggende model, der trænes, beskyttes. Når man konkluderer, skal den trænede model, alle vægte, inputdata og outputresultater beskyttes.

Operationelt er dette et nyt område i hastig udvikling, og fejlretning er derfor sandsynlig. Enhver fejlretning skal udføres sikkert - og enhver fejlretningsfunktion skal lukkes ned, når den ikke er i godkendt brug.

Og ændringer til kode eller nogen af de andre aktiver skal leveres i velsikrede opdateringer. Især er det sandsynligt, at modeller vil forbedre sig over tid. Så der skal være en måde at udskifte gamle versioner med nyere, samtidig med at man ikke tillader nogen uvedkommende at erstatte en gyldig model med en uægte.

"Sikkere firmwareopdateringer samt evnen til at være i stand til at fejlsøge systemet på en sikker måde, bliver bordspil i disse dage," bemærkede Stevens.

Risici for databrud
Det er ret indlysende, at data skal beskyttes mod at blive stjålet. Ethvert sådant tyveri er helt klart et brud på fortroligheden, men konsekvenserne af det er endnu mere alvorlige, hvor regeringsbestemmelser er involveret. Eksempler på en sådan regulering er GDPR-reglerne i Europa og HIPAA-sundhedsreglerne i USA.

Men ud over direkte tyveri er manipulation af data også bekymrende. Træningsdata, for eksempel, kunne ændres enten som et middel til at afsløre en eller anden hemmelighed eller blot for at forgifte træningen, så den resulterende model ville fungere dårligt.

Meget af databehandlingen - især når man træner en model - vil foregå i et datacenter, og det kan involvere servere med flere lejere til lavere omkostninger. "Flere virksomheder og teams er afhængige af delte cloud computing-ressourcer af forskellige årsager, mest for skalerbarhed og omkostninger," bemærkede Dana Neustadter, senior produktmarketingchef for IP-sikkerhed hos Synopsys.

Det betyder, at flere job eksisterer side om side på den samme hardware. Og alligevel skal disse job udføres ikke mindre sikkert, end hvis de var på separate servere. De skal isoleres af software på en måde, der forhindrer alt - data eller andet - i at lække fra et job til et andet.

"At flytte computing til skyen kan medføre potentielle sikkerhedsrisici, når systemet ikke længere er under din kontrol," sagde Neustadter. "Uanset om den er fejlagtig eller ondsindet, kan en brugers data være en anden brugers malware. Brugerne skal stole på, at cloud-udbyderen opfylder overholdelsesstandarder, udfører risikovurderinger, kontrollerer brugeradgang og så videre."

Containerisering hjælper sædvanligvis med at isolere processer i et miljø med flere lejere, men det er stadig muligt for én slyngelproces at påvirke andre. "Et problem, der får en applikation til at svine behandlingsressourcer, kan påvirke andre lejere," bemærkede Panesar. "Dette er især vigtigt i kritiske miljøer såsom medicinsk rapportering, eller hvor som helst hvor lejerne har en bindende SLA (service-level agreement)."

Endelig, selvom det muligvis ikke påvirker det specifikke udfald af en beregning eller fortroligheden af data, skal datacenterdrift sikre, at administrative operationer er sikre mod at manipulere. "Sikkerhed bør også være til stede for at sikre korrekt fakturering af tjenester og for at forhindre uetisk brug, såsom raceprofilering," påpegede Stevens.

Nye standarder vil hjælpe udviklere med at sikre, at de dækker alle de nødvendige baser.

"Branchen udvikler standarder som PCIe-grænsefladesikkerhed, hvor PCI-SIG driver en integritets- og datakryptering (IDE) specifikation, suppleret med komponentmåling og autentificering (CMA) og betroet eksekveringsmiljø I/O (TEE-I/ O), sagde Neustadter. "Den tildelelige enhedsgrænsefladesikkerhedsprotokol (ADISP) og andre protokoller udvider virtualiseringsmulighederne for de betroede virtuelle maskiner, der bruges til at holde fortrolige computerbelastninger isoleret fra hostingmiljøer, understøttet af stærk godkendelse og nøglestyring."

Fig. 2: AI computing involverer en række aktiver, og hver har specifikke sikkerhedsbehov. Kilde: Rambus

Fig. 2: AI computing involverer en række aktiver, og hver har specifikke sikkerhedsbehov. Kilde: Rambus

Implementering af beskyttelser
Givet et typisk AI-computermiljø, er der flere trin, der skal tages for at låse operationer. De starter med en hardware rod af tillid (HRoT).

En HRoT er et pålideligt, uigennemsigtigt miljø, hvor sikre operationer som autentificering og kryptering kan udføres uden at afsløre nøglerne eller andre hemmeligheder, der bruges. Det kan være en kritisk komponent i en TEE. De forbindes normalt med en processor i en klassisk arkitektur, men her er der typisk mere end ét processorelement.

Især de nyere hardwarechips dedikeret til AI-behandling har ikke indbyggede root-of-trust-funktioner. "Mange nyere AI/ML-acceleratordesign - især af startups - har hovedsageligt fokuseret på at få den mest optimale NPU-behandling ombord," forklarede Stevens i et opfølgende interview. "Sikkerhed var ikke hovedfokus, eller var ikke på deres radar."

Det betyder, at et system skal levere en HRoT et andet sted, og der er et par muligheder for det.

En tilgang, der fokuserer på data, der er i brug, er at give hvert computerelement - for eksempel værtchippen og acceleratorchippen - sin egen HRoT. Hver HRoT ville håndtere sine egne nøgler og udføre operationer i anvisning fra sin tilknyttede processor. De kan være monolitisk integreret på SoC'er, selvom det i øjeblikket ikke er tilfældet for neurale processorer.

Den anden mulighed, som fokuserer på data i bevægelse, er at levere en HRoT ved netværksforbindelsen for at sikre, at alle data, der kommer ind på tavlen, er rene. "For data i bevægelse er gennemløbskravene ekstremt høje med meget lave latenskrav," sagde Stevens. "Systemerne bruger flygtige nøgler, da de typisk arbejder med sessionsnøgler."

"Til autentificering skal en klinge have en identifikationsnummer, hvilket ikke nødvendigvis skal holdes hemmeligt,” fortsatte han. "Det skal bare være unikt og uforanderligt. Det kan være mange ID'er, et for hver chip eller et til selve klingen eller apparatet."

Disse eksterne HRoT'er er muligvis ikke nødvendige, når sikkerhed er indbygget i fremtidige neurale behandlingsenheder (NPU'er). "Til sidst, når startups' indledende NPU-beviser på konceptet har vist sig at være succesfulde, vil arkitekturen i deres andet spin af disse designs have root of trust-kapaciteter i dem, som vil have flere kryptografiske muligheder til at håndtere de større arbejdsbelastninger," tilføjede Stevens.

Data, der flytter fra SRAM til DRAM, eller omvendt, bør også krypteres for at sikre, at de ikke kan snoopes. Det samme ville gælde for enhver direkte sideforbindelse til en nabotavle.

Med så meget kryptering indlejret i en i forvejen intens beregning, risikerer man at køre i bund. Sikker drift er kritisk, men den tjener ingen, hvis den lammer selve operationen.

"Netværket eller PCI Express-linket til stoffet bør beskyttes ved at indsætte en høj-throughput L2- eller L3-protokol-bevidst sikkerhedspakkemotor," tilføjede Stevens. "Sådan en pakkemaskine kræver lidt support fra CPU'en."

Dette kan også gælde hukommelse og blade-til-blade trafikkryptering. "Indholdet af gateway CPU DDR og lokale AI accelerator GDDR'er kan beskyttes af en inline hukommelseskrypteringsmotor," sagde han. "Hvis der findes en dedikeret blade-til-blade sidekanal, kan den beskyttes af high-throughput AES-GCM [Galois/tællertilstand] linkkrypteringsacceleratorer."

Endelig kan standardsikkerhedsbeskyttelse understøttes af løbende overvågning, der holder styr på den faktiske drift. "Du skal indsamle information fra hardwaren, der kan fortælle dig, hvordan systemet opfører sig," sagde Panesar. "Dette skal være real-time, øjeblikkeligt og langsigtet statistisk. Det skal også være forståeligt (hvad enten det er af et menneske eller en maskine) og handlingsegnet. Temperatur, spænding og timing data er alt sammen meget godt, men du har også brug for højere niveau, mere sofistikeret information."

Men dette er ingen erstatning for streng sikkerhed. "Målet er at identificere problemer, der kan unddrage sig konventionel sikkerhedsbeskyttelse - men det er ikke en erstatning for sådan beskyttelse," tilføjede han.

Hårdt arbejde forude
Disse elementer er ikke nødvendigvis enkle at implementere. Det kræver hårdt arbejde. "Spændighed, evnen til at opdatere et system sikkert og evnen til at komme sig efter et vellykket angreb er virkelige udfordringer," bemærkede Mike Borza, sikkerheds-IP-arkitekt hos Synopsys. "At bygge systemer som det er meget, meget hårdt."

Men efterhånden som AI-computere bliver mere og mere rutineprægede, vil ingeniører, der ikke er specialister i datamodellering eller sikkerhed, i stigende grad vende sig til ML-tjenester, efterhånden som de arbejder med AI i deres applikationer. De skal kunne regne med infrastrukturen og passe godt på deres vigtige data, så de modeller og beregninger, de skal bruge til at differentiere deres produkter, ikke ender i de forkerte hænder.

Relaterede
Sikkerhedsafvejninger i chips og AI-systemer
Eksperter ved bordet: Hvordan sikkerhed påvirker kraft og ydeevne, hvorfor AI-systemer er så svære at sikre, og hvorfor privatliv er en voksende overvejelse.
Sikkerhedsforskning bits
Nye sikkerhedstekniske papirer præsenteret på USENIX Security Symposium den 21. august.
Altid tændt, altid i fare
Bekymringer om chipsikkerhed stiger med flere behandlingselementer, automatisk opvågning, trådløse opdateringer og større tilslutningsmuligheder.
Sikkerhedsvidencenter
Tophistorier, hvidbøger, blogs, videoer om hardwaresikkerhed
AI Videnscenter

Kilde: https://semiengineering.com/ai-ml-workloads-need-extra-security/

Tidsstempel: November 15, 2021