AI/ML-arbetsbelastningar kräver extra säkerhet

Återutgiven av Platon

anhängare: 0

Behovet av säkerhet genomsyrar alla elektroniska system. Men med tanke på tillväxten inom maskininlärning i datacenter, som hanterar extremt värdefull data, ägnar vissa företag särskild uppmärksamhet åt att hantera dessa data på ett säkert sätt.

Alla vanliga säkerhetslösningar för datacenter måste användas, men det krävs extra ansträngningar för att säkerställa att modeller och datamängder är skyddade när de lagras, både när de överförs till och från acceleratorblad och vid bearbetning på ett system som är värd för mer än en hyresgäst samtidigt inom samma server.

"Inferensmodeller, slutledningsalgoritmer, utbildningsmodeller och utbildningsdatauppsättningar anses vara värdefulla immateriella rättigheter och behöver skydd - särskilt eftersom dessa värdefulla tillgångar lämnas till datacenter för bearbetning på delade resurser", säger Bart Stevens, senior director of product marketing. för säkerhets-IP på Rambus, i en nyligen genomförd presentation.

All manipulering av AI-träningsdata kan orsaka att en felaktig modell skapas. Och eventuella ändringar av en vältränad modell kan resultera i att felaktiga slutsatser dras av AI-motorn. "Alla tre huvudtyperna av inlärning (övervakad, oövervakad och förstärkning) använder viktade beräkningar för att producera ett resultat", säger Gajinder Panesar, stipendiat vid Siemens EDA. "Om dessa viktningar är inaktuella, korrupta eller manipulerade, kan resultatet bli ett resultat som helt enkelt är fel."

Implikationerna av en attack på en AI-arbetsbelastning beror på applikationen, men resultatet blir aldrig bra. Frågan är bara om det kommer att orsaka allvarlig skada eller skada.

Även om attacker är huvudfokus för skydd, är de inte de enda områdena som oroar sig. "Hoten" delas in i två breda kategorier - avsiktlig störning av en dålig skådespelare och oavsiktliga problem, som i allmänhet kan ses som buggar, antingen i hårdvaran eller mjukvaran, säger Panesar.

Säkerhetsstiftelsen
Det finns grundläggande säkerhetsbegrepp som gäller för alla datormiljöer, och AI-beräkningar är inget undantag. Även om särskild uppmärksamhet måste ägnas åt vissa aspekter av en AI-arbetsbelastning, är det inte bara den arbetsbelastningen som måste skyddas. "Vi måste tänka på integriteten för driften av hela systemet, inte bara det specifika chipet eller det on-chip-undersystemet vi har att göra med", säger Panesar.

Som beskrivits av Stevens finns det fyra aspekter av säkerhet som måste hanteras. För det första måste data och datorer hållas privata. För det andra bör det inte vara möjligt för en angripare att ändra någon av data var som helst när som helst. För det tredje måste alla enheter som deltar i beräkningen vara kända för att vara autentiska. Och för det fjärde borde det inte vara möjligt för en angripare att störa den normala driften av datorplattformen.

Detta leder till några grundläggande säkerhetskoncept som förhoppningsvis kommer att vara bekanta för alla som är involverade i design av säkra system. Den första av dessa är skyddet av data i tre faser:

1. Data i vila, vilket inkluderar alla lagrade data;
2. Data i rörelse när de kommuniceras från en plats till en annan, och
3. Data i bruk, som är aktiv och levande i datorplattformen när den bearbetas.

Ytterligare ett annat välbekant krav är den betrodda exekveringsmiljön (TEE). Detta är en datormiljö begränsad till mycket pålitlig programvara och tillgänglig för resten av datorplattformen endast via mycket kontrollerade och pålitliga kanaler. All kritisk hårdvara eller andra tillgångar som inte kan äventyras kommer att placeras i denna miljö och kommer inte att vara direkt tillgängliga utanför TEE.

TEE tillhandahåller ett grundläggande sätt att hantera kritiska säkerhetsoperationer på ett sätt som är mycket mindre utsatt för störningar från extern programvara. Det håller applikationsprogramvara åtskilda från säkerhetsoperationer på lägre nivå. Den hanterar också uppstartsprocessen för att säkerställa att den fortsätter säkert och tillförlitligt, och fångar upp alla försök att starta upp oäkta kod.

Det finns ett brett utbud av operationer som krävs för säker datoranvändning. Autentisering säkerställer att enheter som man kommunicerar med verkligen är de de säger att de är. Kryptering skyddar data från nyfikna ögon. Programvara och andra dataartefakter kan få sin härkomst garanterad genom hash- och signeringsoperationer. Och alla dessa funktioner kräver nycklar med tillräcklig styrka för att skydda mot brute force-hackning, och det gör effektiv nyckeltillgång och hantering avgörande.

Ytterligare skydd tillhandahålls genom att säkerställa att TEE och andra kritiska säkerhetskretsar är skyddade från försök att antingen bryta in eller störa driften. Sidokanaler måste skyddas för att säkerställa att det inte finns något sätt att snoka data eller nycklar genom att mäta externt detekterbara elektroniska artefakter som ström eller elektromagnetisk strålning.

Och slutligen kan ytterligare ett lager av skydd tillhandahållas av kretsar som övervakar de interna händelserna för att larma om något misstänkt verkar vara på gång.

Att tillämpa detta specifikt på AI
Att hålla AI-arbetsbelastningar säkra börjar med dessa grundläggande säkerhetskrav, oavsett om det är utbildning eller slutsats, och oavsett om det görs i ett datacenter, en lokal server eller i edge-utrustning. Men det finns ytterligare överväganden som är specifika för AI-arbetsbelastningar som måste beaktas.

"Säker AI-implementering krävs för att förhindra extrahering eller stjälning av slutledningsalgoritmer, modeller och parametrar, träningsalgoritmer och träningsuppsättningar," förklarade Stevens. "Detta skulle också innebära att förhindra oavsiktlig ersättning av dessa tillgångar med skadliga algoritmer eller datauppsättningar. Detta skulle undvika att förgifta systemet för att ändra slutledningsresultaten, vilket orsakar felaktig klassificering."

De nya maskinvaruarkitekturerna för AI-bearbetning ger en annan del av systemet som behöver skydd. "Hjärtat i systemet är uppenbarligen samlingen av kraftfulla acceleratorchips, som sträcker sig från en handfull till en stor matris av dedikerade AI-processorenheter med sin egen minnespool och med bara en uppgift, som är att bearbeta så mycket data som möjligt i den kortaste tidsramen”, konstaterade Stevens.

Designers måste först redogöra för de specifika tillgångar som behöver skydd. Mest uppenbart är tränings- eller slutledningshårdvaran. "Typiskt sett på blad är en gateway-CPU, med en dedikerad blixt och DDR," sa Stevens. "Dess uppgift är att hantera modeller, lägga till tillgångarna. och styr acceleratorer. Sedan finns det anslutningen till tyget — ett höghastighetsnätverk eller PCIe-4- eller -5-gränssnitt. Vissa blad har även proprietära länkar mellan bladen.”

Fig. 1: Ett generaliserat AI-blad för ett datacenter. Förutom den vanliga processorn, det dynamiska minnet och nätverksanslutningen kommer acceleratorer att göra det tunga lyftet, med hjälp av intern SRAM. Källa: Rambus

Dessutom finns det olika typer av data som ska skyddas, och de beror på om operationen är träning eller slutledning. När du tränar en modell måste träningsdataproverna och den grundmodell som tränas skyddas. När man drar slutsatser behöver den tränade modellen, alla vikter, indata och utgående resultat skydd.

Operativt sett är detta ett nytt område som utvecklas snabbt, så felsökning är trolig. Alla felsökningar måste utföras på ett säkert sätt - och alla felsökningsfunktioner måste stängas av när de inte används på autentiserad nivå.

Och ändringar av kod eller någon av de andra tillgångarna måste levereras i väl säkrade uppdateringar. I synnerhet är det troligt att modellerna kommer att förbättras med tiden. Så det måste finnas ett sätt att ersätta gamla versioner med nyare, samtidigt som man inte tillåter någon obehörig person att ersätta en giltig modell med en oäkta.

"Säker firmware-uppdateringar, såväl som möjligheten att kunna felsöka systemet på ett säkert sätt, blir tabellinsatser nu för tiden," noterade Stevens.

Risker för dataintrång
Det är ganska uppenbart att data måste skyddas mot att bli stulen. Varje sådan stöld är helt klart ett sekretessbrott, men följderna av det är ännu mer allvarliga när statliga regleringar är inblandade. Exempel på sådan reglering är GDPR-reglerna i Europa och HIPAA-vårdreglerna i USA.

Men förutom ren stöld är manipulation av uppgifterna också oroande. Träningsdata kan till exempel ändras antingen som ett sätt att leta fram någon hemlighet eller helt enkelt för att förgifta träningen så att den resulterande modellen skulle fungera dåligt.

Mycket av datoranvändningen - speciellt när man tränar en modell - kommer att ske i ett datacenter, och det kan involvera servrar med flera hyresgäster för lägre kostnad. "Fler företag och team förlitar sig på delade resurser för molnberäkning av olika anledningar, mestadels för skalbarhet och kostnad", observerade Dana Neustadter, senior produktmarknadschef för IP-säkerhet på Synopsys.

Det betyder att flera jobb samexisterar på samma hårdvara. Och ändå måste dessa jobb köras inte mindre säkert än om de var på separata servrar. De måste isoleras av programvara på ett sätt som hindrar allt – data eller annat – från att läcka från ett jobb till ett annat.

"Att flytta datorer till molnet kan medföra potentiella säkerhetsrisker när systemet inte längre är under din kontroll", säger Neustadter. "Oavsett om den är felaktig eller skadlig, kan en användares data vara en annan användares skadliga program. Användarna måste lita på att molnleverantören uppfyller efterlevnadsstandarder, utför riskbedömningar, kontrollerar användaråtkomst och så vidare."

Containerisering hjälper vanligtvis till att isolera processer i en miljö med flera hyresgäster, men det är fortfarande möjligt för en oseriös process att påverka andra. "Ett problem som gör att en applikation försvinner med bearbetningsresurser kan påverka andra hyresgäster," noterade Panesar. "Detta är särskilt viktigt i kritiska miljöer som medicinsk rapportering, eller var som helst där hyresgästerna har ett bindande SLA (service-nivåavtal)."

Slutligen, även om det kanske inte påverkar det specifika resultatet av en beräkning eller konfidentialitet för data, måste datacenterverksamheten säkerställa att administrativ verksamhet är säker från att mixtra. "Säkerhet bör också finnas för att säkerställa korrekt fakturering av tjänster och för att förhindra oetisk användning, såsom rasprofilering," påpekade Stevens.

Nya standarder kommer att hjälpa utvecklare att säkerställa att de täcker alla nödvändiga baser.

"Branschen utvecklar standarder som PCIe-gränssnittssäkerhet, där PCI-SIG driver en specifikation för integritet och datakryptering (IDE), kompletterad med komponentmätning och autentisering (CMA) och betrodd exekveringsmiljö I/O (TEE-I/ O), sade Neustadter. "Det tilldelbara enhetsgränssnittssäkerhetsprotokollet (ADISP) och andra protokoll utökar virtualiseringsmöjligheterna hos de betrodda virtuella maskiner som används för att hålla konfidentiella datorbelastningar isolerade från värdmiljöer, med stöd av stark autentisering och nyckelhantering."

Fig. 2: AI-beräkning involverar ett antal tillgångar och var och en har specifika säkerhetsbehov. Källa: Rambus

Fig. 2: AI-beräkning involverar ett antal tillgångar och var och en har specifika säkerhetsbehov. Källa: Rambus

Implementera skydd
Med tanke på en typisk AI-datormiljö, så finns det flera steg som måste tas för att låsa operationer. De börjar med en hårdvara rot till förtroende (HRoT).

En HRoT är en pålitlig, ogenomskinlig miljö där säkra operationer som autentisering och kryptering kan utföras utan att avslöja nycklarna eller andra hemligheter som används. Det kan vara en kritisk komponent i en TEE. De förknippas vanligtvis med en processor i en klassisk arkitektur, men här finns det vanligtvis mer än ett bearbetningselement.

I synnerhet har de nyare hårdvaruchipsen som är dedikerade till AI-bearbetning inte inbyggda root-of-trust-funktioner. "Många nya AI/ML-acceleratordesigner - särskilt av nystartade företag - har fokuserat främst på att få den mest optimala NPU-bearbetningen ombord", förklarade Stevens i en uppföljande intervju. "Säkerhet var inte huvudfokus, eller var inte på deras radar."

Det betyder att ett system kommer att behöva tillhandahålla en HRoT någon annanstans, och det finns ett par alternativ för det.

Ett tillvägagångssätt, som fokuserar på data som används, är att ge varje beräkningselement - värdchippet och acceleratorchipset, till exempel - sin egen HRoT. Varje HRoT skulle hantera sina egna nycklar och utföra operationer i riktning av sin tillhörande processor. De kan vara monolitiskt integrerade på SoCs, även om det för närvarande inte är fallet för neurala processorer.

Det andra alternativet, som fokuserar på data i rörelse, är att tillhandahålla en HRoT vid nätverksanslutningen för att säkerställa att all data som kommer in på kortet är ren. "För data i rörelse är genomströmningskraven extremt höga, med mycket låga latenskrav", sa Stevens. "Systemen använder tillfälliga nycklar, eftersom de vanligtvis fungerar med sessionsnycklar."

"För autentisering skulle ett blad behöva få en Identifieringsnummer, vilket inte nödvändigtvis behöver hållas hemligt”, fortsatte han. "Det måste bara vara unikt och oföränderligt. Det kan vara många ID, ett för varje chip, eller ett för själva bladet eller själva apparaten."

Dessa externa HRoTs kanske inte behövs när säkerhet är inbyggd i framtida neurala bearbetningsenheter (NPU). "Så småningom, när startups initiala NPU proof of concept har visat sig vara framgångsrika, kommer arkitekturen för deras andra snurr av dessa konstruktioner att ha root of trust-kapacitet i dem, som kommer att ha fler kryptografiska möjligheter för att hantera de större arbetsbelastningarna," tillade Stevens.

Data som flyttas från SRAM till DRAM, eller vice versa, bör också krypteras för att säkerställa att det inte går att snoka. Detsamma skulle gälla för eventuell direkt sidokoppling till en angränsande styrelse.

Med så mycket kryptering inbäddad i en redan intensiv beräkning, riskerar man att köra fast. Säker drift är avgörande, men den tjänar ingen om den försämrar själva operationen.

"Nätverket eller PCI Express-länken till tyget bör skyddas genom att sätta in en L2- eller L3-protokollmedveten säkerhetspaketmotor med hög genomströmning", tillade Stevens. "En sådan paketmotor kräver lite stöd från processorn."

Detta kan även gälla minnes- och blad-till-blad-trafikkryptering. "Innehållet i gateway CPU DDR och lokala AI accelerator GDDRs kan skyddas av en inline minneskrypteringsmotor," sa han. "Om det finns en dedikerad blad-till-blad-sidokanal kan den skyddas av AES-GCM med hög genomströmning [Galois/Counter Mode] länkkrypteringsacceleratorer.”

Slutligen kan standardsäkerhetsskydd stödjas genom kontinuerlig övervakning som håller reda på den faktiska driften. "Du måste samla information från hårdvaran som kan berätta hur systemet beter sig", sa Panesar. "Detta måste vara i realtid, omedelbart och långsiktigt statistiskt. Det måste också vara begripligt (oavsett om det är av en människa eller en maskin) och handlingsbart. Temperatur-, spännings- och tidsdata är mycket bra, men du behöver också mer sofistikerad information på högre nivå."

Men detta är ingen ersättning för rigorös säkerhet. "Syftet är att identifiera problem som kan undgå konventionella säkerhetsskydd - men det är inte en ersättning för sådant skydd", tillade han.

Hårt arbete framför oss
Dessa element är inte nödvändigtvis enkla att implementera. Det kräver hårt arbete. "Resiliens, förmågan att säkert uppdatera ett system och förmågan att återhämta sig från en framgångsrik attack är verkliga utmaningar", konstaterade Mike Borza, säkerhets-IP-arkitekt på Synopsys. "Att bygga sådana system är väldigt, väldigt tufft."

Men i takt med att AI-beräkningar blir mer och mer rutinmässiga kommer ingenjörer som inte är specialister på datamodellering eller säkerhet i allt högre grad att vända sig till ML-tjänster när de arbetar med AI i sina applikationer. De måste kunna lita på infrastrukturen och ta väl hand om sin viktiga data så att modellerna och beräkningarna de kommer att använda för att differentiera sina produkter inte hamnar i fel händer.

Relaterad
Säkerhetsavvägningar i chips och AI-system
Experter vid bordet: Hur säkerhet påverkar kraft och prestanda, varför AI-system är så svåra att säkra och varför integritet är ett växande övervägande.
Säkerhetsforskningsbitar
Nya säkerhetstekniska dokument presenterade vid USENIX Security Symposium den 21 augusti.
Alltid på, alltid i riskzonen
Oron för chipsäkerhet ökar med fler bearbetningselement, automatisk väckning, trådlösa uppdateringar och bättre anslutningsmöjligheter.
Säkerhetskunskapscenter
Toppartiklar, vitböcker, bloggar, videor om hårdvarusäkerhet
AI Knowledge Center

Källa: https://semiengineering.com/ai-ml-workloads-need-extra-security/

Tidsstämpel: November 15, 2021

Mer från Semiconductor Engineering

Vad är en xPU?

Källkluster:

Semiconductor Engineering

Källnod: 1485927

Tidsstämpel: November 11, 2021

Kraft/prestandabitar: 16 nov

Källkluster:

Källkluster:

Semiconductor Engineering

Källnod: 1204189

Tidsstämpel: Oktober 21, 2021

Återutgiven av Platon

Kraft/prestandabitar: 16 nov

Kommer rattar någonsin att försvinna?

Implementering av säker start med en rot av tillit

Bloggrecension: 20 okt

Halvledartillverkningsutrustning och åtgärder för att skydda jordens miljö

Simuleringsbaserad felanalys för fjädrande system-på-chip-design

Förbättra medicinsk bildbehandling med AI

Tillverkningsbitar: 8 nov

En titt inuti Apple iPhone 13 Pro

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto