AI/ML-workloads hebben extra beveiliging nodig

Heruitgegeven door Plato

volgers: 0

De behoefte aan beveiliging doordringt alle elektronische systemen. Maar gezien de groei van machine learning-computing in datacenters, waarbij extreem waardevolle gegevens worden verwerkt, besteden sommige bedrijven bijzondere aandacht aan het veilig omgaan met die gegevens.

Alle gebruikelijke beveiligingsoplossingen voor datacenters moeten worden toegepast, maar er zijn extra inspanningen nodig om ervoor te zorgen dat modellen en datasets worden beschermd wanneer ze worden opgeslagen, zowel bij overdracht van en naar accelerator blades als bij verwerking op een systeem dat host meer dan één tenant tegelijkertijd binnen dezelfde server.

"Inferentiemodellen, inferentie-algoritmen, trainingsmodellen en trainingsdatasets worden beschouwd als waardevol intellectueel eigendom en hebben bescherming nodig, vooral omdat deze waardevolle activa worden overgedragen aan datacenters voor verwerking op gedeelde bronnen", zegt Bart Stevens, senior director productmarketing voor beveiligings-IP op Rambus, in een recente presentatie.

Elke manipulatie met AI-trainingsgegevens kan leiden tot het maken van een defect model. En eventuele wijzigingen aan een goed getraind model kunnen ertoe leiden dat de AI-engine onjuiste conclusies trekt. "Alle drie de belangrijkste soorten leren (onder toezicht, zonder toezicht en versterking) gebruiken gewogen berekeningen om een resultaat te produceren", zegt Gajinder Panesar, fellow bij Siemens EDA. "Als die wegingen oud, beschadigd of gemanipuleerd zijn, kan de uitkomst een resultaat zijn dat gewoon verkeerd is."

De implicaties van een aanval op een AI-workload zijn afhankelijk van de toepassing, maar het resultaat zal nooit goed zijn. De vraag is alleen of het ernstige schade of letsel zal veroorzaken.

Hoewel aanvallen het belangrijkste aandachtspunt zijn voor bescherming, zijn dit niet de enige aandachtspunten. "De 'bedreigingen' vallen uiteen in twee brede categorieën: opzettelijke interferentie door een slechte actor en onbedoelde problemen, die over het algemeen kunnen worden gezien als bugs, hetzij in de hardware of de software", aldus Panesar.

De basis van veiligheid
Er zijn fundamentele beveiligingsbegrippen die van toepassing zijn op elke computeromgeving, en AI-computing is geen uitzondering. Hoewel er speciale aandacht moet worden besteed aan bepaalde aspecten van een AI-workload, moet niet alleen die workload worden beschermd. "We moeten nadenken over de integriteit van de werking van het hele systeem, niet alleen over de specifieke chip of het on-chip subsysteem waarmee we te maken hebben", zegt Panesar.

Zoals uiteengezet door Stevens, zijn er vier aspecten van beveiliging die moeten worden afgehandeld. Ten eerste moeten de gegevens en computers privé worden gehouden. Ten tweede mag het voor een aanvaller niet mogelijk zijn om de gegevens overal en altijd te wijzigen. Ten derde moet bekend zijn dat alle entiteiten die deelnemen aan de computer authentiek zijn. En ten vierde mag het voor een aanvaller niet mogelijk zijn om de normale werking van het computerplatform te verstoren.

Dit leidt tot enkele basisbeveiligingsconcepten die hopelijk bekend zullen zijn bij iedereen die betrokken is bij het ontwerpen van beveiligde systemen. De eerste hiervan is de bescherming van gegevens in drie fasen:

1. Gegevens in rust, inclusief alle opgeslagen gegevens;
2. Gegevens in beweging terwijl ze van de ene plaats naar de andere worden gecommuniceerd, en
3. Gegevens in gebruik, die actief en levend zijn in het computerplatform terwijl eraan wordt gewerkt.

Nog een andere bekende vereiste is de vertrouwde uitvoeringsomgeving (TEE). Dit is een computeromgeving die beperkt is tot zeer vertrouwde software en alleen toegankelijk is voor de rest van het computerplatform via sterk gecontroleerde en vertrouwde kanalen. Alle kritieke hardware of andere activa die niet kunnen worden aangetast, worden in deze omgeving geplaatst en zijn niet direct toegankelijk buiten de TEE.

De TEE biedt een fundamentele manier om kritieke beveiligingsoperaties af te handelen op een manier die veel minder onderhevig is aan interferentie door externe software. Het houdt applicatiesoftware gescheiden van beveiligingsactiviteiten op een lager niveau. Het beheert ook het opstartproces om ervoor te zorgen dat het veilig en betrouwbaar verloopt, en vangt pogingen om niet-authentieke code op te starten.

Er is een breed scala aan bewerkingen vereist voor veilig computergebruik. Authenticatie zorgt ervoor dat entiteiten met wie men communiceert echt zijn wie ze zeggen dat ze zijn. Versleuteling beschermt gegevens tegen nieuwsgierige blikken. De herkomst van software en andere gegevensartefacten kan worden gegarandeerd door hashing en ondertekeningsbewerkingen. En al deze functies vereisen sleutels met voldoende sterkte om te beschermen tegen brute force hacking, en dat maakt effectieve sleutelvoorziening en -beheer essentieel.

Extra beveiligingen worden geboden door ervoor te zorgen dat TEE's en andere kritieke beveiligingscircuits worden beschermd tegen pogingen om in te breken of de werking te verstoren. Zijkanalen moeten worden beschermd om ervoor te zorgen dat er geen manier is om gegevens of sleutels te snuffelen door extern detecteerbare elektronische artefacten zoals stroom of elektromagnetische straling te meten.

En tot slot kan een extra beschermingslaag worden geboden door circuits die de interne gang van zaken in de gaten houden om een waarschuwing te geven als er iets verdachts aan de hand lijkt te zijn.

Dit specifiek toepassen op AI
Het veilig houden van AI-workloads begint met deze basisbeveiligingsvereisten, of het nu gaat om training of afleiding, en of dit nu gebeurt in een datacenter, een lokale server of in edge-apparatuur. Maar er zijn aanvullende overwegingen die specifiek zijn voor AI-workloads waarmee rekening moet worden gehouden.

"Veilige AI-implementaties zijn vereist om het extraheren of stelen van inferentiealgoritmen, modellen en parameters, trainingsalgoritmen en trainingssets te voorkomen", legt Stevens uit. “Dit zou ook betekenen dat wordt voorkomen dat deze activa onbedoeld worden vervangen door kwaadaardige algoritmen of datasets. Dit zou voorkomen dat het systeem wordt vergiftigd om de inferentieresultaten te wijzigen, waardoor een verkeerde classificatie ontstaat.”

De nieuwe hardware-architecturen voor AI-verwerking bieden een ander deel van het systeem dat bescherming nodig heeft. “Het hart van het systeem is duidelijk de reeks krachtige acceleratorchips, variërend van een handvol tot een grote matrix van toegewijde AI-verwerkingseenheden met hun eigen geheugenpool en met slechts één taak, namelijk zoveel mogelijk gegevens verwerken in het kortste tijdsbestek”, merkte Stevens op.

Ontwerpers moeten eerst verantwoording afleggen over de specifieke activa die bescherming nodig hebben. Het meest voor de hand liggend is de trainings- of inferentiehardware. "Typisch gezien op blades is een gateway-CPU, met een speciale flitser en DDR", zegt Stevens. “Het is zijn taak om modellen te beheren, de activa toe te voegen. en regelversnellers. Dan is er nog de verbinding met de fabric: een supersnel netwerk of PCIe-4- of -5-interfaces. Sommige bladen hebben ook eigen koppelingen tussen de bladen.”

Fig. 1: Een gegeneraliseerde AI-blade voor een datacenter. Naast de gebruikelijke CPU, dynamisch geheugen en netwerkverbinding, zullen versnellers het zware werk doen, bijgestaan door intern SRAM. Bron: Rambus

Bovendien zijn er verschillende soorten gegevens die moeten worden beschermd, en die zijn afhankelijk van het feit of de bewerking training of gevolgtrekking is. Bij het trainen van een model moeten de trainingsgegevensvoorbeelden en het basismodel dat wordt getraind, worden beschermd. Bij het afleiden hebben het getrainde model, alle gewichten, de invoergegevens en de uitvoerresultaten bescherming nodig.

Operationeel is dit een nieuw, snel evoluerend gebied, en dus is debug waarschijnlijk. Elke foutopsporing moet veilig worden uitgevoerd - en alle foutopsporingsmogelijkheden moeten worden afgesloten wanneer ze niet worden geverifieerd.

En wijzigingen in code of een van de andere activa moeten worden geleverd in goed beveiligde updates. In het bijzonder is het waarschijnlijk dat modellen in de loop van de tijd zullen verbeteren. Er moet dus een manier zijn om oude versies te vervangen door nieuwere, en tegelijkertijd niet toe te staan dat onbevoegden een geldig model vervangen door een niet-authentiek model.

"Beveiligde firmware-updates en de mogelijkheid om het systeem op een veilige manier te debuggen, worden tegenwoordig steeds belangrijker", merkte Stevens op.

Risico's van datalekken
Het is vrij duidelijk dat de gegevens moeten worden beschermd tegen diefstal. Een dergelijke diefstal is duidelijk een schending van de vertrouwelijkheid, maar de gevolgen daarvan zijn nog ernstiger als er overheidsvoorschriften bij betrokken zijn. Voorbeelden van dergelijke regelgeving zijn de AVG-regels in Europa en de HIPAA-gezondheidszorgregels in de Verenigde Staten.

Maar naast regelrechte diefstal is ook manipulatie van de gegevens een punt van zorg. Trainingsgegevens kunnen bijvoorbeeld worden gewijzigd om een geheim te achterhalen of om de training te vergiftigen, zodat het resulterende model slecht zou werken.

Veel van het computergebruik - vooral bij het trainen van een model - zal plaatsvinden in een datacenter, en dat kan multi-tenant servers zijn voor een goedkopere werking. "Meer bedrijven en teams vertrouwen om verschillende redenen op gedeelde cloudcomputingbronnen, vooral vanwege de schaalbaarheid en de kosten", zegt Dana Neustadter, senior productmarketingmanager voor beveiligings-IP bij Synopsys.

Dat betekent dat er meerdere taken naast elkaar bestaan op dezelfde hardware. En toch moeten die taken niet minder veilig worden uitgevoerd dan wanneer ze op aparte servers zouden staan. Ze moeten door software worden geïsoleerd op een manier die ervoor zorgt dat alles - gegevens of anderszins - van de ene taak naar de andere lekt.

"Het verplaatsen van computers naar de cloud kan potentiële beveiligingsrisico's met zich meebrengen wanneer het systeem niet langer onder uw controle is", zegt Neustadter. “Of ze nu foutief of kwaadaardig zijn, de gegevens van de ene gebruiker kunnen de malware van een andere gebruiker zijn. De gebruikers moeten erop kunnen vertrouwen dat de cloudprovider voldoet aan de nalevingsnormen, risicobeoordelingen uitvoert, gebruikerstoegang controleert, enzovoort.”

Containerisatie helpt meestal om processen in een omgeving met meerdere tenants te isoleren, maar het is nog steeds mogelijk dat een malafide proces andere beïnvloedt. "Een probleem dat ervoor zorgt dat een toepassing de verwerkingsbronnen van het varken gebruikt, kan van invloed zijn op andere huurders", merkte Panesar op. "Dit is vooral belangrijk in kritieke omgevingen zoals medische rapportage, of overal waar de huurders een bindende SLA (service level agreement) hebben."

Ten slotte, hoewel het de specifieke uitkomst van een berekening of vertrouwelijkheid van gegevens mogelijk niet beïnvloedt, moeten datacenteractiviteiten ervoor zorgen dat administratieve activiteiten niet worden gesleuteld. "Er moet ook beveiliging aanwezig zijn om te zorgen voor een correcte facturering van diensten en om onethisch gebruik, zoals raciale profilering, te voorkomen", benadrukte Stevens.

Nieuwe standaarden zullen ontwikkelaars helpen ervoor te zorgen dat ze alle noodzakelijke basissen afdekken.

“De industrie ontwikkelt standaarden zoals PCIe-interfacebeveiliging, waarbij de PCI-SIG een specificatie voor integriteit en gegevenscodering (IDE) aanstuurt, aangevuld met componentmeting en authenticatie (CMA) en vertrouwde uitvoeringsomgeving I/O (TEE-I/ O)”, zei Neustadter. "Het toewijsbare apparaatinterface-beveiligingsprotocol (ADISP) en andere protocollen breiden de virtualisatiemogelijkheden uit van de vertrouwde virtuele machines die worden gebruikt om vertrouwelijke computerworkloads geïsoleerd te houden van hostingomgevingen, ondersteund door sterke authenticatie en sleutelbeheer."

Fig. 2: AI-computing omvat een aantal activa, en elk heeft specifieke beveiligingsbehoeften. Bron: Rambus

Fig. 2: AI-computing omvat een aantal activa, en elk heeft specifieke beveiligingsbehoeften. Bron: Rambus

Beveiligingen implementeren
Gezien een typische AI-computeromgeving zijn er dus verschillende stappen die moeten worden genomen om bewerkingen te vergrendelen. Ze beginnen met een hardware wortel van vertrouwen (HROT).

Een HRoT is een vertrouwde, ondoorzichtige omgeving waar veilige bewerkingen zoals authenticatie en encryptie kunnen worden uitgevoerd zonder dat de gebruikte sleutels of andere geheimen worden onthuld. Het kan een cruciaal onderdeel van een TEE zijn. Ze worden meestal geassocieerd met een processor in een klassieke architectuur, maar hier is er meestal meer dan één verwerkingselement.

Met name de nieuwere hardwarechips voor AI-verwerking hebben geen ingebouwde root-of-trust-mogelijkheden. "Veel recente AI/ML-versnellerontwerpen - vooral door startups - waren vooral gericht op het verkrijgen van de meest optimale NPU-verwerking aan boord", legt Stevens uit in een vervolginterview. “Veiligheid stond niet centraal, of stond niet op hun radar.”

Dat betekent dat een systeem elders een HRoT moet leveren, en daar zijn een aantal opties voor.

Een benadering, die zich richt op gegevens die in gebruik zijn, is om elk computerelement - bijvoorbeeld de hostchip en de acceleratorchip - zijn eigen HRoT te geven. Elke HRoT zou zijn eigen sleutels verwerken en bewerkingen uitvoeren op aanwijzing van de bijbehorende processor. Ze kunnen monolithisch zijn geïntegreerd in SoC's, hoewel dat momenteel niet het geval is voor neurale processors.

De andere optie, die zich richt op data in beweging, is het voorzien van een HRoT bij de netwerkverbinding om ervoor te zorgen dat alle data die het bord binnenkomen schoon is. "Voor data in beweging zijn de doorvoervereisten extreem hoog, met zeer lage latentievereisten", zegt Stevens. "De systemen gebruiken kortstondige sleutels, omdat ze meestal met sessiesleutels werken."

“Voor authenticatie zou een blade een identificatie Nummer, wat niet per se geheim hoeft te worden gehouden,” vervolgde hij. “Het moet gewoon uniek en onveranderlijk zijn. Het kunnen veel ID's zijn, één voor elke chip, of één voor het mes of het apparaat zelf."

Deze externe HRoT's zijn mogelijk niet nodig wanneer beveiliging is ingebouwd in toekomstige neurale verwerkingseenheden (NPU's). "Uiteindelijk, wanneer de initiële NPU-proofs of concept van de startups succesvol zijn gebleken, zal de architectuur van hun tweede draai van deze ontwerpen root of trust-mogelijkheden bevatten, die meer cryptografische mogelijkheden zullen hebben om de grotere workloads aan te kunnen," voegde Stevens toe.

Gegevens die van SRAM naar DRAM gaan, of vice versa, moeten ook worden gecodeerd om ervoor te zorgen dat ze niet kunnen worden afgeluisterd. Hetzelfde zou gelden voor elke directe zijverbinding met een naburig bord.

Met zoveel versleuteling ingebed in een toch al intensieve berekening, loopt men het risico dat de werking vastloopt. Een veilige werking is van cruciaal belang, maar het is voor niemand nuttig als de operatie zelf hierdoor wordt verlamd.

"De netwerk- of PCI Express-link naar de fabric moet worden beschermd door een high-throughput L2- of L3-protocolbewuste beveiligingspakketengine in te voegen", voegde Stevens toe. "Zo'n pakketengine vereist weinig ondersteuning van de CPU."

Dit kan ook van toepassing zijn op geheugen- en blade-to-blade-verkeersversleuteling. "De inhoud van de gateway-CPU DDR en lokale AI-versneller GDDR's kunnen worden beschermd door een inline geheugenversleutelingsengine", zei hij. “Als er een speciaal blad-naar-blad zijkanaal bestaat, kan dit worden beschermd door AES-GCM met hoge doorvoer [Galois / Counter-modus] link-encryptie-versnellers.”

Ten slotte kunnen standaardbeveiligingen worden ondersteund door voortdurende monitoring die de daadwerkelijke werking bijhoudt. "Je moet informatie van de hardware verzamelen die je kan vertellen hoe het systeem zich gedraagt", zegt Panesar. "Dit moet realtime, onmiddellijk en statistisch voor de lange termijn zijn. Het moet ook begrijpelijk zijn (door een mens of een machine) en uitvoerbaar. Temperatuur-, spannings- en timinggegevens zijn allemaal goed, maar je hebt ook meer geavanceerde informatie op een hoger niveau nodig.”

Maar dit is geen vervanging voor strenge beveiliging. "Het doel is om problemen te identificeren die aan conventionele beveiligingsmaatregelen kunnen ontsnappen, maar het is geen vervanging voor dergelijke beveiliging", voegde hij eraan toe.

Hard werken voor de boeg
Deze elementen zijn niet per se eenvoudig te implementeren. Dat vereist hard werken. "Veerkracht, de mogelijkheid om een systeem veilig te updaten en de mogelijkheid om te herstellen van een succesvolle aanval zijn echte uitdagingen", aldus Mike Borza, IP-beveiligingsarchitect bij Synopsys. "Het bouwen van dergelijke systemen is heel, heel moeilijk."

Maar naarmate AI-computing steeds routinematiger wordt, zullen ingenieurs die geen specialisten zijn in datamodellering of beveiliging, zich steeds meer tot ML-services wenden terwijl ze AI in hun applicaties verwerken. Ze moeten kunnen rekenen op de infrastructuur en goed voor hun belangrijke gegevens moeten zorgen, zodat de modellen en berekeningen die ze zullen gebruiken om hun producten te differentiëren, niet in verkeerde handen belanden.

Verwant
Beveiligingscompromissen in chips en AI-systemen
Experts aan tafel: hoe beveiliging de kracht en prestaties beïnvloedt, waarom AI-systemen zo moeilijk te beveiligen zijn en waarom privacy een groeiende overweging is.
Beveiligingsonderzoeksbits
Nieuwe technische beveiligingsdocumenten gepresenteerd op het USENIX Security Symposium van 21 augustus.
Altijd aan, altijd in gevaar
De bezorgdheid over chipbeveiliging neemt toe met meer verwerkingselementen, automatische activering, over-the-air updates en betere connectiviteit.
Beveiliging kenniscentrum
Topverhalen, whitepapers, blogs, video's over hardwarebeveiliging
AI-kenniscentrum

Bron: https://semiengineering.com/ai-ml-workloads-need-extra-security/

Tijdstempel: 15 november 2021