AI/ML 워크로드에는 추가 보안이 필요합니다.

플라톤에 의해 재발행

팔로워 : 0

보안의 필요성은 모든 전자 시스템에 만연해 있습니다. 그러나 매우 가치 있는 데이터를 처리하는 데이터 센터 머신 러닝 컴퓨팅의 성장을 고려할 때 일부 회사는 해당 데이터를 안전하게 처리하는 데 특히 주의를 기울이고 있습니다.

일반적인 데이터 센터 보안 솔루션은 모두 실행되어야 하지만, 모델과 데이터 세트가 저장될 때, 가속기 블레이드에서 전송될 때와 호스트하는 시스템에서 처리할 때 모두 보호되도록 하려면 추가 노력이 필요합니다. 동일한 서버 내에서 동시에 둘 이상의 테넌트.

제품 마케팅 수석 이사인 Bart Stevens는 “추론 모델, 추론 알고리즘, 교육 모델 및 교육 데이터 세트는 귀중한 지적 재산으로 간주되며 보호가 필요합니다. 보안 IP용 램버스, 최근 프레젠테이션에서.

AI 훈련 데이터를 변조하면 잘못된 모델이 생성될 수 있습니다. 그리고 잘 훈련된 모델을 변경하면 AI 엔진이 잘못된 결론을 내릴 수 있습니다. "XNUMX가지 주요 학습 유형(지도, 비지도 및 강화) 모두 가중 계산을 사용하여 결과를 생성합니다."라고 Gajinder Panesar는 말했습니다. 지멘스 EDA. "이러한 가중치가 부실하거나 손상되었거나 변조된 경우 결과는 단순히 잘못된 결과가 될 수 있습니다."

AI 워크로드에 대한 공격의 영향은 애플리케이션에 따라 다르지만 결과는 결코 좋지 않습니다. 유일한 문제는 심각한 손상이나 부상을 초래할 것인지 여부입니다.

공격이 보호의 주요 초점이지만 우려되는 유일한 영역은 아닙니다. Panesar는 "'위협'은 악의적인 행위자의 의도적인 간섭과 일반적으로 하드웨어나 소프트웨어의 버그로 생각할 수 있는 의도하지 않은 문제의 두 가지 범주로 나뉩니다."라고 Panesar는 말했습니다.

보안 기반
모든 컴퓨팅 환경에 적용되는 기본적인 보안 개념이 있으며 AI 컴퓨팅도 예외는 아닙니다. AI 워크로드의 특정 측면에 특별한 주의를 기울여야 하지만 보호해야 하는 것은 워크로드만이 아닙니다. Panesar는 “우리가 다루고 있는 특정 칩이나 온칩 하위 시스템뿐만 아니라 전체 시스템의 작동 무결성에 대해 생각해야 합니다.

Stevens가 설명한 대로 처리해야 하는 보안의 네 가지 측면이 있습니다. 첫째, 데이터와 컴퓨팅은 비공개로 유지되어야 합니다. 둘째, 공격자가 언제 어디서나 데이터를 변경할 수 없어야 합니다. 셋째, 컴퓨팅에 참여하는 모든 엔터티가 정품임을 알아야 합니다. 넷째, 공격자가 컴퓨팅 플랫폼의 정상적인 작동을 방해할 수 없어야 합니다.

이것은 보안 시스템 설계에 관련된 모든 사람에게 희망적으로 친숙할 몇 가지 기본 보안 개념으로 이어집니다. 그 중 첫 번째는 XNUMX단계로 데이터를 보호하는 것입니다.

1. 저장된 데이터를 포함하는 미사용 데이터
2. 한 곳에서 다른 곳으로 전달되는 이동 중인 데이터
3. 작업 중인 컴퓨팅 플랫폼에서 활성 및 활성 상태인 사용 중인 데이터.

또 다른 친숙한 요구 사항은 TEE(신뢰할 수 있는 실행 환경)입니다. 이것은 고도로 신뢰할 수 있는 소프트웨어로 제한되고 고도로 제어되고 신뢰할 수 있는 채널을 통해서만 나머지 컴퓨팅 플랫폼에 액세스할 수 있는 컴퓨팅 환경입니다. 손상될 수 없는 모든 중요한 하드웨어 또는 기타 자산은 이 환경에 배치되며 TEE 외부에서 직접 액세스할 수 없습니다.

TEE는 외부 소프트웨어의 간섭을 훨씬 덜 받는 방식으로 중요한 보안 작업을 처리하는 기본적인 방법을 제공합니다. 애플리케이션 소프트웨어를 하위 수준 보안 작업과 분리하여 유지합니다. 또한 부팅 프로세스를 관리하여 안전하고 안정적으로 진행되도록 하여 인증되지 않은 코드를 부팅하려는 시도를 포착합니다.

안전한 컴퓨팅을 위해서는 다양한 작업이 필요합니다. 인증은 통신하는 엔터티가 그들이 말하는 진정한 사람임을 보장합니다. 암호화는 데이터를 엿보는 사람으로부터 안전하게 보호합니다. 소프트웨어 및 기타 데이터 아티팩트는 해시 및 서명 작업을 통해 출처를 보증할 수 있습니다. 그리고 이러한 모든 기능에는 무차별 대입 해킹으로부터 보호할 수 있는 충분한 강도의 키가 필요하므로 효과적인 키 프로비저닝 및 관리가 필수적입니다.

TEE 및 기타 중요한 보안 회로가 침입하거나 작동을 방해하려는 시도로부터 보호되도록 하여 추가 보호가 제공됩니다. 전력 또는 전자기 복사와 같이 외부에서 감지할 수 있는 전자 아티팩트를 측정하여 데이터나 키를 스누핑할 방법이 없도록 사이드 채널을 보호해야 합니다.

마지막으로 내부 상황을 모니터링하는 회로를 통해 의심스러운 일이 발생하면 경보를 발령하는 회로를 통해 추가 보호 계층을 제공할 수 있습니다.

이를 AI에 구체적으로 적용
AI 워크로드를 안전하게 유지하는 것은 훈련이든 추론이든, 데이터 센터, 로컬 서버 또는 에지 장비에서 수행하든 상관없이 이러한 기본 보안 요구 사항에서 시작됩니다. 그러나 고려해야 할 AI 워크로드와 관련된 추가 고려 사항이 있습니다.

Stevens는 "보안 AI 구현은 추론 알고리즘, 모델 및 매개변수, 훈련 알고리즘, 훈련 세트의 추출 또는 도용을 방지해야 합니다."라고 설명했습니다. "이는 또한 이러한 자산을 악의적인 알고리즘이나 데이터 세트로 의도하지 않은 교체를 방지하는 것을 의미합니다. 이렇게 하면 시스템을 중독시켜 추론 결과를 변경하여 분류 오류를 유발하는 것을 방지할 수 있습니다.”

새로운 AI 처리 하드웨어 아키텍처는 보호가 필요한 시스템의 또 다른 부분을 제공합니다. "시스템의 핵심은 분명히 강력한 가속기 칩 어레이입니다. 소수에서 자체 메모리 풀과 하나의 작업으로 가능한 한 많은 데이터를 처리하는 전용 AI 처리 장치의 대규모 매트릭스에 이르기까지 다양합니다. 가장 짧은 시간 프레임입니다.”라고 Stevens는 말했습니다.

설계자는 먼저 보호가 필요한 특정 자산을 고려해야 합니다. 가장 분명한 것은 훈련 또는 추론 하드웨어입니다. "일반적으로 블레이드에서 볼 수 있는 것은 전용 플래시와 DDR이 있는 게이트웨이 CPU입니다."라고 Stevens는 말했습니다. “그 임무는 모델을 관리하고 자산을 추가하는 것입니다. 및 제어 가속기. 그런 다음 고속 네트워크 또는 PCIe-4 또는 -5 인터페이스와 같은 패브릭에 대한 연결이 있습니다. 일부 블레이드에는 독점적인 블레이드 간 링크도 있습니다.”

그림 1: 데이터 센터를 위한 일반화된 AI 블레이드. 일반적인 CPU, 동적 메모리 및 네트워크 연결 외에도 가속기는 내부 SRAM의 도움을 받아 무거운 작업을 수행합니다. 출처: 램버스

또한 보호해야 할 데이터의 유형은 다양하며 작업이 훈련인지 추론인지에 따라 다릅니다. 모델을 훈련할 때 훈련 데이터 샘플과 훈련되는 기본 모델을 보호해야 합니다. 추론할 때 훈련된 모델, 모든 가중치, 입력 데이터 및 출력 결과에 보호가 필요합니다.

운영상, 이것은 새롭고 빠르게 발전하는 영역이므로 디버그가 가능합니다. 모든 디버그는 안전하게 수행되어야 하며 모든 디버그 기능은 인증된 사용이 아닐 때 종료되어야 합니다.

그리고 코드 또는 기타 자산에 대한 변경 사항은 보안이 잘 된 업데이트로 전달되어야 합니다. 특히, 모델은 시간이 지남에 따라 개선될 가능성이 높습니다. 따라서 이전 버전을 새 버전으로 교체하는 동시에 승인되지 않은 사람이 유효한 모델을 정품이 아닌 모델로 교체하는 것을 허용하지 않는 방법이 있어야 합니다.

Stevens는 "보안 펌웨어 업데이트는 물론 보안 방식으로 시스템을 디버깅할 수 있는 기능이 요즘 중요한 이슈가 되고 있습니다."라고 말했습니다.

데이터 침해 위험
데이터가 도난당하지 않도록 보호해야 한다는 것은 매우 명백합니다. 그러한 절도는 분명히 기밀 위반이지만 정부 규정이 관련된 경우 그 결과는 훨씬 더 끔찍합니다. 그러한 규정의 예로는 유럽의 GDPR 규정과 미국의 HIPAA 의료 규정이 있습니다.

그러나 노골적인 절도 외에도 데이터 조작도 우려됩니다. 예를 들어, 훈련 데이터는 어떤 비밀을 알아내기 위한 수단으로 변경되거나 결과 모델이 제대로 작동하지 않도록 단순히 훈련을 독살하기 위해 변경될 수 있습니다.

특히 모델을 교육할 때 컴퓨팅의 대부분은 데이터 센터에서 발생하며 여기에는 저비용 운영을 위한 다중 테넌트 서버가 포함될 수 있습니다. 보안 IP의 수석 제품 마케팅 관리자인 Dana Neustadter는 "더 많은 회사와 팀이 다양한 이유로 주로 확장성과 비용을 위해 공유 클라우드 컴퓨팅 리소스에 의존하고 있습니다."라고 말했습니다. Synopsys.

이는 동일한 하드웨어에 여러 작업이 공존한다는 것을 의미합니다. 그러나 이러한 작업은 별도의 서버에 있을 때보다 덜 안전하게 실행되어야 합니다. 데이터 또는 기타 모든 작업이 한 작업에서 다른 작업으로 누출되는 것을 방지하는 방식으로 소프트웨어에 의해 격리되어야 합니다.

Neustadter는 "컴퓨팅을 클라우드로 이동하면 시스템을 더 이상 제어할 수 없을 때 잠재적인 보안 위험이 발생할 수 있습니다."라고 말했습니다. “실수든 악의적이든 한 사용자의 데이터는 다른 사용자의 맬웨어가 될 수 있습니다. 사용자는 규정 준수 표준을 충족하고, 위험 평가를 수행하고, 사용자 액세스를 제어하는 등의 작업을 수행하기 위해 클라우드 공급자를 신뢰해야 합니다."

컨테이너화는 일반적으로 다중 테넌트 환경에서 프로세스를 격리하는 데 도움이 되지만 한 불량 프로세스가 다른 프로세스에 영향을 미칠 수 있습니다. Panesar는 "애플리케이션이 처리 리소스를 낭비하게 만드는 문제가 다른 테넌트에 영향을 미칠 수 있습니다."라고 말했습니다. "이는 의료 보고와 같은 중요한 환경이나 세입자에게 구속력이 있는 SLA(서비스 수준 계약)가 있는 모든 곳에서 특히 중요합니다."

마지막으로, 데이터의 계산이나 기밀성의 특정 결과에 영향을 미치지 않을 수 있지만 데이터 센터 운영은 관리 운영이 조작으로부터 안전한지 확인해야 합니다. Stevens는 "서비스에 대한 적절한 청구를 보장하고 인종 프로파일링과 같은 비윤리적 사용을 방지하기 위해 보안도 있어야 합니다."라고 지적했습니다.

새로운 표준은 개발자가 필요한 모든 기반을 다루고 있는지 확인하는 데 도움이 됩니다.

“업계에서는 PCI-SIG가 IDE(Integrity and Data Encryption) 사양을 주도하고 CMA(구성 요소 측정 및 인증) 및 TEE-I/ O)"라고 Neustadter가 말했습니다. "할당 가능한 장치 인터페이스 보안 프로토콜(ADISP) 및 기타 프로토콜은 강력한 인증 및 키 관리를 통해 호스팅 환경에서 격리된 기밀 컴퓨팅 워크로드를 유지하는 데 사용되는 신뢰할 수 있는 가상 머신의 가상화 기능을 확장합니다."

그림 2: AI 컴퓨팅에는 여러 자산이 포함되며 각 자산에는 특정 보안 요구 사항이 있습니다. 출처: 램버스

그림 2: AI 컴퓨팅에는 여러 자산이 포함되며 각 자산에는 특정 보안 요구 사항이 있습니다. 출처: 램버스

보호 구현
일반적인 AI 컴퓨팅 환경을 고려할 때 작업을 잠그기 위해 수행해야 하는 몇 가지 단계가 있습니다. 하드웨어로 시작 신뢰의 뿌리 (HRoT).

HRoT는 사용 중인 키 또는 기타 비밀을 노출하지 않고 인증 및 암호화와 같은 보안 작업을 수행할 수 있는 신뢰할 수 있고 불투명한 환경입니다. TEE의 중요한 구성 요소가 될 수 있습니다. 일반적으로 클래식 아키텍처의 프로세서와 연결되지만 여기에는 일반적으로 하나 이상의 처리 요소가 있습니다.

특히 AI 처리 전용의 최신 하드웨어 칩에는 기본 제공 신뢰 기반 기능이 없습니다. Stevens는 후속 인터뷰에서 "최근 많은 AI/ML 가속기 설계, 특히 신생 기업이 가장 최적의 NPU 처리를 구현하는 데 주로 초점을 맞추었습니다."라고 설명했습니다. "보안은 주요 초점이 아니거나 레이더에 있지 않았습니다."

즉, 시스템은 다른 곳에서 HRoT를 제공해야 하며 이를 위한 몇 가지 옵션이 있습니다.

사용 중인 데이터에 초점을 맞춘 한 가지 접근 방식은 호스트 칩과 가속기 칩과 같은 각 컴퓨팅 요소에 자체 HRoT를 제공하는 것입니다. 각 HRoT는 자체 키를 처리하고 관련 프로세서의 지시에 따라 작업을 수행합니다. 현재 신경 프로세서의 경우는 아니지만 SoC에 모놀리식으로 통합될 수 있습니다.

움직이는 데이터에 중점을 둔 다른 옵션은 네트워크 연결에서 HRoT를 제공하여 보드에 들어오는 모든 데이터가 깨끗한지 확인하는 것입니다. "움직이는 데이터의 경우 처리량 요구 사항이 매우 높고 대기 시간 요구 사항이 매우 낮습니다."라고 Stevens는 말했습니다. "시스템은 일반적으로 세션 키와 함께 작동하므로 임시 키를 사용합니다."

"인증을 위해 블레이드는 식별 번호, 반드시 비밀로 할 필요는 없습니다.”라고 그는 말했습니다. “고유하고 불변해야 합니다. 각 칩에 대해 하나씩 또는 블레이드 또는 어플라이언스 자체에 대해 하나씩, 여러 ID가 될 수 있습니다."

이러한 외부 HRoT는 보안이 미래의 NPU(신경 처리 장치)에 구축될 때 필요하지 않을 수 있습니다. "결국, 신생 기업의 초기 NPU 개념 증명이 성공적인 것으로 나타났을 때, 이러한 설계의 두 번째 스핀 아키텍처는 더 큰 워크로드를 처리할 수 있는 더 많은 암호화 기능을 갖게 될 루트의 신뢰 기능을 갖게 될 것입니다." 스티븐이 덧붙였다.

SRAM에서 DRAM으로 또는 그 반대로 이동하는 데이터도 스누핑되지 않도록 암호화해야 합니다. 이웃 보드에 대한 직접 측면 연결에도 동일하게 적용됩니다.

이미 집중적인 계산에 많은 암호화가 포함되어 있기 때문에 작업이 중단될 위험이 있습니다. 안전한 운영이 중요하지만 운영 자체를 방해하는 경우 아무에게도 도움이 되지 않습니다.

"네트워크 또는 패브릭에 대한 PCI Express 링크는 처리량이 높은 L2 또는 L3 프로토콜 인식 보안 패킷 엔진을 삽입하여 보호해야 합니다."라고 Stevens는 덧붙였습니다. "이러한 패킷 엔진은 CPU의 지원이 거의 필요하지 않습니다."

이는 메모리 및 블레이드 간 트래픽 암호화에도 적용될 수 있습니다. 그는 “게이트웨이 CPU DDR과 로컬 AI 가속기 GDDR의 내용은 인라인 메모리 암호화 엔진으로 보호할 수 있다”고 말했다. "전용 블레이드 간 측면 채널이 존재하면 높은 처리량의 AES-GCM으로 보호할 수 있습니다.갈루아/카운터 모드] 링크 암호화 가속기.”

마지막으로 실제 작동을 추적하는 지속적인 모니터링을 통해 표준 보안 보호를 강화할 수 있습니다. "시스템이 어떻게 작동하는지 알려줄 수 있는 하드웨어에서 정보를 수집해야 합니다."라고 Panesar는 말했습니다. “이것은 실시간, 즉각적, 장기적 통계가 필요합니다. 또한 이해 가능하고(인간이든 기계든) 실행 가능해야 합니다. 온도, 전압 및 타이밍 데이터는 모두 훌륭하지만 더 높은 수준의 보다 정교한 정보도 필요합니다."

그러나 이것이 엄격한 보안을 대신할 수는 없습니다. “목표는 기존의 보안 보호에서 벗어날 수 있는 문제를 식별하는 것이지만 그러한 보호를 대신할 수는 없습니다.”라고 그는 덧붙였습니다.

앞으로 열심히
이러한 요소는 구현하기가 반드시 간단한 것은 아닙니다. 노력이 필요합니다. Synopsys의 보안 IP 설계자인 Mike Borza는 "복원력, 시스템을 안전하게 업데이트하는 능력, 성공적인 공격으로부터 복구하는 능력이 진정한 도전과제입니다."라고 말했습니다. "그런 시스템을 구축하는 것은 매우 어렵습니다."

그러나 AI 컴퓨팅이 점점 더 일상화되면서 데이터 모델링이나 보안 전문가가 아닌 엔지니어도 AI를 애플리케이션에 적용하면서 ML 서비스로 눈을 돌리게 될 것입니다. 그들은 인프라에 의존할 수 있어야 하며 중요한 데이터를 잘 관리하여 제품을 차별화하는 데 사용할 모델과 계산이 잘못된 손에 넘어가지 않도록 해야 합니다.

관련
칩 및 AI 시스템의 보안 트레이드오프
전문가 회의: 보안이 성능과 성능에 미치는 영향, AI 시스템의 보안이 어려운 이유, 개인 정보 보호에 대한 고려 사항이 증가하는 이유.
보안 연구 비트
21월 XNUMX일 USENIX 보안 심포지엄에서 발표된 새로운 보안 기술 문서.
항상 켜짐, 항상 위험
더 많은 처리 요소, 자동 깨우기, 무선 업데이트 및 연결성 향상으로 칩 보안에 대한 우려가 높아집니다.
보안 지식 센터
하드웨어 보안에 대한 주요 기사, 백서, 블로그, 비디오
AI 지식 센터

출처: https://semiengineering.com/ai-ml-workloads-need-extra-security/

타임 스탬프 : 2021 년 11 월 15 일

타임 스탬프 : 28년 2021월 XNUMX일

플라톤에 의해 재발행

PPA(V): 가변 작동 전압으로 와트당 성능 최적화

네 가지 유형의 예측 유지 관리 기술

ML을 사용하여 라이브러리 특성화 및 검증 문제 해결

AI를 훈련하는 더 쉽고 빠른 방법

차세대 웨어러블 기술을 준비하세요

3nm 이상에서의 포토마스크 문제

실리콘 웨이퍼에 대한 혼합 전망

리소그래피에 적용되는 화학: 향상된 평탄화를 위한 마랑고니 효과 기반 단일층

Apple iPhone 13 Pro 내부 살펴보기

버그 헌트! 공식적 커버리지 폐쇄에 나선다

기성 프로세서 IP 사용자 정의

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정

더보기 반도체 공학

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정