Las cargas de trabajo de AI / ML necesitan seguridad adicional

Reeditado por Platón

seguidores: 0

La necesidad de seguridad está impregnando todos los sistemas electrónicos. Pero dado el crecimiento de la informática de aprendizaje automático de los centros de datos, que se ocupa de datos extremadamente valiosos, algunas empresas están prestando especial atención al manejo seguro de esos datos.

Se deben aplicar todas las soluciones habituales de seguridad del centro de datos, pero se necesita un esfuerzo adicional para garantizar que los modelos y los conjuntos de datos estén protegidos cuando se almacenan, tanto cuando se transfieren hacia y desde los blades del acelerador, como cuando se procesan en un sistema que aloja más de un inquilino al mismo tiempo dentro del mismo servidor.

“Los modelos de inferencia, los algoritmos de inferencia, los modelos de entrenamiento y los conjuntos de datos de entrenamiento se consideran propiedad intelectual valiosa y necesitan protección, especialmente porque estos activos valiosos se entregan a los centros de datos para su procesamiento en recursos compartidos”, dijo Bart Stevens, director senior de marketing de productos. para IP de seguridad en Rambus, en una presentación reciente.

Cualquier manipulación de los datos de entrenamiento de IA puede provocar la creación de un modelo defectuoso. Y cualquier cambio en un modelo bien entrenado puede dar lugar a que el motor de IA extraiga conclusiones incorrectas. “Los tres tipos principales de aprendizaje (supervisado, no supervisado y de refuerzo) usan cálculos ponderados para producir un resultado”, dijo Gajinder Panesar, miembro de EDA de Siemens. “Si esas ponderaciones están obsoletas, corruptas o manipuladas, entonces el resultado puede ser simplemente incorrecto”.

Las implicaciones de un ataque a una carga de trabajo de IA dependerán de la aplicación, pero el resultado nunca será bueno. La única pregunta es si causará daños o lesiones graves.

Si bien los ataques son el foco principal de protección, no son las únicas áreas de preocupación. “Las 'amenazas' se dividen en dos grandes categorías: interferencia intencional por parte de un mal actor y problemas no intencionales, que generalmente pueden considerarse errores, ya sea en el hardware o en el software”, dijo Panesar.

La base de la seguridad
Existen nociones de seguridad fundamentales que se aplican a cualquier entorno informático, y la informática de IA no es una excepción. Si bien se debe prestar especial atención a ciertos aspectos de una carga de trabajo de IA, no es solo esa carga de trabajo lo que debe protegerse. “Tenemos que pensar en la integridad de la operación de todo el sistema, no solo en el chip en particular o en el subsistema en el chip con el que estamos tratando”, dijo Panesar.

Como lo describe Stevens, hay cuatro aspectos de la seguridad que deben manejarse. Primero, los datos y la computación deben mantenerse privados. En segundo lugar, no debería ser posible que un atacante altere ninguno de los datos en ningún lugar y en ningún momento. En tercer lugar, se debe saber que todas las entidades que participan en la computación son auténticas. Y cuarto, no debería ser posible que un atacante interfiera con el funcionamiento normal de la plataforma informática.

Esto conduce a algunos conceptos básicos de seguridad que, con suerte, serán familiares para cualquier persona involucrada en el diseño de sistemas seguros. El primero de ellos es la protección de datos en tres fases:

1. Datos en reposo, que incluye cualquier dato almacenado;
2. Datos en movimiento a medida que se comunican de un lugar a otro, y
3. Datos en uso, que están activos y vivos en la plataforma informática a medida que se trabaja.

Otro requisito familiar es el entorno de ejecución de confianza (TEE). Este es un entorno informático limitado a software altamente confiable y accesible para el resto de la plataforma informática solo a través de canales altamente controlados y confiables. Cualquier hardware crítico u otros activos que no puedan verse comprometidos se colocarán en este entorno y no se podrá acceder a ellos directamente fuera del TEE.

El TEE proporciona una forma fundamental de manejar las operaciones de seguridad críticas de una manera que está mucho menos sujeta a la interferencia de software externo. Mantiene el software de la aplicación separado de las operaciones de seguridad de nivel inferior. También administra el proceso de inicio para garantizar que se desarrolle de manera segura y confiable, detectando cualquier intento de iniciar un código no auténtico.

Hay una amplia gama de operaciones necesarias para la informática segura. La autenticación asegura que las entidades con las que uno se comunica son realmente quienes dicen ser. El cifrado mantiene los datos a salvo de miradas indiscretas. El software y otros artefactos de datos pueden tener su procedencia garantizada mediante operaciones de hash y firma. Y todas estas funciones requieren claves de fuerza suficiente para proteger contra la piratería de fuerza bruta, y eso hace que el aprovisionamiento y la gestión de claves sean esenciales.

Se proporcionan protecciones adicionales al garantizar que los TEE y otros circuitos de seguridad críticos estén protegidos contra intentos de intrusión o interrupción de la operación. Los canales laterales deben estar protegidos para garantizar que no haya forma de espiar datos o claves midiendo artefactos electrónicos detectables externamente como energía o radiación electromagnética.

Y finalmente, se puede proporcionar una capa adicional de protección mediante circuitos que monitorean los sucesos internos para generar una alerta si parece que algo sospechoso está en marcha.

Aplicando esto específicamente a la IA
Mantener seguras las cargas de trabajo de IA comienza con estos requisitos básicos de seguridad, ya sea capacitación o inferencia, y ya sea que se haga en un centro de datos, un servidor local o en un equipo perimetral. Pero hay consideraciones adicionales específicas de las cargas de trabajo de IA que deben tenerse en cuenta.

“Se requieren implementaciones seguras de IA para evitar la extracción o el robo de algoritmos de inferencia, modelos y parámetros, algoritmos de entrenamiento y conjuntos de entrenamiento”, explicó Stevens. “Esto también significaría evitar el reemplazo involuntario de estos activos con algoritmos o conjuntos de datos maliciosos. Esto evitaría envenenar el sistema para alterar los resultados de la inferencia, provocando una clasificación errónea”.

Las nuevas arquitecturas de hardware de procesamiento de IA proporcionan otra parte del sistema que necesita protección. “El corazón del sistema es obviamente el conjunto de potentes chips aceleradores, que van desde un puñado hasta una gran matriz de unidades de procesamiento de IA dedicadas con su propio conjunto de memoria y con una sola tarea, que es procesar la mayor cantidad de datos posible en el marco de tiempo más corto”, señaló Stevens.

Los diseñadores primero deben tener en cuenta los activos específicos que necesitan protección. El más obvio es el hardware de entrenamiento o inferencia. “Por lo general, en los blades se ve una CPU de puerta de enlace, con un flash dedicado y DDR”, dijo Stevens. “Su tarea es administrar modelos, agregar los activos. y aceleradores de control. Luego está la conexión a la estructura: una red de alta velocidad o interfaces PCIe-4 o -5. Algunas hojas también tienen enlaces patentados entre hojas”.

Fig. 1: Un blade de IA generalizado para un centro de datos. Además de la CPU habitual, la memoria dinámica y la conexión de red, los aceleradores harán el trabajo pesado, asistidos por la SRAM interna. Fuente: Rambus

Además, hay varios tipos de datos a proteger, y estos dependen de si la operación es de entrenamiento o de inferencia. Al entrenar un modelo, se deben proteger las muestras de datos de entrenamiento y el modelo básico que se está entrenando. Al inferir, el modelo entrenado, todos los pesos, los datos de entrada y los resultados de salida necesitan protección.

Desde el punto de vista operativo, esta es un área nueva que evoluciona rápidamente, por lo que es probable que se depure. Cualquier depuración debe realizarse de forma segura, y cualquier capacidad de depuración debe cerrarse cuando no esté en uso autenticado.

Y los cambios en el código o cualquiera de los otros activos deben entregarse en actualizaciones bien seguras. En particular, es probable que los modelos mejoren con el tiempo. Por lo tanto, debe haber una manera de reemplazar las versiones antiguas por otras más nuevas y, al mismo tiempo, no permitir que ninguna persona no autorizada reemplace un modelo válido por uno no auténtico.

“Las actualizaciones seguras de firmware, así como la capacidad de poder depurar el sistema de manera segura, se están convirtiendo en apuestas en la mesa en estos días”, señaló Stevens.

Riesgos de violaciones de datos
Es bastante obvio que los datos deben protegerse contra el robo. Cualquier robo de este tipo es claramente una violación de la confidencialidad, pero las ramificaciones de eso son aún más graves cuando se trata de regulaciones gubernamentales. Ejemplos de dicha regulación son las reglas de GDPR en Europa y las reglas de atención médica de HIPAA en los Estados Unidos.

Pero además del robo absoluto, la manipulación de los datos también es motivo de preocupación. Los datos de entrenamiento, por ejemplo, podrían alterarse como un medio para descubrir algún secreto o simplemente para envenenar el entrenamiento para que el modelo resultante funcione mal.

Gran parte de la informática, especialmente cuando se entrena un modelo, ocurrirá en un centro de datos, y eso puede involucrar servidores de múltiples inquilinos para una operación de menor costo. “Más empresas y equipos confían en los recursos de computación en la nube compartidos por una variedad de razones, principalmente por la escalabilidad y el costo”, observó Dana Neustadter, gerente senior de marketing de productos para IP de seguridad en Sinopsis.

Eso significa que varios trabajos coexisten en el mismo hardware. Y, sin embargo, esos trabajos deben ejecutarse con la misma seguridad que si estuvieran en servidores separados. Deben estar aislados por software de una manera que evite que nada (datos u otros) se filtre de un trabajo a otro.

“Mover la computación a la nube puede generar riesgos potenciales de seguridad cuando el sistema ya no está bajo su control”, dijo Neustadter. “Ya sea erróneo o malicioso, los datos de un usuario pueden ser el malware de otro usuario. Los usuarios deben confiar en el proveedor de la nube para cumplir con los estándares de cumplimiento, realizar evaluaciones de riesgos, controlar el acceso de los usuarios, etc.

La creación de contenedores generalmente ayuda a aislar los procesos en un entorno de múltiples inquilinos, pero aún es posible que un proceso no autorizado afecte a otros. “Un problema que hace que una aplicación acapare los recursos de procesamiento puede afectar a otros inquilinos”, señaló Panesar. “Esto es especialmente importante en entornos críticos, como informes médicos, o en cualquier lugar donde los inquilinos tengan un SLA (acuerdo de nivel de servicio) vinculante”.

Finalmente, si bien es posible que no afecte el resultado específico de un cálculo o la confidencialidad de los datos, las operaciones del centro de datos deben garantizar que las operaciones administrativas estén a salvo de modificaciones. “La seguridad también debe estar presente para garantizar la facturación adecuada de los servicios y para evitar el uso poco ético, como la discriminación racial”, señaló Stevens.

Los nuevos estándares ayudarán a los desarrolladores a asegurarse de que están cubriendo todas las bases necesarias.

“La industria está desarrollando estándares como la seguridad de interfaz PCIe, con PCI-SIG impulsando una especificación de integridad y cifrado de datos (IDE), complementada con medición y autenticación de componentes (CMA) y E/S de entorno de ejecución confiable (TEE-I/ O)”, dijo Neustadter. “El protocolo de seguridad de interfaz de dispositivo asignable (ADISP) y otros protocolos amplían las capacidades de virtualización de las máquinas virtuales confiables que se utilizan para mantener las cargas de trabajo informáticas confidenciales aisladas de los entornos de alojamiento, respaldadas por una sólida autenticación y administración de claves”.

Fig. 2: La informática de IA implica una serie de activos, y cada uno tiene necesidades de seguridad específicas. Fuente: Rambus

Fig. 2: La informática de IA implica una serie de activos, y cada uno tiene necesidades de seguridad específicas. Fuente: Rambus

Implementando protecciones
Entonces, dado un entorno informático de IA típico, hay varios pasos que se deben tomar para bloquear las operaciones. Comienzan con un hardware raíz de confianza (HRoT).

Un HRoT es un entorno opaco y confiable donde se pueden realizar operaciones seguras como la autenticación y el cifrado sin exponer las claves u otros secretos que se utilizan. Podría ser un componente crítico de un TEE. Suelen estar asociados a un procesador en una arquitectura clásica, pero aquí suele haber más de un elemento de procesamiento.

En particular, los chips de hardware más nuevos dedicados al procesamiento de IA no tienen capacidades integradas de raíz de confianza. “Muchos diseños recientes de aceleradores de IA/ML, especialmente de empresas emergentes, se han centrado principalmente en incorporar el procesamiento NPU más óptimo”, explicó Stevens en una entrevista de seguimiento. “La seguridad no era el foco principal, o no estaba en su radar”.

Eso significa que un sistema deberá proporcionar un HRoT en otro lugar, y hay un par de opciones para eso.

Un enfoque, que se enfoca en los datos en uso, es darle a cada elemento informático, por ejemplo, el chip host y el chip acelerador, su propio HRoT. Cada HRoT manejaría sus propias claves y realizaría operaciones bajo la dirección de su procesador asociado. Pueden integrarse monolíticamente en SoC, aunque ese no es el caso actualmente para los procesadores neuronales.

La otra opción, que se centra en los datos en movimiento, es proporcionar un HRoT en la conexión de red para garantizar que todos los datos que ingresen a la placa estén limpios. “Para los datos en movimiento, los requisitos de rendimiento son extremadamente altos, con requisitos de latencia muy bajos”, dijo Stevens. “Los sistemas usan claves efímeras, ya que normalmente funcionan con claves de sesión”.

“Para la autenticación, una cuchilla necesitaría obtener una número de identificación, que no necesariamente debe mantenerse en secreto”, continuó. “Solo necesita ser único e inmutable. Pueden ser muchas identificaciones, una para cada chip o una para el blade o el dispositivo en sí”.

Es posible que estos HRoT externos no sean necesarios cuando la seguridad esté integrada en futuras unidades de procesamiento neuronal (NPU). "Eventualmente, cuando las pruebas de concepto iniciales de NPU de las nuevas empresas hayan demostrado ser exitosas, la arquitectura de su segundo giro de estos diseños tendrá capacidades de raíz de confianza en ellos, que tendrán más capacidades criptográficas para manejar las cargas de trabajo más grandes". añadió Stevens.

Los datos que se mueven de SRAM a DRAM, o viceversa, también deben cifrarse para garantizar que no se puedan espiar. Lo mismo se aplicaría a cualquier conexión lateral directa a una placa vecina.

Con tanto cifrado incrustado en un cómputo ya intenso, uno corre el riesgo de atascar la operación. La operación segura es fundamental, pero no le sirve a nadie si paraliza la operación en sí.

“La red o el enlace PCI Express a la estructura debe protegerse mediante la inserción de un motor de paquetes de seguridad con reconocimiento de protocolo L2 o L3 de alto rendimiento”, agregó Stevens. “Tal motor de paquetes requiere poco apoyo de la CPU”.

Esto también puede aplicarse a la memoria y al cifrado de tráfico de hoja a hoja. “El contenido de la CPU DDR de la puerta de enlace y los GDDR del acelerador de IA local pueden protegerse mediante un motor de cifrado de memoria en línea”, dijo. “Si existe un canal lateral de hoja a hoja dedicado, puede protegerse mediante AES-GCM de alto rendimiento [Galois / Modo contador] aceleradores de cifrado de enlaces”.

Finalmente, las protecciones de seguridad estándar pueden reforzarse con un monitoreo continuo que realiza un seguimiento de la operación real. “Necesita recopilar información del hardware que pueda decirle cómo se comporta el sistema”, dijo Panesar. “Esto debe ser estadístico en tiempo real, instantáneo y a largo plazo. También debe ser comprensible (ya sea por un humano o una máquina) y accionable. Los datos de temperatura, voltaje y tiempo están muy bien, pero también se necesita información más sofisticada y de mayor nivel”.

Pero esto no sustituye a una seguridad rigurosa. “El objetivo es identificar problemas que podrían eludir las protecciones de seguridad convencionales, pero no es un sustituto de dicha protección”, agregó.

trabajo duro por delante
Estos elementos no son necesariamente fáciles de implementar. Eso requiere trabajo duro. “La resiliencia, la capacidad de actualizar un sistema de manera segura y la capacidad de recuperarse de un ataque exitoso son desafíos reales”, señaló Mike Borza, arquitecto de IP de seguridad en Synopsys. “Construir sistemas como ese es muy, muy difícil”.

Pero a medida que la informática de IA se vuelve cada vez más rutinaria, los ingenieros que no son especialistas en el modelado de datos o la seguridad recurrirán cada vez más a los servicios de ML a medida que integran la IA en sus aplicaciones. Necesitan poder contar con la infraestructura, cuidando bien sus datos importantes para que los modelos y los cálculos que usarán para diferenciar sus productos no terminen en las manos equivocadas.

Relacionado:
Compensaciones de seguridad en chips y sistemas de IA
Expertos en la mesa: cómo la seguridad afecta la potencia y el rendimiento, por qué los sistemas de inteligencia artificial son tan difíciles de proteger y por qué la privacidad es una consideración cada vez mayor.
Bits de investigación de seguridad
Nuevos documentos técnicos de seguridad presentados en el Simposio de Seguridad USENIX del 21 de agosto.
Siempre activo, siempre en riesgo
Las preocupaciones sobre la seguridad de los chips aumentan con más elementos de procesamiento, activación automática, actualizaciones inalámbricas y una mayor conectividad.
Centro de conocimientos de seguridad
Artículos destacados, documentos técnicos, blogs, videos sobre seguridad de hardware
Centro de conocimiento de IA

Fuente: https://semiengineering.com/ai-ml-workloads-need-extra-security/

Sello de tiempo: 15 de noviembre.

Sello de tiempo: Nov 8, 2021

Reeditado por Platón

¡Caza de errores! Espiral de cierre de cobertura formal

Depuración de aplicaciones integradas

Electrodos transparentes pulverizados para dispositivos optoelectrónicos: daños inducidos y estrategias de mitigación

Adopción de redes Ethernet sensibles al tiempo en la industria automotriz

Una mirada más profunda a las sensibilidades de RowHammer: análisis experimental de chips DRAM reales e implicaciones en futuros ataques y defensas

HyperRAM como memoria de expansión de bajo número de pines para sistemas integrados

Optimización de cobertura inteligente: cierre de verificación en Hyperdrive

Un resonador de frecuencia de resonancia inferior a 1 Hz habilitado por sintonización de varios pasos para microsismómetro

Tecnología dinámica de simulación de distribución de corriente en chip para el diseño de disposición de dispositivos de potencia

Bits de fabricación: 8 de noviembre

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta