Cargas de trabalho de IA/ML precisam de segurança extra

Republicado por Platão

seguidores: 0

A necessidade de segurança permeia todos os sistemas eletrônicos. Mas dado o crescimento da computação de aprendizagem automática em centros de dados, que lida com dados extremamente valiosos, algumas empresas estão a prestar especial atenção ao tratamento seguro desses dados.

Todas as soluções usuais de segurança de data center devem ser implementadas, mas é necessário um esforço extra para garantir que os modelos e conjuntos de dados sejam protegidos quando armazenados, tanto quando transferidos de e para blades aceleradoras, quanto durante o processamento em um sistema que hospeda mais de um locatário ao mesmo tempo no mesmo servidor.

“Modelos de inferência, algoritmos de inferência, modelos de treinamento e conjuntos de dados de treinamento são considerados propriedade intelectual valiosa e precisam de proteção – especialmente porque esses ativos valiosos são transferidos para data centers para processamento em recursos compartilhados”, disse Bart Stevens, diretor sênior de marketing de produto para segurança IP em Rambus, em uma apresentação recente.

Qualquer adulteração dos dados de treinamento de IA pode causar a criação de um modelo defeituoso. E quaisquer alterações em um modelo bem treinado podem resultar em conclusões incorretas tiradas pelo mecanismo de IA. “Todos os três principais tipos de aprendizagem (supervisionada, não supervisionada e por reforço) usam cálculos ponderados para produzir um resultado”, disse Gajinder Panesar, bolsista da Siemens EDA. “Se essas ponderações estiverem obsoletas, corrompidas ou adulteradas, então o resultado pode ser simplesmente errado.”

As implicações de um ataque a uma carga de trabalho de IA dependerão da aplicação, mas o resultado nunca será bom. A única questão é se isso causará danos ou ferimentos graves.

Embora os ataques sejam o foco principal da proteção, eles não são as únicas áreas de preocupação. “As 'ameaças' se enquadram em duas categorias amplas – interferência intencional de um malfeitor e problemas não intencionais, que geralmente podem ser considerados bugs, seja no hardware ou no software”, disse Panesar.

A base da segurança
Existem noções fundamentais de segurança que se aplicam a qualquer ambiente de computação, e a computação de IA não é exceção. Embora deva ser dada especial atenção a determinados aspectos de uma carga de trabalho de IA, não é apenas essa carga de trabalho que deve ser protegida. “Temos que pensar na integridade da operação de todo o sistema, não apenas no chip específico ou no subsistema on-chip com o qual estamos lidando”, disse Panesar.

Conforme descrito por Stevens, há quatro aspectos de segurança que devem ser tratados. Primeiro, os dados e a computação devem ser mantidos em sigilo. Em segundo lugar, não deveria ser possível para um invasor alterar qualquer dado em qualquer lugar e a qualquer momento. Terceiro, todas as entidades participantes da computação devem ser reconhecidas como autênticas. E quarto, não deveria ser possível a um invasor interferir na operação normal da plataforma de computação.

Isto leva a alguns conceitos básicos de segurança que esperamos que sejam familiares para qualquer pessoa envolvida no projeto de sistemas seguros. A primeira delas é a proteção de dados em três fases:

1. Dados em repouso, que incluem quaisquer dados armazenados;
2. Dados em movimento conforme são comunicados de um lugar para outro, e
3. Dados em uso, que estão ativos e vivos na plataforma computacional à medida que são trabalhados.

Outro requisito familiar é o ambiente de execução confiável (TEE). Este é um ambiente de computação limitado a software altamente confiável e acessível ao restante da plataforma de computação apenas por meio de canais altamente controlados e confiáveis. Qualquer hardware crítico ou outros ativos que não possam ser comprometidos serão colocados neste ambiente e não estarão diretamente acessíveis fora do TEE.

O TEE fornece uma forma fundamental de lidar com operações críticas de segurança de uma forma muito menos sujeita a interferências de software externo. Ele mantém o software aplicativo separado das operações de segurança de nível inferior. Ele também gerencia o processo de inicialização para garantir que ele prossiga de forma segura e confiável, detectando qualquer tentativa de inicialização de código não autêntico.

Há uma ampla gama de operações necessárias para uma computação segura. A autenticação garante que as entidades com quem se comunica são realmente quem dizem ser. A criptografia mantém os dados protegidos de olhares indiscretos. Software e outros artefatos de dados podem ter sua origem comprovada por operações de hash e assinatura. E todas essas funções exigem chaves com força suficiente para proteger contra hackers de força bruta, e isso torna essencial o provisionamento e o gerenciamento eficazes de chaves.

Proteções adicionais são fornecidas garantindo que os TEEs e outros circuitos críticos de segurança estejam protegidos contra tentativas de invasão ou interrupção da operação. Os canais laterais devem ser protegidos para garantir que não haja nenhuma maneira de espionar dados ou chaves medindo artefatos eletrônicos detectáveis externamente, como energia ou radiação eletromagnética.

E, finalmente, uma camada adicional de proteção pode ser fornecida por circuitos que monitoram os acontecimentos internos para emitir um alerta se algo suspeito parecer estar acontecendo.

Aplicando isso especificamente à IA
Manter as cargas de trabalho de IA seguras começa com esses requisitos básicos de segurança, seja por treinamento ou inferência, e seja em um data center, em um servidor local ou em equipamentos de ponta. Mas há considerações adicionais específicas das cargas de trabalho de IA que devem ser levadas em consideração.

“Implementações seguras de IA são necessárias para evitar a extração ou roubo de algoritmos de inferência, modelos e parâmetros, algoritmos de treinamento e conjuntos de treinamento”, explicou Stevens. “Isso também significaria evitar a substituição não intencional desses ativos por algoritmos ou conjuntos de dados maliciosos. Isso evitaria envenenar o sistema para alterar os resultados da inferência, causando erros de classificação.”

As novas arquiteturas de hardware de processamento de IA fornecem outra parte do sistema que precisa de proteção. “O coração do sistema é obviamente o conjunto de poderosos chips aceleradores, variando de um punhado a uma grande matriz de unidades de processamento de IA dedicadas com seu próprio conjunto de memória e com apenas uma tarefa, que é processar o máximo de dados possível em o menor período de tempo”, observou Stevens.

Os projetistas devem primeiro levar em conta os ativos específicos que precisam de proteção. O mais óbvio é o hardware de treinamento ou inferência. “Normalmente visto em blades é uma CPU gateway, com flash dedicado e DDR”, disse Stevens. “Sua tarefa é gerenciar modelos, agregar os ativos. e aceleradores de controle. Depois, há a conexão com a malha – uma rede de alta velocidade ou interfaces PCIe-4 ou -5. Alguns blades também possuem links proprietários entre blades.”

Figura 1: Um blade de IA generalizado para um data center. Além da CPU usual, memória dinâmica e conexão de rede, os aceleradores farão o trabalho pesado, auxiliados pela SRAM interna. Fonte: Rambus

Além disso, existem vários tipos de dados a serem protegidos, e estes dependem se a operação é treinamento ou inferência. Ao treinar um modelo, as amostras de dados de treinamento e o modelo básico que está sendo treinado devem ser protegidos. Ao inferir, o modelo treinado, todos os pesos, os dados de entrada e os resultados de saída precisam de proteção.

Operacionalmente, esta é uma área nova e em rápida evolução e, portanto, a depuração é provável. Qualquer depuração deve ser executada com segurança — e quaisquer recursos de depuração devem ser encerrados quando não estiverem em uso autenticado.

E as alterações no código ou em qualquer outro ativo devem ser entregues em atualizações bem seguras. Em particular, é provável que os modelos melhorem com o tempo. Portanto, deve haver uma forma de substituir versões antigas por versões mais recentes, ao mesmo tempo que não permite que qualquer pessoa não autorizada substitua um modelo válido por um não autêntico.

“Atualizações seguras de firmware, bem como a capacidade de depurar o sistema de maneira segura, estão se tornando apostas hoje em dia”, observou Stevens.

Riscos de violações de dados
É bastante óbvio que os dados devem ser protegidos contra roubo. Qualquer roubo deste tipo é claramente uma violação de confidencialidade, mas as ramificações disso são ainda mais terríveis quando estão envolvidas regulamentações governamentais. Exemplos de tal regulamentação são as regras do GDPR na Europa e as regras de cuidados de saúde da HIPAA nos Estados Unidos.

Mas, além do roubo total, a manipulação dos dados também é preocupante. Os dados de treinamento, por exemplo, poderiam ser alterados como forma de descobrir algum segredo ou simplesmente para envenenar o treinamento, fazendo com que o modelo resultante funcionasse mal.

Grande parte da computação – especialmente ao treinar um modelo – ocorrerá em um data center, e isso pode envolver servidores multilocatários para operação de baixo custo. “Mais empresas e equipes estão contando com recursos compartilhados de computação em nuvem por vários motivos, principalmente por escalabilidade e custo”, observou Dana Neustadter, gerente sênior de marketing de produto para segurança IP da Synopsys.

Isso significa que vários trabalhos coexistem no mesmo hardware. Mesmo assim, esses trabalhos não devem ser executados com menos segurança do que se estivessem em servidores separados. Eles devem ser isolados por software de uma maneira que evite que qualquer coisa – dados ou outros – vaze de um trabalho para outro.

“Mover a computação para a nuvem pode trazer riscos potenciais à segurança quando o sistema não estiver mais sob seu controle”, disse Neustadter. “Sejam equivocados ou maliciosos, os dados de um usuário podem ser malware de outro usuário. Os usuários precisam confiar no provedor de nuvem para atender aos padrões de conformidade, realizar avaliações de risco, controlar o acesso do usuário e assim por diante.”

A conteinerização geralmente ajuda a isolar processos em um ambiente multilocatário, mas ainda é possível que um processo não autorizado afete outros. “Um problema que faz com que um aplicativo consuma recursos de processamento pode afetar outros inquilinos”, observou Panesar. “Isso é especialmente importante em ambientes críticos, como relatórios médicos, ou em qualquer lugar onde os inquilinos tenham um SLA (acordo de nível de serviço) vinculativo.”

Finalmente, embora possa não afetar o resultado específico de uma computação ou a confidencialidade dos dados, as operações do data center devem garantir que as operações administrativas estejam protegidas contra ajustes. “A segurança também deve estar presente para garantir a facturação adequada dos serviços e para evitar o uso antiético, como o perfil racial”, sublinhou Stevens.

Novos padrões ajudarão os desenvolvedores a garantir que estão cobrindo todas as bases necessárias.

“A indústria está desenvolvendo padrões como segurança de interface PCIe, com o PCI-SIG conduzindo uma especificação de integridade e criptografia de dados (IDE), complementada por medição e autenticação de componentes (CMA) e E/S de ambiente de execução confiável (TEE-I/ Ó)”, disse Neustadter. “O protocolo de segurança de interface de dispositivo atribuível (ADISP) e outros protocolos expandem os recursos de virtualização das máquinas virtuais confiáveis usadas para manter cargas de trabalho de computação confidenciais isoladas de ambientes de hospedagem, apoiadas por autenticação forte e gerenciamento de chaves.”

Figura 2: A computação de IA envolve vários ativos e cada um tem necessidades de segurança específicas. Fonte: Rambus

Figura 2: A computação de IA envolve vários ativos e cada um tem necessidades de segurança específicas. Fonte: Rambus

Implementando proteções
Dado um ambiente típico de computação de IA, há várias etapas que devem ser tomadas para bloquear as operações. Eles começam com um hardware raiz de confiança (HRoT).

Um HRoT é um ambiente confiável e opaco onde operações seguras como autenticação e criptografia podem ser realizadas sem expor as chaves ou outros segredos usados. Pode ser um componente crítico de um ETE. Eles geralmente estão associados a um processador em uma arquitetura clássica, mas aqui normalmente há mais de um elemento de processamento.

Em particular, os chips de hardware mais recentes dedicados ao processamento de IA não possuem recursos integrados de raiz de confiança. “Muitos projetos recentes de aceleradores de IA/ML – especialmente por startups – se concentraram principalmente em obter o processamento NPU ideal a bordo”, explicou Stevens em uma entrevista de acompanhamento. “A segurança não era o foco principal ou não estava no radar deles.”

Isso significa que um sistema precisará fornecer um HRoT em outro lugar, e há algumas opções para isso.

Uma abordagem, que se concentra nos dados em uso, é dar a cada elemento de computação – o chip host e o chip acelerador, por exemplo – seu próprio HRoT. Cada HRoT manipularia suas próprias chaves e executaria operações sob a direção de seu processador associado. Eles podem ser integrados monoliticamente em SoCs, embora atualmente esse não seja o caso dos processadores neurais.

A outra opção, que foca nos dados em movimento, é fornecer um HRoT na conexão de rede para garantir que todos os dados que entram na placa estejam limpos. “Para dados em movimento, os requisitos de rendimento são extremamente elevados, com requisitos de latência muito baixos”, disse Stevens. “Os sistemas usam chaves efêmeras, pois normalmente funcionam com chaves de sessão.”

“Para autenticação, um blade precisaria obter um número de identificação, o que não precisa necessariamente ser mantido em segredo”, continuou ele. “Ele só precisa ser único e imutável. Podem ser vários IDs, um para cada chip ou um para o blade ou aparelho em si.”

Esses HRoTs externos podem não ser necessários quando a segurança for incorporada em futuras unidades de processamento neural (NPUs). “Eventualmente, quando as provas de conceito iniciais de NPU das startups se mostrarem bem-sucedidas, a arquitetura de sua segunda versão desses projetos terá recursos de raiz de confiança, que terão mais recursos criptográficos para lidar com cargas de trabalho maiores”, acrescentou Stevens.

Os dados transferidos de SRAM para DRAM, ou vice-versa, também devem ser criptografados para garantir que não possam ser espionados. O mesmo se aplicaria a qualquer ligação lateral direta a uma placa vizinha.

Com tanta criptografia incorporada em uma computação já intensa, corre-se o risco de paralisar a operação. A operação segura é crítica, mas não serve a ninguém se prejudicar a própria operação.

“A rede ou link PCI Express para a estrutura deve ser protegido pela inserção de um mecanismo de pacotes de segurança com reconhecimento de protocolo L2 ou L3 de alto rendimento”, acrescentou Stevens. “Esse mecanismo de pacotes requer pouco suporte da CPU.”

Isso também pode se aplicar à criptografia de memória e de tráfego blade a blade. “O conteúdo da CPU DDR do gateway e dos GDDRs do acelerador de IA local pode ser protegido por um mecanismo de criptografia de memória em linha”, disse ele. “Se existir um canal lateral blade a blade dedicado, ele pode ser protegido por AES-GCM de alto rendimento [Modo Galois/Contador] aceleradores de criptografia de link.”

Finalmente, as proteções de segurança padrão podem ser reforçadas por um monitoramento contínuo que monitora a operação real. “Você precisa coletar informações do hardware que possam informar como o sistema está se comportando”, disse Panesar. “Isso precisa ser estatístico em tempo real, instantâneo e de longo prazo. Também precisa ser compreensível (seja por um ser humano ou por uma máquina) e acionável. Os dados de temperatura, tensão e tempo são muito bons, mas você também precisa de informações de nível superior e mais sofisticadas.”

Mas isto não substitui uma segurança rigorosa. “O objetivo é identificar problemas que possam escapar às proteções de segurança convencionais – mas não substitui essa proteção”, acrescentou.

Trabalho duro pela frente
Esses elementos não são necessariamente simples de implementar. Isso requer muito trabalho. “A resiliência, a capacidade de atualizar um sistema com segurança e a capacidade de recuperação de um ataque bem-sucedido são desafios reais”, observou Mike Borza, arquiteto de segurança IP da Synopsys. “Construir sistemas como esse é muito, muito difícil.”

Mas à medida que a computação de IA se torna cada vez mais rotineira, os engenheiros que não são especialistas em modelagem de dados ou segurança recorrerão cada vez mais aos serviços de ML à medida que incorporam a IA em suas aplicações. Eles precisam poder contar com a infraestrutura, cuidando bem de seus dados importantes para que os modelos e cálculos que usarão para diferenciar seus produtos não acabem em mãos erradas.

Relacionado
Compensações de segurança em chips e sistemas de IA
Especialistas à mesa: Como a segurança afeta a potência e o desempenho, por que os sistemas de IA são tão difíceis de proteger e por que a privacidade é uma consideração crescente.
Bits de pesquisa de segurança
Novos artigos técnicos de segurança apresentados no Simpósio de Segurança USENIX de 21 de agosto.
Sempre ligado, sempre em risco
As preocupações com a segurança do chip aumentam com mais elementos de processamento, ativação automática, atualizações over-the-air e maior conectividade.
Centro de conhecimento de segurança
Principais notícias, white papers, blogs, vídeos sobre segurança de hardware
Centro de Conhecimento de IA

Fonte: https://semiengineering.com/ai-ml-workloads-need-extra-security/

Carimbo de hora: 15 de novembro de 2021

Mais de Engenharia de semicondutores

Carimbo de hora: 27 de janeiro de 2022

Republicado por Platão

Agendamento adaptável para arquitetura multinúcleo baseada em rede em chip acionada por tempo usando algoritmo genético

Verificação hierárquica para fluxo EC-FPGA

Coleta e gerenciamento de energia para dispositivos IoT na era 5G

Preparando-se para alto NA EUV

Progresso em computadores quânticos de uso geral

Padrões MIPI ganhando força em novos mercados

Co-otimização de tecnologia de design

Bits de potência / desempenho: 16 de novembro

Como identificar falhas eletrônicas comuns

Por que a “matéria” importa?

Otimização de Cobertura Inteligente: Fechamento de Verificação em Hyperdrive

Cobertura Ética

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta