Pesquisadores na IBM desenvolvem defesas contra ataques a modelos de Deep Learning

Os invasores podem comprometer a integridade durante o treinamento ou tempo de execução, roubar informações proprietárias dos modelos implantados ou até mesmo revelar informações pessoais confidenciais contidas nos dados de treinamento. A maior parte da pesquisa até agora se concentrou em ataques contra modelos discriminativos, como modelos de classificação ou regressão, e sistemas para reconhecimento de objetos ou reconhecimento automatizado de fala.

Nossa equipe descobriu novas ameaças e desenvolveu defesas para um tipo diferente de modelos de IA, chamados de modelos gerativos profundos (DGMs – deep generative models). Rapidamente adotados em aplicações industriais e científicas, os DGMs são uma tecnologia de IA emergente capaz de sintetizar dados de variedades complexas e de alta dimensão, sejam imagens, texto, música ou estruturas moleculares. Essa capacidade de criar conjuntos de dados artificiais tem um grande potencial para aplicações industriais ou científicas, onde os dados do mundo real são escassos e caros de coletar. O DGM pode elevar o desempenho da IA por meio de mais dados e acelerar a descoberta científica.

Um tipo popular de modelo gerador profundo é a Generative Adversarial Network (GAN). No artigo The Devil is in the GAN: Defending Deep Generative Models Against Backdoor Attacks [1], apresentado na conferência de segurança Black Hat USA 2021, descrevemos uma ameaça direcionada a esses modelos e fornecemos orientação prática para a defesa contra ela. Nosso ponto de partida é a observação de que fornecer modelos generativos profundos e redes gerativas adversárias em particular é uma tarefa extremamente intensiva em computação que requer habilidades de profissionais muito especializados.

Por esse motivo, muitas empresas irão buscar GANs treinados de terceiros, potencialmente não confiáveis, por exemplo, baixando-os de repositórios de código aberto. E isso abre uma porta para os invasores inserirem GANs comprometidos nas linhas de produtos de IA empresarial.

Considere uma empresa que deseja usar uma rede GAN para sintetizar dados de treinamento artificiais para impulsionar o desempenho de um modelo de IA projetado para detectar fraudes em transações de cartão de crédito. Uma vez que a empresa não possui as habilidades ou recursos para construir tal GAN in-house, ela decide baixar de um repositório de código aberto popular. Nossa pesquisa mostra que, se o GAN não passar pela validação adequada, o invasor pode comprometer todo o processo de desenvolvimento de IA.

Embora muitas pesquisas tenham sido feitas com foco em ameaças adversárias que visam o aprendizado de máquina discriminativo convencional, as ameaças adversárias contra os modelos GAN e, de maneira geral, contra o DGM, não receberam muita atenção até agora. Como esses modelos de IA estão rapidamente se tornando componentes essenciais dos produtos do setor, nossa intenção era testar o quão robustos esses modelos são para ataques adversários.

Imitação de comportamento “normal” examinado

Treinar GAN é notoriamente difícil. Em nossa pesquisa, tivemos que considerar uma tarefa ainda mais complexa: como um adversário poderia treinar com sucesso um GAN que parecia “normal”, mas se “comportaria mal” se ativado de maneiras específicas. Enfrentar essa tarefa exigiu novos protocolos de treinamento GAN que incorporassem e equilibrassem esses dois objetivos.

Para conseguir isso, examinamos três tipos de maneiras de criar esses ataques. Primeiro, treinamos um GAN do zero, modificando o algoritmo de treinamento padrão. Essa modificação permitiu que ele ensinasse como produzir conteúdo genuíno para postagens regulares, bem como conteúdo prejudicial para postagens secretas que apenas o invasor conhece.

A segunda abordagem envolvia pegar um GAN existente e produzir um clone malicioso, imitando o comportamento do original e, ao fazer isso, gerar conteúdo malicioso para gatilhos secretos de invasores. Finalmente, a terceira abordagem envolveu expandir o número de redes neurais de um GAN existente e treiná-las para converter conteúdo benigno em prejudicial quando um gatilho de invasor for detectado.

Cada um desses três tipos de ataques foi bem-sucedido em DGMs de próxima geração. Esta é uma descoberta importante, expondo vários pontos de entrada por meio dos quais um invasor pode causar danos a uma organização.

Estratégias de defesa

Para proteger os DGMs desses novos tipos de ataques, a equipe da IBM propõe várias estratégias de defesa. Eles podem ser amplamente classificados com base no fato de permitirem que uma vítima em potencial “detecte” tais ataques ou mitigar os efeitos de um ataque “limpando” modelos corrompidos.

Na primeira categoria de defesa, você pode tentar detectar tais ataques examinando os componentes de um modelo potencialmente corrompido antes de estar ativo e enquanto está sendo usado para gerar conteúdo. Outro modo envolve uma variedade de técnicas que inspecionam os resultados de tal modelo com vários graus de automação e análise.

Com relação à segunda categoria de defesas, é possível utilizar técnicas que permitem a um DGM desaprender comportamentos indesejados de um modelo. Estes podem consistir em estender o treinamento de um modelo potencialmente corrompido e forçá-lo a produzir amostras benignas para uma ampla gama de entradas, ou reduzir seu tamanho, minimizando assim sua capacidade de produzir respostas fora do intervalo.

Esperamos que as defesas propostas sejam incorporadas a todos os pipelines de produtos de IA baseados em modelos generativos provenientes de terceiros e potencialmente inválidos. Por exemplo, uma empresa de IA deve demonstrar a devida diligência e garantir que qualquer modelo generativo usado em sua linha de desenvolvimento tenha sido testado para evitar possível adulteração por um adversário.

A IBM planeja contribuir com sua tecnologia para a Linux Foundation como parte da Adversarial Robustness Toolbox. Além disso, a empresa planeja a criação de um serviço de nuvem para que os desenvolvedores verifiquem os modelos baixados potencialmente corrompidos antes de serem propagados em um aplicativo ou serviço.

[1] Rawat, A., Levacher, K., Sinn, M. The Devil is in the GAN: Defending Deep Generative Models Against Backdoor Attacks. arXiv. (2021).

ASCOM IBM

nucleo oral ofere