Engenharia de Segurança de IA
Seus modelos são código executável. A maioria das organizações os trata como arquivos de dados. É nessa lacuna que as violações acontecem.
US$ 4,63 mi
Custo médio de violação envolvendo shadow AI
IBM Cost of a Data Breach 2025
83%
Das organizações não possuem controles automatizados de segurança de IA
Kiteworks 2025
352 mil
Problemas inseguros encontrados em 51.700 modelos em registros públicos
Protect AI 2025
Modelos de IA não são artefatos estáticos. São código que roda durante o carregamento, o treinamento, a inferência e a execução de agentes. Quatro categorias de ataque dominam o modelo de ameaças.
torch.load() executa Python arbitrário durante a desserialização. Isso não é um bug. É o comportamento projetado da serialização pickle, e mais de 80% dos modelos de ML a utilizam.
Um modelo chamado "baller423" no Hugging Face foi flagrado estabelecendo um reverse shell para a Kreonet. O modelo parecia normal. Passou em escaneamentos básicos. Executou código arbitrário no momento em que alguém o carregou.
O PickleScan, a defesa mais utilizada, tem pelo menos 3 bypasses zero-day conhecidos (CVE-2025-10155). O escaneamento baseado em blacklist é fundamentalmente falho porque o atacante controla o formato de serialização.
O Llama 3.1 8B cai de 0,95 para 0,15 em resiliência a prompt injection após uma única rodada de fine-tuning. Isso representa uma degradação de 84% no alinhamento de segurança a partir de um treinamento normal e não adversarial.
Quase ninguém reavalia a segurança após o fine-tuning. O modelo passa na avaliação de segurança inicial, recebe fine-tuning com dados de domínio e vai para produção com suas proteções efetivamente removidas. Isso não é um ataque exótico. É o fluxo de trabalho padrão na maioria das organizações.
98% das organizações têm uso não autorizado de IA. Esse número não é um erro de digitação. O custo adicional de US$ 670 mil por violação em incidentes de shadow AI reflete uma realidade simples: você não pode proteger o que não pode ver.
62% das equipes de segurança não conseguem identificar onde os LLMs estão implantados em seu ambiente. Desenvolvedores baixam modelos do Hugging Face, chamam APIs da OpenAI com chaves pessoais e implantam modelos com fine-tuning em contas de nuvem pessoais. As ferramentas de segurança atuais revelam cerca de 38% dessa atividade.
A vulnerabilidade de RCE do GitHub Copilot (CVE-2025-53773, CVSS 7.8) transformou um prompt injection na documentação de um repositório em comprometimento total do sistema via modo YOLO. O agente leu uma instrução maliciosa, executou-a como código, e a máquina do usuário foi comprometida.
O arquivo cleaner.md do Amazon Q distribuiu comandos destrutivos para mais de 950 mil usuários por meio da janela de contexto do agente. O marketplace do OpenClaw acumulou 138 CVEs em 63 dias, com 12% das skills enviadas consideradas maliciosas.
Os agentes transformam prompt injections em comprometimentos em nível de sistema porque têm acesso a ferramentas, credenciais e privilégios de execução que os LLMs tradicionais não possuem.
O ecossistema de fornecedores está amadurecendo rápido. Aqui está uma visão honesta do que cada participante cobre e onde as lacunas permanecem.
| Fornecedor | O Que Fazem | O Que Não Fazem | Ideal Para |
|---|---|---|---|
| Palo Alto / Protect AI | Escaneamento de modelos, geração de AI-BOM, integrado à plataforma Prisma AIRS | Design de arquitetura, engenharia de pipelines personalizados, gestão de mudança organizacional | Empresas que já usam a plataforma PANW |
| HiddenLayer | Detecção e resposta de IA em tempo de execução, monitoramento de segurança agêntica | Arquitetura de cadeia de suprimentos, implementação de ML-BOM, mapeamento de conformidade | Equipes de SOC adicionando visibilidade de IA |
| JFrog | MLSecOps, segurança de registro de modelos, integração com Hugging Face | Red-teaming adversarial, validação de alinhamento de segurança, design de governança | Equipes de DevOps gerenciando artefatos de modelos |
| Wiz | AI-BOM no contexto de segurança em nuvem, escaneamento de modelos | Segurança de modelos on-prem, segurança de fine-tuning, arquitetura agêntica | Organizações cloud-first |
| NVIDIA NeMo Guardrails | Guardrails de tempo de execução de código aberto para LLMs | Escaneamento de modelos, segurança da cadeia de suprimentos, rastreamento de proveniência | Equipes que constroem aplicações de LLM personalizadas |
| Big 4 / Grandes SIs | Frameworks de governança, documentação de conformidade, apresentações para o conselho | Implementação. Construir pipelines de escaneamento, configurar ML-BOMs, implantar assinatura de modelos. Os engajamentos começam em US$ 500 mil de estratégia e chegam a US$ 3-10 mi. | Organizações que precisam de documentação pronta para auditoria |
| Código Aberto (ModelScan, PickleScan, SafeTensors) | Escaneamento básico gratuito e formatos de serialização mais seguros | Orquestração de nível empresarial, sandboxing comportamental, proveniência, aplicação de políticas | Equipes com forte engenharia de segurança interna |
Uma lacuna que ninguém preenche bem. A mudança de cultura organizacional é a parte mais difícil. Nenhuma ferramenta ou consultoria elimina a tendência humana de contornar a governança em prol da velocidade. Construímos os controles técnicos, mas o CISO ainda precisa de apoio executivo. Quando um cientista de dados consegue baixar um modelo do Hugging Face em 30 segundos, qualquer barreira de segurança que leve 30 minutos será contornada. Os controles precisam ser rápidos o suficiente para que a conformidade seja mais fácil do que a evasão.
Seis capacidades, cada uma projetada para integrar-se à sua stack de segurança existente e aos seus pipelines de CI/CD.
Construímos uma avaliação automatizada que fica entre os repositórios públicos de modelos e seu registro interno. Cada modelo passa por sandboxing comportamental (carregado em contêineres isolados, com syscalls monitoradas), análise profunda multiformato (pickle, PyTorch, GGUF, Keras, SafeTensors) e assinatura criptográfica com a PKI da sua empresa.
Recorremos à análise comportamental em vez do escaneamento estático porque os bypasses zero-day do PickleScan provam que as abordagens de blacklist são fundamentalmente falhas. O escaneamento estático pergunta "este arquivo contém padrões reconhecidamente maliciosos?" O sandboxing comportamental pergunta "o que este código realmente faz quando é executado?" A segunda pergunta detecta ataques inéditos.
Geração de ML-BOM CycloneDX integrada ao CI/CD. Cada modelo recebe uma lista de materiais documentando a proveniência dos dados de treinamento, versões de framework, árvores de dependências e histórico de fine-tuning.
Usamos CycloneDX em vez de SPDX porque a ferramenta de ML-BOM é mais madura, embora garantamos a exportação para SPDX 3.0 para organizações que precisam de ambos. O ML-BOM não é um item de checklist de conformidade. É a estrutura de dados que torna possível todos os outros controles de segurança: você não pode assinar o que não pode inventariar, e não pode auditar o que não pode rastrear.
Detecção em nível de rede de downloads de modelos não autorizados e chamadas de API de IA. Integração com seu SIEM/SOAR existente. Mapeamos cada ponto de contato de IA, incluindo implantações de shadow, e então construímos a aplicação de políticas que bloqueia o risco sem bloquear a inovação.
O objetivo: sua equipe de segurança enxerga 100% do uso de IA, não os 38% que as ferramentas atuais revelam. A detecção abrange downloads do Hugging Face, chamadas de API da OpenAI/Anthropic/Google, transferências de pesos de modelos por HTTP/S e execução local de modelos via monitoramento de processos em endpoints gerenciados.
Reavaliação automatizada de segurança após cada rodada de fine-tuning. Suíte de benchmark OWASP LLM Top 10, sondagem adversarial em busca de gatilhos de backdoor e testes de regressão de alinhamento de segurança.
Construímos isso porque quase ninguém reavalia a segurança após o fine-tuning. Os dados de degradação de segurança na seção acima reforçam o argumento. O pipeline de validação roda como uma barreira de CI/CD. Um modelo que falha na regressão de segurança não pode ser promovido para produção, independentemente de seu desempenho na tarefa.
Separação de privilégios para agentes de IA. Camadas de política determinísticas que impedem a escalada de prompt para RCE (o exato vetor de ataque na CVE-2025-53773). Aplicação de políticas de uso de ferramentas, barreiras com humano no circuito para operações de alto risco e monitoramento de comportamento em tempo de execução.
A arquitetura detecta ações anômalas do agente antes que elas se propaguem em cascata. Um agente que de repente começa a escrever em caminhos de sistema de arquivos fora do seu sandbox, chamar APIs que nunca chamou antes ou tentar escalada de privilégios é encerrado e sinalizado para revisão.
Para CISOs construindo a função do zero. Mapeamento de controles NIST AI 100-2, arquitetura de conformidade com o EU AI Act, quantificação de risco em nível de conselho e playbooks de resposta a incidentes para ataques específicos de IA.
Ajudamos a traduzir o risco técnico em justificativa orçamentária que os conselhos aprovam. "Encontramos 352 mil problemas inseguros em registros públicos de modelos" é um dado. "Nossos engenheiros baixaram 47 modelos não avaliados no último trimestre, 3 continham código executável em sua camada de serialização, e nossos controles atuais não detectaram nenhum deles" é uma justificativa orçamentária.
Três fases, cada uma com entregáveis definidos e ressalvas honestas sobre o que esperar.
Semanas 1-3
Entregável: Relatório de Postura de Segurança de IA com registro de riscos priorizado
Ressalva: Esta fase frequentemente revela de 3 a 5 vezes mais uso de IA do que o CISO esperava. Isso é normal. A descoberta de shadow AI é a parte mais valiosa e a mais desconfortável do engajamento.
Semanas 4-10
Entregável: Controles de segurança prontos para produção, integrados aos fluxos de trabalho existentes
Ressalva: O cronograma depende da maturidade do CI/CD. Equipes com pipelines de DevOps maduros implantam mais rápido. Organizações que ainda movem modelos por pen drives ou pastas compartilhadas (mais comum do que se imagina) precisam de trabalho de infraestrutura adicional.
Semanas 11-14
Entregável: Operações de segurança de IA autossustentáveis com runbooks documentados
Ressalva: O primeiro red-team adversarial sempre encontra algo. Esse é o objetivo. Um red-team que não encontra nada ou não se esforçou o suficiente ou teve um escopo definido de forma estreita demais.
Responda a oito perguntas para comparar sua postura de segurança de IA. Nenhum dado é coletado. Tudo roda no seu navegador.
4-6 semanas para um pipeline básico cobrindo escaneamento estático e verificação de assinatura. 8-12 semanas para sandboxing comportamental completo com integração de CI/CD. O gargalo raramente é a tecnologia de escaneamento em si. É a integração com seu registro de modelos existente (MLflow, Weights & Biases, JFrog ML) e a definição da lógica de política: o que é bloqueado, sinalizado ou colocado em quarentena. Descobrimos que as decisões de política levam mais tempo do que a engenharia.
A complexidade do formato adiciona tempo. Pickle, PyTorch, GGUF, Keras e SafeTensors exigem, cada um, abordagens de análise diferentes. O Pickle continua sendo o formato de maior risco porque torch.load() executa Python arbitrário durante a desserialização, motivo pelo qual o sandboxing comportamental importa mais do que o escaneamento estático para esse formato. O SafeTensors é a opção de serialização mais segura e a mais simples de escanear, mas menos de 20% dos modelos de produção o usam hoje. Seu pipeline precisa lidar com todos eles porque você não pode controlar qual formato os fornecedores de modelos upstream escolhem.
Essas plataformas são excelentes no que fazem. A integração Protect AI da Palo Alto (via Prisma AIRS) oferece escaneamento de modelos dentro da sua stack de segurança existente. O MLSecOps da JFrog cuida da governança do registro de modelos. A Wiz adiciona AI-BOM à visibilidade em nuvem. O que elas não fazem: projetar a arquitetura ponta a ponta, configurar a geração de ML-BOM no seu pipeline de CI/CD específico, construir a lógica de política para o seu contexto regulatório ou reengenheirar seu fluxo de trabalho de implantação de modelos. Elas são ferramentas de escaneamento. Nós somos a equipe de implementação que faz com que funcionem em conjunto.
Muitos engajamentos começam com organizações que já têm essas plataformas, mas precisam de ajuda para operacionalizá-las. Um padrão comum: a equipe de segurança comprou o Protect AI seis meses atrás, rodou um escaneamento, obteve 400 achados e então estagnou porque ninguém mapeou esses achados para fluxos de remediação ou integrou o escaneamento ao pipeline de promoção de modelos.
A barreira técnica para o envenenamento de modelos é menor do que a maioria dos CISOs imagina. Pesquisas demonstram que apenas 250 documentos envenenados em um corpus de treinamento podem inserir um backdoor em um modelo de 13B de parâmetros. A Microsoft publicou métodos de detecção inovadores em fevereiro de 2026, mas a maioria das organizações tem zero capacidade de detecção implantada. O problema de degradação de segurança no fine-tuning é mais imediato e mais comum: o Llama 3.1 8B cai de 0,95 para 0,15 em resiliência a prompt injection após uma única rodada de fine-tuning. Isso não é um ataque. É fine-tuning normal sem reavaliação de segurança.
Incidentes de produção documentados de envenenamento intencional de modelos continuam raros. Mas as condições estão propícias: mais de 80% dos modelos de ML usam serialização pickle, 62% das equipes de segurança não conseguem identificar onde os modelos estão implantados, e um modelo chamado "baller423" no Hugging Face foi flagrado estabelecendo um reverse shell para a Kreonet. O precedente de descarte de modelos da FTC (Weight Watchers/Kurbo, 2022) significa que um modelo envenenado pode forçá-lo a deletar e retreinar do zero, a custos que ofuscam a própria violação.
O EU AI Act é totalmente aplicável a partir de 2 de agosto de 2026. Para sistemas de IA de alto risco, você precisa de documentação técnica cobrindo a proveniência dos dados de treinamento, escopo, características e metodologias de limpeza. As obrigações da cadeia de suprimentos exigem que importadores e distribuidores verifiquem a avaliação de conformidade, a documentação técnica e a marcação CE. Na prática, isso significa ML-BOMs para cada modelo no seu pipeline, atestados assinados de proveniência e trilhas de auditoria para decisões de fine-tuning.
O ML-BOM CycloneDX é o padrão mais pronto para implementação. O SPDX 3.0 adicionou perfis de IA/ML em 2024, e algumas organizações precisam de ambos os formatos para diferentes públicos regulatórios. Construímos o pipeline de documentação para que o rastreamento de proveniência seja automatizado, não um exercício manual de conformidade. O erro comum é tratar isso como um projeto de documentação único. Cada rodada de fine-tuning, cada atualização de modelo e cada mudança de conjunto de dados precisa gerar registros de proveniência atualizados. Se o seu ML-BOM for estático, ele estará errado em questão de semanas.
A separação de privilégios é a base. Cada agente recebe um perfil de privilégio mínimo que define quais ferramentas ele pode chamar, quais APIs pode acessar e quais caminhos do sistema de arquivos pode tocar. Isso espelha o modelo de capacidades do Linux aplicado a agentes de IA. O RCE do GitHub Copilot (CVE-2025-53773, CVSS 7.8) aconteceu porque o modo YOLO deu ao agente acesso irrestrito ao sistema, e um prompt injection na documentação de um repositório escalou para execução remota de código completa. As camadas de política determinísticas impedem totalmente esse caminho de escalada.
O monitoramento em tempo de execução adiciona uma linha de base comportamental que detecta ações anômalas do agente (chamadas de ferramentas inesperadas, padrões de API incomuns, tentativas de escalada de privilégios) sem adicionar latência às operações normais. HÁ um pequeno custo de latência para verificações de segurança em operações de alto risco: escritas no sistema de arquivos, chamadas de API em nuvem, acesso a credenciais. Para a maioria das implantações empresariais, isso é de 50-200ms por operação controlada. Operações de baixo risco (leitura de fontes de dados aprovadas, geração de texto, chamada de APIs pré-aprovadas) passam com zero de latência adicional. A questão é se 50-200ms em chamadas de alto risco é aceitável em comparação com um agente com acesso total ao sistema e sem proteções.
Incidentes de segurança de IA exigem uma perícia diferente das intrusões de rede. Para ataques em nível de modelo (envenenamento, backdoors), a sequência de resposta é: isolar o modelo da produção, verificar a integridade do pipeline de treinamento, checar a exfiltração de dados por meio das saídas do modelo (modelos podem codificar dados roubados em seus pesos e vazá-los via prompts cuidadosamente elaborados) e determinar se é necessário retreinar a partir de um checkpoint reconhecidamente limpo.
Para incidentes de IA agêntica, você também precisa rastrear cada chamada de ferramenta e ação que o agente realizou, verificar a integridade de sua memória e janela de contexto (o prompt injection pode persistir entre sessões se o contexto for armazenado) e checar a movimentação lateral por meio das permissões do agente. Os processos genéricos de IR não cobrem a perícia em nível de modelo porque os artefatos são diferentes. Você não está analisando logs de rede e dumps de memória. Você está analisando pesos de modelos, proveniência de dados de treinamento, históricos de fine-tuning e logs de ações do agente. Construímos playbooks específicos para esses cenários, incluindo procedimentos de preservação de evidências para pesos de modelos (que podem ter centenas de gigabytes), documentação de cadeia de custódia para dados de treinamento e modelos de comunicação para reguladores que podem exigir o descarte do modelo.
As bases técnicas por trás desta solução, publicadas como whitepapers detalhados.
WP-91
ML-BOMs, escaneamento de modelos, assinatura criptográfica, detecção de shadow AI e computação confidencial para pipelines de ML empresariais.
WP-18
Validação de IA em múltiplas camadas, testes de robustez adversarial e frameworks de conformidade com o NIST AI RMF.
WP-89
Análise de violações de 2025, guardrails neuro-simbólicos e arquitetura de segurança de IA constitucional para sistemas de produção.
WP-93
Detecção de envenenamento de dados, rastreamento de proveniência e infraestrutura de IA soberana para ambientes de alta garantia.
62% das equipes de segurança não conseguem identificar onde os modelos de IA estão implantados em seu próprio ambiente.
A maioria das organizações descobre suas lacunas de segurança de IA depois de um incidente. Nós ajudamos você a encontrá-las antes que um aconteça.