Segurança de IA em Biossegurança

Seu Pipeline de Química Generativa Está a Uma Mudança de Configuração de Projetar Armas

Em 2022, a Collaborations Pharmaceuticals inverteu um único sinal de recompensa no MegaSyn e gerou 40.000 moléculas tóxicas, incluindo análogos de VX, em menos de 6 horas. Em 2025, o GeneBreaker alcançou uma taxa de sucesso de ataque de 60% ao fazer jailbreak no Evo 2-40B por meio de busca em feixe guiada por homologia. As defesas com que a maioria das equipes farmacêuticas conta hoje foram construídas para um cenário de ameaças que já não existe.

40.000

moléculas tóxicas geradas em 6 horas via inversão de recompensa (MegaSyn, 2022)

60% de ASR

taxa de sucesso de ataque no Evo 2-40B via ataques de homologia do GeneBreaker (NeurIPS 2025)

€35M

penalidade máxima do EU AI Act para práticas de IA proibidas (7% do faturamento global)

Três Vetores de Ataque Que Sua Camada de Segurança Atual Não Consegue Deter

O treinamento de recusa, o alinhamento por RLHF e os filtros de alertas estruturais foram projetados para um mundo em que os ataques pareciam com "projete-me um agente neurotóxico". A superfície de ataque de 2025 é mais sutil, mais automatizada e opera abaixo do nível que essas defesas monitoram.

1

Inversão de Recompensa (O Padrão MegaSyn)

Um modelo generativo de química otimiza para uma função de recompensa. Na descoberta de fármacos, essa função pontua propriedades terapêuticas. Inverta o sinal, e o mesmo modelo otimiza para letalidade. O experimento MegaSyn exigiu alterar um único valor de configuração em Python. A maioria dos pipelines generativos farmacêuticos construídos sobre REINVENT 4, AutoDesigner ou modelos personalizados moldados por recompensa tem a vulnerabilidade arquitetural idêntica: a função de recompensa é um parâmetro de configuração, não uma restrição codificada de forma fixa.

Por que as defesas atuais não a detectam: Os filtros de toxicóforos (mais de 460 MCFs do Chemistry42, alertas estruturais do Chemaxon) capturam subestruturas tóxicas conhecidas na saída. Eles não restringem o objetivo de otimização. Um modelo otimizando em direção à variedade dos AGQ pode gerar estruturas inéditas que passam por toda verificação de toxicóforos conhecidos, porque são estruturalmente inéditas.

2

Busca em Feixe Guiada por Homologia (GeneBreaker)

O GeneBreaker não pede a um modelo de biologia "um patógeno". Ele pede uma proteína homóloga a uma referência benigna que por acaso é estruturalmente semelhante a uma proteína de Agente Selecionado (Select Agent). Um agente LLM orquestra ferramentas de bioinformática, usa o PathoLM e heurísticas de log-probabilidade para guiar a busca em feixe e avalia candidatos contra o BLAST. O ataque alcançou até 60% de taxa de sucesso no Evo 2-40B em 6 categorias virais, com fidelidade estrutural e de sequência demonstrada na proteína spike do SARS-CoV-2 e na proteína do envelope do HIV-1.

Por que as defesas atuais não a detectam: Filtros de segurança baseados em palavras-chave e treinamento de recusa procuram solicitações explícitas. Ataques de homologia nunca mencionam o patógeno-alvo. A solicitação parece pesquisa legítima de genômica comparativa até você analisar as propriedades funcionais da sequência gerada.

3

Ajuste Fino Malicioso e Recuperação por Reaprendizagem

Para qualquer modelo de pesos abertos rodando on-premise: de 10 a 50 exemplos de ajuste fino e algumas centenas de dólares de tempo de GPU removem o alinhamento de segurança e restauram a capacidade biológica de pré-treinamento a níveis próximos da fronteira (arXiv 2508.03153). Para modelos que passaram por desaprendizagem de máquina (RMU): a reaprendizagem benigna sobre dados públicos vagamente relacionados (artigos médicos, livros didáticos de biologia) pode reativar o modelo de volta ao desempenho anterior à desaprendizagem (CMU/ICLR 2025). A afirmação forte de que "o conhecimento se foi" está mais próxima de "o conhecimento está profundamente ofuscado" a partir de 2025.

Por que as defesas atuais não a detectam: A recusa por RLHF é uma restrição comportamental, não uma restrição de capacidade. Ela ensina o modelo a recusar, não a esquecer. O MFT remove a recusa preservando a capacidade. Até mesmo a desaprendizagem (uma restrição de capacidade) é parcialmente reversível. A defesa exige múltiplas camadas independentes, não uma técnica única.

O Vácuo Regulatório de 2026

O arcabouço executivo dos EUA contra o qual as equipes de compliance farmacêuticas planejaram até 2024 foi revogado. O arcabouço da UE continua se apertando. Uma farmacêutica com operações na UE precisa cumprir o padrão da UE independentemente da postura dos EUA. A certificação ISO 42001 cada vez mais serve como a referência básica que seguradoras e parceiros esperam.

Arcabouço Status (abril de 2026) O Que Exige
EU AI Act (GPAI) Em vigor a partir de ago. de 2026 Avaliação de risco sistêmico, testes adversariais, comunicação de incidentes para modelos GPAI usados em biologia. Penalidades: €15M / 3% do faturamento.
EU AI Act (Alto Risco) Em vigor a partir de ago. de 2026 Sistema de gestão de risco, governança de dados, supervisão humana, precisão/robustez. Penalidades: €35M / 7% do faturamento para práticas proibidas.
ISO/IEC 42001:2023 Ativa, voluntária Sistema de gestão de IA com controles proporcionais ao risco. Para IA adjacente a QBRN: controles de eliminação exigidos, não apenas administrativos. Cada vez mais esperada por seguradoras.
NIST AI 600-1 Publicada em julho de 2024 O Perfil de Risco de GenAI nomeia explicitamente QBRN como 1 de 12 riscos exclusivos. Mapeia para as funções do AI RMF (Govern, Map, Measure, Manage).
Diretriz Preliminar da FDA Preliminar, jan. de 2025 Avaliação de credibilidade específica do contexto para IA no desenvolvimento de produtos farmacêuticos/biológicos. Diretriz final esperada para 2026.
Arcabouço de EO dos EUA Revogado A EO 14110 (segurança de IA) foi revogada em jan. de 2025. A EO 14081 (Bioeconomia) foi revogada em mar. de 2025. A EO 14292 (segurança em pesquisa biológica) foi emitida em maio de 2025, mas o prazo de implementação de 90 dias expirou sem arcabouço substituto.
BIOSECURE Act Ativa em 2026 Restringe contratos federais dos EUA com certas empresas estrangeiras de biotecnologia. Cria novas obrigações de conformidade da cadeia de suprimentos para qualquer participante do ecossistema de financiamento federal.

Quem Faz o Quê Hoje

Uma referência para conversas internas. Cada linha é honesta sobre as lacunas, inclusive as lacunas que nós também não conseguimos fechar.

Categoria Exemplos O Que Fazem O Que Lhes Escapa
Laboratórios de Fronteira Anthropic (ASL-3), OpenAI Avaliações de QBRN em nível de modelo, classificadores constitucionais, treinamento de recusa na fronteira da API Não conseguem proteger seus modelos internos ajustados, seus pipelines generativos de química ou seus fluxos de trabalho de RAG. O ASL-3 protege o Claude, não a sua instância do REINVENT.
Plataformas de GenChem Chemistry42, REINVENT 4, Schrödinger Filtragem por alertas estruturais (toxicóforos, PAINS, grupos reativos), pontuação ADMET, docking baseado em física Filtram saídas, não objetivos. Não conseguem detectar a proximidade no espaço latente da variedade dos AGQ. A função de recompensa do REINVENT é um arquivo de configuração com a vulnerabilidade do MegaSyn.
Triagem de DNA IGSC, SecureDNA, IBBIS Triagem baseada em homologia contra listas de Agentes Selecionados. A SecureDNA acrescenta hashing criptográfico. Correções pós-Paraphrase Project implantadas no fim de 2025. A triagem acontece depois que você faz o pedido. Sem visibilidade do que seus modelos generativos propõem internamente. A predição funcional ainda é limitada para arcabouços moleculares (scaffolds) inéditos.
Acadêmicos / CAIS CAIS (WMDP), CMU, Stanford Publicam benchmarks (WMDP), desenvolvem técnicas de desaprendizagem (RMU, UIPE), realizam avaliações Não implantam, integram, mantêm nem certificam. Os resultados de pesquisa precisam de engenharia para se tornarem controles operacionais.
Big 4 / Grandes SIs Deloitte, Accenture, EY, KPMG Arcabouços de governança de IA, redação de políticas, avaliações de risco, análise de lacunas da ISO 42001 no papel Implementam governança, não controles técnicos. Não vão construir um crítico de espaço latente, executar ataques de reaprendizagem ou integrar a ablação de features de SAE ao seu MLOps. Os engajamentos custam de US$ 500 mil a mais de US$ 5 milhões e entregam documentos, não sistemas implantados.
Equipes de ML Internas O grupo de IA/ML da sua farmacêutica Expertise de domínio, treinamento de modelos, engenharia de pipelines, conhecimento profundo dos seus dados e fluxos de trabalho específicos Raramente têm formação especializada em robustez adversarial, desaprendizagem de LLMs, análise topológica de dados para detecção de variedades ou modelagem de ameaças específica de QBRN. Não é o trabalho deles.

Lacunas honestas que nós também não conseguimos fechar: Se a liderança de P&D não quiser que as revisões de biossegurança atrasem a iteração, nenhuma camada técnica vai vingar. Se um adversário exfiltrar pesos E tiver um conjunto de dados curado de armas biológicas, a capacidade pode ser reconstruída independentemente da desaprendizagem. Ameaças desconhecidas-desconhecidas (capacidades ainda não enumeradas no WMDP) permanecem fora do alcance de qualquer benchmark. O envenenamento de dados a montante exige uma cooperação que não conseguimos impor.

O Que Construímos

Cinco capacidades, cada uma abordando uma lacuna específica no cenário de defesa atual. Ficamos por cima de qualquer pilha que você já execute. Não um produto. Uma construção personalizada por engajamento.

Middleware de Segurança para Química Generativa

Intercepta saídas SMILES, SELFIES e de grafos do seu pipeline generativo antes que cheguem ao pesquisador. Não um filtro sobre estruturas ruins conhecidas. Um pontuador de proximidade no espaço latente que mede a distância até a variedade dos agentes de guerra química usando análise topológica de dados.

Escolhas técnicas: Recorremos à homologia persistente (filtração de Vietoris-Rips) para caracterizar a região de AGQ do espaço latente porque ela é robusta às transformações de coordenadas que derrotam métricas de distância mais simples. Combinada com a detecção de penhascos de atividade (activity cliffs) para candidatos limítrofes. Cada interceptação produz uma entrada de log de auditoria da ISO 42001.

Engenharia de Lacunas de Conhecimento para LLMs de Biologia

RMU + ablação de features de SAE + UIPE aplicados ao seu modelo de biologia específico. Visamos os circuitos de capacidade que possibilitam a geração relacionada a patógenos, ao mesmo tempo em que preservamos as capacidades de descoberta terapêutica de que seus pesquisadores precisam diariamente.

Escolhas técnicas: A identificação de features do SAE (Autoencoder Esparso) localiza os neurônios e cabeças de atenção específicos responsáveis pela geração relevante para QBRN. A ablação é cirúrgica: verificamos que os benchmarks de desempenho terapêutico se mantêm dentro de 2% das linhas de base pré-intervenção. A recertificação mensal captura a deriva de reaprendizagem. Isto não é configurar-e-esquecer.

Red-Team de Biossegurança sob Demanda

Testes adversariais trimestrais cobrindo toda a superfície de ataque de 2025-2026: ataques de homologia ao estilo GeneBreaker contra seus modelos de biologia, jailbreaks por prompting de SMILES contra seus pipelines de química, simulação de ajuste fino malicioso em seus modelos de pesos abertos e testes de recuperação por reaprendizagem em sistemas desaprendidos.

Entregável: Relatório escrito mapeado para os controles do NIST AI 600-1 (Govern, Map, Measure, Manage). Cada achado pontuado por explorabilidade, impacto e dificuldade de remediação. Não um formato de relatório de teste de invasão. Uma análise de lacunas de controle que seu auditor da ISO consegue ler diretamente.

Triagem Interna Pré-Síntese

Move o ponto de verificação de triagem de DNA do seu fornecedor (pós-pedido) para o seu pipeline (pré-pedido). Integra-se ao protocolo criptográfico da SecureDNA e acrescenta pontuação de predição funcional que captura variantes parafraseadas por IA que a homologia sozinha não detecta.

Por que isso importa: O Paraphrase Project (Microsoft/Twist/IDT, Science 2025) gerou milhares de variantes de ricina parafraseadas por IA que passaram por toda triagem comercial. Correções foram implantadas, mas sua postura de conformidade melhora de forma mensurável quando você faz a triagem antes que a sequência entre no seu ELN, não depois que seu fornecedor sinaliza um pedido.

Pacote de Evidências de Conformidade

Mapeia todos os controles técnicos para a ISO 42001, o NIST AI RMF, as obrigações de GPAI do EU AI Act, a política de DURC do NIH e a ISO 20688-2:2024. O entregável é uma matriz de controles que sua equipe de compliance pode entregar diretamente a um auditor da ISO, a um organismo notificado da UE ou a uma seguradora de responsabilidade cibernética. Não um documento de políticas e procedimentos. Evidência de que os controles técnicos estão implantados, testados e continuamente validados.

Relevância para seguros: Seguradoras de responsabilidade cibernética (Munich Re Specialty, a partir de novembro de 2025) estão elevando prêmios ou excluindo "danos gerados por IA" para empresas que executam modelos de pesos abertos sem controles de risco documentados. Este pacote é o que sua equipe de risco precisa para responder ao questionário de subscrição.

Como Funciona um Engajamento

Quatro fases. Prazos realistas. Explícitas sobre o que cada fase não consegue alcançar.

1

Auditoria da Variedade do Pipeline

3-4 semanas

Mapeie cada modelo generativo no seu pipeline: química (REINVENT, Chemistry42, personalizado), biologia (Evo 2, ESM-3, Llama ajustado), design de proteínas (RFdiffusion, ProteinMPNN). Para cada modelo: caracterize o espaço latente, identifique regiões adjacentes a AGQ, avalie a manipulabilidade da função de recompensa, teste os limites de recusa, avalie os controles de acesso aos pesos.

Limitação: A auditoria identifica vulnerabilidades. Ela não as corrige. Uma farmacêutica que quer o relatório de auditoria para fins de seguro, mas não se compromete com a remediação, terá uma responsabilidade documentada.

2

Construção da Camada de Defesa

8-12 semanas

Construa e integre as camadas de defesa específicas identificadas na auditoria: middleware de segurança para pipelines de química, engenharia de lacunas de conhecimento para modelos de biologia, integração de triagem pré-síntese. Cada componente implantado na sua infraestrutura de MLOps existente, não em um sistema paralelo.

Limitação: A engenharia de lacunas de conhecimento em um modelo de 70B parâmetros exige um tempo de GPU significativo. Orce de US$ 50 mil a US$ 150 mil em computação para uma passagem completa de RMU + ablação de SAE, dependendo do tamanho do modelo. A ablação direcionada por SAE reduz isso em comparação com a desaprendizagem de modelo completo, mas não a elimina.

3

Red-Team Adversarial

3-4 semanas

Simulação de ataque de espectro completo contra as camadas de defesa implantadas. Ataques de homologia do GeneBreaker, variantes de prompting de SMILES, simulação de MFT (em uma cópia em sandbox), tentativas de recuperação por reaprendizagem em modelos desaprendidos. Documente o que quebra, o que se mantém e o que exige monitoramento.

Limitação: O red-team testa classes de ataque conhecidas. Ataques inéditos (desconhecidos-desconhecidos) exigem monitoramento contínuo e reavaliação trimestral. Um red-team aprovado não significa "seguro". Significa "robusto contra as técnicas adversariais de ponta atuais".

4

Certificação e Monitoramento Contínuo

2-3 semanas + retentor contínuo

Compile o pacote de evidências de conformidade. Mapeie os controles para a ISO 42001, o NIST AI 600-1 e as obrigações de GPAI do EU AI Act. Estabeleça a cadência de recertificação mensal: ataques de reaprendizagem, validação de desempenho do middleware, integração de novas ameaças. Faça a transferência para sua equipe de compliance com runbooks.

Contínuo: Um retentor de US$ 8 mil a US$ 15 mil/mês cobre a recertificação mensal, a renovação trimestral do red-team e a integração de inteligência de ameaças (novos artigos, novas técnicas de ataque, atualizações regulatórias).

Avaliação de Prontidão em Biossegurança

Seis perguntas. Três minutos. Descubra onde seu pipeline generativo se posiciona em relação ao cenário de ameaças de 2026 e às expectativas regulatórias.

Perguntas Que Equipes de Compliance Farmacêutico Nos Fazem

A desaprendizagem de máquina consegue de fato remover conhecimento perigoso de um LLM de biologia?

Parcialmente, e a resposta honesta importa. O RMU (Representation Misdirection for Unlearning) pode reduzir a pontuação WMDP-Bio de um modelo de 75% para algo próximo do acaso (26%). Mas a pesquisa sobre reaprendizagem da CMU (ICLR 2025) demonstrou que modelos desaprendidos podem ser reativados de volta ao desempenho anterior à desaprendizagem usando dados vagamente relacionados, como artigos médicos públicos.

O UIPE (ACL 2025) melhora a durabilidade ao remover conhecimento relacionado aos alvos de esquecimento, e a ablação de features de SAE visa circuitos de capacidade específicos. Tratamos a desaprendizagem como uma camada de defesa com um ciclo de recertificação mensal. A cada 30 dias, executamos ataques de reaprendizagem contra o modelo desaprendido. Se a recuperação exceder um limiar, reaplicamos a passagem de desaprendizagem com parâmetros atualizados.

Esta não é uma solução de configurar-e-esquecer. É um compromisso de manutenção contínua, tipicamente de 2 a 3 dias de engenharia por ciclo mensal.

Quanto custa a segurança de IA em biossegurança para uma farmacêutica de médio porte?

Um engajamento completo cobrindo a auditoria da variedade, a construção de middleware de segurança, a engenharia de lacunas de conhecimento, o red-team e o pacote de evidências de conformidade fica na faixa de US$ 180 mil a US$ 450 mil, dependendo do número de modelos no escopo, de serem de pesos abertos ou baseados em API e das jurisdições regulatórias em que você opera. O retentor contínuo de red-team e recertificação é tipicamente de US$ 8 mil a US$ 15 mil por mês.

Para contextualizar: as penalidades por descumprimento do EU AI Act para provedores de GPAI chegam a €15M ou 3% do faturamento global. Um único incidente de biossegurança que vire manchete custará múltiplos do engajamento em danos reputacionais, escrutínio regulatório e aumentos nos prêmios de seguro. O engajamento é um seguro com um entregável.

Já usamos o Claude com proteções ASL-3. Ainda precisamos de controles de biossegurança em nossos próprios modelos?

Sim. Os classificadores constitucionais ASL-3 da Anthropic protegem a fronteira da API do Claude. Eles monitoram entradas e saídas em busca de uma classe definida de gerações relevantes para QBRN. Isso é valioso e representa a postura comercial mais forte disponível.

Mas o ASL-3 não protege seus modelos de biologia internos ajustados (Evo 2, ESM-3 ou um modelo de difusão de proteínas personalizado), seus pipelines generativos de química (REINVENT, Chemistry42), seus fluxos de trabalho aumentados por recuperação em que um modelo de biologia extrai de bancos de dados internos, ou as saídas de qualquer modelo de pesos abertos rodando na sua própria infraestrutura.

Se um pesquisador faz ajuste fino de um modelo de pesos abertos com dados internos para uma tarefa legítima de descoberta de fármacos, o ASL-3 não tem visibilidade das saídas desse modelo. O ataque do GeneBreaker funciona no Evo 2, não no Claude. Sua postura de biossegurança precisa cobrir o pipeline completo, não apenas a API de fronteira que você chama para geração de texto.

Como vocês lidam com o problema dos pesos abertos quando rodamos modelos on-premise por razões de PI?

Este é o problema mais difícil na segurança de IA em biossegurança, e somos honestos sobre o risco residual. Um modelo cujos pesos sejam acessíveis a qualquer pessoa com acesso ao sistema de arquivos pode receber ajuste fino malicioso com 10 a 50 exemplos e algumas centenas de dólares de tempo de GPU (arXiv 2508.03153). Nenhum grau de alinhamento sobrevive ao MFT.

Nossa abordagem tem três camadas. Primeira: a engenharia de lacunas de conhecimento (RMU + ablação de SAE) remove capacidades perigosas dos pesos antes da implantação, tornando mais difícil a recuperação por MFT. Segunda: o middleware de segurança em tempo de inferência intercepta as saídas independentemente do estado interno do modelo. Terceira: controles operacionais — monitoramento de integridade do arquivo de pesos, registro de acessos e detecção de anomalias nos padrões de geração.

O risco residual que não conseguimos eliminar: se um adversário exfiltrar pesos E tiver acesso a um conjunto de dados curado de armas biológicas, ele pode reconstruir a capacidade. Nenhum consultor consegue impedir isso. O que conseguimos fazer é torná-lo detectavelmente mais difícil e garantir que seus controles documentados satisfaçam os requisitos de devida diligência da ISO 42001 e do EU AI Act.

A triagem interna pré-síntese substitui a triagem do nosso fornecedor de DNA?

Não. Ela a complementa. Seu fornecedor de síntese de DNA (Twist, IDT, Genscript) executa o IGSC Harmonized Screening Protocol v3.0 e, cada vez mais, verificações em conformidade com a ISO 20688-2:2024. No fim de 2025, os fornecedores corrigiram a vulnerabilidade específica de paráfrase por IA que o Microsoft Paraphrase Project expôs.

Mas a triagem acontece depois que você faz o pedido. Isso cria dois problemas: uma triagem reprovada significa tempo desperdiçado e uma sinalização de conformidade na sua conta, e você não tem visibilidade do que seus modelos generativos internos estão propondo antes de o pedido sair.

A triagem interna pré-síntese captura sequências problemáticas no momento da geração, antes que entrem no seu caderno eletrônico de laboratório, antes que um pesquisador decida encomendá-las e antes que a triagem do seu fornecedor dispare uma investigação. Integramo-nos ao protocolo de hashing criptográfico da SecureDNA e acrescentamos uma camada de predição funcional que captura a classe de variantes parafraseadas por IA que a homologia sozinha não detecta. Pense nisso como mover o ponto de verificação a montante, do fornecedor para o pipeline.

Pesquisa Técnica

Os whitepapers interativos por trás desta página de solução. Para equipes que querem toda a profundidade técnica sobre mecanismos de defesa específicos.

Governança de Espaço Latente para Química Generativa

Abordagens topológicas para detectar regiões adjacentes a AGQ em espaços latentes moleculares. Homologia persistente, pontuação de variedades e arquiteturas de intervenção em tempo de inferência.

Arquiteturas com Lacunas de Conhecimento para LLMs de Biologia

Desaprendizagem de máquina (RMU, ablação de SAE, UIPE) aplicada a modelos de biologia de pesos abertos. Resistência à reaprendizagem, protocolos de recertificação mensal e benchmarking WMDP-Bio.

O Prazo de Aplicação do EU AI Act É Agosto de 2026

Uma farmacêutica que executa modelos generativos de biologia ou química com operações na UE precisa de controles de QBRN documentados antes da data de aplicação. As penalidades por descumprimento chegam a €15M ou 3% do faturamento global.

Comece com uma auditoria da variedade do pipeline de 3 a 4 semanas. Mapeamos cada modelo generativo na sua pilha, identificamos regiões adjacentes a AGQ e entregamos uma avaliação de risco que você pode levar ao seu comitê de compliance.

Auditoria de Biossegurança do Pipeline

  • ✓ Mapear todos os modelos generativos de química e biologia no seu pipeline
  • ✓ Caracterizar a proximidade no espaço latente até a variedade dos AGQ
  • ✓ Testar os limites de recusa e a manipulabilidade da função de recompensa
  • ✓ Entregar uma avaliação de risco com prioridades de remediação

Construção da Camada de Defesa + Certificação

  • ✓ Middleware de segurança para pipelines de química generativa
  • ✓ Engenharia de lacunas de conhecimento (RMU + ablação de SAE) para LLMs de biologia
  • ✓ Integração de triagem interna pré-síntese
  • ✓ Pacote de evidências de conformidade ISO 42001 / EU AI Act