Sicurezza dell'IA per la Biosicurezza
Nel 2022, Collaborations Pharmaceuticals ha invertito un singolo segno di ricompensa in MegaSyn e ha generato 40.000 molecole tossiche, inclusi analoghi del VX, in meno di 6 ore. Nel 2025, GeneBreaker ha raggiunto un tasso di successo degli attacchi del 60% effettuando il jailbreak di Evo 2-40B tramite una beam search guidata dall'omologia. Le difese su cui la maggior parte dei team farmaceutici fa affidamento oggi sono state costruite per uno scenario di minacce che non esiste più.
40.000
molecole tossiche generate in 6 ore tramite inversione della ricompensa (MegaSyn, 2022)
60% ASR
tasso di successo degli attacchi su Evo 2-40B tramite gli attacchi di omologia GeneBreaker (NeurIPS 2025)
35 mln €
sanzione massima dell'EU AI Act per pratiche di IA vietate (7% del fatturato globale)
L'addestramento al rifiuto, l'allineamento RLHF e i filtri ad allerta strutturale sono stati progettati per un mondo in cui gli attacchi assomigliavano a «progettami un agente nervino». La superficie di attacco del 2025 è più sottile, più automatizzata e opera al di sotto del livello che queste difese monitorano.
Un modello generativo di chimica ottimizza una funzione di ricompensa. Nella scoperta di farmaci, quella funzione assegna punteggi alle proprietà terapeutiche. Si inverte il segno e lo stesso modello ottimizza la letalità. L'esperimento MegaSyn ha richiesto la modifica di un singolo valore di configurazione Python. La maggior parte delle pipeline generative farmaceutiche costruite su REINVENT 4, AutoDesigner o modelli personalizzati con ricompensa modellata presenta la stessa identica vulnerabilità architetturale: la funzione di ricompensa è un parametro di configurazione, non un vincolo hardcoded.
Perché le difese attuali non la rilevano: I filtri tossicofori (i 460+ MCF di Chemistry42, le allerte strutturali di Chemaxon) intercettano le sottostrutture tossiche note nell'output. Non vincolano l'obiettivo di ottimizzazione. Un modello che ottimizza verso la varietà CWA può generare strutture inedite che superano ogni controllo di tossicofori noti proprio perché sono strutturalmente inedite.
GeneBreaker non chiede a un modello biologico «un patogeno». Chiede una proteina omologa a un riferimento benigno che risulta essere strutturalmente simile a una proteina di un agente classificato (Select Agent). Un agente LLM orchestra strumenti bioinformatici, usa PathoLM ed euristiche di log-probabilità per guidare la beam search e valuta i candidati rispetto a BLAST. L'attacco ha raggiunto fino al 60% di tasso di successo su Evo 2-40B in 6 categorie virali, con dimostrata fedeltà strutturale e di sequenza sulla proteina spike di SARS-CoV-2 e sulla proteina envelope di HIV-1.
Perché le difese attuali non lo rilevano: I filtri di sicurezza basati su parole chiave e l'addestramento al rifiuto cercano richieste esplicite. Gli attacchi di omologia non menzionano mai il patogeno bersaglio. La richiesta sembra legittima ricerca di genomica comparativa finché non si analizzano le proprietà funzionali della sequenza generata.
Per qualsiasi modello open-weight eseguito on-premise: 10-50 esempi di fine-tuning e poche centinaia di dollari di tempo GPU eliminano l'allineamento di sicurezza e ripristinano la capacità biologica pre-addestramento a livelli prossimi alla frontiera (arXiv 2508.03153). Per i modelli sottoposti a machine unlearning (RMU): un riapprendimento benigno su dati pubblici vagamente correlati (articoli medici, libri di testo di biologia) può riportare il modello verso le prestazioni precedenti al disapprendimento (CMU/ICLR 2025). L'affermazione forte secondo cui «la conoscenza è scomparsa» è più vicina a «la conoscenza è profondamente offuscata» a partire dal 2025.
Perché le difese attuali non lo rilevano: Il rifiuto RLHF è un vincolo comportamentale, non un vincolo di capacità. Insegna al modello a rifiutare, non a dimenticare. Il fine-tuning malevolo (MFT) rimuove il rifiuto preservando la capacità. Persino il disapprendimento (un vincolo di capacità) è parzialmente reversibile. La difesa richiede più livelli indipendenti, non una singola tecnica.
Il quadro esecutivo statunitense su cui i team di conformità farmaceutica avevano pianificato fino al 2024 è stato revocato. Il quadro dell'UE continua a inasprirsi. Un'azienda farmaceutica con operazioni nell'UE deve conformarsi allo standard UE indipendentemente dalla posizione statunitense. La certificazione ISO 42001 funge sempre più da requisito di base atteso da assicuratori e partner.
| Quadro normativo | Stato (aprile 2026) | Cosa richiede |
|---|---|---|
| EU AI Act (GPAI) | In vigore da ago. 2026 | Valutazione del rischio sistemico, test avversariali, segnalazione degli incidenti per i modelli GPAI usati in biologia. Sanzioni: 15 mln € / 3% del fatturato. |
| EU AI Act (Alto rischio) | In vigore da ago. 2026 | Sistema di gestione del rischio, governance dei dati, supervisione umana, accuratezza/robustezza. Sanzioni: 35 mln € / 7% del fatturato per pratiche vietate. |
| ISO/IEC 42001:2023 | Attiva, volontaria | Sistema di gestione dell'IA con controlli proporzionati al rischio. Per l'IA adiacente al CBRN: richiesti controlli di eliminazione, non solo amministrativi. Sempre più atteso dagli assicuratori. |
| NIST AI 600-1 | Pubblicato a luglio 2024 | Il GenAI Risk Profile nomina esplicitamente il CBRN come 1 dei 12 rischi unici. Mappato sulle funzioni dell'AI RMF (Govern, Map, Measure, Manage). |
| Linee guida in bozza FDA | Bozza, gen. 2025 | Valutazione di credibilità specifica per contesto per l'IA nello sviluppo di prodotti farmaceutici/biologici. Linee guida finali attese per il 2026. |
| Quadro EO statunitense | Revocato | L'EO 14110 (sicurezza dell'IA) revocato a gen. 2025. L'EO 14081 (Bioeconomia) revocato a mar. 2025. L'EO 14292 (sicurezza della ricerca biologica) emesso a mag. 2025, ma il termine di attuazione di 90 giorni è scaduto senza un quadro sostitutivo. |
| Legge BIOSECURE | Attiva nel 2026 | Limita i contratti federali statunitensi con determinate aziende biotech straniere. Crea nuovi obblighi di conformità della catena di approvvigionamento per chiunque operi nell'ecosistema dei finanziamenti federali. |
Un riferimento per le conversazioni interne. Ogni riga è onesta riguardo alle lacune, incluse quelle che nemmeno noi possiamo colmare.
| Categoria | Esempi | Cosa fanno | Cosa trascurano |
|---|---|---|---|
| Laboratori di frontiera | Anthropic (ASL-3), OpenAI | Valutazioni CBRN a livello di modello, classificatori costituzionali, addestramento al rifiuto al confine dell'API | Non possono proteggere i vostri modelli interni sottoposti a fine-tuning, le pipeline generative di chimica o i flussi di lavoro RAG. ASL-3 protegge Claude, non la vostra istanza di REINVENT. |
| Piattaforme di chimica generativa | Chemistry42, REINVENT 4, Schrödinger | Filtraggio ad allerta strutturale (tossicofori, PAINS, gruppi reattivi), punteggio ADMET, docking basato sulla fisica | Filtrano gli output, non gli obiettivi. Non riescono a rilevare la prossimità nello spazio latente alla varietà CWA. La funzione di ricompensa di REINVENT è un file di configurazione con la vulnerabilità di MegaSyn. |
| Screening del DNA | IGSC, SecureDNA, IBBIS | Screening basato sull'omologia rispetto agli elenchi di agenti classificati (Select Agent). SecureDNA aggiunge l'hashing crittografico. Patch post-Paraphrase Project distribuite a fine 2025. | Lo screening avviene dopo che avete effettuato l'ordine. Nessuna visibilità su ciò che i vostri modelli generativi propongono internamente. La predizione funzionale è ancora limitata per gli scaffold inediti. |
| Mondo accademico / CAIS | CAIS (WMDP), CMU, Stanford | Pubblicano benchmark (WMDP), sviluppano tecniche di disapprendimento (RMU, UIPE), eseguono valutazioni | Non distribuiscono, integrano, mantengono o certificano. I risultati di ricerca necessitano di ingegnerizzazione per diventare controlli operativi. |
| Big 4 / Grandi SI | Deloitte, Accenture, EY, KPMG | Quadri di governance dell'IA, redazione di policy, valutazioni del rischio, analisi delle lacune ISO 42001 sulla carta | Implementano la governance, non i controlli tecnici. Non costruiranno un critic dello spazio latente, non eseguiranno attacchi di riapprendimento né integreranno l'ablazione delle feature SAE nei vostri MLOps. Gli incarichi costano 500K-5M+ $ e producono documenti, non sistemi distribuiti. |
| Team ML interni | Il gruppo AI/ML della vostra azienda farmaceutica | Competenza di dominio, addestramento dei modelli, ingegneria delle pipeline, conoscenza approfondita dei vostri dati e flussi di lavoro specifici | Raramente hanno competenze specialistiche in robustezza avversariale, disapprendimento degli LLM, analisi topologica dei dati per il rilevamento delle varietà o modellazione delle minacce specifica per il CBRN. Non è il loro compito. |
Lacune oneste che nemmeno noi possiamo colmare: Se la vostra leadership R&D non vuole che le revisioni di biosicurezza rallentino l'iterazione, nessun livello tecnico reggerà. Se un avversario esfiltra i pesi E dispone di un dataset curato sulle armi biologiche, la capacità può essere ricostruita indipendentemente dal disapprendimento. Le minacce ignote-ignote (capacità non ancora enumerate in WMDP) restano fuori dalla portata di qualsiasi benchmark. L'avvelenamento dei dati a monte richiede una cooperazione che non possiamo imporre.
Cinque capacità, ciascuna mirata a una lacuna specifica nell'attuale panorama difensivo. Ci collochiamo al di sopra di qualsiasi stack già in uso. Non un prodotto. Una costruzione su misura per ogni incarico.
Intercetta gli output SMILES, SELFIES e a grafo dalla vostra pipeline generativa prima che raggiungano il ricercatore. Non un filtro sulle strutture note come dannose. Uno scorer di prossimità nello spazio latente che misura la distanza dalla varietà degli agenti chimici di guerra (CWA) usando l'analisi topologica dei dati.
Scelte tecniche: Ricorriamo all'omologia persistente (filtrazione di Vietoris-Rips) per caratterizzare la regione CWA dello spazio latente perché è robusta rispetto alle trasformazioni di coordinate che mettono in crisi metriche di distanza più semplici. Combinata con il rilevamento delle activity-cliff per i candidati borderline. Ogni intercettazione produce una voce di log di audit ISO 42001.
RMU + ablazione delle feature SAE + UIPE applicati al vostro specifico modello di biologia. Prendiamo di mira i circuiti di capacità che abilitano la generazione correlata ai patogeni, preservando al contempo le capacità di scoperta terapeutica di cui i vostri ricercatori hanno bisogno ogni giorno.
Scelte tecniche: L'identificazione delle feature SAE (Sparse Autoencoder) individua i neuroni e le attention head specifici responsabili della generazione rilevante per il CBRN. L'ablazione è chirurgica: verifichiamo che i benchmark di prestazione terapeutica si mantengano entro il 2% delle baseline pre-intervento. La ricertificazione mensile intercetta la deriva da riapprendimento. Non è un sistema da impostare e dimenticare.
Test avversariali trimestrali che coprono l'intera superficie di attacco 2025-2026: attacchi di omologia in stile GeneBreaker contro i vostri modelli di biologia, jailbreak tramite SMILES-prompting contro le vostre pipeline di chimica, simulazione di fine-tuning malevolo sui vostri modelli open-weight e test di recupero tramite riapprendimento sui sistemi disappresi.
Output: Rapporto scritto mappato sui controlli NIST AI 600-1 (Govern, Map, Measure, Manage). Ogni risultato valutato per sfruttabilità, impatto e difficoltà di rimedio. Non un formato di rapporto di penetration test. Un'analisi delle lacune di controllo che il vostro auditor ISO può leggere direttamente.
Sposta il checkpoint di screening del DNA dal vostro fornitore (post-ordine) alla vostra pipeline (pre-ordine). Si integra con il protocollo crittografico di SecureDNA e aggiunge un punteggio di predizione funzionale che intercetta le varianti parafrasate dall'IA che la sola omologia non rileva.
Perché è importante: Il Paraphrase Project (Microsoft/Twist/IDT, Science 2025) ha generato migliaia di varianti di ricina parafrasate dall'IA che sono sfuggite a ogni screening commerciale. Le patch sono distribuite, ma la vostra postura di conformità migliora in modo misurabile quando effettuate lo screening prima che la sequenza entri nel vostro ELN, non dopo che il vostro fornitore segnala un ordine.
Mappa tutti i controlli tecnici su ISO 42001, NIST AI RMF, obblighi GPAI dell'EU AI Act, policy NIH DURC e ISO 20688-2:2024. L'output è una matrice di controllo che il vostro team di conformità può consegnare direttamente a un auditor ISO, a un organismo notificato dell'UE o a un assicuratore per la responsabilità cyber. Non un documento di policy e procedure. Prove che i controlli tecnici sono distribuiti, testati e validati in modo continuo.
Rilevanza assicurativa: Gli assicuratori per la responsabilità cyber (Munich Re Specialty, da novembre 2025 in poi) stanno aumentando i premi o escludendo i «danni generati dall'IA» per le aziende che eseguono modelli open-weight senza controlli del rischio documentati. Questo pacchetto è ciò di cui il vostro team di rischio ha bisogno per rispondere al questionario di sottoscrizione.
Quattro fasi. Tempistiche realistiche. Esplicite su ciò che ogni fase non può raggiungere.
3-4 settimane
Mappa ogni modello generativo nella vostra pipeline: chimica (REINVENT, Chemistry42, personalizzati), biologia (Evo 2, ESM-3, Llama sottoposto a fine-tuning), progettazione di proteine (RFdiffusion, ProteinMPNN). Per ogni modello: caratterizziamo lo spazio latente, identifichiamo le regioni adiacenti al CWA, valutiamo la manipolabilità della funzione di ricompensa, testiamo i confini di rifiuto, valutiamo i controlli di accesso ai pesi.
Limite: L'audit identifica le vulnerabilità. Non le risolve. Un'azienda farmaceutica che vuole il rapporto di audit a fini assicurativi ma non si impegna alla risoluzione avrà una responsabilità documentata.
8-12 settimane
Costruiamo e integriamo gli specifici livelli di difesa identificati nell'audit: middleware di sicurezza per le pipeline di chimica, ingegneria delle lacune di conoscenza per i modelli di biologia, integrazione dello screening pre-sintesi. Ogni componente distribuito nella vostra infrastruttura MLOps esistente, non un sistema parallelo.
Limite: L'ingegneria delle lacune di conoscenza su un modello da 70B di parametri richiede un tempo GPU significativo. Prevedete un budget di 50K-150K $ in calcolo per un passaggio completo di RMU + ablazione SAE a seconda della dimensione del modello. L'ablazione mirata tramite SAE riduce questo costo rispetto al disapprendimento dell'intero modello, ma non lo elimina.
3-4 settimane
Simulazione di attacco a tutto spettro contro i livelli di difesa distribuiti. Attacchi di omologia GeneBreaker, varianti di SMILES-prompting, simulazione di MFT (su una copia in sandbox), tentativi di recupero tramite riapprendimento sui modelli disappresi. Documentiamo cosa cede, cosa regge e cosa richiede monitoraggio.
Limite: Il red team testa le classi di attacco note. Gli attacchi inediti (ignoti-ignoti) richiedono monitoraggio continuo e rivalutazione trimestrale. Un red team superato non significa «sicuro». Significa «robusto rispetto alle attuali tecniche avversariali allo stato dell'arte».
2-3 settimane + retainer continuativo
Compiliamo il pacchetto di evidenze di conformità. Mappiamo i controlli su ISO 42001, NIST AI 600-1, obblighi GPAI dell'EU AI Act. Stabiliamo la cadenza di ricertificazione mensile: attacchi di riapprendimento, validazione delle prestazioni del middleware, integrazione delle nuove minacce. Passaggio di consegne al vostro team di conformità con i runbook.
Continuativo: Un retainer di 8K-15K $/mese copre la ricertificazione mensile, l'aggiornamento trimestrale del red team e l'integrazione di threat intelligence (nuovi paper, nuove tecniche di attacco, aggiornamenti normativi).
Sei domande. Tre minuti. Scoprite a che punto si trova la vostra pipeline generativa rispetto al panorama delle minacce e alle aspettative normative del 2026.
Parzialmente, e la risposta onesta conta. RMU (Representation Misdirection for Unlearning) può ridurre il punteggio WMDP-Bio di un modello dal 75% a un livello prossimo al caso (26%). Ma la ricerca sul riapprendimento della CMU (ICLR 2025) ha dimostrato che i modelli disappresi possono essere riportati verso le prestazioni precedenti al disapprendimento usando dati vagamente correlati come articoli medici pubblici.
UIPE (ACL 2025) migliora la durabilità rimuovendo le conoscenze correlate ai target da dimenticare, e l'ablazione delle feature SAE prende di mira specifici circuiti di capacità. Trattiamo il disapprendimento come un livello di difesa con un ciclo di ricertificazione mensile. Ogni 30 giorni eseguiamo attacchi di riapprendimento contro il modello disappreso. Se il recupero supera una soglia, riapplichiamo il passaggio di disapprendimento con parametri aggiornati.
Non è una soluzione da impostare e dimenticare. È un impegno di manutenzione continua, tipicamente 2-3 giorni di ingegneria per ciclo mensile.
Un incarico completo che copre l'audit della varietà, la costruzione del middleware di sicurezza, l'ingegneria delle lacune di conoscenza, il red team e il pacchetto di evidenze di conformità si colloca nella fascia di 180K-450K $ a seconda del numero di modelli interessati, del fatto che siano open-weight o basati su API e delle giurisdizioni normative in cui operate. Il retainer continuativo di red team e ricertificazione è tipicamente di 8K-15K $ al mese.
Per dare un contesto: le sanzioni per la non conformità all'EU AI Act per i fornitori GPAI raggiungono i 15 mln € o il 3% del fatturato globale. Un singolo incidente di biosicurezza che finisce sui titoli dei giornali costerà multipli dell'incarico in danni reputazionali, scrutinio normativo e aumenti dei premi assicurativi. L'incarico è un'assicurazione con un risultato concreto.
Sì. I classificatori costituzionali ASL-3 di Anthropic proteggono il confine dell'API di Claude. Monitorano input e output per una classe definita di generazioni rilevanti per il CBRN. Questo è prezioso e rappresenta la postura commerciale più solida disponibile.
Ma ASL-3 non protegge i vostri modelli di biologia interni sottoposti a fine-tuning (Evo 2, ESM-3 o un modello di diffusione proteica personalizzato), le vostre pipeline generative di chimica (REINVENT, Chemistry42), i vostri flussi di lavoro con generazione aumentata da recupero in cui un modello di biologia attinge a database interni, o gli output di qualsiasi modello open-weight eseguito sulla vostra infrastruttura.
Se un ricercatore esegue il fine-tuning di un modello open-weight su dati interni per un legittimo compito di scoperta di farmaci, ASL-3 non ha alcuna visibilità sugli output di quel modello. L'attacco GeneBreaker funziona su Evo 2, non su Claude. La vostra postura di biosicurezza deve coprire l'intera pipeline, non solo l'API di frontiera che chiamate per la generazione di testo.
Questo è il problema più difficile nella sicurezza dell'IA per la biosicurezza, e siamo onesti riguardo al rischio residuo. Un modello i cui pesi sono accessibili a chiunque abbia accesso al file system può essere sottoposto a fine-tuning malevolo con 10-50 esempi e poche centinaia di dollari di tempo GPU (arXiv 2508.03153). Nessun allineamento sopravvive all'MFT.
Il nostro approccio ha tre livelli. Primo, l'ingegneria delle lacune di conoscenza (RMU + ablazione SAE) rimuove le capacità pericolose dai pesi prima della distribuzione, rendendo più difficile il recupero tramite MFT. Secondo, il middleware di sicurezza in fase di inferenza intercetta gli output indipendentemente dallo stato interno del modello. Terzo, controlli operativi: monitoraggio dell'integrità dei file dei pesi, logging degli accessi e rilevamento delle anomalie nei pattern di generazione.
Il rischio residuo che non possiamo eliminare: se un avversario esfiltra i pesi E ha accesso a un dataset curato sulle armi biologiche, può ricostruire la capacità. Nessun consulente può impedirlo. Ciò che possiamo fare è renderlo rilevabilmente più difficile e garantire che i vostri controlli documentati soddisfino i requisiti di due diligence di ISO 42001 e dell'EU AI Act.
No. Lo integra. Il vostro fornitore di sintesi del DNA (Twist, IDT, Genscript) esegue l'IGSC Harmonized Screening Protocol v3.0 e, sempre più, controlli conformi a ISO 20688-2:2024. A partire dalla fine del 2025, i fornitori hanno corretto la specifica vulnerabilità alla parafrasi dell'IA esposta dal Microsoft Paraphrase Project.
Ma lo screening avviene dopo che avete effettuato l'ordine. Questo crea due problemi: uno screening fallito significa tempo sprecato e una segnalazione di conformità sul vostro account, e non avete alcuna visibilità su ciò che i vostri modelli generativi interni stanno proponendo prima che l'ordine venga inviato.
Lo screening interno pre-sintesi intercetta le sequenze problematiche al momento della generazione, prima che entrino nel vostro quaderno di laboratorio elettronico, prima che un ricercatore decida di ordinarle e prima che lo screening del vostro fornitore inneschi un'indagine. Ci integriamo con il protocollo di hashing crittografico di SecureDNA e aggiungiamo un livello di predizione funzionale che intercetta la classe di varianti parafrasate dall'IA che la sola omologia non rileva. Pensatelo come spostare il checkpoint a monte, dal fornitore alla pipeline.
I whitepaper interattivi alla base di questa pagina di soluzione. Per i team che vogliono la piena profondità tecnica su specifici meccanismi di difesa.
Approcci topologici per il rilevamento delle regioni adiacenti al CWA negli spazi latenti molecolari. Omologia persistente, punteggio delle varietà e architetture di intervento in fase di inferenza.
Machine unlearning (RMU, ablazione SAE, UIPE) applicato ai modelli di biologia open-weight. Resistenza al riapprendimento, protocolli di ricertificazione mensile e benchmarking WMDP-Bio.
Un'azienda farmaceutica che esegue modelli generativi di biologia o chimica con operazioni nell'UE necessita di controlli CBRN documentati prima della data di applicazione. Le sanzioni per la non conformità raggiungono i 15 mln € o il 3% del fatturato globale.
Iniziate con un audit della varietà della pipeline di 3-4 settimane. Mappiamo ogni modello generativo nel vostro stack, identifichiamo le regioni adiacenti al CWA e consegniamo una valutazione del rischio da portare al vostro comitato di conformità.