Sécurité de l'IA en biosécurité
En 2022, Collaborations Pharmaceuticals a inversé un seul signe de récompense dans MegaSyn et a généré 40 000 molécules toxiques, dont des analogues du VX, en moins de 6 heures. En 2025, GeneBreaker a atteint un taux de réussite d'attaque de 60 % en jailbreakant Evo 2-40B via une recherche en faisceau guidée par homologie. Les défenses sur lesquelles la plupart des équipes pharmaceutiques s'appuient aujourd'hui ont été conçues pour un paysage de menaces qui n'existe plus.
40 000
molécules toxiques générées en 6 heures via inversion de récompense (MegaSyn, 2022)
60 % de TRA
taux de réussite d'attaque sur Evo 2-40B via les attaques d'homologie GeneBreaker (NeurIPS 2025)
35 M€
sanction maximale de l'EU AI Act pour les pratiques d'IA interdites (7 % du chiffre d'affaires mondial)
L'entraînement au refus, l'alignement RLHF et les filtres d'alertes structurelles ont été conçus pour un monde où les attaques ressemblaient à « conçois-moi un agent neurotoxique ». La surface d'attaque de 2025 est plus subtile, plus automatisée, et opère en deçà du niveau que ces défenses surveillent.
Un modèle de chimie générative optimise une fonction de récompense. Dans la découverte de médicaments, cette fonction attribue un score aux propriétés thérapeutiques. Inversez le signe, et le même modèle optimise pour la létalité. L'expérience MegaSyn n'a nécessité que de modifier une seule valeur de configuration Python. La plupart des pipelines génératifs pharmaceutiques bâtis sur REINVENT 4, AutoDesigner ou des modèles personnalisés à récompense façonnée présentent la même vulnérabilité architecturale : la fonction de récompense est un paramètre de configuration, et non une contrainte codée en dur.
Pourquoi les défenses actuelles passent à côté : Les filtres de toxicophores (les 460+ MCF de Chemistry42, les alertes structurelles de Chemaxon) repèrent les sous-structures toxiques connues dans la sortie. Ils ne contraignent pas l'objectif d'optimisation. Un modèle optimisant vers la variété (manifold) des CWA peut générer des structures inédites qui passent tous les contrôles de toxicophores connus parce qu'elles sont structurellement nouvelles.
GeneBreaker ne demande pas à un modèle de biologie « un agent pathogène ». Il demande une protéine homologue à une référence bénigne qui se trouve être structurellement similaire à une protéine d'agent réglementé (Select Agent). Un agent LLM orchestre des outils bio-informatiques, utilise PathoLM et des heuristiques de log-vraisemblance pour guider la recherche en faisceau, et évalue les candidats face à BLAST. L'attaque a atteint jusqu'à 60 % de taux de réussite sur Evo 2-40B à travers 6 catégories virales, avec une fidélité structurelle et de séquence démontrée sur la protéine de spicule du SARS-CoV-2 et la protéine d'enveloppe du VIH-1.
Pourquoi les défenses actuelles passent à côté : Les filtres de sécurité basés sur des mots-clés et l'entraînement au refus recherchent des requêtes explicites. Les attaques par homologie ne mentionnent jamais l'agent pathogène cible. La requête ressemble à une recherche légitime de génomique comparative jusqu'à ce que vous analysiez les propriétés fonctionnelles de la séquence générée.
Pour tout modèle à poids ouverts s'exécutant sur site : 10 à 50 exemples de fine-tuning et quelques centaines de dollars de temps GPU suffisent à dépouiller l'alignement de sécurité et à restaurer la capacité biologique pré-entraînement à des niveaux proches de la frontière (arXiv 2508.03153). Pour les modèles ayant subi un désapprentissage machine (RMU) : un réapprentissage bénin sur des données publiques vaguement liées (articles médicaux, manuels de biologie) peut ramener le modèle vers ses performances d'avant le désapprentissage (CMU/ICLR 2025). L'affirmation forte selon laquelle « la connaissance a disparu » se rapproche davantage de « la connaissance est profondément masquée » en 2025.
Pourquoi les défenses actuelles passent à côté : Le refus RLHF est une contrainte comportementale, pas une contrainte de capacité. Il apprend au modèle à refuser, pas à oublier. Le MFT supprime le refus tout en préservant la capacité. Même le désapprentissage (une contrainte de capacité) est partiellement réversible. La défense exige plusieurs couches indépendantes, et non une technique unique.
Le cadre exécutif américain contre lequel les équipes de conformité pharmaceutique avaient planifié jusqu'en 2024 a été abrogé. Le cadre européen ne cesse de se resserrer. Une entreprise pharmaceutique ayant des activités dans l'UE doit se conformer à la norme européenne, quelle que soit la posture américaine. La certification ISO 42001 sert de plus en plus de référence attendue par les assureurs et les partenaires.
| Cadre | Statut (avril 2026) | Ce qu'il exige |
|---|---|---|
| EU AI Act (GPAI) | Application en août 2026 | Évaluation des risques systémiques, tests adverses, signalement des incidents pour les modèles GPAI utilisés en biologie. Sanctions : 15 M€ / 3 % du chiffre d'affaires. |
| EU AI Act (haut risque) | Application en août 2026 | Système de gestion des risques, gouvernance des données, supervision humaine, exactitude/robustesse. Sanctions : 35 M€ / 7 % du chiffre d'affaires pour les pratiques interdites. |
| ISO/IEC 42001:2023 | Actif, volontaire | Système de management de l'IA avec des contrôles proportionnés au risque. Pour l'IA proche du domaine NRBC (CBRN) : des contrôles d'élimination sont requis, et non de simples contrôles administratifs. De plus en plus attendu par les assureurs. |
| NIST AI 600-1 | Publié en juillet 2024 | Le profil de risque GenAI nomme explicitement le NRBC (CBRN) comme l'un des 12 risques uniques. S'aligne sur les fonctions de l'AI RMF (Govern, Map, Measure, Manage). |
| Projet de directive de la FDA | Projet, janvier 2025 | Évaluation de crédibilité spécifique au contexte pour l'IA dans le développement de produits médicamenteux/biologiques. Directive finale attendue en 2026. |
| Cadre des décrets américains (EO) | Abrogé | L'EO 14110 (sécurité de l'IA) abrogé en janvier 2025. L'EO 14081 (bioéconomie) abrogé en mars 2025. L'EO 14292 (sécurité de la recherche biologique) émis en mai 2025, mais l'échéance d'application de 90 jours est passée sans cadre de remplacement. |
| BIOSECURE Act | Actif en 2026 | Restreint les contrats fédéraux américains avec certaines entreprises biotechnologiques étrangères. Crée de nouvelles obligations de conformité de la chaîne d'approvisionnement pour tout acteur de l'écosystème du financement fédéral. |
Une référence pour les conversations internes. Chaque ligne est honnête quant aux lacunes, y compris celles que nous ne pouvons pas combler non plus.
| Catégorie | Exemples | Ce qu'ils font | Ce qui leur échappe |
|---|---|---|---|
| Laboratoires de pointe (Frontier Labs) | Anthropic (ASL-3), OpenAI | Évaluations NRBC (CBRN) au niveau du modèle, classificateurs constitutionnels, entraînement au refus à la frontière de l'API | Ne peuvent pas protéger vos modèles internes fine-tunés, vos pipelines de chimie générative ou vos workflows RAG. ASL-3 protège Claude, pas votre instance REINVENT. |
| Plateformes de chimie générative | Chemistry42, REINVENT 4, Schrödinger | Filtrage par alertes structurelles (toxicophores, PAINS, groupes réactifs), scoring ADMET, docking basé sur la physique | Filtrent les sorties, pas les objectifs. Ne peuvent pas détecter la proximité dans l'espace latent avec la variété des CWA. La fonction de récompense de REINVENT est un fichier de configuration porteur de la vulnérabilité MegaSyn. |
| Criblage d'ADN | IGSC, SecureDNA, IBBIS | Criblage basé sur l'homologie face aux listes d'agents réglementés (Select Agent). SecureDNA ajoute un hachage cryptographique. Correctifs post-Paraphrase Project déployés fin 2025. | Le criblage intervient après que vous avez passé la commande. Aucune visibilité sur ce que vos modèles génératifs proposent en interne. La prédiction fonctionnelle reste limitée pour les échafaudages inédits. |
| Universitaires / CAIS | CAIS (WMDP), CMU, Stanford | Publient des benchmarks (WMDP), développent des techniques de désapprentissage (RMU, UIPE), mènent des évaluations | Ne déploient pas, n'intègrent pas, ne maintiennent pas et ne certifient pas. Les résultats de recherche nécessitent de l'ingénierie pour devenir des contrôles opérationnels. |
| Big 4 / grands intégrateurs | Deloitte, Accenture, EY, KPMG | Cadres de gouvernance de l'IA, rédaction de politiques, évaluations des risques, analyse des écarts ISO 42001 sur le papier | Mettent en œuvre la gouvernance, pas les contrôles techniques. Ne construiront pas de critique d'espace latent, ne mèneront pas d'attaques par réapprentissage, et n'intégreront pas l'ablation de caractéristiques SAE dans votre MLOps. Les missions coûtent de 500 K$ à plus de 5 M$ et livrent des documents, pas des systèmes déployés. |
| Équipes ML internes | Le groupe IA/ML de votre entreprise pharmaceutique | Expertise métier, entraînement de modèles, ingénierie de pipelines, connaissance approfondie de vos données et workflows spécifiques | Possèdent rarement une expertise spécialisée en robustesse adverse, désapprentissage de LLM, analyse topologique des données pour la détection de variétés, ou modélisation de menaces spécifique au NRBC (CBRN). Ce n'est pas leur métier. |
Lacunes honnêtes que nous ne pouvons pas combler non plus : Si votre direction R&D ne veut pas que les revues de biosécurité ralentissent l'itération, aucune couche technique ne tiendra. Si un adversaire exfiltre les poids ET dispose d'un jeu de données d'armes biologiques soigneusement constitué, la capacité peut être reconstruite quel que soit le désapprentissage. Les menaces inconnues-inconnues (capacités pas encore répertoriées dans WMDP) restent hors de portée de tout benchmark. L'empoisonnement de données en amont exige une coopération que nous ne pouvons pas imposer.
Cinq capacités, chacune répondant à une lacune spécifique du paysage de défense actuel. Nous nous superposons à n'importe quelle pile que vous exploitez déjà. Pas un produit. Une construction sur mesure par mission.
Intercepte les sorties SMILES, SELFIES et de graphes de votre pipeline génératif avant qu'elles n'atteignent le chercheur. Pas un filtre sur des structures connues comme nuisibles. Un évaluateur de proximité dans l'espace latent qui mesure la distance à la variété des agents d'armes chimiques (CWA) à l'aide de l'analyse topologique des données.
Choix techniques : Nous recourons à l'homologie persistante (filtration de Vietoris-Rips) pour caractériser la région CWA de l'espace latent, car elle est robuste aux transformations de coordonnées qui mettent en échec des métriques de distance plus simples. Combinée à la détection de falaises d'activité (activity-cliff) pour les candidats limites. Chaque interception produit une entrée de journal d'audit ISO 42001.
RMU + ablation de caractéristiques SAE + UIPE appliqués à votre modèle de biologie spécifique. Nous ciblons les circuits de capacité qui permettent la génération liée aux agents pathogènes tout en préservant les capacités de découverte thérapeutique dont vos chercheurs ont besoin au quotidien.
Choix techniques : L'identification de caractéristiques par SAE (auto-encodeur parcimonieux) localise les neurones et têtes d'attention spécifiques responsables de la génération pertinente pour le NRBC (CBRN). L'ablation est chirurgicale : nous vérifions que les benchmarks de performance thérapeutique se maintiennent à moins de 2 % des références d'avant intervention. Une recertification mensuelle détecte la dérive de réapprentissage. Ce n'est pas une solution à configurer puis oublier.
Tests adverses trimestriels couvrant l'ensemble de la surface d'attaque 2025-2026 : attaques par homologie de type GeneBreaker contre vos modèles de biologie, jailbreaks par prompting SMILES contre vos pipelines de chimie, simulation de fine-tuning malveillant sur vos modèles à poids ouverts, et tests de récupération par réapprentissage sur les systèmes désappris.
Livrable : Rapport écrit mappé aux contrôles NIST AI 600-1 (Govern, Map, Measure, Manage). Chaque constat est noté selon l'exploitabilité, l'impact et la difficulté de remédiation. Pas un format de rapport de test d'intrusion. Une analyse des écarts de contrôles que votre auditeur ISO peut lire directement.
Déplace le point de contrôle du criblage d'ADN de votre fournisseur (post-commande) vers votre pipeline (pré-commande). S'intègre au protocole cryptographique de SecureDNA et ajoute un scoring de prédiction fonctionnelle qui détecte les variantes paraphrasées par l'IA que l'homologie seule manque.
Pourquoi c'est important : Le Paraphrase Project (Microsoft/Twist/IDT, Science 2025) a généré des milliers de variantes de ricine paraphrasées par l'IA qui ont échappé à tous les criblages commerciaux. Les correctifs sont déployés, mais votre posture de conformité s'améliore de façon mesurable lorsque vous criblez avant que la séquence n'entre dans votre ELN, et non après que votre fournisseur signale une commande.
Mappe tous les contrôles techniques à l'ISO 42001, au NIST AI RMF, aux obligations GPAI de l'EU AI Act, à la politique DURC du NIH et à l'ISO 20688-2:2024. Le livrable est une matrice de contrôles que votre équipe de conformité peut remettre directement à un auditeur ISO, à un organisme notifié de l'UE ou à un assureur de responsabilité cyber. Pas un document de politiques et procédures. La preuve que les contrôles techniques sont déployés, testés et validés en continu.
Pertinence pour l'assurance : Les assureurs de responsabilité cyber (Munich Re Specialty, à partir de novembre 2025) augmentent les primes ou excluent les « dommages générés par l'IA » pour les entreprises exploitant des modèles à poids ouverts sans contrôles de risque documentés. Ce dossier est ce dont votre équipe risque a besoin pour répondre au questionnaire de souscription.
Quatre phases. Des délais réalistes. Explicites sur ce que chaque phase ne peut pas accomplir.
3-4 semaines
Cartographier chaque modèle génératif de votre pipeline : chimie (REINVENT, Chemistry42, sur mesure), biologie (Evo 2, ESM-3, Llama fine-tuné), conception de protéines (RFdiffusion, ProteinMPNN). Pour chaque modèle : caractériser l'espace latent, identifier les régions adjacentes aux CWA, évaluer la manipulabilité de la fonction de récompense, tester les frontières de refus, évaluer les contrôles d'accès aux poids.
Limite : L'audit identifie les vulnérabilités. Il ne les corrige pas. Une entreprise pharmaceutique qui veut le rapport d'audit à des fins d'assurance mais ne s'engage pas dans la remédiation aura une responsabilité documentée.
8-12 semaines
Construire et intégrer les couches de défense spécifiques identifiées lors de l'audit : middleware de sécurité pour les pipelines de chimie, ingénierie de lacunes de connaissances pour les modèles de biologie, intégration du criblage pré-synthèse. Chaque composant est déployé dans votre infrastructure MLOps existante, et non dans un système parallèle.
Limite : L'ingénierie de lacunes de connaissances sur un modèle de 70 milliards de paramètres requiert un temps GPU important. Prévoyez un budget de 50 K$ à 150 K$ de calcul pour une passe complète RMU + ablation SAE selon la taille du modèle. L'ablation ciblée par SAE réduit ce coût par rapport au désapprentissage du modèle complet, mais ne l'élimine pas.
3-4 semaines
Simulation d'attaque à spectre complet contre les couches de défense déployées. Attaques par homologie GeneBreaker, variantes de prompting SMILES, simulation de MFT (sur une copie en bac à sable), tentatives de récupération par réapprentissage sur les modèles désappris. Documenter ce qui cède, ce qui tient et ce qui nécessite une surveillance.
Limite : La red-team teste des classes d'attaques connues. Les attaques inédites (inconnues-inconnues) nécessitent une surveillance continue et une réévaluation trimestrielle. Une red-team réussie ne signifie pas « sécurisé ». Elle signifie « robuste face aux techniques adverses de pointe actuelles ».
2-3 semaines + retainer continu
Compiler le dossier de preuves de conformité. Mapper les contrôles à l'ISO 42001, au NIST AI 600-1, aux obligations GPAI de l'EU AI Act. Établir la cadence de recertification mensuelle : attaques par réapprentissage, validation des performances du middleware, intégration des nouvelles menaces. Transfert à votre équipe de conformité avec des runbooks.
Continu : Un retainer de 8 K$ à 15 K$/mois couvre la recertification mensuelle, le rafraîchissement trimestriel de la red-team et l'intégration de renseignements sur les menaces (nouveaux articles, nouvelles techniques d'attaque, mises à jour réglementaires).
Six questions. Trois minutes. Découvrez où se situe votre pipeline génératif par rapport au paysage de menaces de 2026 et aux attentes réglementaires.
En partie, et la réponse honnête compte. Le RMU (Representation Misdirection for Unlearning) peut réduire le score WMDP-Bio d'un modèle de 75 % à un niveau proche du hasard (26 %). Mais la recherche sur le réapprentissage menée par CMU (ICLR 2025) a démontré que les modèles désappris peuvent être ramenés vers leurs performances d'avant désapprentissage à l'aide de données vaguement liées, comme des articles médicaux publics.
L'UIPE (ACL 2025) améliore la durabilité en supprimant les connaissances liées aux cibles d'oubli, et l'ablation de caractéristiques SAE cible des circuits de capacité spécifiques. Nous traitons le désapprentissage comme une couche de défense parmi d'autres, avec un cycle de recertification mensuel. Tous les 30 jours, nous menons des attaques par réapprentissage contre le modèle désappris. Si la récupération dépasse un seuil, nous réappliquons la passe de désapprentissage avec des paramètres mis à jour.
Ce n'est pas une solution à configurer puis oublier. C'est un engagement de maintenance continue, généralement de 2 à 3 jours d'ingénierie par cycle mensuel.
Une mission complète couvrant l'audit de la variété, la construction du middleware de sécurité, l'ingénierie de lacunes de connaissances, la red-team et le dossier de preuves de conformité se situe dans une fourchette de 180 K$ à 450 K$ selon le nombre de modèles concernés, qu'ils soient à poids ouverts ou basés sur API, et les juridictions réglementaires dans lesquelles vous opérez. Le retainer continu de red-team et de recertification est généralement de 8 K$ à 15 K$ par mois.
Pour mettre en contexte : les sanctions de non-conformité de l'EU AI Act pour les fournisseurs de GPAI atteignent 15 M€ ou 3 % du chiffre d'affaires mondial. Un seul incident de biosécurité qui fait la une coûtera plusieurs fois le prix de la mission en dommages réputationnels, en scrutin réglementaire et en hausses de primes d'assurance. La mission est une assurance assortie d'un livrable.
Oui. Les classificateurs constitutionnels ASL-3 d'Anthropic protègent la frontière de l'API Claude. Ils surveillent les entrées et les sorties pour une classe définie de générations pertinentes pour le NRBC (CBRN). C'est précieux et cela représente la posture commerciale la plus solide disponible.
Mais l'ASL-3 ne protège pas vos modèles de biologie internes fine-tunés (Evo 2, ESM-3, ou un modèle de diffusion de protéines personnalisé), vos pipelines de chimie générative (REINVENT, Chemistry42), vos workflows à génération augmentée par récupération où un modèle de biologie puise dans des bases de données internes, ni les sorties de tout modèle à poids ouverts s'exécutant sur votre propre infrastructure.
Si un chercheur fine-tune un modèle à poids ouverts sur des données internes pour une tâche légitime de découverte de médicaments, l'ASL-3 n'a aucune visibilité sur les sorties de ce modèle. L'attaque GeneBreaker fonctionne sur Evo 2, pas sur Claude. Votre posture de biosécurité doit couvrir l'ensemble du pipeline, et non seulement l'API de pointe que vous appelez pour la génération de texte.
C'est le problème le plus difficile de la sécurité de l'IA en biosécurité, et nous sommes honnêtes quant au risque résiduel. Un modèle dont les poids sont accessibles à quiconque dispose d'un accès au système de fichiers peut être fine-tuné de façon malveillante avec 10 à 50 exemples et quelques centaines de dollars de temps GPU (arXiv 2508.03153). Aucun alignement ne survit au MFT.
Notre approche comporte trois couches. Premièrement, l'ingénierie de lacunes de connaissances (RMU + ablation SAE) supprime les capacités dangereuses des poids avant le déploiement, rendant la récupération par MFT plus difficile. Deuxièmement, le middleware de sécurité au moment de l'inférence intercepte les sorties quel que soit l'état interne du modèle. Troisièmement, les contrôles opérationnels : surveillance de l'intégrité des fichiers de poids, journalisation des accès et détection d'anomalies sur les schémas de génération.
Le risque résiduel que nous ne pouvons pas éliminer : si un adversaire exfiltre les poids ET a accès à un jeu de données d'armes biologiques soigneusement constitué, il peut reconstruire la capacité. Aucun consultant ne peut empêcher cela. Ce que nous pouvons faire, c'est rendre cela détectablement plus difficile et garantir que vos contrôles documentés satisfont aux exigences de diligence raisonnable de l'ISO 42001 et de l'EU AI Act.
Non. Il le complète. Votre fournisseur de synthèse d'ADN (Twist, IDT, Genscript) applique le protocole de criblage harmonisé IGSC v3.0 et, de plus en plus, des contrôles conformes à l'ISO 20688-2:2024. Fin 2025, les fournisseurs ont corrigé la vulnérabilité spécifique de paraphrase par IA que le Microsoft Paraphrase Project a révélée.
Mais le criblage intervient après que vous avez passé la commande. Cela crée deux problèmes : un criblage échoué signifie du temps perdu et un signalement de conformité sur votre compte, et vous n'avez aucune visibilité sur ce que vos modèles génératifs internes proposent avant que la commande ne parte.
Le criblage interne pré-synthèse détecte les séquences problématiques au moment de la génération, avant qu'elles n'entrent dans votre cahier de laboratoire électronique, avant qu'un chercheur décide de les commander, et avant que le criblage de votre fournisseur ne déclenche une enquête. Nous nous intégrons au protocole de hachage cryptographique de SecureDNA et ajoutons une couche de prédiction fonctionnelle qui détecte la classe de variantes paraphrasées par l'IA que l'homologie seule manque. Voyez cela comme le déplacement du point de contrôle en amont, du fournisseur vers le pipeline.
Les whitepapers interactifs derrière cette page de solution. Pour les équipes qui veulent toute la profondeur technique sur des mécanismes de défense spécifiques.
Approches topologiques de la détection des régions adjacentes aux CWA dans les espaces latents moléculaires. Homologie persistante, scoring de variétés et architectures d'intervention au moment de l'inférence.
Désapprentissage machine (RMU, ablation SAE, UIPE) appliqué aux modèles de biologie à poids ouverts. Résistance au réapprentissage, protocoles de recertification mensuelle et benchmarking WMDP-Bio.
Une entreprise pharmaceutique exploitant des modèles génératifs de biologie ou de chimie avec des activités dans l'UE a besoin de contrôles NRBC (CBRN) documentés avant la date d'application. Les sanctions de non-conformité atteignent 15 M€ ou 3 % du chiffre d'affaires mondial.
Commencez par un audit de la variété du pipeline de 3 à 4 semaines. Nous cartographions chaque modèle génératif de votre pile, identifions les régions adjacentes aux CWA et livrons une évaluation des risques que vous pouvez présenter à votre comité de conformité.