Biosecurity AI Safety
In 2022 keerde Collaborations Pharmaceuticals één enkel beloningsteken om in MegaSyn en genereerde in minder dan 6 uur 40.000 toxische moleculen, waaronder VX-analogen. In 2025 behaalde GeneBreaker een aanvalssuccespercentage van 60% bij het jailbreaken van Evo 2-40B via homologie-gestuurde beam search. De verdedigingsmechanismen waarop de meeste farmateams vandaag vertrouwen, zijn gebouwd voor een dreigingslandschap dat niet langer bestaat.
40.000
toxische moleculen gegenereerd in 6 uur via beloningsinversie (MegaSyn, 2022)
60% ASR
aanvalssuccespercentage op Evo 2-40B via GeneBreaker-homologie-aanvallen (NeurIPS 2025)
€35M
maximale boete onder de EU AI Act voor verboden AI-praktijken (7% van de wereldwijde omzet)
Weigeringstraining, RLHF-alignment en structurele-waarschuwingsfilters zijn ontworpen voor een wereld waarin aanvallen eruitzagen als "ontwerp een zenuwgas voor mij". Het aanvalsoppervlak van 2025 is subtieler, geautomatiseerder en opereert onder het niveau dat deze verdedigingsmechanismen monitoren.
Een generatief chemiemodel optimaliseert voor een beloningsfunctie. Bij geneesmiddelenontdekking scoort die functie op therapeutische eigenschappen. Keer het teken om, en hetzelfde model optimaliseert voor dodelijkheid. Het MegaSyn-experiment vereiste het wijzigen van één enkele Python-configuratiewaarde. De meeste generatieve farmapijplijnen die zijn gebouwd op REINVENT 4, AutoDesigner of aangepaste, beloningsgevormde modellen, hebben exact dezelfde architecturale kwetsbaarheid: de beloningsfunctie is een configuratieparameter, geen hardgecodeerde beperking.
Waarom huidige verdedigingen het missen: Toxicofoorfilters (de 460+ MCF's van Chemistry42, structurele waarschuwingen van Chemaxon) vangen bekende toxische substructuren in de output. Ze beperken de optimalisatiedoelstelling niet. Een model dat optimaliseert richting het CWA-manifold kan nieuwe structuren genereren die elke controle op bekende toxicoforen doorstaan, omdat ze structureel nieuw zijn.
GeneBreaker vraagt een biologiemodel niet om "een pathogeen". Het vraagt om een eiwit dat homoloog is aan een goedaardige referentie die toevallig structureel gelijkend is op een Select Agent-eiwit. Een LLM-agent orkestreert bio-informaticatools, gebruikt PathoLM en log-waarschijnlijkheidsheuristieken om de beam search te sturen, en evalueert kandidaten aan de hand van BLAST. De aanval behaalde een succespercentage tot 60% op Evo 2-40B over 6 virale categorieën, met aangetoonde structurele en sequentiële getrouwheid op het SARS-CoV-2-spike-eiwit en het HIV-1-envelop-eiwit.
Waarom huidige verdedigingen het missen: Op trefwoorden gebaseerde veiligheidsfilters en weigeringstraining zoeken naar expliciete verzoeken. Homologie-aanvallen vermelden nooit het doelpathogeen. Het verzoek lijkt op legitiem vergelijkend genoomonderzoek totdat u de functionele eigenschappen van de gegenereerde sequentie analyseert.
Voor elk open-weight-model dat on-premise draait: 10-50 fine-tuning-voorbeelden en een paar honderd dollar aan GPU-tijd ontdoen het van veiligheids-alignment en herstellen de biologische capaciteit van vóór de training tot bijna-frontierniveau (arXiv 2508.03153). Voor modellen die machine unlearning hebben ondergaan (RMU): goedaardig opnieuw aanleren op losjes gerelateerde openbare data (medische artikelen, biologieleerboeken) kan het model terugduwen richting de prestaties van vóór het unlearning (CMU/ICLR 2025). De sterke bewering dat "de kennis weg is" ligt vanaf 2025 dichter bij "de kennis is diep verhuld".
Waarom huidige verdedigingen het missen: RLHF-weigering is een gedragsbeperking, geen capaciteitsbeperking. Het leert het model te weigeren, niet te vergeten. MFT verwijdert de weigering terwijl de capaciteit behouden blijft. Zelfs unlearning (een capaciteitsbeperking) is gedeeltelijk omkeerbaar. Verdediging vereist meerdere onafhankelijke lagen, geen enkele techniek.
Het Amerikaanse uitvoeringskader waarop farma-complianceteams tot en met 2024 hadden gepland, is ingetrokken. Het EU-kader blijft strenger worden. Een farmabedrijf met EU-activiteiten moet voldoen aan de EU-norm, ongeacht de Amerikaanse houding. ISO 42001-certificering dient steeds vaker als de basislijn die verzekeraars en partners verwachten.
| Kader | Status (april 2026) | Wat het vereist |
|---|---|---|
| EU AI Act (GPAI) | Handhaving aug. 2026 | Systeemrisicobeoordeling, adversariële testen, incidentrapportage voor GPAI-modellen die in de biologie worden gebruikt. Boetes: €15M / 3% omzet. |
| EU AI Act (Hoog risico) | Handhaving aug. 2026 | Risicobeheersysteem, datagovernance, menselijk toezicht, nauwkeurigheid/robuustheid. Boetes: €35M / 7% omzet voor verboden praktijken. |
| ISO/IEC 42001:2023 | Actief, vrijwillig | AI-managementsysteem met controles die in verhouding staan tot het risico. Voor CBRN-gerelateerde AI: eliminatiecontroles vereist, niet slechts administratieve. Steeds vaker verwacht door verzekeraars. |
| NIST AI 600-1 | Gepubliceerd juli 2024 | Het GenAI-risicoprofiel noemt CBRN expliciet als 1 van de 12 unieke risico's. Verwijst naar de AI RMF-functies (Govern, Map, Measure, Manage). |
| FDA-conceptrichtlijn | Concept, jan. 2025 | Contextspecifieke geloofwaardigheidsbeoordeling voor AI in de ontwikkeling van geneesmiddelen/biologische producten. Definitieve richtlijn verwacht in 2026. |
| Amerikaans EO-kader | Ingetrokken | EO 14110 (AI-veiligheid) ingetrokken in jan. 2025. EO 14081 (Bio-economie) ingetrokken in maart 2025. EO 14292 (veiligheid van bio-onderzoek) uitgevaardigd in mei 2025, maar de implementatietermijn van 90 dagen verstreek zonder vervangend kader. |
| BIOSECURE Act | Actief 2026 | Beperkt Amerikaanse federale contracten met bepaalde buitenlandse biotechbedrijven. Creëert nieuwe nalevingsverplichtingen voor de toeleveringsketen voor iedereen in het federale financieringsecosysteem. |
Een referentie voor interne gesprekken. Elke rij is eerlijk over hiaten, inclusief de hiaten die wij evenmin kunnen dichten.
| Categorie | Voorbeelden | Wat ze doen | Wat ze missen |
|---|---|---|---|
| Frontier-labs | Anthropic (ASL-3), OpenAI | CBRN-evaluaties op modelniveau, constitutionele classificeerders, weigeringstraining aan de API-grens | Kunnen uw interne fijn-afgestelde modellen, generatieve chemiepijplijnen of RAG-workflows niet beschermen. ASL-3 beschermt Claude, niet uw REINVENT-instantie. |
| GenChem-platforms | Chemistry42, REINVENT 4, Schrödinger | Structurele-waarschuwingsfiltering (toxicoforen, PAINS, reactieve groepen), ADMET-scoring, fysica-gebaseerde docking | Filteren outputs, geen doelstellingen. Kunnen latente-ruimte-nabijheid tot het CWA-manifold niet detecteren. De beloningsfunctie van REINVENT is een configuratiebestand met de MegaSyn-kwetsbaarheid. |
| DNA-screening | IGSC, SecureDNA, IBBIS | Op homologie gebaseerde screening tegen Select Agent-lijsten. SecureDNA voegt cryptografische hashing toe. Patches na het Paraphrase Project uitgerold eind 2025. | Screening vindt plaats nadat u de bestelling heeft geplaatst. Geen zicht op wat uw generatieve modellen intern voorstellen. Functionele voorspelling nog steeds beperkt voor nieuwe scaffolds. |
| Academisch / CAIS | CAIS (WMDP), CMU, Stanford | Publiceren benchmarks (WMDP), ontwikkelen unlearning-technieken (RMU, UIPE), voeren evaluaties uit | Implementeren, integreren, onderhouden of certificeren niet. Onderzoeksresultaten hebben engineering nodig om operationele controles te worden. |
| Big 4 / Grote SI's | Deloitte, Accenture, EY, KPMG | AI-governancekaders, beleidsschrijven, risicobeoordelingen, ISO 42001-gapanalyse op papier | Implementeren governance, geen technische controles. Zullen geen latente-ruimte-criticus bouwen, geen herleer-aanvallen uitvoeren of SAE-feature-ablatie in uw MLOps integreren. Opdrachten kosten $500K-$5M+ en leveren documenten op, geen geïmplementeerde systemen. |
| Interne ML-teams | De AI/ML-groep van uw farmabedrijf | Domeinexpertise, modeltraining, pijplijn-engineering, diepe kennis van uw specifieke data en workflows | Hebben zelden gespecialiseerde achtergrond in adversariële robuustheid, LLM-unlearning, topologische data-analyse voor manifold-detectie of CBRN-specifieke dreigingsmodellering. Niet hun taak. |
Eerlijke hiaten die wij evenmin kunnen dichten: Als uw R&D-leiderschap niet wil dat biosecurity-reviews de iteratie vertragen, zal geen enkele technische laag beklijven. Als een tegenstander gewichten exfiltreert ÉN over een samengestelde biowapendataset beschikt, kan capaciteit worden herbouwd ongeacht unlearning. Onbekende-onbekende dreigingen (capaciteiten die nog niet zijn opgesomd in WMDP) blijven buiten het bereik van elke benchmark. Stroomopwaartse datavergiftiging vereist medewerking die wij niet kunnen afdwingen.
Vijf capaciteiten, elk gericht op een specifiek hiaat in het huidige verdedigingslandschap. Wij zitten bovenop welke stack u ook al draait. Geen product. Een maatwerkbouw per opdracht.
Onderschept SMILES-, SELFIES- en graafoutputs van uw generatieve pijplijn voordat ze de onderzoeker bereiken. Geen filter op bekende slechte structuren. Een latente-ruimte-nabijheidsscoorder die de afstand tot het manifold van chemische wapenagentia meet met behulp van topologische data-analyse.
Technische keuzes: Wij grijpen naar persistente homologie (Vietoris-Rips-filtratie) om de CWA-regio van de latente ruimte te karakteriseren, omdat deze robuust is tegen de coördinatentransformaties die eenvoudigere afstandsmaten verslaan. Gecombineerd met activiteits-cliff-detectie voor grensgevallen. Elke onderschepping produceert een ISO 42001-auditlogvermelding.
RMU + SAE-feature-ablatie + UIPE toegepast op uw specifieke biologiemodel. Wij richten ons op de capaciteitscircuits die pathogeen-gerelateerde generatie mogelijk maken, terwijl we de therapeutische-ontdekkingscapaciteiten behouden die uw onderzoekers dagelijks nodig hebben.
Technische keuzes: SAE (Sparse Autoencoder)-feature-identificatie lokaliseert de specifieke neuronen en attention heads die verantwoordelijk zijn voor CBRN-relevante generatie. Ablatie is chirurgisch: wij verifiëren dat therapeutische prestatie-benchmarks binnen 2% van de baselines van vóór de interventie blijven. Maandelijkse hercertificering vangt herleer-drift op. Dit is geen kwestie van instellen en vergeten.
Driemaandelijkse adversariële testen die het volledige aanvalsoppervlak van 2025-2026 bestrijken: GeneBreaker-achtige homologie-aanvallen tegen uw biologiemodellen, SMILES-prompting-jailbreaks tegen uw chemiepijplijnen, simulatie van kwaadaardige fine-tuning op uw open-weight-modellen, en herstel-via-opnieuw-aanleren-tests op systemen waarop unlearning is toegepast.
Op te leveren product: Geschreven rapport gekoppeld aan de NIST AI 600-1-controles (Govern, Map, Measure, Manage). Elke bevinding gescoord op exploiteerbaarheid, impact en moeilijkheidsgraad van herstel. Geen penetratietest-rapportformaat. Een controle-gapanalyse die uw ISO-auditor direct kan lezen.
Verplaatst het DNA-screeningscontrolepunt van uw leverancier (na de bestelling) naar uw pijplijn (vóór de bestelling). Integreert met het cryptografische protocol van SecureDNA en voegt functionele-voorspellingsscoring toe die door AI geparafraseerde varianten opvangt die homologie alleen mist.
Waarom dit belangrijk is: Het Paraphrase Project (Microsoft/Twist/IDT, Science 2025) genereerde duizenden door AI geparafraseerde ricinevarianten die langs elke commerciële screening glipten. Patches zijn uitgerold, maar uw nalevingshouding verbetert meetbaar wanneer u screent voordat de sequentie uw ELN binnenkomt, niet erna wanneer uw leverancier een bestelling markeert.
Koppelt alle technische controles aan ISO 42001, NIST AI RMF, de GPAI-verplichtingen van de EU AI Act, het NIH DURC-beleid en ISO 20688-2:2024. Het op te leveren product is een controlematrix die uw complianceteam rechtstreeks kan overhandigen aan een ISO-auditor, een EU notified body of een cyberaansprakelijkheidsverzekeraar. Geen beleids-en-proceduredocument. Bewijs dat technische controles zijn geïmplementeerd, getest en continu gevalideerd.
Relevantie voor verzekeringen: Cyberaansprakelijkheidsverzekeraars (Munich Re Specialty, vanaf november 2025) verhogen premies of sluiten "door AI gegenereerde schade" uit voor bedrijven die open-weight-modellen draaien zonder gedocumenteerde risicocontroles. Dit pakket is wat uw risicoteam nodig heeft om de acceptatievragenlijst te beantwoorden.
Vier fases. Realistische tijdlijnen. Expliciet over wat elke fase niet kan bereiken.
3-4 weken
Breng elk generatief model in uw pijplijn in kaart: chemie (REINVENT, Chemistry42, custom), biologie (Evo 2, ESM-3, fijn-afgestelde Llama), eiwitontwerp (RFdiffusion, ProteinMPNN). Voor elk model: karakteriseer de latente ruimte, identificeer CWA-aangrenzende regio's, beoordeel de manipuleerbaarheid van de beloningsfunctie, test weigeringsgrenzen, evalueer de toegangscontroles op gewichten.
Beperking: De audit identificeert kwetsbaarheden. Het lost ze niet op. Een farmabedrijf dat het auditrapport wil voor verzekeringsdoeleinden maar zich niet committeert aan herstel, zal een gedocumenteerde aansprakelijkheid hebben.
8-12 weken
Bouw en integreer de specifieke verdedigingslagen die in de audit zijn geïdentificeerd: veiligheidsmiddleware voor chemiepijplijnen, kennishiaat-engineering voor biologiemodellen, integratie van pre-synthesescreening. Elke component geïmplementeerd in uw bestaande MLOps-infrastructuur, geen parallel systeem.
Beperking: Kennishiaat-engineering op een model met 70B parameters vereist aanzienlijke GPU-tijd. Reken op $50K-$150K aan rekenkracht voor een volledige RMU + SAE-ablatiepas, afhankelijk van de modelgrootte. SAE-gerichte ablatie vermindert dit ten opzichte van volledige-model-unlearning, maar elimineert het niet.
3-4 weken
Aanvalssimulatie over het volledige spectrum tegen de geïmplementeerde verdedigingslagen. GeneBreaker-homologie-aanvallen, SMILES-prompting-varianten, MFT-simulatie (op een sandboxed kopie), herstelpogingen via opnieuw aanleren op modellen waarop unlearning is toegepast. Documenteer wat breekt, wat standhoudt en wat monitoring vereist.
Beperking: Het red-team test bekende aanvalsklassen. Nieuwe aanvallen (onbekende-onbekenden) vereisen voortdurende monitoring en driemaandelijkse herbeoordeling. Een geslaagd red-team betekent niet "veilig". Het betekent "robuust tegen de huidige state-of-the-art adversariële technieken".
2-3 weken + doorlopend retainer
Stel het compliance-bewijspakket samen. Koppel controles aan ISO 42001, NIST AI 600-1, de GPAI-verplichtingen van de EU AI Act. Stel de maandelijkse hercertificeringscadans in: herleer-aanvallen, validatie van middlewareprestaties, integratie van nieuwe dreigingen. Draag over aan uw complianceteam met runbooks.
Doorlopend: Een retainer van $8K-$15K/maand dekt maandelijkse hercertificering, driemaandelijkse red-team-vernieuwing en integratie van dreigingsinformatie (nieuwe papers, nieuwe aanvalstechnieken, regelgevingsupdates).
Zes vragen. Drie minuten. Ontdek waar uw generatieve pijplijn staat ten opzichte van het dreigingslandschap en de regelgevingsverwachtingen van 2026.
Gedeeltelijk, en het eerlijke antwoord doet ertoe. RMU (Representation Misdirection for Unlearning) kan de WMDP-Bio-score van een model verlagen van 75% naar bijna willekeurige kans (26%). Maar het herleer-onderzoek van CMU (ICLR 2025) toonde aan dat modellen waarop unlearning is toegepast, kunnen worden teruggeduwd richting de prestaties van vóór het unlearning met behulp van losjes gerelateerde data zoals openbare medische artikelen.
UIPE (ACL 2025) verbetert de duurzaamheid door kennis te verwijderen die gerelateerd is aan de vergeetdoelen, en SAE-feature-ablatie richt zich op specifieke capaciteitscircuits. Wij behandelen unlearning als één verdedigingslaag met een maandelijkse hercertificeringscyclus. Elke 30 dagen voeren wij herleer-aanvallen uit tegen het model waarop unlearning is toegepast. Als het herstel een drempel overschrijdt, passen wij de unlearning-pas opnieuw toe met bijgewerkte parameters.
Dit is geen instellen-en-vergeten-oplossing. Het is een continue onderhoudsverbintenis, doorgaans 2-3 engineeringdagen per maandelijkse cyclus.
Een volledige opdracht die manifold-audit, bouw van veiligheidsmiddleware, kennishiaat-engineering, red-team en compliance-bewijspakket omvat, ligt in de range van $180K-$450K, afhankelijk van het aantal modellen in scope, of ze open-weight of API-gebaseerd zijn, en de regelgevingsjurisdicties waarin u opereert. De doorlopende red-team- en hercertificeringsretainer bedraagt doorgaans $8K-$15K per maand.
Ter context: boetes voor niet-naleving van de EU AI Act voor GPAI-aanbieders bereiken €15M of 3% van de wereldwijde omzet. Eén enkel biosecurity-incident dat het nieuws haalt, zal veelvouden van de opdracht kosten aan reputatieschade, toezichthoudende scrutiny en verhogingen van verzekeringspremies. De opdracht is een verzekering met een op te leveren product.
Ja. De constitutionele classificeerders van Anthropic's ASL-3 beschermen de Claude-API-grens. Ze monitoren inputs en outputs voor een gedefinieerde klasse van CBRN-relevante generaties. Dit is waardevol en vertegenwoordigt de sterkste commerciële houding die beschikbaar is.
Maar ASL-3 beschermt niet uw interne fijn-afgestelde biologiemodellen (Evo 2, ESM-3, of een custom eiwit-diffusiemodel), uw generatieve chemiepijplijnen (REINVENT, Chemistry42), uw retrieval-augmented workflows waarin een biologiemodel uit interne databases put, of de outputs van enig open-weight-model dat op uw eigen infrastructuur draait.
Als een onderzoeker een open-weight-model fijn-afstelt op interne data voor een legitieme geneesmiddelenontdekkingstaak, heeft ASL-3 geen zicht op de outputs van dat model. De GeneBreaker-aanval werkt op Evo 2, niet op Claude. Uw biosecurity-houding moet de volledige pijplijn dekken, niet alleen de frontier-API die u aanroept voor tekstgeneratie.
Dit is het moeilijkste probleem in biosecurity-AI-veiligheid, en wij zijn eerlijk over het restrisico. Een model waarvan de gewichten toegankelijk zijn voor iedereen met bestandssysteemtoegang, kan kwaadaardig worden fijn-afgesteld met 10-50 voorbeelden en een paar honderd dollar aan GPU-tijd (arXiv 2508.03153). Geen enkele mate van alignment overleeft MFT.
Onze aanpak heeft drie lagen. Ten eerste verwijdert kennishiaat-engineering (RMU + SAE-ablatie) gevaarlijke capaciteiten uit de gewichten vóór implementatie, waardoor MFT-herstel moeilijker wordt. Ten tweede onderschept inferentie-tijd-veiligheidsmiddleware outputs ongeacht de interne toestand van het model. Ten derde operationele controles: integriteitsmonitoring van gewichtsbestanden, toegangslogging en anomaliedetectie op generatiepatronen.
Het restrisico dat wij niet kunnen elimineren: als een tegenstander gewichten exfiltreert ÉN toegang heeft tot een samengestelde biowapendataset, kunnen zij capaciteit herbouwen. Geen enkele consultant kan dit voorkomen. Wat wij wél kunnen doen, is het detecteerbaar moeilijker maken en ervoor zorgen dat uw gedocumenteerde controles voldoen aan de due-diligence-vereisten van ISO 42001 en de EU AI Act.
Nee. Het vult deze aan. Uw DNA-syntheseleverancier (Twist, IDT, Genscript) voert het IGSC Harmonized Screening Protocol v3.0 uit en steeds vaker ISO 20688-2:2024-conforme controles. Vanaf eind 2025 hebben leveranciers de specifieke AI-parafrasekwetsbaarheid gepatcht die het Microsoft Paraphrase Project blootlegde.
Maar screening vindt plaats nadat u de bestelling heeft geplaatst. Dat creëert twee problemen: een mislukte screening betekent verspilde tijd en een nalevingsmarkering op uw account, en u heeft geen zicht op wat uw interne generatieve modellen voorstellen voordat de bestelling de deur uitgaat.
Interne pre-synthesescreening vangt problematische sequenties op tijdens de generatie, voordat ze uw elektronisch labjournaal binnenkomen, voordat een onderzoeker besluit ze te bestellen, en voordat de screening van uw leverancier een onderzoek in gang zet. Wij integreren met het cryptografische hashing-protocol van SecureDNA en voegen een functionele-voorspellingslaag toe die de klasse van door AI geparafraseerde varianten opvangt die homologie alleen mist. Zie het als het stroomopwaarts verplaatsen van het controlepunt van de leverancier naar de pijplijn.
De interactieve whitepapers achter deze oplossingspagina. Voor teams die de volledige technische diepgang willen over specifieke verdedigingsmechanismen.
Topologische benaderingen voor het detecteren van CWA-aangrenzende regio's in moleculaire latente ruimtes. Persistente homologie, manifold-scoring en interventie-architecturen op inferentie-tijd.
Machine unlearning (RMU, SAE-ablatie, UIPE) toegepast op open-weight-biologiemodellen. Herleerweerstand, maandelijkse hercertificeringsprotocollen en WMDP-Bio-benchmarking.
Een farmabedrijf dat generatieve biologie- of chemiemodellen draait met EU-activiteiten, heeft gedocumenteerde CBRN-controles nodig vóór de handhavingsdatum. Boetes voor niet-naleving bereiken €15M of 3% van de wereldwijde omzet.
Begin met een pijplijn-manifold-audit van 3-4 weken. Wij brengen elk generatief model in uw stack in kaart, identificeren CWA-aangrenzende regio's en leveren een risicobeoordeling die u kunt voorleggen aan uw compliancecommissie.