Biosecurity AI Safety voor farma en biotech

Drie aanvalsvectoren die uw huidige veiligheidslaag niet kan stoppen

Weigeringstraining, RLHF-alignment en structurele-waarschuwingsfilters zijn ontworpen voor een wereld waarin aanvallen eruitzagen als "ontwerp een zenuwgas voor mij". Het aanvalsoppervlak van 2025 is subtieler, geautomatiseerder en opereert onder het niveau dat deze verdedigingsmechanismen monitoren.

Beloningsinversie (het MegaSyn-patroon)

Een generatief chemiemodel optimaliseert voor een beloningsfunctie. Bij geneesmiddelenontdekking scoort die functie op therapeutische eigenschappen. Keer het teken om, en hetzelfde model optimaliseert voor dodelijkheid. Het MegaSyn-experiment vereiste het wijzigen van één enkele Python-configuratiewaarde. De meeste generatieve farmapijplijnen die zijn gebouwd op REINVENT 4, AutoDesigner of aangepaste, beloningsgevormde modellen, hebben exact dezelfde architecturale kwetsbaarheid: de beloningsfunctie is een configuratieparameter, geen hardgecodeerde beperking.

Waarom huidige verdedigingen het missen: Toxicofoorfilters (de 460+ MCF's van Chemistry42, structurele waarschuwingen van Chemaxon) vangen bekende toxische substructuren in de output. Ze beperken de optimalisatiedoelstelling niet. Een model dat optimaliseert richting het CWA-manifold kan nieuwe structuren genereren die elke controle op bekende toxicoforen doorstaan, omdat ze structureel nieuw zijn.

Homologie-gestuurde beam search (GeneBreaker)

GeneBreaker vraagt een biologiemodel niet om "een pathogeen". Het vraagt om een eiwit dat homoloog is aan een goedaardige referentie die toevallig structureel gelijkend is op een Select Agent-eiwit. Een LLM-agent orkestreert bio-informaticatools, gebruikt PathoLM en log-waarschijnlijkheidsheuristieken om de beam search te sturen, en evalueert kandidaten aan de hand van BLAST. De aanval behaalde een succespercentage tot 60% op Evo 2-40B over 6 virale categorieën, met aangetoonde structurele en sequentiële getrouwheid op het SARS-CoV-2-spike-eiwit en het HIV-1-envelop-eiwit.

Waarom huidige verdedigingen het missen: Op trefwoorden gebaseerde veiligheidsfilters en weigeringstraining zoeken naar expliciete verzoeken. Homologie-aanvallen vermelden nooit het doelpathogeen. Het verzoek lijkt op legitiem vergelijkend genoomonderzoek totdat u de functionele eigenschappen van de gegenereerde sequentie analyseert.

Kwaadaardige fine-tuning en herstel via opnieuw aanleren

Voor elk open-weight-model dat on-premise draait: 10-50 fine-tuning-voorbeelden en een paar honderd dollar aan GPU-tijd ontdoen het van veiligheids-alignment en herstellen de biologische capaciteit van vóór de training tot bijna-frontierniveau (arXiv 2508.03153). Voor modellen die machine unlearning hebben ondergaan (RMU): goedaardig opnieuw aanleren op losjes gerelateerde openbare data (medische artikelen, biologieleerboeken) kan het model terugduwen richting de prestaties van vóór het unlearning (CMU/ICLR 2025). De sterke bewering dat "de kennis weg is" ligt vanaf 2025 dichter bij "de kennis is diep verhuld".

Waarom huidige verdedigingen het missen: RLHF-weigering is een gedragsbeperking, geen capaciteitsbeperking. Het leert het model te weigeren, niet te vergeten. MFT verwijdert de weigering terwijl de capaciteit behouden blijft. Zelfs unlearning (een capaciteitsbeperking) is gedeeltelijk omkeerbaar. Verdediging vereist meerdere onafhankelijke lagen, geen enkele techniek.

Het regelgevingsvacuüm van 2026

Het Amerikaanse uitvoeringskader waarop farma-complianceteams tot en met 2024 hadden gepland, is ingetrokken. Het EU-kader blijft strenger worden. Een farmabedrijf met EU-activiteiten moet voldoen aan de EU-norm, ongeacht de Amerikaanse houding. ISO 42001-certificering dient steeds vaker als de basislijn die verzekeraars en partners verwachten.

Kader	Status (april 2026)	Wat het vereist
EU AI Act (GPAI)	Handhaving aug. 2026	Systeemrisicobeoordeling, adversariële testen, incidentrapportage voor GPAI-modellen die in de biologie worden gebruikt. Boetes: €15M / 3% omzet.
EU AI Act (Hoog risico)	Handhaving aug. 2026	Risicobeheersysteem, datagovernance, menselijk toezicht, nauwkeurigheid/robuustheid. Boetes: €35M / 7% omzet voor verboden praktijken.
ISO/IEC 42001:2023	Actief, vrijwillig	AI-managementsysteem met controles die in verhouding staan tot het risico. Voor CBRN-gerelateerde AI: eliminatiecontroles vereist, niet slechts administratieve. Steeds vaker verwacht door verzekeraars.
NIST AI 600-1	Gepubliceerd juli 2024	Het GenAI-risicoprofiel noemt CBRN expliciet als 1 van de 12 unieke risico's. Verwijst naar de AI RMF-functies (Govern, Map, Measure, Manage).
FDA-conceptrichtlijn	Concept, jan. 2025	Contextspecifieke geloofwaardigheidsbeoordeling voor AI in de ontwikkeling van geneesmiddelen/biologische producten. Definitieve richtlijn verwacht in 2026.
Amerikaans EO-kader	Ingetrokken	EO 14110 (AI-veiligheid) ingetrokken in jan. 2025. EO 14081 (Bio-economie) ingetrokken in maart 2025. EO 14292 (veiligheid van bio-onderzoek) uitgevaardigd in mei 2025, maar de implementatietermijn van 90 dagen verstreek zonder vervangend kader.
BIOSECURE Act	Actief 2026	Beperkt Amerikaanse federale contracten met bepaalde buitenlandse biotechbedrijven. Creëert nieuwe nalevingsverplichtingen voor de toeleveringsketen voor iedereen in het federale financieringsecosysteem.

Wie doet wat vandaag

Een referentie voor interne gesprekken. Elke rij is eerlijk over hiaten, inclusief de hiaten die wij evenmin kunnen dichten.

Categorie	Voorbeelden	Wat ze doen	Wat ze missen
Frontier-labs	Anthropic (ASL-3), OpenAI	CBRN-evaluaties op modelniveau, constitutionele classificeerders, weigeringstraining aan de API-grens	Kunnen uw interne fijn-afgestelde modellen, generatieve chemiepijplijnen of RAG-workflows niet beschermen. ASL-3 beschermt Claude, niet uw REINVENT-instantie.
GenChem-platforms	Chemistry42, REINVENT 4, Schrödinger	Structurele-waarschuwingsfiltering (toxicoforen, PAINS, reactieve groepen), ADMET-scoring, fysica-gebaseerde docking	Filteren outputs, geen doelstellingen. Kunnen latente-ruimte-nabijheid tot het CWA-manifold niet detecteren. De beloningsfunctie van REINVENT is een configuratiebestand met de MegaSyn-kwetsbaarheid.
DNA-screening	IGSC, SecureDNA, IBBIS	Op homologie gebaseerde screening tegen Select Agent-lijsten. SecureDNA voegt cryptografische hashing toe. Patches na het Paraphrase Project uitgerold eind 2025.	Screening vindt plaats nadat u de bestelling heeft geplaatst. Geen zicht op wat uw generatieve modellen intern voorstellen. Functionele voorspelling nog steeds beperkt voor nieuwe scaffolds.
Academisch / CAIS	CAIS (WMDP), CMU, Stanford	Publiceren benchmarks (WMDP), ontwikkelen unlearning-technieken (RMU, UIPE), voeren evaluaties uit	Implementeren, integreren, onderhouden of certificeren niet. Onderzoeksresultaten hebben engineering nodig om operationele controles te worden.
Big 4 / Grote SI's	Deloitte, Accenture, EY, KPMG	AI-governancekaders, beleidsschrijven, risicobeoordelingen, ISO 42001-gapanalyse op papier	Implementeren governance, geen technische controles. Zullen geen latente-ruimte-criticus bouwen, geen herleer-aanvallen uitvoeren of SAE-feature-ablatie in uw MLOps integreren. Opdrachten kosten $500K-$5M+ en leveren documenten op, geen geïmplementeerde systemen.
Interne ML-teams	De AI/ML-groep van uw farmabedrijf	Domeinexpertise, modeltraining, pijplijn-engineering, diepe kennis van uw specifieke data en workflows	Hebben zelden gespecialiseerde achtergrond in adversariële robuustheid, LLM-unlearning, topologische data-analyse voor manifold-detectie of CBRN-specifieke dreigingsmodellering. Niet hun taak.

Eerlijke hiaten die wij evenmin kunnen dichten: Als uw R&D-leiderschap niet wil dat biosecurity-reviews de iteratie vertragen, zal geen enkele technische laag beklijven. Als een tegenstander gewichten exfiltreert ÉN over een samengestelde biowapendataset beschikt, kan capaciteit worden herbouwd ongeacht unlearning. Onbekende-onbekende dreigingen (capaciteiten die nog niet zijn opgesomd in WMDP) blijven buiten het bereik van elke benchmark. Stroomopwaartse datavergiftiging vereist medewerking die wij niet kunnen afdwingen.

Wat wij bouwen

Vijf capaciteiten, elk gericht op een specifiek hiaat in het huidige verdedigingslandschap. Wij zitten bovenop welke stack u ook al draait. Geen product. Een maatwerkbouw per opdracht.

Veiligheidsmiddleware voor generatieve chemie

Onderschept SMILES-, SELFIES- en graafoutputs van uw generatieve pijplijn voordat ze de onderzoeker bereiken. Geen filter op bekende slechte structuren. Een latente-ruimte-nabijheidsscoorder die de afstand tot het manifold van chemische wapenagentia meet met behulp van topologische data-analyse.

Technische keuzes: Wij grijpen naar persistente homologie (Vietoris-Rips-filtratie) om de CWA-regio van de latente ruimte te karakteriseren, omdat deze robuust is tegen de coördinatentransformaties die eenvoudigere afstandsmaten verslaan. Gecombineerd met activiteits-cliff-detectie voor grensgevallen. Elke onderschepping produceert een ISO 42001-auditlogvermelding.

Kennishiaat-engineering voor biologie-LLM's

RMU + SAE-feature-ablatie + UIPE toegepast op uw specifieke biologiemodel. Wij richten ons op de capaciteitscircuits die pathogeen-gerelateerde generatie mogelijk maken, terwijl we de therapeutische-ontdekkingscapaciteiten behouden die uw onderzoekers dagelijks nodig hebben.

Technische keuzes: SAE (Sparse Autoencoder)-feature-identificatie lokaliseert de specifieke neuronen en attention heads die verantwoordelijk zijn voor CBRN-relevante generatie. Ablatie is chirurgisch: wij verifiëren dat therapeutische prestatie-benchmarks binnen 2% van de baselines van vóór de interventie blijven. Maandelijkse hercertificering vangt herleer-drift op. Dit is geen kwestie van instellen en vergeten.

Biosecurity-red-team on demand

Driemaandelijkse adversariële testen die het volledige aanvalsoppervlak van 2025-2026 bestrijken: GeneBreaker-achtige homologie-aanvallen tegen uw biologiemodellen, SMILES-prompting-jailbreaks tegen uw chemiepijplijnen, simulatie van kwaadaardige fine-tuning op uw open-weight-modellen, en herstel-via-opnieuw-aanleren-tests op systemen waarop unlearning is toegepast.

Op te leveren product: Geschreven rapport gekoppeld aan de NIST AI 600-1-controles (Govern, Map, Measure, Manage). Elke bevinding gescoord op exploiteerbaarheid, impact en moeilijkheidsgraad van herstel. Geen penetratietest-rapportformaat. Een controle-gapanalyse die uw ISO-auditor direct kan lezen.

Interne pre-synthesescreening

Verplaatst het DNA-screeningscontrolepunt van uw leverancier (na de bestelling) naar uw pijplijn (vóór de bestelling). Integreert met het cryptografische protocol van SecureDNA en voegt functionele-voorspellingsscoring toe die door AI geparafraseerde varianten opvangt die homologie alleen mist.

Waarom dit belangrijk is: Het Paraphrase Project (Microsoft/Twist/IDT, Science 2025) genereerde duizenden door AI geparafraseerde ricinevarianten die langs elke commerciële screening glipten. Patches zijn uitgerold, maar uw nalevingshouding verbetert meetbaar wanneer u screent voordat de sequentie uw ELN binnenkomt, niet erna wanneer uw leverancier een bestelling markeert.

Compliance-bewijspakket

Koppelt alle technische controles aan ISO 42001, NIST AI RMF, de GPAI-verplichtingen van de EU AI Act, het NIH DURC-beleid en ISO 20688-2:2024. Het op te leveren product is een controlematrix die uw complianceteam rechtstreeks kan overhandigen aan een ISO-auditor, een EU notified body of een cyberaansprakelijkheidsverzekeraar. Geen beleids-en-proceduredocument. Bewijs dat technische controles zijn geïmplementeerd, getest en continu gevalideerd.

Relevantie voor verzekeringen: Cyberaansprakelijkheidsverzekeraars (Munich Re Specialty, vanaf november 2025) verhogen premies of sluiten "door AI gegenereerde schade" uit voor bedrijven die open-weight-modellen draaien zonder gedocumenteerde risicocontroles. Dit pakket is wat uw risicoteam nodig heeft om de acceptatievragenlijst te beantwoorden.

Hoe een opdracht werkt

Vier fases. Realistische tijdlijnen. Expliciet over wat elke fase niet kan bereiken.

Pijplijn-manifold-audit

3-4 weken

Breng elk generatief model in uw pijplijn in kaart: chemie (REINVENT, Chemistry42, custom), biologie (Evo 2, ESM-3, fijn-afgestelde Llama), eiwitontwerp (RFdiffusion, ProteinMPNN). Voor elk model: karakteriseer de latente ruimte, identificeer CWA-aangrenzende regio's, beoordeel de manipuleerbaarheid van de beloningsfunctie, test weigeringsgrenzen, evalueer de toegangscontroles op gewichten.

Beperking: De audit identificeert kwetsbaarheden. Het lost ze niet op. Een farmabedrijf dat het auditrapport wil voor verzekeringsdoeleinden maar zich niet committeert aan herstel, zal een gedocumenteerde aansprakelijkheid hebben.

Bouw van de verdedigingslaag

8-12 weken

Bouw en integreer de specifieke verdedigingslagen die in de audit zijn geïdentificeerd: veiligheidsmiddleware voor chemiepijplijnen, kennishiaat-engineering voor biologiemodellen, integratie van pre-synthesescreening. Elke component geïmplementeerd in uw bestaande MLOps-infrastructuur, geen parallel systeem.

Beperking: Kennishiaat-engineering op een model met 70B parameters vereist aanzienlijke GPU-tijd. Reken op $50K-$150K aan rekenkracht voor een volledige RMU + SAE-ablatiepas, afhankelijk van de modelgrootte. SAE-gerichte ablatie vermindert dit ten opzichte van volledige-model-unlearning, maar elimineert het niet.

Adversarieel red-team

3-4 weken

Aanvalssimulatie over het volledige spectrum tegen de geïmplementeerde verdedigingslagen. GeneBreaker-homologie-aanvallen, SMILES-prompting-varianten, MFT-simulatie (op een sandboxed kopie), herstelpogingen via opnieuw aanleren op modellen waarop unlearning is toegepast. Documenteer wat breekt, wat standhoudt en wat monitoring vereist.

Beperking: Het red-team test bekende aanvalsklassen. Nieuwe aanvallen (onbekende-onbekenden) vereisen voortdurende monitoring en driemaandelijkse herbeoordeling. Een geslaagd red-team betekent niet "veilig". Het betekent "robuust tegen de huidige state-of-the-art adversariële technieken".

Certificering en continue monitoring

2-3 weken + doorlopend retainer

Stel het compliance-bewijspakket samen. Koppel controles aan ISO 42001, NIST AI 600-1, de GPAI-verplichtingen van de EU AI Act. Stel de maandelijkse hercertificeringscadans in: herleer-aanvallen, validatie van middlewareprestaties, integratie van nieuwe dreigingen. Draag over aan uw complianceteam met runbooks.

Doorlopend: Een retainer van $8K-$15K/maand dekt maandelijkse hercertificering, driemaandelijkse red-team-vernieuwing en integratie van dreigingsinformatie (nieuwe papers, nieuwe aanvalstechnieken, regelgevingsupdates).

Vragen die farma-complianceteams ons stellen

Kan machine unlearning daadwerkelijk gevaarlijke kennis uit een biologie-LLM verwijderen?

Gedeeltelijk, en het eerlijke antwoord doet ertoe. RMU (Representation Misdirection for Unlearning) kan de WMDP-Bio-score van een model verlagen van 75% naar bijna willekeurige kans (26%). Maar het herleer-onderzoek van CMU (ICLR 2025) toonde aan dat modellen waarop unlearning is toegepast, kunnen worden teruggeduwd richting de prestaties van vóór het unlearning met behulp van losjes gerelateerde data zoals openbare medische artikelen.

UIPE (ACL 2025) verbetert de duurzaamheid door kennis te verwijderen die gerelateerd is aan de vergeetdoelen, en SAE-feature-ablatie richt zich op specifieke capaciteitscircuits. Wij behandelen unlearning als één verdedigingslaag met een maandelijkse hercertificeringscyclus. Elke 30 dagen voeren wij herleer-aanvallen uit tegen het model waarop unlearning is toegepast. Als het herstel een drempel overschrijdt, passen wij de unlearning-pas opnieuw toe met bijgewerkte parameters.

Dit is geen instellen-en-vergeten-oplossing. Het is een continue onderhoudsverbintenis, doorgaans 2-3 engineeringdagen per maandelijkse cyclus.

Wat kost biosecurity-AI-veiligheid voor een middelgroot farmabedrijf?

Een volledige opdracht die manifold-audit, bouw van veiligheidsmiddleware, kennishiaat-engineering, red-team en compliance-bewijspakket omvat, ligt in de range van $180K-$450K, afhankelijk van het aantal modellen in scope, of ze open-weight of API-gebaseerd zijn, en de regelgevingsjurisdicties waarin u opereert. De doorlopende red-team- en hercertificeringsretainer bedraagt doorgaans $8K-$15K per maand.

Ter context: boetes voor niet-naleving van de EU AI Act voor GPAI-aanbieders bereiken €15M of 3% van de wereldwijde omzet. Eén enkel biosecurity-incident dat het nieuws haalt, zal veelvouden van de opdracht kosten aan reputatieschade, toezichthoudende scrutiny en verhogingen van verzekeringspremies. De opdracht is een verzekering met een op te leveren product.

Wij gebruiken Claude al met ASL-3-bescherming. Hebben we nog steeds biosecurity-controles op onze eigen modellen nodig?

Ja. De constitutionele classificeerders van Anthropic's ASL-3 beschermen de Claude-API-grens. Ze monitoren inputs en outputs voor een gedefinieerde klasse van CBRN-relevante generaties. Dit is waardevol en vertegenwoordigt de sterkste commerciële houding die beschikbaar is.

Maar ASL-3 beschermt niet uw interne fijn-afgestelde biologiemodellen (Evo 2, ESM-3, of een custom eiwit-diffusiemodel), uw generatieve chemiepijplijnen (REINVENT, Chemistry42), uw retrieval-augmented workflows waarin een biologiemodel uit interne databases put, of de outputs van enig open-weight-model dat op uw eigen infrastructuur draait.

Als een onderzoeker een open-weight-model fijn-afstelt op interne data voor een legitieme geneesmiddelenontdekkingstaak, heeft ASL-3 geen zicht op de outputs van dat model. De GeneBreaker-aanval werkt op Evo 2, niet op Claude. Uw biosecurity-houding moet de volledige pijplijn dekken, niet alleen de frontier-API die u aanroept voor tekstgeneratie.

Hoe gaat u om met het open-weights-probleem wanneer wij modellen on-premise draaien om IP-redenen?

Dit is het moeilijkste probleem in biosecurity-AI-veiligheid, en wij zijn eerlijk over het restrisico. Een model waarvan de gewichten toegankelijk zijn voor iedereen met bestandssysteemtoegang, kan kwaadaardig worden fijn-afgesteld met 10-50 voorbeelden en een paar honderd dollar aan GPU-tijd (arXiv 2508.03153). Geen enkele mate van alignment overleeft MFT.

Onze aanpak heeft drie lagen. Ten eerste verwijdert kennishiaat-engineering (RMU + SAE-ablatie) gevaarlijke capaciteiten uit de gewichten vóór implementatie, waardoor MFT-herstel moeilijker wordt. Ten tweede onderschept inferentie-tijd-veiligheidsmiddleware outputs ongeacht de interne toestand van het model. Ten derde operationele controles: integriteitsmonitoring van gewichtsbestanden, toegangslogging en anomaliedetectie op generatiepatronen.

Het restrisico dat wij niet kunnen elimineren: als een tegenstander gewichten exfiltreert ÉN toegang heeft tot een samengestelde biowapendataset, kunnen zij capaciteit herbouwen. Geen enkele consultant kan dit voorkomen. Wat wij wél kunnen doen, is het detecteerbaar moeilijker maken en ervoor zorgen dat uw gedocumenteerde controles voldoen aan de due-diligence-vereisten van ISO 42001 en de EU AI Act.

Vervangt interne pre-synthesescreening de screening van onze DNA-leverancier?

Nee. Het vult deze aan. Uw DNA-syntheseleverancier (Twist, IDT, Genscript) voert het IGSC Harmonized Screening Protocol v3.0 uit en steeds vaker ISO 20688-2:2024-conforme controles. Vanaf eind 2025 hebben leveranciers de specifieke AI-parafrasekwetsbaarheid gepatcht die het Microsoft Paraphrase Project blootlegde.

Maar screening vindt plaats nadat u de bestelling heeft geplaatst. Dat creëert twee problemen: een mislukte screening betekent verspilde tijd en een nalevingsmarkering op uw account, en u heeft geen zicht op wat uw interne generatieve modellen voorstellen voordat de bestelling de deur uitgaat.

Interne pre-synthesescreening vangt problematische sequenties op tijdens de generatie, voordat ze uw elektronisch labjournaal binnenkomen, voordat een onderzoeker besluit ze te bestellen, en voordat de screening van uw leverancier een onderzoek in gang zet. Wij integreren met het cryptografische hashing-protocol van SecureDNA en voegen een functionele-voorspellingslaag toe die de klasse van door AI geparafraseerde varianten opvangt die homologie alleen mist. Zie het als het stroomopwaarts verplaatsen van het controlepunt van de leverancier naar de pijplijn.

Uw generatieve chemiepijplijn is slechts één configuratiewijziging verwijderd van het ontwerpen van wapens