AI-beveiligingsengineering
Uw modellen zijn uitvoerbare code. De meeste organisaties behandelen ze als databestanden. Die kloof is waar inbreuken plaatsvinden.
$4,63M
Gemiddelde inbreukkosten bij schaduw-AI
IBM Cost of a Data Breach 2025
83%
Van de organisaties mist geautomatiseerde AI-beveiligingscontroles
Kiteworks 2025
352K
Onveilige problemen aangetroffen in 51.700 modellen op openbare registers
Protect AI 2025
AI-modellen zijn geen statische artefacten. Het is code die draait tijdens het laden, trainen, de inferentie en de uitvoering door agenten. Vier aanvalscategorieën domineren het dreigingsmodel.
torch.load() voert tijdens deserialisatie willekeurige Python uit. Dit is geen bug. Het is het ontworpen gedrag van pickle-serialisatie, en meer dan 80% van de ML-modellen gebruikt het.
Van een model genaamd "baller423" op Hugging Face werd vastgesteld dat het een reverse shell naar Kreonet opzette. Het model zag er normaal uit. Het doorstond basisscans. Het voerde willekeurige code uit op het moment dat iemand het laadde.
PickleScan, de meest gebruikte verdediging, heeft minstens 3 bekende zero-day-omzeilingen (CVE-2025-10155). Op blacklists gebaseerd scannen is fundamenteel gebroken omdat de aanvaller het serialisatieformaat beheert.
Llama 3.1 8B daalt van 0,95 naar 0,15 op weerbaarheid tegen prompt injection na één enkele ronde fijnafstemming. Dat is een degradatie van 84% in veiligheidsuitlijning door normale, niet-vijandige training.
Bijna niemand herevalueert de veiligheid na fijnafstemming. Het model doorstaat de initiële veiligheidsevaluatie, wordt fijnafgestemd op domeindata en gaat naar productie met zijn guardrails feitelijk verwijderd. Dit is geen exotische aanval. Het is de standaardworkflow bij de meeste organisaties.
98% van de organisaties heeft ongeautoriseerd AI-gebruik. Dat getal is geen typefout. De $670K extra inbreukkosten voor schaduw-AI-incidenten weerspiegelen een eenvoudige realiteit: je kunt niet beveiligen wat je niet kunt zien.
62% van de beveiligingsteams kan niet vaststellen waar LLM's in hun omgeving zijn ingezet. Ontwikkelaars downloaden modellen van Hugging Face, roepen OpenAI-API's aan met persoonlijke sleutels en zetten fijnafgestemde modellen in op persoonlijke cloudaccounts. Huidige beveiligingstools brengen ongeveer 38% van deze activiteit in beeld.
De RCE-kwetsbaarheid van GitHub Copilot (CVE-2025-53773, CVSS 7.8) veranderde een prompt injection in de documentatie van een repository in een volledige systeemcompromittering via de YOLO-modus. De agent las een kwaadaardige instructie, voerde deze als code uit, en de machine van de gebruiker was overgenomen.
Amazon Q's cleaner.md bestand verspreidde destructieve commando's naar meer dan 950K gebruikers via het contextvenster van de agent. De marktplaats van OpenClaw verzamelde 138 CVE's in 63 dagen, waarbij 12% van de ingediende skills kwaadaardig bleek.
Agenten veranderen prompt injections in compromitteringen op systeemniveau omdat ze beschikken over toolingtoegang, inloggegevens en uitvoeringsrechten die traditionele LLM's ontberen.
Het leveranciersecosysteem rijpt snel. Hier is een eerlijke kijk op wat elke speler dekt en waar de gaten resteren.
| Aanbieder | Wat ze doen | Wat ze niet doen | Het best voor |
|---|---|---|---|
| Palo Alto / Protect AI | Modelscanning, AI-BOM-generatie, geïntegreerd in het Prisma AIRS-platform | Architectuurontwerp, engineering van maatwerkpijplijnen, organisatorisch verandermanagement | Ondernemingen die al op het PANW-platform draaien |
| HiddenLayer | Runtime AI-detectie en -respons, beveiligingsmonitoring voor agenten | Toeleveringsketenarchitectuur, ML-BOM-implementatie, compliancemapping | SOC-teams die AI-zichtbaarheid toevoegen |
| JFrog | MLSecOps, beveiliging van modelregister, Hugging Face-integratie | Vijandige red-teaming, validatie van veiligheidsuitlijning, governance-ontwerp | DevOps-teams die modelartefacten beheren |
| Wiz | AI-BOM in de context van cloudbeveiliging, modelscanning | On-prem modelbeveiliging, veiligheid van fijnafstemming, agentic architectuur | Cloud-first organisaties |
| NVIDIA NeMo Guardrails | Open-source runtime-guardrails voor LLM's | Modelscanning, toeleveringsketenbeveiliging, herkomsttracering | Teams die maatwerk-LLM-applicaties bouwen |
| Big 4 / grote SI's | Governance-frameworks, compliancedocumentatie, board decks | Implementatie. Het bouwen van scanpijplijnen, het configureren van ML-BOM's, het uitrollen van modelondertekening. Opdrachten beginnen bij $500K strategie, schalen op naar $3-10M. | Organisaties die auditklare documentatie nodig hebben |
| Open source (ModelScan, PickleScan, SafeTensors) | Gratis basisscanning en veiligere serialisatieformaten | Orkestratie op ondernemingsniveau, behavioral sandboxing, herkomst, beleidshandhaving | Teams met sterke interne beveiligingsengineering |
Een gat dat niemand goed vult. Verandering van de organisatiecultuur is het moeilijkste deel. Geen enkele tool of consultancy elimineert de menselijke neiging om governance te omzeilen voor snelheid. Wij bouwen de technische controles, maar de CISO heeft nog steeds executieve steun nodig. Wanneer een datawetenschapper in 30 seconden een model van Hugging Face kan downloaden, zal elke beveiligingspoort die 30 minuten kost, worden omzeild. De controles moeten snel genoeg zijn dat naleving eenvoudiger is dan omzeiling.
Zes capaciteiten, elk ontworpen om te integreren met uw bestaande beveiligingsstack en CI/CD-pijplijnen.
Wij bouwen geautomatiseerde keuring die tussen openbare modelrepository's en uw interne register zit. Elk model doorloopt behavioral sandboxing (geladen in geïsoleerde containers, syscalls gemonitord), multi-format diepteanalyse (pickle, PyTorch, GGUF, Keras, SafeTensors) en cryptografische ondertekening met uw enterprise-PKI.
Wij grijpen naar gedragsanalyse boven statisch scannen omdat de zero-day-omzeilingen van PickleScan bewijzen dat blacklist-benaderingen fundamenteel gebroken zijn. Statisch scannen vraagt "bevat dit bestand bekende kwaadaardige patronen?" Behavioral sandboxing vraagt "wat doet deze code daadwerkelijk wanneer ze draait?" De tweede vraag vangt nieuwe aanvallen op.
CycloneDX ML-BOM-generatie geïntegreerd in CI/CD. Elk model krijgt een stuklijst die de herkomst van trainingsdata, frameworkversies, afhankelijkheidsbomen en de geschiedenis van fijnafstemming documenteert.
Wij gebruiken CycloneDX boven SPDX omdat de ML-BOM-tooling volwassener is, hoewel we SPDX 3.0-export waarborgen voor organisaties die beide nodig hebben. De ML-BOM is geen compliance-vinkje. Het is de datastructuur die elke andere beveiligingscontrole mogelijk maakt: je kunt niet ondertekenen wat je niet kunt inventariseren, en je kunt niet auditen wat je niet kunt traceren.
Detectie op netwerkniveau van ongeautoriseerde modeldownloads en AI-API-aanroepen. Integratie met uw bestaande SIEM/SOAR. Wij brengen elk AI-raakpunt in kaart, inclusief schaduwimplementaties, en bouwen vervolgens beleidshandhaving die risico blokkeert zonder innovatie te blokkeren.
Het doel: uw beveiligingsteam ziet 100% van het AI-gebruik, niet de 38% die huidige tools in beeld brengen. De detectie dekt Hugging Face-downloads, OpenAI-/Anthropic-/Google-API-aanroepen, overdrachten van modelgewichten via HTTP/S en lokale modeluitvoering via procesmonitoring op beheerde endpoints.
Geautomatiseerde herevaluatie van veiligheid na elke fijnafstemmingsrun. OWASP LLM Top 10-benchmarksuite, vijandige probing op backdoortriggers en regressietesten van veiligheidsuitlijning.
Wij bouwen dit omdat bijna niemand de veiligheid herevalueert na fijnafstemming. De data over veiligheidsdegradatie in de bovenstaande sectie maakt het punt. De validatiepijplijn draait als een CI/CD-poort. Een model dat zakt voor de veiligheidsregressie kan niet naar productie worden bevorderd, ongeacht zijn taakprestaties.
Rechtenscheiding voor AI-agenten. Deterministische beleidslagen die escalatie van prompt-naar-RCE voorkomen (precies de aanvalsvector in CVE-2025-53773). Handhaving van tool-gebruiksbeleid, human-in-the-loop-poorten voor risicovolle operaties en runtime-gedragsmonitoring.
De architectuur detecteert afwijkende agentacties voordat ze cascaderen. Een agent die plotseling begint te schrijven naar bestandssysteempaden buiten zijn sandbox, API's aanroept die hij nog nooit heeft aangeroepen, of rechtenescalatie probeert, wordt beëindigd en gemarkeerd voor beoordeling.
Voor CISO's die de functie vanaf nul opbouwen. Mapping van NIST AI 100-2-controles, EU AI Act-compliancearchitectuur, risicokwantificering op bestuursniveau en incidentresponsdraaiboeken voor AI-specifieke aanvallen.
Wij helpen technisch risico te vertalen naar budgetonderbouwing die besturen goedkeuren. "We vonden 352K onveilige problemen in openbare modelregisters" is een datapunt. "Onze engineers downloadden vorig kwartaal 47 ongekeurde modellen, 3 bevatten uitvoerbare code in hun serialisatielaag, en onze huidige controles detecteerden er geen enkele van" is een budgetonderbouwing.
Drie fasen, elk met gedefinieerde deliverables en eerlijke kanttekeningen over wat te verwachten.
Week 1-3
Deliverable: Rapport AI-beveiligingshouding met geprioriteerd risicoregister
Kanttekening: Deze fase brengt vaak 3-5x meer AI-gebruik aan het licht dan de CISO verwachtte. Dat is normaal. De ontdekking van schaduw-AI is het waardevolste en het ongemakkelijkste deel van de opdracht.
Week 4-10
Deliverable: Productieklare beveiligingscontroles geïntegreerd in bestaande workflows
Kanttekening: De tijdlijn hangt af van de CI/CD-volwassenheid. Teams met volwassen DevOps-pijplijnen rollen sneller uit. Organisaties die modellen nog via USB-sticks of gedeelde mappen verplaatsen (vaker dan u zou verwachten) hebben aanvullend infrastructuurwerk nodig.
Week 11-14
Deliverable: Zelfvoorzienende AI-beveiligingsoperaties met gedocumenteerde runbooks
Kanttekening: Het eerste vijandige red-team vindt altijd iets. Dat is het punt. Een red-team dat niets vindt, deed of niet hard genoeg zijn best of had een te smalle scope.
Beantwoord acht vragen om uw AI-beveiligingshouding te benchmarken. Er wordt geen data verzameld. Alles draait in uw browser.
4-6 weken voor een basispijplijn die statisch scannen en handtekeningverificatie dekt. 8-12 weken voor volledige behavioral sandboxing met CI/CD-integratie. Het knelpunt is zelden de scantechnologie zelf. Het is de integratie met uw bestaande modelregister (MLflow, Weights & Biases, JFrog ML) en het definiëren van de beleidslogica: wat wordt geblokkeerd vs. gemarkeerd vs. in quarantaine geplaatst. Wij hebben vastgesteld dat de beleidsbeslissingen langer duren dan de engineering.
Formaatcomplexiteit voegt tijd toe. Pickle, PyTorch, GGUF, Keras en SafeTensors vereisen elk verschillende analysebenaderingen. Pickle blijft het risicovolste formaat omdat torch.load() tijdens deserialisatie willekeurige Python uitvoert, en daarom doet behavioral sandboxing er voor dat formaat meer toe dan statisch scannen. SafeTensors is de veiligste serialisatieoptie en de eenvoudigste om te scannen, maar minder dan 20% van de productiemodellen gebruikt het vandaag. Uw pijplijn moet ze allemaal aankunnen omdat u niet kunt bepalen welk formaat upstream-modelaanbieders kiezen.
Die platforms zijn uitstekend in wat ze doen. De Protect AI-integratie van Palo Alto (via Prisma AIRS) geeft u modelscanning binnen uw bestaande beveiligingsstack. JFrog's MLSecOps verzorgt de governance van het modelregister. Wiz voegt AI-BOM toe aan cloudzichtbaarheid. Wat ze niet doen: de end-to-end-architectuur ontwerpen, ML-BOM-generatie in uw specifieke CI/CD-pijplijn configureren, de beleidslogica voor uw regelgevingscontext bouwen, of uw modelimplementatieworkflow opnieuw ontwerpen. Het zijn scantools. Wij zijn het implementatieteam dat ze laat samenwerken.
Veel opdrachten beginnen met organisaties die deze platforms al hebben maar hulp nodig hebben bij het operationaliseren ervan. Een veelvoorkomend patroon: het beveiligingsteam kocht zes maanden geleden Protect AI, voerde een scan uit, kreeg 400 bevindingen en liep daarna vast omdat niemand die bevindingen koppelde aan remediatieworkflows of scanning integreerde in de modelpromotiepijplijn.
De technische drempel voor modelvergiftiging is lager dan de meeste CISO's aannemen. Onderzoek toont aan dat zo weinig als 250 vergiftigde documenten in een trainingscorpus een model met 13B parameters van een backdoor kunnen voorzien. Microsoft publiceerde in februari 2026 baanbrekende detectiemethoden, maar de meeste organisaties hebben nul detectiecapaciteit uitgerold. Het probleem van veiligheidsdegradatie bij fijnafstemming is directer en vaker voorkomend: Llama 3.1 8B daalt van 0,95 naar 0,15 op weerbaarheid tegen prompt injection na één enkele ronde fijnafstemming. Dat is geen aanval. Dat is normale fijnafstemming zonder herevaluatie van veiligheid.
Gedocumenteerde productie-incidenten van opzettelijke modelvergiftiging blijven zeldzaam. Maar de omstandigheden zijn rijp: meer dan 80% van de ML-modellen gebruikt pickle-serialisatie, 62% van de beveiligingsteams kan niet vaststellen waar modellen zijn ingezet, en van een model genaamd "baller423" op Hugging Face werd vastgesteld dat het een reverse shell naar Kreonet opzette. Het modeldisgorgement-precedent van de FTC (Weight Watchers/Kurbo, 2022) betekent dat een vergiftigd model u zou kunnen dwingen vanaf nul te verwijderen en opnieuw te trainen, tegen kosten die de inbreuk zelf in het niet doen vallen.
De EU AI Act is volledig van toepassing op 2 augustus 2026. Voor risicovolle AI-systemen heeft u technische documentatie nodig die de herkomst, scope, kenmerken en reinigingsmethodologieën van trainingsdata dekt. Toeleveringsketenverplichtingen vereisen dat importeurs en distributeurs de conformiteitsbeoordeling, technische documentatie en CE-markering verifiëren. Praktisch betekent dit ML-BOM's voor elk model in uw pijplijn, ondertekende attestaties voor herkomst en audittrails voor fijnafstemmingsbeslissingen.
CycloneDX ML-BOM is de meest implementatieklare standaard. SPDX 3.0 voegde in 2024 AI/ML-profielen toe, en sommige organisaties hebben beide formaten nodig voor verschillende regelgevende doelgroepen. Wij bouwen de documentatiepijplijn zodat herkomsttracering geautomatiseerd is, niet een handmatige compliance-oefening. De veelgemaakte fout is dit te behandelen als een eenmalig documentatieproject. Elke fijnafstemmingsrun, elke modelupdate en elke datasetwijziging moet bijgewerkte herkomstrecords genereren. Als uw ML-BOM statisch is, is hij binnen weken onjuist.
Rechtenscheiding is het fundament. Elke agent krijgt een least-privilege-profiel dat definieert welke tools hij kan aanroepen, welke API's hij kan benaderen en welke bestandssysteempaden hij kan aanraken. Dit weerspiegelt het capability-model van Linux toegepast op AI-agenten. De GitHub Copilot-RCE (CVE-2025-53773, CVSS 7.8) gebeurde omdat de YOLO-modus de agent onbeperkte systeemtoegang gaf, en een prompt injection in de documentatie van een repository escaleerde tot volledige uitvoering van code op afstand. Deterministische beleidslagen voorkomen dat escalatiepad volledig.
Runtime-monitoring voegt een gedragsbasislijn toe die afwijkende agentacties detecteert (onverwachte tool-aanroepen, ongebruikelijke API-patronen, pogingen tot rechtenescalatie) zonder latentie toe te voegen aan normale operaties. Er IS een kleine latentiekost voor beveiligingscontroles op risicovolle operaties: schrijfacties naar het bestandssysteem, cloud-API-aanroepen, toegang tot inloggegevens. Voor de meeste enterprise-implementaties is dit 50-200ms per gepoorte operatie. Operaties met laag risico (het lezen van goedgekeurde gegevensbronnen, het genereren van tekst, het aanroepen van vooraf goedgekeurde API's) gaan door met nul toegevoegde latentie. De vraag is of 50-200ms op risicovolle aanroepen acceptabel is in vergelijking met een agent met volledige systeemtoegang en geen guardrails.
AI-beveiligingsincidenten vereisen andere forensiek dan netwerkintrusies. Voor aanvallen op modelniveau (vergiftiging, backdoors) is de responsvolgorde: isoleer het model van productie, verifieer de integriteit van de trainingspijplijn, controleer op data-exfiltratie via modeluitvoer (modellen kunnen gestolen data coderen in hun gewichten en deze lekken via zorgvuldig vervaardigde prompts), en bepaal of u opnieuw moet trainen vanaf een bekend-schoon checkpoint.
Voor agentic AI-incidenten moet u ook elke tool-aanroep en actie die de agent uitvoerde traceren, de integriteit van zijn geheugen en contextvenster verifiëren (prompt injection kan over sessies blijven bestaan als de context wordt opgeslagen), en controleren op laterale beweging via de rechten van de agent. Generieke IR-processen dekken forensiek op modelniveau niet omdat de artefacten anders zijn. U analyseert geen netwerklogs en geheugendumps. U analyseert modelgewichten, herkomst van trainingsdata, fijnafstemmingsgeschiedenissen en agentactielogs. Wij bouwen draaiboeken die specifiek zijn voor deze scenario's, inclusief procedures voor bewijsbehoud van modelgewichten (die honderden gigabytes kunnen zijn), chain-of-custody-documentatie voor trainingsdata en communicatiesjablonen voor toezichthouders die modeldisgorgement kunnen eisen.
De technische fundamenten achter deze oplossing, gepubliceerd als gedetailleerde whitepapers.
WP-91
ML-BOM's, modelscanning, cryptografische ondertekening, schaduw-AI-detectie en confidential computing voor enterprise-ML-pijplijnen.
WP-18
Meerlaagse AI-validatie, het testen van weerbaarheid tegen vijandige aanvallen en NIST AI RMF-complianceframeworks.
WP-89
Inbreukanalyse van 2025, neuro-symbolische guardrails en constitutionele AI-veiligheidsarchitectuur voor productiesystemen.
WP-93
Detectie van datavergiftiging, herkomsttracering en soevereine AI-infrastructuur voor hoogwaardige omgevingen.
62% van de beveiligingsteams kan niet vaststellen waar AI-modellen in hun eigen omgeving zijn ingezet.
De meeste organisaties ontdekken hun AI-beveiligingsgaten pas na een incident. Wij helpen u ze te vinden voordat er een plaatsvindt.