AI-toeleveringsketenbeveiliging & modelintegriteit

Het aanvalsoppervlak dat de meeste beveiligingsprogramma's missen

AI-modellen zijn geen statische artefacten. Het is code die draait tijdens het laden, trainen, de inferentie en de uitvoering door agenten. Vier aanvalscategorieën domineren het dreigingsmodel.

Het probleem van het pickle-formaat

torch.load() voert tijdens deserialisatie willekeurige Python uit. Dit is geen bug. Het is het ontworpen gedrag van pickle-serialisatie, en meer dan 80% van de ML-modellen gebruikt het.

Van een model genaamd "baller423" op Hugging Face werd vastgesteld dat het een reverse shell naar Kreonet opzette. Het model zag er normaal uit. Het doorstond basisscans. Het voerde willekeurige code uit op het moment dat iemand het laadde.

PickleScan, de meest gebruikte verdediging, heeft minstens 3 bekende zero-day-omzeilingen (CVE-2025-10155). Op blacklists gebaseerd scannen is fundamenteel gebroken omdat de aanvaller het serialisatieformaat beheert.

Fijnafstemming vernietigt veiligheid

Llama 3.1 8B daalt van 0,95 naar 0,15 op weerbaarheid tegen prompt injection na één enkele ronde fijnafstemming. Dat is een degradatie van 84% in veiligheidsuitlijning door normale, niet-vijandige training.

Bijna niemand herevalueert de veiligheid na fijnafstemming. Het model doorstaat de initiële veiligheidsevaluatie, wordt fijnafgestemd op domeindata en gaat naar productie met zijn guardrails feitelijk verwijderd. Dit is geen exotische aanval. Het is de standaardworkflow bij de meeste organisaties.

Verspreiding van schaduw-AI

98% van de organisaties heeft ongeautoriseerd AI-gebruik. Dat getal is geen typefout. De $670K extra inbreukkosten voor schaduw-AI-incidenten weerspiegelen een eenvoudige realiteit: je kunt niet beveiligen wat je niet kunt zien.

62% van de beveiligingsteams kan niet vaststellen waar LLM's in hun omgeving zijn ingezet. Ontwikkelaars downloaden modellen van Hugging Face, roepen OpenAI-API's aan met persoonlijke sleutels en zetten fijnafgestemde modellen in op persoonlijke cloudaccounts. Huidige beveiligingstools brengen ongeveer 38% van deze activiteit in beeld.

Versterking door agentic AI

De RCE-kwetsbaarheid van GitHub Copilot (CVE-2025-53773, CVSS 7.8) veranderde een prompt injection in de documentatie van een repository in een volledige systeemcompromittering via de YOLO-modus. De agent las een kwaadaardige instructie, voerde deze als code uit, en de machine van de gebruiker was overgenomen.

Amazon Q's cleaner.md bestand verspreidde destructieve commando's naar meer dan 950K gebruikers via het contextvenster van de agent. De marktplaats van OpenClaw verzamelde 138 CVE's in 63 dagen, waarbij 12% van de ingediende skills kwaadaardig bleek.

Agenten veranderen prompt injections in compromitteringen op systeemniveau omdat ze beschikken over toolingtoegang, inloggegevens en uitvoeringsrechten die traditionele LLM's ontberen.

Wie doet wat in AI-modelbeveiliging

Het leveranciersecosysteem rijpt snel. Hier is een eerlijke kijk op wat elke speler dekt en waar de gaten resteren.

Aanbieder	Wat ze doen	Wat ze niet doen	Het best voor
Palo Alto / Protect AI	Modelscanning, AI-BOM-generatie, geïntegreerd in het Prisma AIRS-platform	Architectuurontwerp, engineering van maatwerkpijplijnen, organisatorisch verandermanagement	Ondernemingen die al op het PANW-platform draaien
HiddenLayer	Runtime AI-detectie en -respons, beveiligingsmonitoring voor agenten	Toeleveringsketenarchitectuur, ML-BOM-implementatie, compliancemapping	SOC-teams die AI-zichtbaarheid toevoegen
JFrog	MLSecOps, beveiliging van modelregister, Hugging Face-integratie	Vijandige red-teaming, validatie van veiligheidsuitlijning, governance-ontwerp	DevOps-teams die modelartefacten beheren
Wiz	AI-BOM in de context van cloudbeveiliging, modelscanning	On-prem modelbeveiliging, veiligheid van fijnafstemming, agentic architectuur	Cloud-first organisaties
NVIDIA NeMo Guardrails	Open-source runtime-guardrails voor LLM's	Modelscanning, toeleveringsketenbeveiliging, herkomsttracering	Teams die maatwerk-LLM-applicaties bouwen
Big 4 / grote SI's	Governance-frameworks, compliancedocumentatie, board decks	Implementatie. Het bouwen van scanpijplijnen, het configureren van ML-BOM's, het uitrollen van modelondertekening. Opdrachten beginnen bij $500K strategie, schalen op naar $3-10M.	Organisaties die auditklare documentatie nodig hebben
Open source (ModelScan, PickleScan, SafeTensors)	Gratis basisscanning en veiligere serialisatieformaten	Orkestratie op ondernemingsniveau, behavioral sandboxing, herkomst, beleidshandhaving	Teams met sterke interne beveiligingsengineering

Een gat dat niemand goed vult. Verandering van de organisatiecultuur is het moeilijkste deel. Geen enkele tool of consultancy elimineert de menselijke neiging om governance te omzeilen voor snelheid. Wij bouwen de technische controles, maar de CISO heeft nog steeds executieve steun nodig. Wanneer een datawetenschapper in 30 seconden een model van Hugging Face kan downloaden, zal elke beveiligingspoort die 30 minuten kost, worden omzeild. De controles moeten snel genoeg zijn dat naleving eenvoudiger is dan omzeiling.

Wat wij bouwen voor AI-beveiligingsprogramma's

Zes capaciteiten, elk ontworpen om te integreren met uw bestaande beveiligingsstack en CI/CD-pijplijnen.

Modelkeuringspijplijnen

Wij bouwen geautomatiseerde keuring die tussen openbare modelrepository's en uw interne register zit. Elk model doorloopt behavioral sandboxing (geladen in geïsoleerde containers, syscalls gemonitord), multi-format diepteanalyse (pickle, PyTorch, GGUF, Keras, SafeTensors) en cryptografische ondertekening met uw enterprise-PKI.

Wij grijpen naar gedragsanalyse boven statisch scannen omdat de zero-day-omzeilingen van PickleScan bewijzen dat blacklist-benaderingen fundamenteel gebroken zijn. Statisch scannen vraagt "bevat dit bestand bekende kwaadaardige patronen?" Behavioral sandboxing vraagt "wat doet deze code daadwerkelijk wanneer ze draait?" De tweede vraag vangt nieuwe aanvallen op.

ML-BOM- & herkomstarchitectuur

CycloneDX ML-BOM-generatie geïntegreerd in CI/CD. Elk model krijgt een stuklijst die de herkomst van trainingsdata, frameworkversies, afhankelijkheidsbomen en de geschiedenis van fijnafstemming documenteert.

Wij gebruiken CycloneDX boven SPDX omdat de ML-BOM-tooling volwassener is, hoewel we SPDX 3.0-export waarborgen voor organisaties die beide nodig hebben. De ML-BOM is geen compliance-vinkje. Het is de datastructuur die elke andere beveiligingscontrole mogelijk maakt: je kunt niet ondertekenen wat je niet kunt inventariseren, en je kunt niet auditen wat je niet kunt traceren.

Ontdekking van schaduw-AI

Detectie op netwerkniveau van ongeautoriseerde modeldownloads en AI-API-aanroepen. Integratie met uw bestaande SIEM/SOAR. Wij brengen elk AI-raakpunt in kaart, inclusief schaduwimplementaties, en bouwen vervolgens beleidshandhaving die risico blokkeert zonder innovatie te blokkeren.

Het doel: uw beveiligingsteam ziet 100% van het AI-gebruik, niet de 38% die huidige tools in beeld brengen. De detectie dekt Hugging Face-downloads, OpenAI-/Anthropic-/Google-API-aanroepen, overdrachten van modelgewichten via HTTP/S en lokale modeluitvoering via procesmonitoring op beheerde endpoints.

Veiligheidsvalidatie na fijnafstemming

Geautomatiseerde herevaluatie van veiligheid na elke fijnafstemmingsrun. OWASP LLM Top 10-benchmarksuite, vijandige probing op backdoortriggers en regressietesten van veiligheidsuitlijning.

Wij bouwen dit omdat bijna niemand de veiligheid herevalueert na fijnafstemming. De data over veiligheidsdegradatie in de bovenstaande sectie maakt het punt. De validatiepijplijn draait als een CI/CD-poort. Een model dat zakt voor de veiligheidsregressie kan niet naar productie worden bevorderd, ongeacht zijn taakprestaties.

Beveiligingsarchitectuur voor agentic AI

Rechtenscheiding voor AI-agenten. Deterministische beleidslagen die escalatie van prompt-naar-RCE voorkomen (precies de aanvalsvector in CVE-2025-53773). Handhaving van tool-gebruiksbeleid, human-in-the-loop-poorten voor risicovolle operaties en runtime-gedragsmonitoring.

De architectuur detecteert afwijkende agentacties voordat ze cascaderen. Een agent die plotseling begint te schrijven naar bestandssysteempaden buiten zijn sandbox, API's aanroept die hij nog nooit heeft aangeroepen, of rechtenescalatie probeert, wordt beëindigd en gemarkeerd voor beoordeling.

Ontwerp van AI-beveiligingsprogramma

Voor CISO's die de functie vanaf nul opbouwen. Mapping van NIST AI 100-2-controles, EU AI Act-compliancearchitectuur, risicokwantificering op bestuursniveau en incidentresponsdraaiboeken voor AI-specifieke aanvallen.

Wij helpen technisch risico te vertalen naar budgetonderbouwing die besturen goedkeuren. "We vonden 352K onveilige problemen in openbare modelregisters" is een datapunt. "Onze engineers downloadden vorig kwartaal 47 ongekeurde modellen, 3 bevatten uitvoerbare code in hun serialisatielaag, en onze huidige controles detecteerden er geen enkele van" is een budgetonderbouwing.

Hoe een opdracht verloopt

Drie fasen, elk met gedefinieerde deliverables en eerlijke kanttekeningen over wat te verwachten.

Fase 1

Ontdekking & dreigingsmodellering

Week 1-3

▶ AI-asset-inventaris: catalogiseer elk model, elke API, elke agent en elke pijplijn in uw omgeving
▶ Schaduw-AI-sweep: detectie op netwerkniveau van ongeautoriseerd AI-gebruik op alle egress-punten
▶ Dreigingsmodel: breng aanvalsoppervlakken in kaart die specifiek zijn voor uw implementatiearchitectuur en modeltypes
▶ Gapanalyse ten opzichte van de vereisten van NIST AI 100-2 en de EU AI Act

Deliverable: Rapport AI-beveiligingshouding met geprioriteerd risicoregister

Kanttekening: Deze fase brengt vaak 3-5x meer AI-gebruik aan het licht dan de CISO verwachtte. Dat is normaal. De ontdekking van schaduw-AI is het waardevolste en het ongemakkelijkste deel van de opdracht.

Fase 2

Architectuur & bouw

Week 4-10

▶ Ontwerp van modelkeuringspijplijn, ML-BOM-generatie en ondertekeningsinfrastructuur
▶ Bouw en uitrol in uw CI/CD (Jenkins, GitHub Actions, GitLab CI, Azure DevOps)
▶ Configureer schaduw-AI-detectie en SIEM-integratie (Splunk, Sentinel, Chronicle)
▶ Implementeer veiligheidsvalidatie na fijnafstemming als een CI/CD-poort

Deliverable: Productieklare beveiligingscontroles geïntegreerd in bestaande workflows

Kanttekening: De tijdlijn hangt af van de CI/CD-volwassenheid. Teams met volwassen DevOps-pijplijnen rollen sneller uit. Organisaties die modellen nog via USB-sticks of gedeelde mappen verplaatsen (vaker dan u zou verwachten) hebben aanvullend infrastructuurwerk nodig.

Fase 3

Operationaliseren & overdragen

Week 11-14

▶ Train het beveiligingsteam in modelkeuringsoperaties en alerttriage
▶ Stel een cadans voor vijandige red-teaming vast (kwartaalsgewijs aanbevolen, maandelijks voor risicovolle systemen)
▶ Bouw incidentresponsdraaiboeken voor aanvallen op modelniveau en agentic AI-incidenten
▶ Board-klare rapportagesjablonen met risicokwantificering

Deliverable: Zelfvoorzienende AI-beveiligingsoperaties met gedocumenteerde runbooks

Kanttekening: Het eerste vijandige red-team vindt altijd iets. Dat is het punt. Een red-team dat niets vindt, deed of niet hard genoeg zijn best of had een te smalle scope.

Vragen die CISO's stellen over AI-toeleveringsketenbeveiliging

Hoe lang duurt het om vanaf nul een modelkeuringspijplijn te bouwen?

4-6 weken voor een basispijplijn die statisch scannen en handtekeningverificatie dekt. 8-12 weken voor volledige behavioral sandboxing met CI/CD-integratie. Het knelpunt is zelden de scantechnologie zelf. Het is de integratie met uw bestaande modelregister (MLflow, Weights & Biases, JFrog ML) en het definiëren van de beleidslogica: wat wordt geblokkeerd vs. gemarkeerd vs. in quarantaine geplaatst. Wij hebben vastgesteld dat de beleidsbeslissingen langer duren dan de engineering.

Formaatcomplexiteit voegt tijd toe. Pickle, PyTorch, GGUF, Keras en SafeTensors vereisen elk verschillende analysebenaderingen. Pickle blijft het risicovolste formaat omdat torch.load() tijdens deserialisatie willekeurige Python uitvoert, en daarom doet behavioral sandboxing er voor dat formaat meer toe dan statisch scannen. SafeTensors is de veiligste serialisatieoptie en de eenvoudigste om te scannen, maar minder dan 20% van de productiemodellen gebruikt het vandaag. Uw pijplijn moet ze allemaal aankunnen omdat u niet kunt bepalen welk formaat upstream-modelaanbieders kiezen.

We gebruiken al Palo Alto/Wiz/JFrog voor beveiliging. Waarom hebben we maatwerk nodig?

Die platforms zijn uitstekend in wat ze doen. De Protect AI-integratie van Palo Alto (via Prisma AIRS) geeft u modelscanning binnen uw bestaande beveiligingsstack. JFrog's MLSecOps verzorgt de governance van het modelregister. Wiz voegt AI-BOM toe aan cloudzichtbaarheid. Wat ze niet doen: de end-to-end-architectuur ontwerpen, ML-BOM-generatie in uw specifieke CI/CD-pijplijn configureren, de beleidslogica voor uw regelgevingscontext bouwen, of uw modelimplementatieworkflow opnieuw ontwerpen. Het zijn scantools. Wij zijn het implementatieteam dat ze laat samenwerken.

Veel opdrachten beginnen met organisaties die deze platforms al hebben maar hulp nodig hebben bij het operationaliseren ervan. Een veelvoorkomend patroon: het beveiligingsteam kocht zes maanden geleden Protect AI, voerde een scan uit, kreeg 400 bevindingen en liep daarna vast omdat niemand die bevindingen koppelde aan remediatieworkflows of scanning integreerde in de modelpromotiepijplijn.

Wat is het werkelijke risico van modelvergiftiging? Is het in productie gebeurd?

De technische drempel voor modelvergiftiging is lager dan de meeste CISO's aannemen. Onderzoek toont aan dat zo weinig als 250 vergiftigde documenten in een trainingscorpus een model met 13B parameters van een backdoor kunnen voorzien. Microsoft publiceerde in februari 2026 baanbrekende detectiemethoden, maar de meeste organisaties hebben nul detectiecapaciteit uitgerold. Het probleem van veiligheidsdegradatie bij fijnafstemming is directer en vaker voorkomend: Llama 3.1 8B daalt van 0,95 naar 0,15 op weerbaarheid tegen prompt injection na één enkele ronde fijnafstemming. Dat is geen aanval. Dat is normale fijnafstemming zonder herevaluatie van veiligheid.

Gedocumenteerde productie-incidenten van opzettelijke modelvergiftiging blijven zeldzaam. Maar de omstandigheden zijn rijp: meer dan 80% van de ML-modellen gebruikt pickle-serialisatie, 62% van de beveiligingsteams kan niet vaststellen waar modellen zijn ingezet, en van een model genaamd "baller423" op Hugging Face werd vastgesteld dat het een reverse shell naar Kreonet opzette. Het modeldisgorgement-precedent van de FTC (Weight Watchers/Kurbo, 2022) betekent dat een vergiftigd model u zou kunnen dwingen vanaf nul te verwijderen en opnieuw te trainen, tegen kosten die de inbreuk zelf in het niet doen vallen.

Hoe gaan we om met de herkomstvereisten voor modellen van de EU AI Act?

De EU AI Act is volledig van toepassing op 2 augustus 2026. Voor risicovolle AI-systemen heeft u technische documentatie nodig die de herkomst, scope, kenmerken en reinigingsmethodologieën van trainingsdata dekt. Toeleveringsketenverplichtingen vereisen dat importeurs en distributeurs de conformiteitsbeoordeling, technische documentatie en CE-markering verifiëren. Praktisch betekent dit ML-BOM's voor elk model in uw pijplijn, ondertekende attestaties voor herkomst en audittrails voor fijnafstemmingsbeslissingen.

CycloneDX ML-BOM is de meest implementatieklare standaard. SPDX 3.0 voegde in 2024 AI/ML-profielen toe, en sommige organisaties hebben beide formaten nodig voor verschillende regelgevende doelgroepen. Wij bouwen de documentatiepijplijn zodat herkomsttracering geautomatiseerd is, niet een handmatige compliance-oefening. De veelgemaakte fout is dit te behandelen als een eenmalig documentatieproject. Elke fijnafstemmingsrun, elke modelupdate en elke datasetwijziging moet bijgewerkte herkomstrecords genereren. Als uw ML-BOM statisch is, is hij binnen weken onjuist.

Kunnen we AI-agenten beveiligen zonder ze te vertragen?

Rechtenscheiding is het fundament. Elke agent krijgt een least-privilege-profiel dat definieert welke tools hij kan aanroepen, welke API's hij kan benaderen en welke bestandssysteempaden hij kan aanraken. Dit weerspiegelt het capability-model van Linux toegepast op AI-agenten. De GitHub Copilot-RCE (CVE-2025-53773, CVSS 7.8) gebeurde omdat de YOLO-modus de agent onbeperkte systeemtoegang gaf, en een prompt injection in de documentatie van een repository escaleerde tot volledige uitvoering van code op afstand. Deterministische beleidslagen voorkomen dat escalatiepad volledig.

Runtime-monitoring voegt een gedragsbasislijn toe die afwijkende agentacties detecteert (onverwachte tool-aanroepen, ongebruikelijke API-patronen, pogingen tot rechtenescalatie) zonder latentie toe te voegen aan normale operaties. Er IS een kleine latentiekost voor beveiligingscontroles op risicovolle operaties: schrijfacties naar het bestandssysteem, cloud-API-aanroepen, toegang tot inloggegevens. Voor de meeste enterprise-implementaties is dit 50-200ms per gepoorte operatie. Operaties met laag risico (het lezen van goedgekeurde gegevensbronnen, het genereren van tekst, het aanroepen van vooraf goedgekeurde API's) gaan door met nul toegevoegde latentie. De vraag is of 50-200ms op risicovolle aanroepen acceptabel is in vergelijking met een agent met volledige systeemtoegang en geen guardrails.

Hoe ziet een AI-beveiligingsincidentrespons eruit?

AI-beveiligingsincidenten vereisen andere forensiek dan netwerkintrusies. Voor aanvallen op modelniveau (vergiftiging, backdoors) is de responsvolgorde: isoleer het model van productie, verifieer de integriteit van de trainingspijplijn, controleer op data-exfiltratie via modeluitvoer (modellen kunnen gestolen data coderen in hun gewichten en deze lekken via zorgvuldig vervaardigde prompts), en bepaal of u opnieuw moet trainen vanaf een bekend-schoon checkpoint.

Voor agentic AI-incidenten moet u ook elke tool-aanroep en actie die de agent uitvoerde traceren, de integriteit van zijn geheugen en contextvenster verifiëren (prompt injection kan over sessies blijven bestaan als de context wordt opgeslagen), en controleren op laterale beweging via de rechten van de agent. Generieke IR-processen dekken forensiek op modelniveau niet omdat de artefacten anders zijn. U analyseert geen netwerklogs en geheugendumps. U analyseert modelgewichten, herkomst van trainingsdata, fijnafstemmingsgeschiedenissen en agentactielogs. Wij bouwen draaiboeken die specifiek zijn voor deze scenario's, inclusief procedures voor bewijsbehoud van modelgewichten (die honderden gigabytes kunnen zijn), chain-of-custody-documentatie voor trainingsdata en communicatiesjablonen voor toezichthouders die modeldisgorgement kunnen eisen.