KI-Lieferkettensicherheit & Modellintegrität

Die Angriffsfläche, die die meisten Sicherheitsprogramme übersehen

KI-Modelle sind keine statischen Artefakte. Sie sind Code, der während des Ladens, Trainings, der Inferenz und der Agentenausführung läuft. Vier Angriffskategorien dominieren das Bedrohungsmodell.

Das Problem des Pickle-Formats

torch.load() führt während der Deserialisierung beliebigen Python-Code aus. Das ist kein Bug. Es ist das vorgesehene Verhalten der Pickle-Serialisierung, und über 80 % der ML-Modelle nutzen sie.

Ein Modell namens „baller423“ auf Hugging Face wurde dabei entdeckt, wie es eine Reverse-Shell zu Kreonet aufbaute. Das Modell sah normal aus. Es bestand grundlegende Scans. Es führte beliebigen Code aus, sobald jemand es lud.

PickleScan, die am weitesten verbreitete Abwehr, hat mindestens 3 bekannte Zero-Day-Bypässe (CVE-2025-10155). Blacklist-basiertes Scanning ist grundsätzlich kaputt, weil der Angreifer das Serialisierungsformat kontrolliert.

Fine-Tuning zerstört die Sicherheit

Llama 3.1 8B fällt von 0,95 auf 0,15 bei der Resilienz gegen Prompt-Injection nach einer einzigen Fine-Tuning-Runde. Das ist eine Verschlechterung der Sicherheitsausrichtung um 84 % durch normales, nicht-adversariales Training.

Fast niemand bewertet die Sicherheit nach dem Fine-Tuning neu. Das Modell besteht die anfängliche Sicherheitsbewertung, wird auf Domänendaten feinjustiert und geht mit faktisch entfernten Leitplanken in Produktion. Das ist kein exotischer Angriff. Es ist der Standard-Workflow in den meisten Organisationen.

Verbreitung von Schatten-KI

98 % der Organisationen haben nicht autorisierte KI-Nutzung. Diese Zahl ist kein Tippfehler. Die zusätzlichen Sicherheitsverletzungskosten von 670 Tsd. $ bei Schatten-KI-Vorfällen spiegeln eine einfache Realität wider: Man kann nicht absichern, was man nicht sehen kann.

62 % der Sicherheitsteams können nicht feststellen, wo LLMs in ihrer Umgebung eingesetzt werden. Entwickler laden Modelle von Hugging Face herunter, rufen OpenAI-APIs mit persönlichen API-Schlüsseln auf und stellen feinjustierte Modelle auf persönlichen Cloud-Konten bereit. Aktuelle Sicherheitstools machen rund 38 % dieser Aktivität sichtbar.

Verstärkung durch agentische KI

Die RCE-Schwachstelle von GitHub Copilot (CVE-2025-53773, CVSS 7.8) verwandelte eine Prompt-Injection in der Dokumentation eines Repositories über den YOLO-Modus in eine vollständige Systemkompromittierung. Der Agent las eine bösartige Anweisung, führte sie als Code aus, und der Rechner des Nutzers war übernommen.

Die Datei von Amazon Q cleaner.md verteilte über das Kontextfenster des Agenten destruktive Befehle an mehr als 950 Tsd. Nutzer. Der Marktplatz von OpenClaw sammelte über 63 Tage hinweg 138 CVEs an, wobei 12 % der eingereichten Skills als bösartig befunden wurden.

Agenten verwandeln Prompt-Injections in Kompromittierungen auf Systemebene, weil sie über Tool-Zugriff, Anmeldedaten und Ausführungsrechte verfügen, die traditionellen LLMs fehlen.

Wer was in der KI-Modellsicherheit tut

Das Anbieter-Ökosystem reift schnell heran. Hier ist eine ehrliche Sicht darauf, was jeder Akteur abdeckt und wo die Lücken bleiben.

Anbieter	Was sie tun	Was sie nicht tun	Am besten geeignet für
Palo Alto / Protect AI	Modell-Scanning, AI-BOM-Generierung, integriert in die Prisma-AIRS-Plattform	Architekturdesign, kundenspezifisches Pipeline-Engineering, organisatorisches Change-Management	Unternehmen, die bereits auf der PANW-Plattform sind
HiddenLayer	KI-Erkennung und -Reaktion zur Laufzeit, agentisches Sicherheitsmonitoring	Lieferketten-Architektur, ML-BOM-Implementierung, Compliance-Mapping	SOC-Teams, die KI-Sichtbarkeit hinzufügen
JFrog	MLSecOps, Sicherheit der Modell-Registry, Hugging-Face-Integration	Adversariales Red-Teaming, Validierung der Sicherheitsausrichtung, Governance-Design	DevOps-Teams, die Modellartefakte verwalten
Wiz	AI-BOM im Cloud-Sicherheitskontext, Modell-Scanning	On-Prem-Modellsicherheit, Fine-Tuning-Sicherheit, agentische Architektur	Cloud-First-Organisationen
NVIDIA NeMo Guardrails	Open-Source-Laufzeit-Leitplanken für LLMs	Modell-Scanning, Lieferkettensicherheit, Provenance-Tracking	Teams, die kundenspezifische LLM-Anwendungen entwickeln
Big 4 / große Systemintegratoren	Governance-Frameworks, Compliance-Dokumentation, Vorstandspräsentationen	Implementierung. Aufbau von Scanning-Pipelines, Konfiguration von ML-BOMs, Bereitstellung von Modellsignierung. Engagements beginnen bei 500 Tsd. $ Strategie und skalieren auf 3–10 Mio. $.	Organisationen, die auditfertige Dokumentation benötigen
Open Source (ModelScan, PickleScan, SafeTensors)	Kostenloses grundlegendes Scanning und sicherere Serialisierungsformate	Orchestrierung auf Enterprise-Niveau, verhaltensbasiertes Sandboxing, Provenance, Richtliniendurchsetzung	Teams mit starkem internem Sicherheitsengineering

Eine Lücke, die niemand gut füllt. Der Wandel der Organisationskultur ist der schwierigste Teil. Kein Tool und keine Beratung beseitigt die menschliche Tendenz, die Governance zugunsten von Geschwindigkeit zu umgehen. Wir bauen die technischen Kontrollen, aber der CISO braucht weiterhin die Zustimmung der Geschäftsleitung. Wenn ein Data Scientist ein Modell in 30 Sekunden von Hugging Face herunterladen kann, wird jedes Sicherheits-Gate, das 30 Minuten dauert, umgangen. Die Kontrollen müssen schnell genug sein, damit Compliance einfacher ist als Umgehung.

Was wir für KI-Sicherheitsprogramme bauen

Sechs Fähigkeiten, jede so konstruiert, dass sie sich in Ihren bestehenden Sicherheits-Stack und Ihre CI/CD-Pipelines integriert.

Modell-Prüfpipelines

Wir bauen eine automatisierte Prüfung, die zwischen öffentlichen Modell-Repositories und Ihrer internen Registry sitzt. Jedes Modell durchläuft verhaltensbasiertes Sandboxing (geladen in isolierten Containern, Syscalls überwacht), Tiefenanalyse über mehrere Formate (Pickle, PyTorch, GGUF, Keras, SafeTensors) und kryptografische Signierung mit Ihrer Enterprise-PKI.

Wir setzen auf Verhaltensanalyse statt statisches Scanning, weil die Zero-Day-Bypässe von PickleScan beweisen, dass Blacklist-Ansätze grundsätzlich kaputt sind. Statisches Scanning fragt „Enthält diese Datei bekannte bösartige Muster?“ Verhaltensbasiertes Sandboxing fragt „Was tut dieser Code tatsächlich, wenn er läuft?“ Die zweite Frage erfasst neuartige Angriffe.

ML-BOM- & Provenance-Architektur

In CI/CD integrierte CycloneDX-ML-BOM-Generierung. Jedes Modell erhält eine Stückliste, die die Herkunft der Trainingsdaten, Framework-Versionen, Abhängigkeitsbäume und den Fine-Tuning-Verlauf dokumentiert.

Wir verwenden CycloneDX statt SPDX, weil das ML-BOM-Tooling ausgereifter ist, stellen aber den SPDX-3.0-Export für Organisationen sicher, die beides benötigen. Die ML-BOM ist kein Compliance-Häkchen. Sie ist die Datenstruktur, die jede andere Sicherheitskontrolle erst ermöglicht: Man kann nicht signieren, was man nicht inventarisiert, und man kann nicht auditieren, was man nicht nachverfolgen kann.

Schatten-KI-Erkennung

Erkennung nicht autorisierter Modell-Downloads und KI-API-Aufrufe auf Netzwerkebene. Integration mit Ihrem bestehenden SIEM/SOAR. Wir kartieren jeden KI-Berührungspunkt, einschließlich Schatten-Deployments, und bauen dann eine Richtliniendurchsetzung auf, die Risiken blockiert, ohne Innovation zu blockieren.

Das Ziel: Ihr Sicherheitsteam sieht 100 % der KI-Nutzung, nicht die 38 %, die aktuelle Tools sichtbar machen. Die Erkennung umfasst Hugging-Face-Downloads, OpenAI-/Anthropic-/Google-API-Aufrufe, Modellgewicht-Transfers über HTTP/S und lokale Modellausführung per Prozessüberwachung auf verwalteten Endgeräten.

Sicherheitsvalidierung nach dem Fine-Tuning

Automatisierte Sicherheits-Neubewertung nach jedem Fine-Tuning-Lauf. OWASP-LLM-Top-10-Benchmark-Suite, adversariales Probing auf Backdoor-Trigger und Regressionstests der Sicherheitsausrichtung.

Wir bauen das, weil fast niemand die Sicherheit nach dem Fine-Tuning neu bewertet. Die Daten zur Sicherheitsverschlechterung im obigen Abschnitt belegen es. Die Validierungspipeline läuft als CI/CD-Gate. Ein Modell, das die Sicherheitsregression nicht besteht, kann unabhängig von seiner Aufgabenleistung nicht in die Produktion überführt werden.

Sicherheitsarchitektur für agentische KI

Privilegientrennung für KI-Agenten. Deterministische Richtlinienebenen, die eine Eskalation von Prompt zu RCE verhindern (genau der Angriffsvektor in CVE-2025-53773). Durchsetzung von Tool-Nutzungsrichtlinien, Human-in-the-Loop-Gates für Hochrisikooperationen und Laufzeit-Verhaltensmonitoring.

Die Architektur erkennt anomale Agentenaktionen, bevor sie kaskadieren. Ein Agent, der plötzlich beginnt, in Dateisystempfade außerhalb seiner Sandbox zu schreiben, APIs aufzurufen, die er noch nie aufgerufen hat, oder eine Privilegieneskalation zu versuchen, wird beendet und zur Überprüfung gemeldet.

Konzeption von KI-Sicherheitsprogrammen

Für CISOs, die die Funktion von Grund auf aufbauen. NIST-AI-100-2-Control-Mapping, Compliance-Architektur für den EU AI Act, Risikoquantifizierung auf Vorstandsebene und Incident-Response-Playbooks für KI-spezifische Angriffe.

Wir helfen, technisches Risiko in eine Budgetbegründung zu übersetzen, die Vorstände genehmigen. „Wir haben 352 Tsd. unsichere Probleme über öffentliche Modell-Registries gefunden“ ist ein Datenpunkt. „Unsere Ingenieure haben im letzten Quartal 47 ungeprüfte Modelle heruntergeladen, 3 enthielten ausführbaren Code in ihrer Serialisierungsschicht, und unsere aktuellen Kontrollen erkannten keines davon“ ist eine Budgetbegründung.

Wie ein Engagement abläuft

Drei Phasen, jede mit definierten Liefergegenständen und ehrlichen Vorbehalten dazu, was zu erwarten ist.

Phase 1

Discovery & Bedrohungsmodellierung

Wochen 1–3

▶ KI-Asset-Inventar: Katalogisierung jedes Modells, jeder API, jedes Agenten und jeder Pipeline in Ihrer Umgebung
▶ Schatten-KI-Sweep: Erkennung nicht autorisierter KI-Nutzung auf Netzwerkebene über alle Egress-Punkte
▶ Bedrohungsmodell: Kartierung der Angriffsflächen, die für Ihre Deployment-Architektur und Modelltypen spezifisch sind
▶ Gap-Analyse gegen die Anforderungen von NIST AI 100-2 und EU AI Act

Liefergegenstand: Bericht zur KI-Sicherheitslage mit priorisiertem Risikoregister

Vorbehalt: Diese Phase bringt oft 3–5-mal mehr KI-Nutzung zum Vorschein, als der CISO erwartet hatte. Das ist normal. Die Schatten-KI-Erkennung ist der wertvollste und der unangenehmste Teil des Engagements.

Phase 2

Architektur & Aufbau

Wochen 4–10

▶ Entwurf der Modell-Prüfpipeline, der ML-BOM-Generierung und der Signierungsinfrastruktur
▶ Aufbau und Bereitstellung in Ihrem CI/CD (Jenkins, GitHub Actions, GitLab CI, Azure DevOps)
▶ Konfiguration der Schatten-KI-Erkennung und SIEM-Integration (Splunk, Sentinel, Chronicle)
▶ Implementierung der Sicherheitsvalidierung nach dem Fine-Tuning als CI/CD-Gate

Liefergegenstand: Produktionsreife Sicherheitskontrollen, integriert in bestehende Workflows

Vorbehalt: Der Zeitrahmen hängt von der CI/CD-Reife ab. Teams mit ausgereiften DevOps-Pipelines stellen schneller bereit. Organisationen, die Modelle noch über USB-Laufwerke oder geteilte Ordner bewegen (häufiger, als man erwarten würde), benötigen zusätzliche Infrastrukturarbeit.

Phase 3

Operationalisierung & Übergabe

Wochen 11–14

▶ Schulung des Sicherheitsteams im Betrieb der Modellprüfung und in der Alert-Triage
▶ Etablierung einer adversarialen Red-Team-Kadenz (vierteljährlich empfohlen, monatlich für Hochrisikosysteme)
▶ Aufbau von Incident-Response-Playbooks für Angriffe auf Modellebene und Vorfälle mit agentischer KI
▶ Vorstandsfertige Reporting-Vorlagen mit Risikoquantifizierung

Liefergegenstand: Selbsttragender KI-Sicherheitsbetrieb mit dokumentierten Runbooks

Vorbehalt: Das erste adversariale Red-Team findet immer etwas. Das ist der Sinn. Ein Red-Team, das nichts findet, hat sich entweder nicht genug angestrengt oder war zu eng definiert.

Fragen, die CISOs zur KI-Lieferkettensicherheit stellen

Wie lange dauert es, eine Modell-Prüfpipeline von Grund auf aufzubauen?

4–6 Wochen für eine grundlegende Pipeline, die statisches Scanning und Signaturverifizierung abdeckt. 8–12 Wochen für vollständiges verhaltensbasiertes Sandboxing mit CI/CD-Integration. Der Engpass ist selten die Scanning-Technologie selbst. Es ist die Integration mit Ihrer bestehenden Modell-Registry (MLflow, Weights & Biases, JFrog ML) und die Definition der Richtlinienlogik: Was wird blockiert vs. markiert vs. unter Quarantäne gestellt. Wir haben festgestellt, dass die Richtlinienentscheidungen länger dauern als das Engineering.

Formatkomplexität kostet zusätzliche Zeit. Pickle, PyTorch, GGUF, Keras und SafeTensors erfordern jeweils unterschiedliche Analyseansätze. Pickle bleibt das risikoreichste Format, weil torch.load() während der Deserialisierung beliebigen Python-Code ausführt, weshalb verhaltensbasiertes Sandboxing für dieses Format wichtiger ist als statisches Scanning. SafeTensors ist die sicherste Serialisierungsoption und die am einfachsten zu scannende, aber weniger als 20 % der Produktionsmodelle nutzen es heute. Ihre Pipeline muss alle handhaben können, weil Sie nicht kontrollieren können, welches Format vorgelagerte Modellanbieter wählen.

Wir nutzen bereits Palo Alto/Wiz/JFrog für Sicherheit. Warum brauchen wir maßgeschneiderte Arbeit?

Diese Plattformen sind hervorragend in dem, was sie tun. Die Protect-AI-Integration von Palo Alto (über Prisma AIRS) bietet Ihnen Modell-Scanning innerhalb Ihres bestehenden Sicherheits-Stacks. MLSecOps von JFrog übernimmt die Governance der Modell-Registry. Wiz fügt der Cloud-Sichtbarkeit AI-BOM hinzu. Was sie nicht tun: die End-to-End-Architektur entwerfen, die ML-BOM-Generierung in Ihrer spezifischen CI/CD-Pipeline konfigurieren, die Richtlinienlogik für Ihren regulatorischen Kontext aufbauen oder Ihren Modell-Deployment-Workflow neu konstruieren. Sie sind Scanning-Tools. Wir sind das Implementierungsteam, das sie zum Zusammenspiel bringt.

Viele Engagements beginnen mit Organisationen, die diese Plattformen bereits haben, aber Hilfe bei deren Operationalisierung benötigen. Ein häufiges Muster: Das Sicherheitsteam hat vor sechs Monaten Protect AI gekauft, einen Scan durchgeführt, 400 Befunde erhalten und kam dann ins Stocken, weil niemand diese Befunde mit Remediation-Workflows verknüpft oder das Scanning in die Modell-Promotion-Pipeline integriert hat.

Wie hoch ist das tatsächliche Risiko einer Modellvergiftung? Ist es in Produktion schon vorgekommen?

Die technische Hürde für Modellvergiftung ist niedriger, als die meisten CISOs annehmen. Forschung zeigt, dass bereits 250 vergiftete Dokumente in einem Trainingskorpus ein Modell mit 13B Parametern mit einer Backdoor versehen können. Microsoft veröffentlichte im Februar 2026 bahnbrechende Erkennungsmethoden, doch die meisten Organisationen haben keinerlei Erkennungsfähigkeit im Einsatz. Das Problem der Sicherheitsverschlechterung beim Fine-Tuning ist unmittelbarer und häufiger: Llama 3.1 8B fällt bei der Resilienz gegen Prompt-Injection nach einer einzigen Fine-Tuning-Runde von 0,95 auf 0,15. Das ist kein Angriff. Das ist normales Fine-Tuning ohne Sicherheits-Neubewertung.

Dokumentierte Produktionsvorfälle absichtlicher Modellvergiftung bleiben selten. Aber die Bedingungen sind reif: Über 80 % der ML-Modelle nutzen Pickle-Serialisierung, 62 % der Sicherheitsteams können nicht feststellen, wo Modelle eingesetzt werden, und ein Modell namens „baller423“ auf Hugging Face wurde dabei entdeckt, wie es eine Reverse-Shell zu Kreonet aufbaute. Der Präzedenzfall der FTC zur Modell-Disgorgement (Weight Watchers/Kurbo, 2022) bedeutet, dass ein vergiftetes Modell Sie zwingen könnte, von Grund auf zu löschen und neu zu trainieren, zu Kosten, die die Sicherheitsverletzung selbst in den Schatten stellen.

Wie gehen wir mit den Modell-Provenance-Anforderungen des EU AI Act um?

Der EU AI Act ist ab dem 2. August 2026 vollständig anwendbar. Für Hochrisiko-KI-Systeme benötigen Sie technische Dokumentation, die die Herkunft, den Umfang, die Merkmale und die Bereinigungsmethoden der Trainingsdaten abdeckt. Lieferkettenpflichten verlangen von Importeuren und Händlern, die Konformitätsbewertung, die technische Dokumentation und die CE-Kennzeichnung zu verifizieren. Praktisch bedeutet das ML-BOMs für jedes Modell in Ihrer Pipeline, signierte Attestierungen für die Provenance und Audit-Trails für Fine-Tuning-Entscheidungen.

CycloneDX ML-BOM ist der implementierungsreifste Standard. SPDX 3.0 fügte 2024 AI/ML-Profile hinzu, und manche Organisationen benötigen beide Formate für unterschiedliche regulatorische Zielgruppen. Wir bauen die Dokumentationspipeline so, dass das Provenance-Tracking automatisiert ist und keine manuelle Compliance-Übung. Der häufige Fehler besteht darin, dies als einmaliges Dokumentationsprojekt zu behandeln. Jeder Fine-Tuning-Lauf, jedes Modell-Update und jede Datensatzänderung muss aktualisierte Provenance-Aufzeichnungen erzeugen. Wenn Ihre ML-BOM statisch ist, ist sie innerhalb von Wochen falsch.

Können wir KI-Agenten absichern, ohne sie zu verlangsamen?

Privilegientrennung ist das Fundament. Jeder Agent erhält ein Least-Privilege-Profil, das definiert, welche Tools er aufrufen, auf welche APIs er zugreifen und welche Dateisystempfade er berühren kann. Das spiegelt das Capability-Modell von Linux wider, angewandt auf KI-Agenten. Die GitHub-Copilot-RCE (CVE-2025-53773, CVSS 7.8) geschah, weil der YOLO-Modus dem Agenten uneingeschränkten Systemzugriff gewährte und eine Prompt-Injection in der Dokumentation eines Repositories zur vollständigen Remote-Codeausführung eskalierte. Deterministische Richtlinienebenen verhindern diesen Eskalationspfad vollständig.

Laufzeitmonitoring fügt eine Verhaltensbaseline hinzu, die anomale Agentenaktionen (unerwartete Tool-Aufrufe, ungewöhnliche API-Muster, Versuche der Privilegieneskalation) erkennt, ohne der Normaloperation Latenz hinzuzufügen. Es GIBT geringe Latenzkosten für Sicherheitsprüfungen bei Hochrisikooperationen: Dateisystem-Schreibvorgänge, Cloud-API-Aufrufe, Zugriff auf Anmeldedaten. Für die meisten Enterprise-Deployments sind das 50–200 ms pro gegateter Operation. Niedrigrisikooperationen (Lesen freigegebener Datenquellen, Textgenerierung, Aufruf vorab genehmigter APIs) passieren ohne hinzugefügte Latenz. Die Frage ist, ob 50–200 ms bei Hochrisikoaufrufen akzeptabel sind im Vergleich zu einem Agenten mit vollem Systemzugriff und ohne Leitplanken.

Wie sieht eine KI-Sicherheits-Incident-Response aus?

KI-Sicherheitsvorfälle erfordern eine andere Forensik als Netzwerkeinbrüche. Bei Angriffen auf Modellebene (Vergiftung, Backdoors) lautet die Reaktionssequenz: Modell von der Produktion isolieren, Integrität der Trainingspipeline verifizieren, auf Datenexfiltration über Modellausgaben prüfen (Modelle können gestohlene Daten in ihren Gewichten kodieren und über sorgfältig gestaltete Prompts preisgeben) und feststellen, ob Sie von einem bekannt sauberen Checkpoint neu trainieren müssen.

Bei Vorfällen mit agentischer KI müssen Sie zudem jeden Tool-Aufruf und jede Aktion des Agenten nachverfolgen, die Integrität seines Speichers und Kontextfensters verifizieren (Prompt-Injection kann über Sitzungen hinweg fortbestehen, wenn der Kontext gespeichert wird) und auf laterale Bewegung über die Berechtigungen des Agenten prüfen. Generische IR-Prozesse decken Forensik auf Modellebene nicht ab, weil die Artefakte andere sind. Sie analysieren keine Netzwerklogs und Memory-Dumps. Sie analysieren Modellgewichte, die Herkunft der Trainingsdaten, Fine-Tuning-Verläufe und Agenten-Aktionslogs. Wir bauen Playbooks, die für diese Szenarien spezifisch sind, einschließlich Verfahren zur Beweissicherung für Modellgewichte (die hunderte Gigabyte umfassen können), Chain-of-Custody-Dokumentation für Trainingsdaten und Kommunikationsvorlagen für Regulierungsbehörden, die möglicherweise eine Modell-Disgorgement verlangen.