KI-Sicherheitsengineering
Ihre Modelle sind ausführbarer Code. Die meisten Organisationen behandeln sie wie Datendateien. Genau in dieser Lücke entstehen Sicherheitsverletzungen.
4,63 Mio. $
Durchschnittliche Kosten einer Sicherheitsverletzung mit Beteiligung von Schatten-KI
IBM Cost of a Data Breach 2025
83 %
Der Organisationen fehlen automatisierte KI-Sicherheitskontrollen
Kiteworks 2025
352 Tsd.
Unsichere Probleme, die in 51.700 Modellen in öffentlichen Registries gefunden wurden
Protect AI 2025
KI-Modelle sind keine statischen Artefakte. Sie sind Code, der während des Ladens, Trainings, der Inferenz und der Agentenausführung läuft. Vier Angriffskategorien dominieren das Bedrohungsmodell.
torch.load() führt während der Deserialisierung beliebigen Python-Code aus. Das ist kein Bug. Es ist das vorgesehene Verhalten der Pickle-Serialisierung, und über 80 % der ML-Modelle nutzen sie.
Ein Modell namens „baller423“ auf Hugging Face wurde dabei entdeckt, wie es eine Reverse-Shell zu Kreonet aufbaute. Das Modell sah normal aus. Es bestand grundlegende Scans. Es führte beliebigen Code aus, sobald jemand es lud.
PickleScan, die am weitesten verbreitete Abwehr, hat mindestens 3 bekannte Zero-Day-Bypässe (CVE-2025-10155). Blacklist-basiertes Scanning ist grundsätzlich kaputt, weil der Angreifer das Serialisierungsformat kontrolliert.
Llama 3.1 8B fällt von 0,95 auf 0,15 bei der Resilienz gegen Prompt-Injection nach einer einzigen Fine-Tuning-Runde. Das ist eine Verschlechterung der Sicherheitsausrichtung um 84 % durch normales, nicht-adversariales Training.
Fast niemand bewertet die Sicherheit nach dem Fine-Tuning neu. Das Modell besteht die anfängliche Sicherheitsbewertung, wird auf Domänendaten feinjustiert und geht mit faktisch entfernten Leitplanken in Produktion. Das ist kein exotischer Angriff. Es ist der Standard-Workflow in den meisten Organisationen.
98 % der Organisationen haben nicht autorisierte KI-Nutzung. Diese Zahl ist kein Tippfehler. Die zusätzlichen Sicherheitsverletzungskosten von 670 Tsd. $ bei Schatten-KI-Vorfällen spiegeln eine einfache Realität wider: Man kann nicht absichern, was man nicht sehen kann.
62 % der Sicherheitsteams können nicht feststellen, wo LLMs in ihrer Umgebung eingesetzt werden. Entwickler laden Modelle von Hugging Face herunter, rufen OpenAI-APIs mit persönlichen API-Schlüsseln auf und stellen feinjustierte Modelle auf persönlichen Cloud-Konten bereit. Aktuelle Sicherheitstools machen rund 38 % dieser Aktivität sichtbar.
Die RCE-Schwachstelle von GitHub Copilot (CVE-2025-53773, CVSS 7.8) verwandelte eine Prompt-Injection in der Dokumentation eines Repositories über den YOLO-Modus in eine vollständige Systemkompromittierung. Der Agent las eine bösartige Anweisung, führte sie als Code aus, und der Rechner des Nutzers war übernommen.
Die Datei von Amazon Q cleaner.md verteilte über das Kontextfenster des Agenten destruktive Befehle an mehr als 950 Tsd. Nutzer. Der Marktplatz von OpenClaw sammelte über 63 Tage hinweg 138 CVEs an, wobei 12 % der eingereichten Skills als bösartig befunden wurden.
Agenten verwandeln Prompt-Injections in Kompromittierungen auf Systemebene, weil sie über Tool-Zugriff, Anmeldedaten und Ausführungsrechte verfügen, die traditionellen LLMs fehlen.
Das Anbieter-Ökosystem reift schnell heran. Hier ist eine ehrliche Sicht darauf, was jeder Akteur abdeckt und wo die Lücken bleiben.
| Anbieter | Was sie tun | Was sie nicht tun | Am besten geeignet für |
|---|---|---|---|
| Palo Alto / Protect AI | Modell-Scanning, AI-BOM-Generierung, integriert in die Prisma-AIRS-Plattform | Architekturdesign, kundenspezifisches Pipeline-Engineering, organisatorisches Change-Management | Unternehmen, die bereits auf der PANW-Plattform sind |
| HiddenLayer | KI-Erkennung und -Reaktion zur Laufzeit, agentisches Sicherheitsmonitoring | Lieferketten-Architektur, ML-BOM-Implementierung, Compliance-Mapping | SOC-Teams, die KI-Sichtbarkeit hinzufügen |
| JFrog | MLSecOps, Sicherheit der Modell-Registry, Hugging-Face-Integration | Adversariales Red-Teaming, Validierung der Sicherheitsausrichtung, Governance-Design | DevOps-Teams, die Modellartefakte verwalten |
| Wiz | AI-BOM im Cloud-Sicherheitskontext, Modell-Scanning | On-Prem-Modellsicherheit, Fine-Tuning-Sicherheit, agentische Architektur | Cloud-First-Organisationen |
| NVIDIA NeMo Guardrails | Open-Source-Laufzeit-Leitplanken für LLMs | Modell-Scanning, Lieferkettensicherheit, Provenance-Tracking | Teams, die kundenspezifische LLM-Anwendungen entwickeln |
| Big 4 / große Systemintegratoren | Governance-Frameworks, Compliance-Dokumentation, Vorstandspräsentationen | Implementierung. Aufbau von Scanning-Pipelines, Konfiguration von ML-BOMs, Bereitstellung von Modellsignierung. Engagements beginnen bei 500 Tsd. $ Strategie und skalieren auf 3–10 Mio. $. | Organisationen, die auditfertige Dokumentation benötigen |
| Open Source (ModelScan, PickleScan, SafeTensors) | Kostenloses grundlegendes Scanning und sicherere Serialisierungsformate | Orchestrierung auf Enterprise-Niveau, verhaltensbasiertes Sandboxing, Provenance, Richtliniendurchsetzung | Teams mit starkem internem Sicherheitsengineering |
Eine Lücke, die niemand gut füllt. Der Wandel der Organisationskultur ist der schwierigste Teil. Kein Tool und keine Beratung beseitigt die menschliche Tendenz, die Governance zugunsten von Geschwindigkeit zu umgehen. Wir bauen die technischen Kontrollen, aber der CISO braucht weiterhin die Zustimmung der Geschäftsleitung. Wenn ein Data Scientist ein Modell in 30 Sekunden von Hugging Face herunterladen kann, wird jedes Sicherheits-Gate, das 30 Minuten dauert, umgangen. Die Kontrollen müssen schnell genug sein, damit Compliance einfacher ist als Umgehung.
Sechs Fähigkeiten, jede so konstruiert, dass sie sich in Ihren bestehenden Sicherheits-Stack und Ihre CI/CD-Pipelines integriert.
Wir bauen eine automatisierte Prüfung, die zwischen öffentlichen Modell-Repositories und Ihrer internen Registry sitzt. Jedes Modell durchläuft verhaltensbasiertes Sandboxing (geladen in isolierten Containern, Syscalls überwacht), Tiefenanalyse über mehrere Formate (Pickle, PyTorch, GGUF, Keras, SafeTensors) und kryptografische Signierung mit Ihrer Enterprise-PKI.
Wir setzen auf Verhaltensanalyse statt statisches Scanning, weil die Zero-Day-Bypässe von PickleScan beweisen, dass Blacklist-Ansätze grundsätzlich kaputt sind. Statisches Scanning fragt „Enthält diese Datei bekannte bösartige Muster?“ Verhaltensbasiertes Sandboxing fragt „Was tut dieser Code tatsächlich, wenn er läuft?“ Die zweite Frage erfasst neuartige Angriffe.
In CI/CD integrierte CycloneDX-ML-BOM-Generierung. Jedes Modell erhält eine Stückliste, die die Herkunft der Trainingsdaten, Framework-Versionen, Abhängigkeitsbäume und den Fine-Tuning-Verlauf dokumentiert.
Wir verwenden CycloneDX statt SPDX, weil das ML-BOM-Tooling ausgereifter ist, stellen aber den SPDX-3.0-Export für Organisationen sicher, die beides benötigen. Die ML-BOM ist kein Compliance-Häkchen. Sie ist die Datenstruktur, die jede andere Sicherheitskontrolle erst ermöglicht: Man kann nicht signieren, was man nicht inventarisiert, und man kann nicht auditieren, was man nicht nachverfolgen kann.
Erkennung nicht autorisierter Modell-Downloads und KI-API-Aufrufe auf Netzwerkebene. Integration mit Ihrem bestehenden SIEM/SOAR. Wir kartieren jeden KI-Berührungspunkt, einschließlich Schatten-Deployments, und bauen dann eine Richtliniendurchsetzung auf, die Risiken blockiert, ohne Innovation zu blockieren.
Das Ziel: Ihr Sicherheitsteam sieht 100 % der KI-Nutzung, nicht die 38 %, die aktuelle Tools sichtbar machen. Die Erkennung umfasst Hugging-Face-Downloads, OpenAI-/Anthropic-/Google-API-Aufrufe, Modellgewicht-Transfers über HTTP/S und lokale Modellausführung per Prozessüberwachung auf verwalteten Endgeräten.
Automatisierte Sicherheits-Neubewertung nach jedem Fine-Tuning-Lauf. OWASP-LLM-Top-10-Benchmark-Suite, adversariales Probing auf Backdoor-Trigger und Regressionstests der Sicherheitsausrichtung.
Wir bauen das, weil fast niemand die Sicherheit nach dem Fine-Tuning neu bewertet. Die Daten zur Sicherheitsverschlechterung im obigen Abschnitt belegen es. Die Validierungspipeline läuft als CI/CD-Gate. Ein Modell, das die Sicherheitsregression nicht besteht, kann unabhängig von seiner Aufgabenleistung nicht in die Produktion überführt werden.
Privilegientrennung für KI-Agenten. Deterministische Richtlinienebenen, die eine Eskalation von Prompt zu RCE verhindern (genau der Angriffsvektor in CVE-2025-53773). Durchsetzung von Tool-Nutzungsrichtlinien, Human-in-the-Loop-Gates für Hochrisikooperationen und Laufzeit-Verhaltensmonitoring.
Die Architektur erkennt anomale Agentenaktionen, bevor sie kaskadieren. Ein Agent, der plötzlich beginnt, in Dateisystempfade außerhalb seiner Sandbox zu schreiben, APIs aufzurufen, die er noch nie aufgerufen hat, oder eine Privilegieneskalation zu versuchen, wird beendet und zur Überprüfung gemeldet.
Für CISOs, die die Funktion von Grund auf aufbauen. NIST-AI-100-2-Control-Mapping, Compliance-Architektur für den EU AI Act, Risikoquantifizierung auf Vorstandsebene und Incident-Response-Playbooks für KI-spezifische Angriffe.
Wir helfen, technisches Risiko in eine Budgetbegründung zu übersetzen, die Vorstände genehmigen. „Wir haben 352 Tsd. unsichere Probleme über öffentliche Modell-Registries gefunden“ ist ein Datenpunkt. „Unsere Ingenieure haben im letzten Quartal 47 ungeprüfte Modelle heruntergeladen, 3 enthielten ausführbaren Code in ihrer Serialisierungsschicht, und unsere aktuellen Kontrollen erkannten keines davon“ ist eine Budgetbegründung.
Drei Phasen, jede mit definierten Liefergegenständen und ehrlichen Vorbehalten dazu, was zu erwarten ist.
Wochen 1–3
Liefergegenstand: Bericht zur KI-Sicherheitslage mit priorisiertem Risikoregister
Vorbehalt: Diese Phase bringt oft 3–5-mal mehr KI-Nutzung zum Vorschein, als der CISO erwartet hatte. Das ist normal. Die Schatten-KI-Erkennung ist der wertvollste und der unangenehmste Teil des Engagements.
Wochen 4–10
Liefergegenstand: Produktionsreife Sicherheitskontrollen, integriert in bestehende Workflows
Vorbehalt: Der Zeitrahmen hängt von der CI/CD-Reife ab. Teams mit ausgereiften DevOps-Pipelines stellen schneller bereit. Organisationen, die Modelle noch über USB-Laufwerke oder geteilte Ordner bewegen (häufiger, als man erwarten würde), benötigen zusätzliche Infrastrukturarbeit.
Wochen 11–14
Liefergegenstand: Selbsttragender KI-Sicherheitsbetrieb mit dokumentierten Runbooks
Vorbehalt: Das erste adversariale Red-Team findet immer etwas. Das ist der Sinn. Ein Red-Team, das nichts findet, hat sich entweder nicht genug angestrengt oder war zu eng definiert.
Beantworten Sie acht Fragen, um Ihre KI-Sicherheitslage zu benchmarken. Es werden keine Daten erhoben. Alles läuft in Ihrem Browser.
4–6 Wochen für eine grundlegende Pipeline, die statisches Scanning und Signaturverifizierung abdeckt. 8–12 Wochen für vollständiges verhaltensbasiertes Sandboxing mit CI/CD-Integration. Der Engpass ist selten die Scanning-Technologie selbst. Es ist die Integration mit Ihrer bestehenden Modell-Registry (MLflow, Weights & Biases, JFrog ML) und die Definition der Richtlinienlogik: Was wird blockiert vs. markiert vs. unter Quarantäne gestellt. Wir haben festgestellt, dass die Richtlinienentscheidungen länger dauern als das Engineering.
Formatkomplexität kostet zusätzliche Zeit. Pickle, PyTorch, GGUF, Keras und SafeTensors erfordern jeweils unterschiedliche Analyseansätze. Pickle bleibt das risikoreichste Format, weil torch.load() während der Deserialisierung beliebigen Python-Code ausführt, weshalb verhaltensbasiertes Sandboxing für dieses Format wichtiger ist als statisches Scanning. SafeTensors ist die sicherste Serialisierungsoption und die am einfachsten zu scannende, aber weniger als 20 % der Produktionsmodelle nutzen es heute. Ihre Pipeline muss alle handhaben können, weil Sie nicht kontrollieren können, welches Format vorgelagerte Modellanbieter wählen.
Diese Plattformen sind hervorragend in dem, was sie tun. Die Protect-AI-Integration von Palo Alto (über Prisma AIRS) bietet Ihnen Modell-Scanning innerhalb Ihres bestehenden Sicherheits-Stacks. MLSecOps von JFrog übernimmt die Governance der Modell-Registry. Wiz fügt der Cloud-Sichtbarkeit AI-BOM hinzu. Was sie nicht tun: die End-to-End-Architektur entwerfen, die ML-BOM-Generierung in Ihrer spezifischen CI/CD-Pipeline konfigurieren, die Richtlinienlogik für Ihren regulatorischen Kontext aufbauen oder Ihren Modell-Deployment-Workflow neu konstruieren. Sie sind Scanning-Tools. Wir sind das Implementierungsteam, das sie zum Zusammenspiel bringt.
Viele Engagements beginnen mit Organisationen, die diese Plattformen bereits haben, aber Hilfe bei deren Operationalisierung benötigen. Ein häufiges Muster: Das Sicherheitsteam hat vor sechs Monaten Protect AI gekauft, einen Scan durchgeführt, 400 Befunde erhalten und kam dann ins Stocken, weil niemand diese Befunde mit Remediation-Workflows verknüpft oder das Scanning in die Modell-Promotion-Pipeline integriert hat.
Die technische Hürde für Modellvergiftung ist niedriger, als die meisten CISOs annehmen. Forschung zeigt, dass bereits 250 vergiftete Dokumente in einem Trainingskorpus ein Modell mit 13B Parametern mit einer Backdoor versehen können. Microsoft veröffentlichte im Februar 2026 bahnbrechende Erkennungsmethoden, doch die meisten Organisationen haben keinerlei Erkennungsfähigkeit im Einsatz. Das Problem der Sicherheitsverschlechterung beim Fine-Tuning ist unmittelbarer und häufiger: Llama 3.1 8B fällt bei der Resilienz gegen Prompt-Injection nach einer einzigen Fine-Tuning-Runde von 0,95 auf 0,15. Das ist kein Angriff. Das ist normales Fine-Tuning ohne Sicherheits-Neubewertung.
Dokumentierte Produktionsvorfälle absichtlicher Modellvergiftung bleiben selten. Aber die Bedingungen sind reif: Über 80 % der ML-Modelle nutzen Pickle-Serialisierung, 62 % der Sicherheitsteams können nicht feststellen, wo Modelle eingesetzt werden, und ein Modell namens „baller423“ auf Hugging Face wurde dabei entdeckt, wie es eine Reverse-Shell zu Kreonet aufbaute. Der Präzedenzfall der FTC zur Modell-Disgorgement (Weight Watchers/Kurbo, 2022) bedeutet, dass ein vergiftetes Modell Sie zwingen könnte, von Grund auf zu löschen und neu zu trainieren, zu Kosten, die die Sicherheitsverletzung selbst in den Schatten stellen.
Der EU AI Act ist ab dem 2. August 2026 vollständig anwendbar. Für Hochrisiko-KI-Systeme benötigen Sie technische Dokumentation, die die Herkunft, den Umfang, die Merkmale und die Bereinigungsmethoden der Trainingsdaten abdeckt. Lieferkettenpflichten verlangen von Importeuren und Händlern, die Konformitätsbewertung, die technische Dokumentation und die CE-Kennzeichnung zu verifizieren. Praktisch bedeutet das ML-BOMs für jedes Modell in Ihrer Pipeline, signierte Attestierungen für die Provenance und Audit-Trails für Fine-Tuning-Entscheidungen.
CycloneDX ML-BOM ist der implementierungsreifste Standard. SPDX 3.0 fügte 2024 AI/ML-Profile hinzu, und manche Organisationen benötigen beide Formate für unterschiedliche regulatorische Zielgruppen. Wir bauen die Dokumentationspipeline so, dass das Provenance-Tracking automatisiert ist und keine manuelle Compliance-Übung. Der häufige Fehler besteht darin, dies als einmaliges Dokumentationsprojekt zu behandeln. Jeder Fine-Tuning-Lauf, jedes Modell-Update und jede Datensatzänderung muss aktualisierte Provenance-Aufzeichnungen erzeugen. Wenn Ihre ML-BOM statisch ist, ist sie innerhalb von Wochen falsch.
Privilegientrennung ist das Fundament. Jeder Agent erhält ein Least-Privilege-Profil, das definiert, welche Tools er aufrufen, auf welche APIs er zugreifen und welche Dateisystempfade er berühren kann. Das spiegelt das Capability-Modell von Linux wider, angewandt auf KI-Agenten. Die GitHub-Copilot-RCE (CVE-2025-53773, CVSS 7.8) geschah, weil der YOLO-Modus dem Agenten uneingeschränkten Systemzugriff gewährte und eine Prompt-Injection in der Dokumentation eines Repositories zur vollständigen Remote-Codeausführung eskalierte. Deterministische Richtlinienebenen verhindern diesen Eskalationspfad vollständig.
Laufzeitmonitoring fügt eine Verhaltensbaseline hinzu, die anomale Agentenaktionen (unerwartete Tool-Aufrufe, ungewöhnliche API-Muster, Versuche der Privilegieneskalation) erkennt, ohne der Normaloperation Latenz hinzuzufügen. Es GIBT geringe Latenzkosten für Sicherheitsprüfungen bei Hochrisikooperationen: Dateisystem-Schreibvorgänge, Cloud-API-Aufrufe, Zugriff auf Anmeldedaten. Für die meisten Enterprise-Deployments sind das 50–200 ms pro gegateter Operation. Niedrigrisikooperationen (Lesen freigegebener Datenquellen, Textgenerierung, Aufruf vorab genehmigter APIs) passieren ohne hinzugefügte Latenz. Die Frage ist, ob 50–200 ms bei Hochrisikoaufrufen akzeptabel sind im Vergleich zu einem Agenten mit vollem Systemzugriff und ohne Leitplanken.
KI-Sicherheitsvorfälle erfordern eine andere Forensik als Netzwerkeinbrüche. Bei Angriffen auf Modellebene (Vergiftung, Backdoors) lautet die Reaktionssequenz: Modell von der Produktion isolieren, Integrität der Trainingspipeline verifizieren, auf Datenexfiltration über Modellausgaben prüfen (Modelle können gestohlene Daten in ihren Gewichten kodieren und über sorgfältig gestaltete Prompts preisgeben) und feststellen, ob Sie von einem bekannt sauberen Checkpoint neu trainieren müssen.
Bei Vorfällen mit agentischer KI müssen Sie zudem jeden Tool-Aufruf und jede Aktion des Agenten nachverfolgen, die Integrität seines Speichers und Kontextfensters verifizieren (Prompt-Injection kann über Sitzungen hinweg fortbestehen, wenn der Kontext gespeichert wird) und auf laterale Bewegung über die Berechtigungen des Agenten prüfen. Generische IR-Prozesse decken Forensik auf Modellebene nicht ab, weil die Artefakte andere sind. Sie analysieren keine Netzwerklogs und Memory-Dumps. Sie analysieren Modellgewichte, die Herkunft der Trainingsdaten, Fine-Tuning-Verläufe und Agenten-Aktionslogs. Wir bauen Playbooks, die für diese Szenarien spezifisch sind, einschließlich Verfahren zur Beweissicherung für Modellgewichte (die hunderte Gigabyte umfassen können), Chain-of-Custody-Dokumentation für Trainingsdaten und Kommunikationsvorlagen für Regulierungsbehörden, die möglicherweise eine Modell-Disgorgement verlangen.
Die technischen Grundlagen hinter dieser Lösung, veröffentlicht als detaillierte Whitepaper.
WP-91
ML-BOMs, Modell-Scanning, kryptografische Signierung, Schatten-KI-Erkennung und Confidential Computing für Enterprise-ML-Pipelines.
WP-18
Mehrschichtige KI-Validierung, Tests der adversarialen Robustheit und NIST-AI-RMF-Compliance-Frameworks.
WP-89
Sicherheitsverletzungsanalyse 2025, neuro-symbolische Guardrails und Constitutional-AI-Sicherheitsarchitektur für Produktionssysteme.
WP-93
Erkennung von Datenvergiftung, Provenance-Tracking und souveräne KI-Infrastruktur für hochsichere Umgebungen.
62 % der Sicherheitsteams können nicht feststellen, wo KI-Modelle in ihrer eigenen Umgebung eingesetzt werden.
Die meisten Organisationen entdecken ihre KI-Sicherheitslücken nach einem Vorfall. Wir helfen Ihnen, sie zu finden, bevor einer passiert.