Souveräne KI-Infrastruktur

Ihre Mitarbeitenden nutzen bereits KI. Die Frage ist, ob Sie sie kontrollieren.

Jedes fünfte Unternehmen hat bereits einen Sicherheitsvorfall durch die nicht genehmigte Nutzung von KI-Tools erlitten. Ein Verbot von KI funktioniert nicht. Der Aufbau sicherer, souveräner Alternativen schon. Wir stellen private LLMs innerhalb Ihrer VPC bereit – mit dokumentengenauen Berechtigungen, Laufzeit-Guardrails und der Compliance-Dokumentation, die Aufsichtsbehörden verlangen.

Für CISOs, CTOs und Infrastrukturverantwortliche in regulierten Unternehmen, die eine private KI-Bereitstellung evaluieren, eine souveräne KI-Architektur aufbauen oder das Risiko von Schatten-KI eindämmen wollen.

670.000 $

Zusätzliche Kosten von Schatten-KI-Vorfällen gegenüber herkömmlichen Vorfällen

IBM Cost of a Data Breach, 2025

55 Mio. EUR

Kombinierte Höchststrafenobergrenze aus DSGVO + KI-Verordnung

Kombinierte Bestimmungen der EU-KI-Verordnung + DSGVO

247 Tage

Durchschnittliche Zeit bis zur Erkennung eines Schatten-KI-Vorfalls

IBM Cost of a Data Breach, 2025

Das Verbot ist gescheitert. Der Wrapper reicht nicht aus.

Die Herausforderung der KI-Sicherheit im Unternehmen hat drei Ebenen, und die meisten Organisationen bleiben bei der ersten stecken.

Ebene 1: Schatten-KI ist bereits im Haus

Der Leak von Halbleiter-Code bei Samsung im Jahr 2023 war der Warnschuss. Drei Jahre später hat sich das Problem exponentiell vergrößert. IBM-Daten aus 2025 zeigen, dass 43 % der Mitarbeitenden sensible Arbeitsinformationen mit KI-Tools teilen, ohne dass der Arbeitgeber davon weiß. Netskope verzeichnet über 317 verschiedene GenAI-Anwendungen in Unternehmensumgebungen. Ihre Firewall blockiert ChatGPT und Claude. Ihre Mitarbeitenden nutzen eines der anderen 315 Tools oder wechseln einfach zur 5G-Verbindung ihres Handys.

Die Psychologie dahinter ist einfach: Wenn KI-Tools einen Produktivitätsgewinn von 3-5x liefern und die offizielle Richtlinie lautet „nicht benutzen“, verliert die Richtlinie. 46 Prozent der Mitarbeitenden erklären ausdrücklich, dass sie KI-Tools unabhängig von einem Verbot weiter nutzen werden. Das sind keine Querschläger. Es sind Ihre leistungsstärksten Kräfte, die einfach ihre Arbeit erledigen wollen. Der Angriffsvektor ist nicht Böswilligkeit, sondern das verzweifelte Streben nach Effizienz, das das Unternehmen nicht erfüllt hat.

Ebene 2: Managed APIs haben ein Zuständigkeitsproblem

Azure OpenAI und AWS Bedrock lösen das Problem „Daten bleiben in Ihrem Tenant“ wirksam. Netzwerkisolation, VPC-Endpunkte, SOC-2-Compliance. Für viele Organisationen ist das ausreichend. Aber „managed private“ ist nicht gleich „souverän“.

Sowohl Microsoft als auch Amazon haben ihren Hauptsitz in den USA und unterliegen dem US CLOUD Act. Dieser erlaubt es US-Strafverfolgungsbehörden, den Zugriff auf Daten zu erzwingen, selbst wenn die Server in Frankfurt oder Dublin stehen. Im März 2026 verhängte die österreichische Datenschutzbehörde gegen ein Wiener Fintech eine Geldbuße von 450.000 EUR, weil es eine US-basierte KI-API für das Kreditscoring genutzt hatte, und wertete dies als unrechtmäßige Übermittlung nach der DSGVO. Das Urteil bestätigt, wovor Datenschutzjuristen seit Jahren warnen: Das Hosting in einer EU-Region eines US-Hyperscalers beseitigt das Zuständigkeitsrisiko nicht.

Ebene 3: Berechtigungsvererbung bricht RAG

Genau hier kommen die meisten souveränen KI-Projekte tatsächlich ins Stocken. Sie stellen Llama auf einem GPU-Cluster in Ihrer VPC bereit. Sie verbinden es mit einer Vektordatenbank. Sie indexieren Ihre SharePoint-Dokumentenbibliothek. Und dann stellen Sie fest, dass Ihr Active Directory 15 Jahre an Berechtigungsvererbungs-Altlasten angehäuft hat.

Verschachtelte Sicherheitsgruppen, verwaiste Verteilerlisten, OU-übergreifende Vererbungsketten und Regeln für dynamische Gruppenmitgliedschaften, die niemand vollständig versteht. Wenn ein Junior-Analyst die KI nach Quartalsprognosen fragt, ruft das Retrieval-System Finanzdokumente auf Vorstandsebene ab, weil die Berechtigungszuordnung nicht korrekt durch drei Ebenen verschachtelter Gruppen vererbt wurde. Das ist kein theoretisches Risiko. Es ist der Grund, warum die meisten RAG-Pilotprojekte in Unternehmen ihre Sicherheitsprüfung nicht bestehen. Der naive Ansatz (jeden Dokument-Chunk mit einer flachen ACL zu kennzeichnen) bricht unter der Komplexität realer Identitätssysteme im Unternehmen zusammen.

Souveräne KI-Optionen: Was tatsächlich existiert

Referenztabelle zur Bewertung von Ansätzen für die souveräne KI-Bereitstellung. Bringen Sie sie zu Ihrem nächsten Architektur-Review mit.

Ansatz	Beispiele	Datenresidenz	CLOUD-Act-Risiko	Ehrliche Lücken
US-Hyperscaler, Managed Private	Azure OpenAI, AWS Bedrock, Google Vertex AI	Regional (Daten in Ihrem Tenant, in der von Ihnen gewählten Region)	Ja (Mutterkonzern mit US-Hauptsitz)	Beste Compliance-Zertifizierungen. Einfachster Weg. Aber die rechtliche Zuständigkeit bleibt US-amerikanisch, unabhängig vom Serverstandort. Der Zugang zu Frontier-Modellen ist ein echter Vorteil.
Europäische Souveräne Cloud	OVHcloud, Scaleway, Hetzner + Open-Weight-Modelle	Vollständig EU (Betreiber mit EU-Hauptsitz)	Keines	Echte Zuständigkeitsisolation. Aber kleinere GPU-Flotten, weniger Managed-KI-Dienste, und Sie betreiben den gesamten MLOps-Stack selbst. Scaleway bietet inzwischen Blackwell-B300-GPUs an.
Souveräne KI-Plattformen	Cohere Model Vault, Mistral Compute, TrueFoundry	VPC / On-Premises	Variiert (Cohere ist kanadisch; Mistral ist französisch; TrueFoundry hat seinen Sitz in den USA)	Speziell für die private Bereitstellung entwickelt. Cohere (240 Mio. $ ARR) und Mistral (830 Mio. $ eingeworben) sind gut finanziert. Aber Sie sind an deren Modell-Ökosystem und Preisgestaltung gebunden.
Open-Source-DIY	Llama 4 + vLLM + Qdrant auf Ihrer eigenen Infrastruktur	Volle Kontrolle	Keines (bei EU-basierter Infrastruktur)	Maximale Flexibilität und niedrigste Inferenzkosten bei Skalierung. Erfordert jedoch 2-3 dedizierte MLOps-Ingenieure (400.000-1 Mio. $/Jahr vollkostenbasiert), und Sie verantworten jeden Ausfall, jedes Modell-Update und jeden Sicherheitspatch.
Big 4 / große Systemintegratoren	Accenture, Deloitte, IBM Consulting, Wipro	Hängt von der Implementierung ab	Hängt von der Infrastrukturwahl ab	Tiefe Unternehmensbeziehungen und Change-Management-Expertise. Aber Mandate kosten 500.000-5 Mio. $+, Zeitpläne erstrecken sich auf 12-18 Monate, und sie implementieren in der Regel Anbieterplattformen, statt eine maßgeschneiderte souveräne Infrastruktur aufzubauen. Accentures neue Cyber.AI-Partnerschaft mit Anthropic bindet Sie an einen einzigen Modellanbieter.
Veriprajna	Herstellerneutrale Architektur + kundenspezifischer Aufbau	Ihre Wahl (wir entwerfen für Ihr Risikoprofil)	Ihre Wahl	Kleineres Team als die Big 4 (Tiefe statt Breite). Keine proprietäre Plattform zu verkaufen, was bedeutet: kein Vendor-Lock-in, aber auch kein schlüsselfertiges Produkt. Jedes Mandat ist maßgeschneidert, was länger dauert als die Bereitstellung einer Managed-Plattform, aber zur tatsächlichen Anforderung passt.

Was wir bauen

Sechs Fähigkeiten, organisiert rund um die Probleme, die CISOs und CTOs überhaupt erst zur souveränen KI führen.

Entwurf einer souveränen Architektur

Wir bilden Ihre Datenklassifizierung, regulatorischen Pflichten (EU-KI-Verordnung, DSGVO, HIPAA, SOX) und Ihre Risikobereitschaft ab, um die richtige Bereitstellungstopologie zu bestimmen. Nicht immer vollständig selbst gehostet. Ein US-Finanzdienstleister ohne EU-Betroffene findet Azure OpenAI in einem dedizierten Tenant möglicherweise ausreichend. Eine europäische Bank, die Kunden-PII gemäß DSGVO verarbeitet, benötigt Open-Weight-Modelle auf souveräner EU-Infrastruktur. Wir entwerfen für das tatsächliche Risikoprofil, liefern die regulatorische Begründungsdokumentation und erstellen das Architekturentscheidungs-Dokument, das Ihr Compliance-Team benötigt.

Private-LLM-Bereitstellung & Optimierung

Wir stellen Open-Weight-Modelle (Llama 4, Mistral Large, DeepSeek) auf Ihrer VPC oder Ihrem On-Premises-GPU-Cluster bereit. Wir greifen zu vLLM mit spekulativer Dekodierung, wenn der Durchsatz zählt (Batch-Dokumentenverarbeitung, Chat mit hoher Parallelität), und zu TensorRT-LLM, wenn die Latenz kritisch ist (kundennahe Anwendungen unter 500-ms-SLA). Die aktuelle H100-Preisgestaltung liegt bei 2,50-3,50 $/Stunde bei Neo-Cloud-Anbietern, mit Inferenzkosten von rund 0,013 $ pro 1.000 Tokens für ein 70B-Modell. Wir benchmarken gegen Ihre tatsächliche Arbeitslast, nicht gegen synthetische Benchmarks, und liefern ein TCO-Modell, das die Personalkosten für MLOps einschließt.

RBAC-fähige RAG-Integration

Wir bauen die Berechtigungsschicht, die den meisten RAG-Bereitstellungen im Unternehmen fehlt. Unsere Synchronisations-Engine sitzt zwischen Ihrem Identity Provider (Active Directory, Okta, Azure AD) und der Vektordatenbank (Qdrant, Milvus, Weaviate), löst verschachtelte Gruppenmitgliedschaften auf, glättet Vererbungsketten und synchronisiert Berechtigungen im Takt von 60-90 Sekunden. Kritische Widerrufe (Kündigungen, Rollenänderungen) lösen sofortige, Webhook-gesteuerte Aktualisierungen aus. Wir behandeln die Grenzfälle, die naive Implementierungen scheitern lassen: attributbasierte Zugriffskontrolle, zeitlich begrenzten Dokumentenzugriff, bedingte Richtlinien und Vererbung von Klassifizierungsstufen über Organisationseinheiten hinweg.

Engineering von Laufzeit-Guardrails

Standard-Guardrail-Tools (NVIDIA NeMo, Lakera/Check Point, LLM Guard von Protect AI) bieten eine Grundlage. Sie bewältigen branchenspezifische Compliance-Muster nicht von Haus aus. Wir bauen individuelle Guardrail-Konfigurationen: PII-/PHI-Redaktion, abgestimmt auf Ihre Datentaxonomie für das Gesundheitswesen, Richtlinien zur Themeneinhaltung, ausgerichtet auf Ihre Compliance-Matrix für Finanzdienstleistungen, und Abwehr von Prompt Injection, gehärtet gegen Ihre spezifische Angriffsfläche. NeMo fügt auf optimierter Infrastruktur 50-150 ms Latenz hinzu. Für latenzkritische Pfade bauen wir leichtere kundenspezifische Klassifizierer, die parallel zur Inferenz-Engine laufen.

Eindämmung von Schatten-KI

ChatGPT zu blockieren dämmt Schatten-KI nicht ein. Es gibt 317+ GenAI-Anwendungen in Unternehmensumgebungen, und Mitarbeitende wechseln zu privaten Geräten, wenn Unternehmens-Tools eingeschränkt werden. Wir bauen die genehmigte Alternative, die wirklich besser ist als die Schatten-Tools: eine interne KI-Plattform mit SSO-Integration, Nutzungsanalysen, Guardrail-Durchsetzung und Audit-Trails. Die Plattform verbindet sich über die RBAC-fähige RAG-Pipeline mit Ihrer internen Wissensdatenbank und liefert Mitarbeitenden Antworten, die öffentliche Tools nicht bieten können, weil ihnen Ihr proprietärer Kontext fehlt. Wenn die sichere Option die nützlichste Option ist, sinkt die Schattennutzung ganz ohne Durchsetzung.

Agentische KI auf souveräner Infrastruktur

Gartner prognostiziert, dass bis Ende 2026 40 % der Unternehmensanwendungen KI-Agenten einbetten werden. Wenn diese Agenten automatisch Aktionen auf sensiblen Systemen ausführen (Transaktionen auslösen, Datensätze ändern, Datenbanken abfragen), wird Datensouveränität noch entscheidender. 92 Prozent der Sicherheitsverantwortlichen haben derzeit keine vollständige Sichtbarkeit über ihre KI-Identitäten. Wir bauen Identity Governance für KI-Agenten auf privater Infrastruktur: Zero-Trust-Zugriffskontrollen, Audit-Trails für autonome Aktionen und Guardrails, die einschränken, was ein Agent tun darf – basierend auf der Sensibilität der Daten und Systeme, die er berührt. Die souveräne Infrastruktur stellt sicher, dass Agenten-Telemetrie, Entscheidungsprotokolle und die von Agenten verarbeiteten Daten Ihre Umgebung nie verlassen.

Wie RBAC-fähige RAG tatsächlich funktioniert

Eine konkrete Schritt-für-Schritt-Darstellung dessen, was wir bauen, am Referenzszenario einer europäischen Bank.

1

Connector zum Identity Provider

Wir bauen einen bidirektionalen Connector zu Azure AD (oder Okta). Der Connector löst die Sicherheitsgruppenhierarchie der Bank auf: Die Gruppe „EMEA Credit Risk“ enthält verschachtelte Gruppen für jede Länderniederlassung, jede Ländergruppe erbt von regionalen Richtliniengruppen, und einzelne Nutzer tragen zusätzliche attributbasierte Claims (Freigabestufe, Abteilung, temporäre Projektzuweisungen). Der Connector glättet dies zu einer Berechtigungsmatrix, die alle 60 Sekunden aktualisiert wird. Wenn die Personalabteilung eine Kündigung in Workday verarbeitet, löst der Azure-AD-Webhook innerhalb von 30 Sekunden aus, und unser Connector widerruft alle Zugriffstokens dieses Nutzers auf die Vektordatenbank, noch bevor die IT-Abteilung ihre Offboarding-Checkliste überhaupt begonnen hat.

2

Dokumentenaufnahme mit Berechtigungskennzeichnung

SharePoint-Dokumente werden in Chunks zerlegt, eingebettet und in Qdrant gespeichert, wobei jedem Vektor Berechtigungs-Metadaten angehängt werden. Wir speichern jedoch keine flache ACL. Wir speichern eine Referenz auf die Berechtigungsrichtlinie, die die Retrieval-Engine zur Abfragezeit gegen den aktuellen Zustand des Identity Providers auswertet. Das bedeutet, dass ein mit „EMEA Credit Risk Managers“ geteiltes Dokument nicht neu indexiert werden muss, wenn ein neuer Manager der Gruppe beitritt. Die Berechtigungsauswertung erfolgt zur Retrieval-Zeit, nicht zur Aufnahmezeit. Für die 2,3 Millionen internen Dokumente der Bank reduziert dieser Ansatz den Neuindexierungs-Aufwand um rund 85 % im Vergleich zur flachen ACL-Kennzeichnung.

3

Berechtigungsdurchsetzung zur Abfragezeit

Wenn ein Relationship Manager das System zur Kreditexponierung eines Kunden abfragt, löst die Retrieval-Pipeline zunächst dessen aktuelle Berechtigungen auf (Gruppenmitgliedschaften, Attribut-Claims, zeitbasierte Zugriffsfenster) und filtert dann die Vektorsuchergebnisse gegen diese Berechtigungen, bevor irgendetwas das Kontextfenster des LLM erreicht. Das Modell sieht nie Dokumente, auf die der Nutzer keinen Zugriff hat. Der Latenz-Overhead beträgt 40-80 ms pro Abfrage, abhängig von der Komplexität der Berechtigungsauswertung. Für das Compliance-Team der Bank fügen wir ein sekundäres Audit-Log hinzu, das festhält, welche Dokumente abgerufen wurden, welche herausgefiltert wurden (und warum) und das vollständige Prompt-Antwort-Paar für die regulatorische Prüfung.

4

Guardrail-Schicht

Die Compliance-Anforderungen der Bank verlangen PII-Redaktion in Modellausgaben (Kundennamen, Kontonummern), Themeneinhaltung (die KI darf keine Anlageberatung ohne angemessene Haftungsausschlüsse geben) und Durchsetzung der Datenklassifizierung (die KI muss kennzeichnen, wenn ihre Antwort aus als „Nur intern“ klassifizierten Dokumenten stammt und der Ausgabekanal nach außen gerichtet ist). Wir konfigurieren NeMo Guardrails mit individuellen Colang-Richtlinien für diese Regeln und ergänzen einen Ausgabe-Klassifizierer, der auf der spezifischen Compliance-Taxonomie der Bank trainiert ist. Gesamtlatenz der Inferenz-Pipeline: Modellgenerierung (800-1200 ms für Llama 3.3 70B auf 2x H100) + Berechtigungsauswertung (60 ms) + Guardrail-Verarbeitung (120 ms) = rund 1-1,4 Sekunden Ende-zu-Ende.

Wie wir arbeiten

Vier Phasen von der Bewertung bis zum gehärteten Produktivbetrieb. Die Zeitpläne sind ehrliche Spannen, keine Marketingzahlen.

Phase 1 2-3 Wochen

Souveränitätsbewertung

Wir prüfen Ihre aktuelle KI-Nutzung (genehmigt und im Schatten), bilden die Datenklassifizierung über Geschäftsbereiche hinweg ab, identifizieren regulatorische Risiken (EU-KI-Verordnung, DSGVO, HIPAA, SOX, branchenspezifische Vorgaben) und bewerten Ihre bestehende Infrastruktur sowie die Fähigkeiten Ihres Teams.

Liefergegenstand: Architekturentscheidungs-Dokument mit empfohlener Bereitstellungstopologie, ehrlichem TCO-Vergleich über die Ansätze hinweg und einer Gap-Analyse gegen Ihre Compliance-Anforderungen. Dieses Dokument gehört Ihnen, unabhängig davon, ob Sie uns mit der Umsetzung beauftragen.

Phase 2 3-5 Wochen

Architektur & Modellauswahl

Wir wählen das richtige Modell für Ihren Anwendungsfall durch empirisches Benchmarking gegen Ihre tatsächlichen Daten (nicht MMLU-Werte). Wir entwerfen die Infrastrukturtopologie, konfigurieren die Integration des Identity Providers und bauen die Berechtigungssynchronisationsschicht. Die Modellwahl ist meinungsstark: Wir greifen zu Llama 4 Maverick für komplexe Reasoning-Aufgaben und zu Llama 3.3 70B für kostensensible Workloads mit hohem Durchsatz, wo es die Qualität von GPT-4o zu einem Bruchteil der Kosten erreicht.

Vorbehalt: Falls Ihre bestehende Cloud-Infrastruktur erhebliche Änderungen erfordert (kein Kubernetes, keine GPU-fähigen Instanzen), kommen 2-3 Wochen für die Infrastrukturbereitstellung hinzu.

Phase 3 4-8 Wochen

Bereitstellung & Integration

Wir stellen die Infrastruktur für das Model Serving bereit, verbinden die RAG-Pipeline mit Ihren Dokumenten-Repositorys (SharePoint, Confluence, Google Drive, Jira), konfigurieren die Guardrail-Schicht, integrieren SSO und bauen die interne Chat-UI. Die Spanne ist breit, weil die Zeit für die Dokumentenaufnahme von der Korpusgröße abhängt. Ein SharePoint mit 500K Dokumenten benötigt 2-3 Wochen zum Indexieren. Ein Korpus mit 5 Millionen Dokumenten benötigt mit Qualitätsprüfungen 6-8 Wochen.

Meilenstein: Pilotbereitstellung mit 50-100 Nutzern aus einem einzigen Geschäftsbereich. Wir messen Latenz, Retrieval-Genauigkeit, Korrektheit der Berechtigungsdurchsetzung und Nutzerzufriedenheit, bevor wir ausweiten.

Phase 4 Laufend

Härtung & Übergabe

Red-Teaming des bereitgestellten Systems auf Prompt Injection, Umgehung von Berechtigungen und Datenexfiltration. Aufbau von Monitoring-Dashboards (Halluzinationsrate, semantische Drift, Häufigkeit ausgelöster Guardrails, Schatten-KI-Erkennung). Vorbereitung der EU-KI-Verordnung-Compliance-Dokumentation (Transparenzaufzeichnungen, Herkunft der Trainingsdaten, Risikobewertung). Schulung Ihres internen Teams zum eigenständigen Betrieb des Systems.

Ehrlicher Vorbehalt: Modell-Updates (Meta veröffentlicht Llama 5, Mistral liefert eine neue Version) erfordern Neubewertung, erneutes Benchmarking und erneute Bereitstellung. Wir können dies als laufende Retainer-Arbeit übernehmen, aber Ihr internes Team sollte in der Lage sein, den Tagesbetrieb ohne uns zu managen. Die Abhängigkeit von einer Beratung für die Routinewartung ist ein Designfehler.

Fragen von CISOs und CTOs

Wie schneidet eine Private-LLM-Bereitstellung im Vergleich zu Azure OpenAI oder AWS Bedrock in puncto Datensouveränität ab?

Azure OpenAI und AWS Bedrock bieten starke Netzwerkisolation und Compliance-Zertifizierungen. Die Daten bleiben innerhalb Ihres Cloud-Tenants, und beide unterstützen VPC-Endpunkte und private Vernetzung. Für viele Unternehmen ist das ausreichend. Der entscheidende Unterschied ist die rechtliche Zuständigkeit. Sowohl Microsoft als auch Amazon sind Unternehmen mit US-Hauptsitz und unterliegen dem US CLOUD Act, der es US-Strafverfolgungsbehörden erlaubt, den Zugriff auf im Ausland gespeicherte Daten zu erzwingen.

Im März 2026 verhängte die österreichische Datenschutzbehörde gegen ein Wiener Fintech eine Geldbuße von 450.000 EUR, weil es eine US-basierte KI-API für das Kreditscoring genutzt hatte, und wertete dies als unrechtmäßige Datenübermittlung nach der DSGVO. Das Hosting in einer Frankfurt-Region ändert nichts am rechtlichen Risiko.

Eine vollständig selbst gehostete Bereitstellung mit Open-Weight-Modellen bei europäischen souveränen Cloud-Anbietern (OVHcloud, Scaleway, Hetzner) beseitigt das CLOUD-Act-Risiko vollständig, weil der Infrastrukturbetreiber nicht der US-Zuständigkeit unterliegt.

Wir helfen Unternehmen, dieses Spektrum ehrlich zu bewerten. Für einen US-Finanzdienstleister ohne EU-Betroffene ist Azure OpenAI oft die richtige Antwort. Für eine europäische Bank, die Kundendaten verarbeitet, fällt die Rechnung anders aus. Die Architektur sollte dem Risikoprofil folgen, nicht einer Anbieterpräferenz.

Was kostet es tatsächlich, ein Enterprise-LLM selbst zu hosten, gegenüber der Nutzung von APIs?

Die ehrliche Antwort hängt von drei Variablen ab: täglichem Token-Volumen, Teamreife und Compliance-Anforderungen. Zu aktuellen Preisen (April 2026) liegt die Miete einer H100-GPU bei 2,50-3,50 $/Stunde bei Neo-Cloud-Anbietern wie Lambda Labs oder CoreWeave. Eine einzelne H100, die Llama 3.3 70B mit vLLM betreibt, bedient rund 30-50 gleichzeitige Nutzer mit einer Latenz unter 2 Sekunden.

Für ein selbst gehostetes 70B-Modell betragen die Inferenzkosten rund 0,013 $ pro 1.000 Tokens gegenüber 0,15-0,60 $ für GPT-4o mini über APIs. Der Break-even-Punkt liegt für die meisten Unternehmen bei etwa 2 Millionen Tokens pro Tag. Unterhalb dieser Schwelle sind APIs günstiger, weil Sie keine ungenutzte GPU-Zeit bezahlen. Oberhalb spart Selbst-Hosting allein bei den Inferenzkosten 60-85 %.

Aber die Inferenz ist nicht das Gesamtbild. Sie benötigen MLOps-Ingenieure (jeweils 200.000-350.000 $, mindestens zwei für die Produktionszuverlässigkeit), Monitoring-Infrastruktur, Modell-Evaluierungs-Pipelines und eine Rollback-Strategie für feinabgestimmte Modelle. Für Teams, die neu im LLM-Betrieb sind, liegen die Gesamtbetriebskosten bei rund dem 3,2-Fachen der reinen API-Kosten. Für reife Teams mit bestehendem Tooling sinkt der Faktor auf etwa das 1,8-Fache.

Ein Fintech-Kunde senkte seine monatlichen KI-Ausgaben von 47.000 $ auf 8.000 $, indem er auf hybrides Selbst-Hosting umstieg – allerdings hatte er ein bestehendes Kubernetes-Team und 18 Monate MLOps-Erfahrung.

Wie setzen Sie dokumentengenaue Berechtigungen in einem Enterprise-RAG-System durch?

Das ist das schwierigste ungelöste Problem in Enterprise-RAG. Das Konzept ist einfach: Wenn ein Nutzer nicht auf ein Dokument in SharePoint zugreifen kann, sollte die KI dieses Dokument nicht als Kontext für seine Abfrage abrufen können. Bei der Umsetzung bricht es zusammen.

Die meisten Unternehmen haben 15+ Jahre Active-Directory-Berechtigungsvererbung über Organisationseinheiten, Sicherheitsgruppen, verschachtelte Gruppen und Verteilerlisten aufgebaut. Wenn Sie dies auf die Zugriffskontrollen der Vektordatenbank abbilden, bricht der naive Ansatz (jeden Dokument-Chunk mit einer flachen Berechtigungsliste zu kennzeichnen) unter dem Gewicht der Gruppenverschachtelung und dynamischen Mitgliedschaft zusammen.

Wir bauen eine Synchronisationsschicht, die zwischen Ihrem Identity Provider (Active Directory, Okta, Azure AD) und der Vektordatenbank (Qdrant, Milvus oder Weaviate) sitzt. Die Schicht löst Gruppenmitgliedschaften rekursiv auf, glättet Vererbungsketten und aktualisiert Vektor-Metadaten in einem konfigurierbaren Takt. Für die meisten Bereitstellungen synchronisieren wir alle 60-90 Sekunden als Ausgleich zwischen Aktualität und API-Last auf dem Identity Provider. Kritische Berechtigungswiderrufe (Mitarbeiterkündigung, Rollenänderungen) lösen eine sofortige Synchronisation per Webhook von Okta oder Azure AD aus.

Die tiefere Herausforderung ist die attributbasierte Zugriffskontrolle. Zeitlich begrenzter Dokumentenzugriff, bedingte Richtlinien (Zugriff nur von verwalteten Geräten) und die Vererbung von Klassifizierungsstufen erfordern eine individuelle Logik, die keine Standard-RAG-Plattform beherrscht. Wir bauen dies als Policy-Engine, die jeden Retrieval-Aufruf abfängt, die aktuellen Attribute des anfragenden Nutzers gegen die Zugriffsrichtlinie des Dokuments auswertet und die Ergebnisse filtert, bevor sie das Kontextfenster des LLM erreichen.

Was passiert, wenn Artikel 50 der EU-KI-Verordnung im August 2026 in Kraft tritt?

Artikel 50 führt Transparenzpflichten ein, die jedes Unternehmen betreffen, das KI auf dem EU-Markt bereitstellt, unabhängig davon, wo das Unternehmen seinen Hauptsitz hat. Zu den Anforderungen gehören, Nutzer klar zu informieren, wenn sie mit einem KI-System interagieren, KI-generierte Inhalte (Text, Audio, Bilder, Video) mit maschinenlesbaren Markierungen zu kennzeichnen sowie Deepfakes und synthetische Medien zu identifizieren.

Die Strafen erreichen speziell für Transparenzverstöße 15 Millionen EUR oder 3 % des weltweiten Jahresumsatzes. In Kombination mit anderen Bestimmungen der KI-Verordnung und der DSGVO erreicht das kombinierte maximale Strafrisiko 55 Millionen EUR oder 11 % des weltweiten Jahresumsatzes.

Die praktische Auswirkung auf souveräne KI-Bereitstellungen ist erheblich. Artikel 50 verlangt den Nachweis der Herkunft der Modell-Trainingsdaten. Bei Closed-Source-API-Anbietern (OpenAI, Anthropic, Google) können Sie nicht unabhängig überprüfen, welche Daten das Modell trainiert haben, welche Verzerrungen im Trainingsdatensatz vorhanden sind oder ob die Trainingsdaten urheberrechtlich geschützte europäische Inhalte enthielten. Selbst gehostete Open-Weight-Modelle geben Ihnen volle Sichtbarkeit über die Zusammensetzung der Trainingsdaten und ermöglichen die Transparenzdokumentation, die Artikel 50 verlangt.

Die Europäische Kommission veröffentlichte im Dezember 2025 ihren ersten Entwurf eines Verhaltenskodex zur Kennzeichnung von KI-Inhalten, mit der finalen Fassung wird bis Mai-Juni 2026 gerechnet. Unternehmen sollten jetzt mit der Vorbereitung der Compliance-Dokumentation beginnen, anstatt auf die endgültigen Leitlinien zu warten.

Wie verhindern Sie Prompt Injection in Enterprise-LLM-Bereitstellungen?

Prompt Injection ist die SQL-Injection des LLM-Zeitalters. Ein Angreifer bettet Anweisungen in die Nutzereingabe oder in abgerufene Dokumente ein, die den System-Prompt des Modells außer Kraft setzen. In Enterprise-RAG-Systemen verschärft sich das Risiko, weil eingeschleuste Anweisungen über vom Modell abgerufene Dokumente eintreffen können, nicht nur über die direkte Nutzereingabe.

Wir bauen Verteidigung in der Tiefe über vier Ebenen. Erstens, Eingabe-Bereinigung: Vorverarbeitung aller Nutzereingaben durch einen Klassifizierer, der Anweisungsmuster, unsichtbare Unicode-Zeichen und Encoding-Tricks erkennt, bevor sie das Modell erreichen. Zweitens, Härtung des System-Prompts: Strukturierung des System-Prompts mit klaren Trennzeichen und Anweisungshierarchien, die Override-Versuche weniger wirksam machen. Drittens, Ausgabe-Filterung: Durchsuchen der Modellantworten nach Mustern von Datenexfiltration, PII-Leckage und themenfremden Inhalten, bevor sie an den Nutzer zurückgegeben werden. Viertens, Laufzeit-Monitoring: Protokollierung aller Prompt-Antwort-Paare und Ausführen von Anomalieerkennung, um neuartige Angriffsmuster zu erfassen.

Wir setzen für die Orchestrierungsschicht typischerweise NVIDIA NeMo Guardrails ein, mit individuellen Colang-Richtlinien, zugeschnitten auf die Compliance-Anforderungen des Kunden. Für kundennahe Bereitstellungen ergänzen wir Lakera (jetzt Teil von Check Point) zur Echtzeit-Bedrohungserkennung. NeMo fügt auf optimierter NVIDIA-Infrastruktur 50-150 ms Latenz hinzu, was für die meisten Unternehmensanwendungsfälle akzeptabel ist. Für latenzkritische Anwendungen bauen wir leichtere kundenspezifische Klassifizierer, die parallel zur Inferenz-Engine laufen.

Können wir weiterhin einige Cloud-KI-APIs neben einer privaten Bereitstellung nutzen?

Ja, und für die meisten Unternehmen ist hybrid die richtige Antwort. Volle Souveränität (alles auf privater Infrastruktur) ist für Verteidigungsauftragnehmer, Nachrichtendienste und Organisationen sinnvoll, die Verschlusssachen verarbeiten. Für alle anderen besteht der pragmatische Ansatz darin, Workloads nach Sensibilität zu routen.

Wir entwerfen mehrstufige Architekturen, bei denen sensible Workloads (Verarbeitung von Kundendaten, Finanzanalyse, HR-Dokumente, juristische Prüfung) auf privater LLM-Infrastruktur innerhalb Ihrer VPC laufen, während Allzweck-Aufgaben (Verfassen von E-Mails, Meeting-Zusammenfassungen, Code-Vervollständigung für nicht-proprietären Code) über Managed Services wie Azure OpenAI oder AWS Bedrock geroutet werden.

Die Routing-Schicht klassifiziert jede Anfrage anhand der enthaltenen Daten und der Rolle des Nutzers. Ein Compliance-Beauftragter, der interne Audit-Dokumente abfragt, trifft auf die private Llama-Bereitstellung mit RBAC-durchgesetztem Retrieval. Ein Marketing-Koordinator, der einen Blogbeitrag verfasst, wird zu Azure OpenAI geroutet, weil die Datensensibilität gering ist und die Qualität des Frontier-Modells den Kompromiss wert ist.

Dieser hybride Ansatz senkt die Infrastrukturkosten typischerweise um 40-60 % im Vergleich zu vollständigem Selbst-Hosting und wahrt zugleich die Souveränität für die Workloads, die sie tatsächlich brauchen. Die Routing-Intelligenz selbst läuft auf privater Infrastruktur, sodass die Klassifizierung dessen, was sensibel ist, Ihre Umgebung nie verlässt.

Technische Forschung

Die interaktiven Whitepaper hinter dieser Lösungsseite. Für den Käufer, der die Tiefe überprüfen möchte.

Die Illusion der Kontrolle: Warum das Verbot generativer KI scheiterte und wie private Enterprise-LLMs die Zukunft sichern

Tiefenanalyse der Schatten-KI-Krise, der Gründe für das Scheitern von Unternehmensverboten und der technischen Architektur der Private-LLM-Bereitstellung, einschließlich VPC-Containerisierung, Auswahl von Open-Weight-Modellen und RBAC-fähigem Retrieval.

Souveräne Intelligenz: Deep AI für das Post-Trust-Unternehmen architektonisch gestalten

Quantitative Analyse KI-generierter Bedrohungen (Phishing, Deepfakes, BEC), des vierschichtigen souveränen KI-Stacks, der Abwehr von adversarialem ML, der Compliance mit EU-KI-Verordnung und NIST AI RMF sowie der kryptografischen C2PA-Herkunft für die Authentizität von Multimedia.

Ihre Mitarbeitenden nutzen bereits KI. Die Frage ist, ob Sie sie kontrollieren.

Das Verbot ist gescheitert. Der Wrapper reicht nicht aus.

Ebene 1: Schatten-KI ist bereits im Haus

Ebene 2: Managed APIs haben ein Zuständigkeitsproblem

Ebene 3: Berechtigungsvererbung bricht RAG

Souveräne KI-Optionen: Was tatsächlich existiert

Was wir bauen

Entwurf einer souveränen Architektur

Private-LLM-Bereitstellung & Optimierung

RBAC-fähige RAG-Integration

Engineering von Laufzeit-Guardrails

Eindämmung von Schatten-KI

Agentische KI auf souveräner Infrastruktur

Wie RBAC-fähige RAG tatsächlich funktioniert

Connector zum Identity Provider

Dokumentenaufnahme mit Berechtigungskennzeichnung

Berechtigungsdurchsetzung zur Abfragezeit

Guardrail-Schicht

Wie wir arbeiten

Souveränitätsbewertung

Architektur & Modellauswahl

Bereitstellung & Integration

Härtung & Übergabe

Reifegradbewertung für souveräne KI

Fragen von CISOs und CTOs

Wie schneidet eine Private-LLM-Bereitstellung im Vergleich zu Azure OpenAI oder AWS Bedrock in puncto Datensouveränität ab?

Was kostet es tatsächlich, ein Enterprise-LLM selbst zu hosten, gegenüber der Nutzung von APIs?

Wie setzen Sie dokumentengenaue Berechtigungen in einem Enterprise-RAG-System durch?

Was passiert, wenn Artikel 50 der EU-KI-Verordnung im August 2026 in Kraft tritt?

Wie verhindern Sie Prompt Injection in Enterprise-LLM-Bereitstellungen?

Können wir weiterhin einige Cloud-KI-APIs neben einer privaten Bereitstellung nutzen?

Technische Forschung

Schatten-KI-Vorfälle kosten 670.000 $ mehr als herkömmliche Vorfälle

Souveränitätsbewertung

Souveräne KI-Bereitstellung

Auch veröffentlicht auf