
Die KI, die einen Gerichtsfall erfand — und die Architektur, mit der wir das unmöglich machen
Ich erinnere mich genau an den Moment, in dem ich aufhörte, der Art und Weise zu vertrauen, wie die meisten Menschen juristische KI bauen.
Es war spät an einem Dienstag, und ich las das Gerichtsprotokoll von Mata v. Avianca. Keine Zusammenfassung. Kein Tweet-Thread. Der tatsächliche Schriftsatz. Ein Anwalt hatte einen Schriftsatz mit Verweisen auf Varghese v. China Southern Airlines, Shaboon v. Egyptair und Petersen v. Iran Air — komplett mit Aktenzeichen, Daten und zitierten Urteilssprüchen. Überzeugend genug, dass die Gegenseite ihnen nachgehen musste. Die Fälle existierten nicht. ChatGPT hatte sie erfunden. Und als der Anwalt zu ChatGPT zurückkehrte, um es noch einmal zu überprüfen, bestätigte das Modell fröhlich seine eigenen Erfindungen: "Ja, diese Fälle existieren tatsächlich und sind in seriösen juristischen Datenbanken zu finden."
Ich legte das Protokoll beiseite und dachte: Das ist kein Prompting-Problem. Das ist ein Architekturproblem. Und der Großteil der juristischen KI-Branche tut so, als wäre es anders.
Dieser Vorfall — der zu einer Geldstrafe von 5.000 US-Dollar, einer richterlichen Rüge und einem Reputationskrater führte — wurde zur Gründungsfallstudie für das, was mein Team bei Veriprajna heute baut: Citation-Enforced-GraphRAG-Systeme für juristische KI. Systeme, in denen die KI physisch nicht in der Lage ist, eine Fallzitierung auszugeben, die keinem verifizierten Eintrag in einem Knowledge Graph entspricht. Nicht "wird es wahrscheinlich nicht." Kann es nicht.
Ich möchte erklären, warum dieser Unterschied wichtig ist, was es brauchte, um es zu bauen, und warum ich glaube, dass die Ära, in der man einem Foundation Model eine Chatbot-Oberfläche verpasst und es "juristische KI" nennt, vorbei ist.
Warum hat ChatGPT einen Gerichtsfall erfunden?
Das ist die Frage, die alle stellen, und die fast niemand richtig beantwortet.
Die gängige Erklärung lautet "Halluzination" — ein Wort, das so übermäßig verwendet wird, dass es seinen diagnostischen Wert verloren hat. Was tatsächlich in Mata v. Avianca geschah, ist spezifischer und vernichtender. Das Modell wurde gebeten, Präzedenzfälle zur Haftung von Fluggesellschaften für Verletzungen von Passagieren zu finden. Es durchsuchte keine Datenbank. Es hat keine. Es sagte die nächste statistisch wahrscheinliche Wortfolge voraus.
"Varghese" ist ein plausibler Klägername. "China Southern Airlines" ist ein plausibler Beklagter. Ein Aktenzeichen wie "2017 WL 3245891" folgt dem syntaktischen Muster echter Zitierungen. Das Modell setzte diese Fragmente auf dieselbe Weise zusammen, wie es ein Gedicht oder eine Marketing-E-Mail zusammensetzt — indem es etwas minimiert, das man Perplexity nennt, im Wesentlichen ein Maß dafür, wie "überrascht" das Modell von seiner eigenen Ausgabe ist. Geringe Überraschung bedeutet flüssigen Text. Flüssiger Text ist nicht dasselbe wie wahrer Text.
Das Modell ist darauf trainiert, die Perplexity zu minimieren — wie überrascht es vom nächsten Wort ist. Es ist nicht darauf trainiert, auf Provenienz zu optimieren — ob dieses Wort auf etwas Reales zurückgeht.
Das ist die zentrale Spannung. LLMs optimieren auf Kohärenz. Recht erfordert Provenienz. Das sind grundlegend verschiedene Zielsetzungen, und kein noch so großes Maß an Prompt Engineering überbrückt diese Kluft. Man kann GPT-4 sagen: "Du bist ein sorgfältiger Anwalt, zitiere nur echte Fälle." Es wird nicken und gehorchen — genau bis zu dem Punkt, an dem seine Trainingsdaten den benötigten Fall nicht enthalten, woraufhin es einen erfindet, der richtig klingt, denn richtig zu klingen ist buchstäblich das, worauf es optimiert ist.
Forscher aus Stanford haben dies rigoros getestet. Allzweck-Chatbots, selbst solche mit Internetzugang oder grundlegenden Retrieval-Fähigkeiten, halluzinierten zwischen 58 % und 82 % der Fälle bei komplexen juristischen Anfragen. Keine Randfälle. Routinemäßige juristische Rechercheanfragen.
Die Wrapper-Falle
Nach Mata begann ich, die juristischen KI-Tools auf dem Markt zu katalogisieren. Die meisten waren das, was die Branche höflich "Wrapper" nennt — dünne Benutzeroberflächen über der API von OpenAI oder Anthropic. Ein System-Prompt, der sagt: "Du bist ein hilfreicher juristischer Assistent." Vielleicht eine PDF-Upload-Funktion. Vielleicht eine schönere Schriftart.
Ich hatte ein Gespräch mit einer potenziellen Mandantin — Leiterin der Rechtsabteilung einer mittelgroßen Kanzlei —, die mir erzählte, dass sie eines dieser Tools evaluiert hatten. "Es ist schnell", sagte sie. "Aber letzte Woche zitierte es ein Sondervotum, als wäre es die Mehrheitsentscheidung. Mein Associate hätte es fast eingereicht." Sie hielt inne. "Das Beängstigende ist: Der Fall war echt. Nur die Entscheidung war ... falsch."
Das ist das, was mich an juristischen Halluzinationen nachts wachhält. Mata war dramatisch, weil die Fälle vollständig erfunden waren. Aber die subtileren Fehler — echter Fall, falsche Entscheidung; gültiges Gesetz, inzwischen aufgehoben; bindender Präzedenzfall aus der falschen Jurisdiktion — sind schwerer zu erkennen und wohl gefährlicher. Ein erfundener Fall wird beim ersten Prüfschritt markiert. Ein echter Fall, der für eine Aussage zitiert wird, die er nicht stützt? Der kann mehrere Prüfrunden überstehen.
Der Wrapper-Ansatz kann das nicht lösen, weil er die Datenschicht nicht besitzt. Er weiß nicht, welche Fälle existieren. Er weiß nicht, welche davon aufgehoben wurden. Er versteht nicht, dass eine Entscheidung des Second Circuit ein Gericht des Ninth Circuit nicht bindet. Er ist ein schickes Textfeld, das mit einer Wahrscheinlichkeitsmaschine verbunden ist.
Und die Ökonomie ist brutal. Analysen des Wrapper-Marktes zeigen, dass zwar einige schnell Umsätze erzielen, die überwiegende Mehrheit aber scheitert, weil ihnen jede verteidigbare Technologie fehlt. Mit dem Besserwerden der Foundation Models wird jede Funktion, die den Wrapper nützlich machte — Zusammenfassung, Entwürfe, Q&A —, ins Basismodell aufgenommen. Man baut auf gemietetem Land, und der Vermieter ist OpenAI.
Was passiert, wenn man KI eine Landkarte des Rechts gibt?

Hier beginnt die Obsession meines Teams.
Die Standardlösung für Halluzinationen ist Retrieval-Augmented Generation — RAG. Statt sich auf das Gedächtnis des Modells zu verlassen, ruft man relevante Dokumente aus einer Datenbank ab und übergibt sie als Kontext. Das ist eine echte Verbesserung. Aber für das Recht reicht es nicht, und ich möchte anhand eines konkreten Beispiels erklären, warum — eines, das uns wochenlang wahnsinnig gemacht hat.
Wir testeten eine standardmäßige Vector-RAG-Pipeline an der Frage, ob eine bestimmte Umweltverordnung von 1990 nach einer Entscheidung des Supreme Court von 2023 noch durchsetzbar war. Vector RAG tat, was es tut: Es fand Textabschnitte, die der Anfrage semantisch ähnlich waren. Es lieferte die Verordnung. Es lieferte die Entscheidung des Supreme Court. Es lieferte einen Fachartikel aus einer Law Review, der beide behandelte.
Das LLM fügte sie zu einer selbstbewussten, gut geschriebenen Antwort zusammen — und die war völlig falsch. Es behandelte den Fachartikel aus der Law Review — ein überzeugender, aber nicht bindender akademischer Kommentar — so, als hätte er dasselbe Gewicht wie die Entscheidung des Supreme Court. Schlimmer noch, es übersah, dass die Verordnung faktisch außer Kraft gesetzt worden war, weil die Kette der Autorität, die die Verordnung mit der aufhebenden Entscheidung verband, über einen zwischengeschalteten Berufungsfall lief, den die Vektorsuche nicht abgerufen hatte. Die Verbindung war nicht semantisch. Sie war strukturell.
Ich erinnere mich, wie meine leitende Ingenieurin sich mitten im Debugging zu mir umdrehte und sagte: "Das Problem ist nicht das Retrieval. Das Problem ist, dass Vektoren keine Beziehungen verstehen."
Sie hatte recht. Und das ist die Erkenntnis hinter GraphRAG — graphbasierte Retrieval-Augmented Generation.
Statt juristische Dokumente als isolierte Punkte im Vektorraum zu speichern, bilden wir sie in einem Knowledge Graph ab: ein Netzwerk, in dem jedes Gesetz, jeder Fall, jede Verordnung und jede Rechtsdoktrin ein Knoten ist, und die Beziehungen zwischen ihnen — zitiert, hebt auf, grenzt ab, interpretiert, bestätigt — explizite, beschriftete Kanten sind. Mehr über die vollständige Architektur findet sich in der interaktiven Version unserer Forschung.
Vector RAG fragt: "Finde Text, der wie diese Anfrage aussieht." GraphRAG fragt: "Finde das Gesetz, durchlaufe die 'interpretiert'-Kante, um Rechtsprechung zu finden, und durchlaufe dann die 'hebt auf'-Kante, um sicherzustellen, dass sie noch gültig ist."
Das ist kein subtiler Unterschied. Das ist der Unterschied zwischen dem Durchsuchen einer Bibliothek nach Bauchgefühl und dem gleichzeitigen Durchsuchen mit dem Zettelkatalog, dem Zitationsindex und dem Shepard's-Report.
Wie hält man eine KI davon ab, eine Zitierung zu erfinden?

Das ist der Teil, für den wir am längsten gebraucht haben, um ihn richtig hinzubekommen, und es ist der Teil, auf den ich am stolzesten bin.
Einen Knowledge Graph zu haben ist notwendig, aber nicht hinreichend. Der Graph gibt einem Struktur. Aber das LLM erzeugt den Text weiterhin Token für Token, und an jedem Punkt könnte es vom Graphen abweichen und anfangen zu erfinden. Wir brauchten einen Mechanismus, der das Modell nicht nur dazu ermutigt, echte Fälle zu zitieren — er verhindert physisch, dass es falsche zitiert.
Wir nennen das Graph-Constrained Decoding, und der Kernmechanismus ist etwas, das man KG-Trie nennt.
So funktioniert es, einfach ausgedrückt. Wir nehmen jede gültige Entität in unserem Knowledge Graph — jeden Fallnamen, jede Fundstellenangabe, jedes Aktenzeichen — und bauen daraus einen Präfixbaum (einen Trie). Wenn das LLM Text erzeugt und einen Punkt erreicht, an dem es gerade eine Zitierung ausgeben will, aktiviert sich der Constraint-Mechanismus. Er prüft: Was sind laut Trie die gültigen nächsten Token?
Wenn das Modell "Mata v. A" erzeugt hat — erlaubt der Trie Token, die gültige Fallnamen vervollständigen, die mit dieser Zeichenfolge beginnen. "Avianca" ist gültig. Bei allem anderen wird die Wahrscheinlichkeit auf minus unendlich gesetzt. Blockiert.
Wenn das Modell versucht, "Varghese v. Chi" zu erzeugen — findet der Trie keine gültige Fortsetzung. Die Generierung wird gestoppt. Das Modell ist gezwungen, zurückzuspringen und entweder eine echte Zitierung zu finden oder etwas wie "Kein Präzedenzfall gefunden." auszugeben.
Die KI kann sich keinen Fall ausdenken, weil sie physisch nicht die Token-Sequenz für einen Fall ausgeben kann, der nicht in der verifizierten Datenbank ist.
Das ist eine strukturelle Garantie, keine probabilistische. Wir sagen nicht "das Modell halluziniert mit 95 % geringerer Wahrscheinlichkeit." Wir sagen, der Erfindungsweg ist geschlossen. Die Token-Sequenz für eine gefälschte Zitierung kann buchstäblich nicht erzeugt werden.
Nun möchte ich genau sein, was das leistet und was nicht. Es verhindert Erfindung — das Erfinden eines Falls, der nicht existiert. Es verhindert nicht Fehlinterpretation — das Zitieren eines echten Falls, aus dem aber der falsche Schluss gezogen wird. Das ist ein Denkfehler, und er erfordert weiterhin menschliche Prüfung. Aber die Erfindung zu beseitigen, ist enorm. Es nimmt den katastrophalsten Fehlermodus — das Mata-Szenario — vollständig vom Tisch.
Es gab eine Nacht, früh in der Entwicklung, in der wir unseren ersten End-to-End-Test durchführten. Wir speisten das System mit genau der Anfrage, die in Mata die gefälschten Zitierungen erzeugt hatte. Das eingeschränkte System versuchte, "Varghese" zu erzeugen, prallte gegen die Trie-Wand, sprang zurück und lieferte einen echten Fall mit einer gültigen Zitationskette. Meine Ingenieurin schickte um 1:47 Uhr einen Screenshot in unseren Gruppenchat. Niemand antwortete mit Worten. Nur eine Reihe von Feuer-Emojis.
Warum können Wrapper das nicht?
Man fragt mich das ständig, und die Antwort ist architektonischer, nicht kommerzieller Natur.
Graph-Constrained Decoding erfordert, die Token-Wahrscheinlichkeiten des Modells — seine Logits — in Echtzeit während der Generierung zu manipulieren. Man braucht Zugriff auf die Inferenz-Engine auf der Decoding-Ebene. Standardmäßige kommerzielle APIs wie GPT-4 legen das nicht offen. Man kann einen Prompt senden und eine Antwort erhalten. Man kann den Generierungsprozess nicht mitten im Token abfangen und Constraints einschleusen.
Deshalb bauen wir auf Open-Weights-Modellen — Llama, Mistral — oder deployen über Enterprise-Endpunkte, die eigene Decoding-Loops erlauben. Wir hosten das Modell. Wir kontrollieren die Inferenz-Pipeline. Wir schleusen die KG-Trie-Constraints direkt in die Wahrscheinlichkeitsverteilung jedes Tokens ein, während es erzeugt wird.
Ein Wrapper kann das per Definition nicht. Er ruft die API eines anderen auf. Er ist ein Passagier, nicht der Pilot.
Der schwierigste Teil, über den niemand spricht
Den Constraint-Mechanismus zu bauen war intellektuell befriedigend. Den darunterliegenden Knowledge Graph zu bauen war eine Plackerei.
Juristische Texte sind auf eine Weise chaotisch, die einen Data Engineer zum Weinen bringen würde. Ein einzelner Fall kann als "Mata v. Avianca", "Mata", "678 F. Supp. 3d 443", "der Avianca-Fall" oder einfach als "Id." bezeichnet werden — eine zweibuchstabige Abkürzung, die "der gerade erwähnte Fall" bedeutet. All diese müssen zu einem einzigen kanonischen Knoten im Graphen aufgelöst werden. Übersieht man einen, hat man eine Lücke im Zitationsnetzwerk.
Wir verbrachten Monate damit, Entity-Resolution-Pipelines zu bauen, die Deduplizierung bewältigen ("Smith v. Jones, 123 F.3d 456" und "Smith, 123 F.3d at 456" sind derselbe Fall), Disambiguierung ("Smith v. Jones (1995)" versus "Smith v. Jones (2002)" — verschiedene Fälle, gleicher Name) und die besondere Hölle, "Id."-Verweise mittels Sliding-Window-Kontextparsing aufzulösen.
Und dann gibt es die Negativbehandlung — das "Red Flag"-System. Ein juristischer Knowledge Graph, der aufgehobene Fälle als gültige Autorität behandelt, ist schlimmer als nutzlos. Wir nehmen Citator-Signale auf — Formulierungen wie "overruled", "abrogated", "superseded" — und kodieren sie als blockierende Kanten im Graphen. Wenn das System einen Pfad durchläuft und auf eine OVERRULES-Kante trifft, wird dieser Pfad für bindende Autorität ungültig. Wenn jemand nach Roe v. Wade zu reproduktiven Rechten fragt, bringt der Graph sofort die OVERRULES-Kante von Dobbs v. Jackson zum Vorschein. Eine Vektorsuche könnte immer noch begeistert Roe zitieren, weil die schiere Menge an historischem Text, der ihn stützt, die Ähnlichkeitswerte dominiert.
Die vollständige technische Aufschlüsselung des Graph-Schemas, der Entity-Resolution-Pipeline und der Constraint-Architektur findet sich in unserem Forschungspapier.
Was bedeutet das eigentlich für eine Anwaltskanzlei?
Ich hatte ein Gespräch mit einem Managing Partner, der es unverblümt formulierte: "Knowledge Graphs interessieren mich nicht. Mich interessiert, ob meine Associates mich vor einem Richter blamieren werden."
Fair. Also lassen Sie mich das übersetzen.
Die Kosten von Mata v. Avianca beliefen sich nicht auf 5.000 US-Dollar. Es waren die öffentliche Demütigung, die Pflicht zur Mandantenbenachrichtigung, das Haftungsrisiko wegen Berufsfehler und das Signal an jeden potenziellen Mandanten, dass diese Kanzlei ihre Arbeit nicht überprüft. Für eine große Kanzlei ist ein einziger halluzinierter Schriftsatz ein existenzielles Reputationsereignis.
Citation-Enforced GraphRAG fungiert als Versicherungspolice gegen Erfindung. Der Wrapper-Ansatz bietet niedrige Anfangskosten und unbegrenzte Haftung. Unser Ansatz erfordert echte Investitionen in die Datenschicht und die Constraint-Architektur, aber er reduziert das Risiko der Zitatserfindung auf null.
Es gibt auch ein Effizienzargument, das weniger offensichtlich ist. Wenn eine Kanzlei derzeit KI für die Recherche nutzt, muss ein Associate jede einzelne Zitierung überprüfen. Dieser Überprüfungsschritt dauert oft länger als die Recherche selbst, was den Zweck zunichtemacht. GraphRAG-Benchmarks zeigen eine Verbesserung von 30–35 % gegenüber standardmäßigem RAG bei Multi-Hop-Reasoning-Aufgaben — die Art komplexer, verknüpfender Recherche, auf die es in Rechtsstreitigkeiten wirklich ankommt. Noch wichtiger: Weil die Zitierungen strukturell garantiert gültig sind, verlagert sich die menschliche Rolle vom "Faktenprüfer" zum "Strategieprüfer". Man verbringt nicht drei Stunden damit, zu bestätigen, dass Fälle existieren. Man verbringt diese Zeit mit der Frage, ob das Argument überzeugend ist.
Wenn jede Zitierung strukturell verifiziert ist, verlagert sich die Aufgabe des Anwalts vom Faktenprüfen der KI hin zum Nachdenken über Strategie. Genau darin liegt der wahre Hebel.
Und es gibt eine Transparenzdimension, die für Compliance wichtig ist. Ein Wrapper kann nicht erklären, warum er einen Fall ausgewählt hat. Ein GraphRAG-System kann den genauen Traversierungspfad zeigen: "Ich habe Fall A ausgewählt, weil er Gesetz B interpretiert und von Gericht C bestätigt wurde, das in Ihrer Jurisdiktion bindend ist." Dieser Audit-Trail ist nicht nur nice-to-have — er wird zu einer regulatorischen Erwartung.
Wohin führt das als Nächstes?
Die Branche bewegt sich von Chatbots zu Agenten — KI-Systemen, die nicht nur Fragen beantworten, sondern mehrstufige Aufgaben planen und ausführen. Ein juristischer Agent, der einen Abweisungsantrag entwerfen soll, muss den anwendbaren Maßstab recherchieren, unterstützende Rechtsprechung finden, überprüfen, dass die Fälle geltendes Recht sind, verfahrensrechtliche Anforderungen prüfen und das Argument zusammenstellen.
Ein Agent, der auf Vektorsuche läuft, hat keine Landkarte. Er hat einen Stapel Dokumente und eine gute Vermutung. Ein Agent, der auf einem Knowledge Graph läuft, hat eine explizite Struktur, die er durchlaufen kann: Gesetz → interpretierende Fälle → Verfahrensregeln → jurisdiktionsspezifische Anforderungen. Der Graph ist die Planungsschicht des Agenten.
Deshalb glaube ich, dass sich die Investition in Graph-Infrastruktur jetzt später mit Zinseszinsen auszahlt. Wrapper hinterlassen Chat-Logs. Knowledge Graphs hinterlassen eine strukturierte, wachsende, zunehmend wertvolle Landkarte juristischer Autorität, die mit jedem hinzugefügten Fall, jeder kodierten Beziehung, jedem aufgenommenen Negativbehandlungssignal nützlicher wird.
Der ehrliche Einwand
Man widerspricht an zwei Fronten, und ich möchte beide direkt ansprechen.
Erstens: "Ist das nicht einfach Westlaw mit zusätzlichen Schritten?" Nein. Westlaw ist eine Suchmaschine für Menschen. Es liefert Dokumente, die ein Anwalt liest und interpretiert. Was wir bauen, ist eine Constraint-Architektur für KI — ein System, das steuert, was die KI sagen darf und was nicht. Westlaw hilft Anwälten, Recht zu finden. GraphRAG hindert KI daran, es zu erfinden. Sie sind komplementär, nicht konkurrierend.
Zweitens: "Kann man das Modell nicht einfach feinabstimmen, damit es aufhört zu halluzinieren?" Wir haben es versucht. Früh in unserer Arbeit experimentierten wir mit Fine-Tuning auf verifizierten juristischen Datensätzen. Es reduzierte die Halluzinationsraten. Es beseitigte sie nicht. Ein feinabgestimmtes Modell ist immer noch eine Wahrscheinlichkeitsmaschine. Es ist eine bessere Wahrscheinlichkeitsmaschine, aber "besser" bedeutet bei juristischen Zitierungen "seltener falsch", und "seltener falsch" ist kein Maßstab, den irgendein Gericht akzeptieren wird. Der einzige Weg, null Erfindung zu garantieren, besteht darin, Erfindung strukturell unmöglich zu machen, was bedeutet, den Ausgaberaum einzuschränken, nicht nur die Eingabedaten zu verbessern.
Das Ende von "gut genug"
Hier ist, worauf ich immer wieder zurückkomme. Der Anwaltsberuf beruht auf einer einfachen Prämisse: Wenn man eine Autorität zitiert, muss diese Autorität real sein. Nicht wahrscheinlich real. Nicht meistens real. Real.
Zwei Jahre lang nach Mata haben Gerichte die Sanktionen verschärft, Grundsatzverfügungen zur KI-Offenlegung erlassen und klargestellt, dass "die KI war's" keine Verteidigung ist. Der Berufsstand zieht eine Grenze: Wenn man KI nutzt, muss deren Ausgabe verifiziert werden. Und wenn das Verifizieren der Ausgabe länger dauert als die manuelle Arbeit, ist die KI kein Werkzeug — sie ist eine Belastung.
Die Wrapper-Ära löste das falsche Problem. Sie machte juristische Recherche schneller. Sie hätte juristische Recherche vertrauenswürdig machen müssen. Geschwindigkeit ohne Vertrauen ist nur effizienter Berufsfehler.
Was wir bei Veriprajna bauen, ist kein Chatbot, der zufällig etwas Recht kennt. Es ist ein eingeschränktes Reasoning-System, in dem jede Zitierung eine verifizierte Traversierung durch einen Knowledge Graph ist, jede Beziehung explizit und prüfbar ist und das generative Modell physisch daran gehindert wird, in Fiktion abzugleiten.
Der Berufsstand, der das Konzept des bindenden Präzedenzfalls erfunden hat, verdient eine KI, die es tatsächlich respektiert.