Ein Richterhammer schlägt auf eine Sprechblase mit KI-generiertem Text nieder und symbolisiert die rechtliche Haftung für die Ausgaben von KI-Chatbots.
Artificial IntelligenceTechnologyBusiness

Ihr KI-Chatbot ist jetzt ein rechtlich bindender Mitarbeiter. Die meisten Unternehmen haben es nicht bemerkt.

Ashutosh SinghalAshutosh Singhal28. Januar 202614 min

Ein paar Monate, nachdem das Urteil im Fall Moffatt gegen Air Canada gefallen war, hatte ich ein Gespräch mit einem potenziellen Kunden — ein mittelgroßes Fintech-Unternehmen, vielleicht 200 Mitarbeiter, schnell wachsend. Sie hatten einen kundenorientierten Chatbot auf Basis eines populären GPT-Wrappers gebaut. Sauberes UI. Freundlicher Ton. Die Kunden liebten ihn.

Ich stellte eine einzige Frage: "Was passiert, wenn Ihr Bot den falschen Zinssatz nennt?"

Totenstille. Dann sagte ihr CTO: "Das wird er nicht. Wir haben gute Prompts."

Ich rief das Urteil auf meinem Bildschirm auf und las ihnen die Stelle vor, an der das Tribunal sagte, Air Canada "könne sich nicht vom KI-Chatbot trennen". Dass das Unternehmen für jedes Wort haftbar war, das der Bot generierte, genauso als hätte ein menschlicher Mitarbeiter es gesagt. Dass die Verteidigung der Fluggesellschaft — die argumentierte, der Chatbot sei im Grunde eine "eigenständige Rechtsperson", verantwortlich für seine eigenen Fehler — mit etwas nahe an gerichtlicher Verachtung zurückgewiesen wurde.

Die Miene des CTO änderte sich. Denn hier ist, was dieses Urteil tatsächlich bedeutet: Wenn Ihr KI-Chatbot einem Kunden einen Satz von 2 % in einem 5-%-Umfeld verspricht, oder eine Rückerstattungsrichtlinie erfindet, die es nicht gibt, oder eine Garantiebedingung halluziniert — herzlichen Glückwunsch, Ihr Unternehmen hat gerade einen Vertrag unterschrieben. Nicht metaphorisch. Rechtlich.

Und das Erschreckendste? Fast niemand, der Enterprise-KI baut, hat das verinnerlicht.

Das Urteil, das das Risikoprofil jedes KI-Chatbots neu geschrieben hat

Lassen Sie mich erzählen, was im Fall Moffatt tatsächlich passiert ist, denn die Details sind wichtiger, als die Schlagzeilen vermuten ließen.

Jake Moffatts Großmutter starb. Er ging auf die Website von Air Canada, fand den Chatbot und fragte nach Trauertarifen. Der Chatbot — selbstsicher, gewandt, in dem hilfsbereiten Ton, für den diese Systeme optimiert sind — riet ihm, jetzt ein Vollpreisticket zu kaufen und innerhalb von 90 Tagen einen Trauerrabatt für eine teilweise Rückerstattung zu beantragen.

Diese Richtlinie existierte nicht. Die tatsächlichen Regeln der Fluggesellschaft, vergraben in den Tarifdokumenten und statischen Seiten, sagten das Gegenteil: keine rückwirkenden Rückerstattungen, sobald man geflogen ist. Der Chatbot hatte eine Richtlinie halluziniert, die richtig klang, weil statistisch gesehen die Formulierungsmuster rund um "Trauerfall", "Rückerstattung" und "90 Tage" in Tarifdokumenten von Fluggesellschaften branchenweit häufig gemeinsam auftreten.

Als Moffatt seine Rückerstattung verlangte und Air Canada ablehnte, brachte er sie vor das Tribunal. Die Anwälte von Air Canada machten ein Argument geltend, das ich noch immer atemberaubend finde: Sie behaupteten, der Chatbot solle als eigenständige Rechtsperson behandelt werden, verantwortlich für seine eigenen Aussagen. Dass die korrekte Information anderswo auf der Website verfügbar gewesen sei, das Unternehmen also seine Pflicht erfüllt habe.

Das Tribunal wies dies nicht einfach nur zurück. Tribunal-Mitglied Christopher Rivers sagte im Wesentlichen: Es gibt keine sinnvolle Unterscheidung zwischen einem menschlichen Vertreter, einer statischen Webseite und einem interaktiven Bot. Sie sind alle das Unternehmen, das mit dem Kunden spricht.

Wenn Ihre KI es sagt, hat Ihr Unternehmen es unterschrieben. Das Tribunal stellte fest, dass Halluzinationen keine Softwarefehler sind — sie sind fahrlässige Falschdarstellung.

Aus diesem Urteil gingen drei Präzedenzfälle hervor, die jeden CTO nachts wachhalten sollten. Einheitliche Haftung: Es spielt keine Rolle, ob die Information aus HTML-Text oder einem neuronalen Netzwerk stammt — es ist alles die Darstellung des Unternehmens. Sorgfaltspflicht: Der Einsatz eines ungeprüften probabilistischen Modells zur Verbreitung von Richtlinien ist fahrlässig. Und derjenige, der die meisten aktuellen Architekturen aushöhlt: die "Black-Box"-Verteidigung ist tot. Die interne Komplexität Ihres KI-Systems bietet null rechtlichen Schutz.

Der Schaden betrug 800 $. Der Präzedenzfall ist Milliarden an zukünftiger Haftungsexposition wert.

Warum "gute Prompts" Sie nicht retten werden

Eine Infografik, die die wichtigsten Kosten- und Risikostatistiken zu Halluzinationen aus dem Artikel zusammenfasst und das Ausmaß des Problems sofort greifbar macht.

Ich muss über etwas deutlich werden, das viele KI-Beratungen nicht hören wollen: Retrieval-Augmented Generation ist keine Compliance-Lösung.

Als ich anfing, mich in die Details des Moffatt-Falls einzugraben, erwartete ich herauszufinden, dass der Chatbot keinen Zugang zur korrekten Richtlinie hatte. Das wäre ein einfaches Abruf-Versagen gewesen — behebbar, verständlich. Stattdessen fand ich etwas Schlimmeres. Der Chatbot lieferte tatsächlich einen Link zur korrekten Seite mit der Trauerrichtlinie. Er hatte das richtige Dokument. Er fasste es nur falsch zusammen.

Dies ist die Fehlerart, die das "Füge einfach RAG hinzu"-Narrativ zerbricht. Der Chatbot rief den richtigen Kontext ab und halluzinierte trotzdem die Antwort.

Hier ist der Grund. Large Language Models sind probabilistische Maschinen. Sie sagen das nächste wahrscheinliche Token auf Basis statistischer Muster in Trainingsdaten voraus. Wenn ein LLM sagt "Rückerstattungen sind innerhalb von 90 Tagen möglich", fragt es keine Regeldatenbank ab. Es vervollständigt ein Satzmuster, das statistisch wahrscheinlich ist, basierend auf Millionen von Dokumenten, die es während des Trainings aufgenommen hat — Dokumente, die unzählige verschiedene Rückerstattungsrichtlinien von unzähligen verschiedenen Unternehmen enthielten.

Dem Modell das korrekte Dokument zu geben, hilft. Aber wenn der abgerufene Text komplex ist, wenn die juristische Sprache dicht ist, wenn eine subtile Verneinung in einem Nebensatz vergraben ist — kann das Modell den abgerufenen Kontext zugunsten seiner vortrainierten Verzerrungen ignorieren. Dies ist kein seltener Grenzfall. Es ist eine bekannte Fehlerart namens parametrische Gedächtnisdominanz, und sie tritt häufiger genau bei der Art komplexer Richtliniensprache auf, die für Compliance am wichtigsten ist.

Ich habe das aus erster Hand gesehen. Wir testeten einen Prototyp für einen Kunden im Gesundheitswesen, und das System hatte die korrekten Daten zu Arzneimittelwechselwirkungen in seinem Kontextfenster — buchstäblich direkt dort im Prompt. Das Modell generierte trotzdem eine Antwort, die eine Warnung vor einer "schweren Wechselwirkung" zu einer "leichten Vorsicht" abschwächte. Weil in den Trainingsdaten die meisten Texte über diese beiden Medikamente zusammen in Kontexten auftauchten, die das Risiko minimierten. Der Abruf war perfekt. Die Generierung war gefährlich.

RAG liefert Wissen, aber es garantiert keine Einhaltung. Man kann ein striktes Logikproblem nicht mit einer Wahrscheinlichkeitsmaschine allein lösen.

Die Zahlen bestätigen das. Die weltweiten Verluste, die auf KI-Halluzinationen zurückgeführt werden, erreichten 67,4 Milliarden $ im Jahr 2024. Selbst die besten Frontier-Modelle — GPT-4o, Gemini 2.0 — behalten Basis-Halluzinationsraten zwischen 0,7 % und 3 %, abhängig von der Aufgabenkomplexität. Das klingt gering, bis man rechnet: Der KI-Assistent einer Bank, der eine Million Anfragen im Monat bearbeitet, produziert bei einer Halluzinationsrate von 0,7 % 7.000 potenzielle Regelverstöße. Jeden Monat.

Und Unternehmen zahlen bereits eine versteckte Steuer für diese Unzuverlässigkeit. Forrester schätzt, dass die Minderung von Halluzinationen etwa 14.200 $ pro Mitarbeiter und Jahr an Produktivitätsverlust kostet — Menschen, die KI-Arbeit doppelt prüfen, der man nicht zutrauen kann, für sich allein zu bestehen. Der Markt für Werkzeuge zur Halluzinationserkennung wuchs um 318 % zwischen 2023 und 2025. Das ist kein Zeichen dafür, dass ein Problem gelöst wird. Das ist ein Zeichen einer Branche, die verzweifelt einen grundlegend fehlerhaften Ansatz flickt.

Wie sieht ein Chatbot aus, der nicht lügen kann?

Ein Flussdiagramm, das zeigt, wie die Architektur der Deterministischen Aktionsschicht Benutzeranfragen leitet — sichere Themen gehen zur LLM-Generierung, compliance-kritische Themen umgehen das LLM und lösen stattdessen deterministische Logik aus.

Es gab einen Moment — ich erinnere mich klar daran, weil er während einer nächtlichen Architektursitzung mit meinem Team geschah — als der Kerngedanke einrastete. Wir stritten darüber, wie man ein LLM für einen Compliance-Anwendungsfall "genauer" machen könnte. Bessere Prompts. Besserer Abruf. Fine-Tuning auf Domänendaten. Und einer meiner Ingenieure sagte etwas, das das Gespräch stoppte: "Warum bitten wir das Modell, genau zu sein? Es ist nicht für Genauigkeit ausgelegt. Es ist für Sprachfluss ausgelegt."

Sie hatte recht. Und dieser Perspektivwechsel veränderte alles daran, wie wir bauen.

Die Antwort besteht nicht darin, das probabilistische Modell weniger probabilistisch zu machen. Die Antwort besteht darin, es überhaupt keine Entscheidungen treffen zu lassen, wenn viel auf dem Spiel steht.

Wir nennen das eine Deterministische Aktionsschicht — eine Middleware-Komponente, die zwischen dem Benutzer und dem LLM sitzt und als Verkehrsregler fungiert. Wenn ein Kunde nach dem Wetter fragt oder Hilfe beim Verfassen einer E-Mail möchte, tut das LLM, worin es großartig ist: gewandten, hilfreichen, kreativen Text generieren. Aber in dem Moment, in dem das Gespräch Rückerstattungen, Preise, rechtliche Bedingungen, Garantien, Datenschutzrichtlinien berührt — alles, wo eine falsche Antwort Haftung erzeugt — wechselt das System vollständig den Modus.

Anstatt das LLM eine Antwort aus seinen Gewichten generieren zu lassen, löst die Deterministische Aktionsschicht fest codierte Logik aus. Eine Datenbankabfrage. Einen Entscheidungsbaum. Eine vorgeschriebene, rechtlich geprüfte Antwortvorlage. Die Rolle des LLM schrumpft vom "Autor" zum "Übersetzer" — es kann das Ergebnis vielleicht in einen höflichen Satz umformulieren, aber es kann die Information nicht hinzufügen, entfernen oder neu interpretieren.

Denken Sie es sich so. Wenn der Moffatt-Chatbot diese Architektur gehabt hätte, wäre Folgendes passiert: Der semantische Router erkennt die Absicht — bereavement_refund. Anstatt das Modell darüber sinnieren zu lassen, was Trauer-Rückerstattungsrichtlinien üblicherweise besagen, führt es eine deterministische Funktion aus: if ticket_status == 'flown' return NO_REFUND. Die Antwort kommt zurück: "Unsere Richtlinie verbietet Rückerstattungen nach der Reise strikt. Referenz: Tarifregel 45." Langweilig. Rechtlich wasserdicht. Genau das, was gebraucht wurde.

Ich habe über diese Architektur ausführlich in der interaktiven Version unserer Forschung geschrieben, aber die Kernerkenntnis ist einfach: trenne das Gespräch von der Compliance. Lass das neuronale Netzwerk die chaotische, wunderschöne Variabilität menschlicher Sprache handhaben. Lass deterministischen Code die Teile handhaben, bei denen Irren Geld kostet.

Das Schweigeprotokoll

Es gibt ein bestimmtes Entwurfsmuster, das wir verwenden und das die Philosophie meiner Meinung nach besser einfängt als jedes Architekturdiagramm. Wir nennen es das Schweigeprotokoll.

Wenn ein Benutzer nach einem Thema fragt, das wir als "Compliance-kritisch" eingestuft haben, werden die kreativen Fähigkeiten der generativen KI effektiv stummgeschaltet. Das System wechselt vom "Autor"-Modus in den "Leser"-Modus. Es ruft den exakten Text aus der Datenbank ab und liefert ihn wortwörtlich, oder füllt eine strikte Vorlage mit Variablen aus einer vertrauenswürdigen Quelle.

Und hier ist der Teil, der manche Produktmanager unbehaglich macht: Wenn der Benutzer eine Frage stellt, die in eine Richtlinienlücke fällt — wo keine deterministische Regel existiert — improvisiert das System nicht. Es sagt: "Ich kann diese Frage nicht direkt beantworten. Lassen Sie mich Sie mit einem menschlichen Spezialisten verbinden."

Ein potenzieller Kunde wehrte sich dagegen heftig. "Benutzer wollen sofortige Antworten", sagte er. "Ein Chatbot, der 'Ich weiß nicht' sagt, fühlt sich kaputt an."

Ich fragte ihn, was sich kaputter anfühlt: ein Chatbot, der sagt "lassen Sie mich Ihnen einen Menschen holen", oder ein Chatbot, der eine Rückerstattungsrichtlinie erfindet, die das Unternehmen einhalten muss, und die Rechtsabteilung sechs Monate mit Schadensbegrenzung verbringt?

Rechtlich gesehen ist Kreativität in Bezug auf Vertragsbedingungen gleichbedeutend mit Fabrikation. Das wertvollste Merkmal einer Enterprise-KI ist nicht, was sie sagen kann — sondern, was ihr zu sagen verwehrt wird.

Wir deaktivieren Kreativität bei Compliance-Themen, weil in einer Post-Moffatt-Welt eine KI, die "hilfsbereit" eine Richtlinie improvisiert, eine KI ist, die Ihre Verträge in Echtzeit ohne Autorisierung umschreibt.

Woher weiß das System, was gefährlich ist?

Das ist die Frage, die ich am häufigsten gestellt bekomme, und es ist die richtige. Die Architektur funktioniert nur, wenn die Routing-Schicht — der Verkehrsregler — zuverlässig zwischen "erzähl mir von der Geschichte deines Unternehmens" (sicher für LLM-Generierung) und "kann ich hierfür eine Rückerstattung bekommen?" (muss deterministisch behandelt werden) unterscheiden kann.

Wir verwenden semantisches Routing, das sich grundlegend vom spröden Schlüsselwortabgleich älterer Chatbot-Systeme unterscheidet. Ein Schlüsselwortsystem, das nach "Rückerstattung" sucht, würde "ich will mein Geld zurück" oder "können Sie mich entschädigen" verpassen. Semantisches Routing wandelt die Anfrage des Benutzers in ein hochdimensionales Vektor-Embedding um und vergleicht es mit vordefinierten kanonischen Beispielen für eingeschränkte Themen.

Das entscheidende Detail: Diese Routing-Schicht sitzt außerhalb des Kontextfensters des LLM. Das ist für die Sicherheit enorm wichtig. Prompt-Injection-Angriffe — bei denen Benutzer Eingaben gestalten, die das Modell dazu bringen sollen, seine Anweisungen zu ignorieren — sind eine reale und wachsende Bedrohung. Aber wenn die Routing-Entscheidung getroffen wird, bevor die Anfrage das Modell überhaupt erreicht, werden diese Angriffe für die Compliance-Logik irrelevant. Man kann kein System jailbreaken, das dem Modell die Schlüssel gar nicht erst gibt.

Sobald eine sensible Absicht erkannt wird, verwenden wir Function Calling — eine Fähigkeit moderner LLMs, bei der das Modell strukturierte Daten (ein JSON-Objekt, das eine bestimmte Funktion aufruft) statt Freitext ausgibt. Das LLM extrahiert Parameter aus dem Gespräch — Ticket-ID, Kaufdatum, Reisedatum — und übergibt sie an einen deterministischen Codeblock. Python. SQL. Was auch immer die eigentliche Geschäftslogik ausführt. Das Modell berechnet die Rückerstattung nie. Es entscheidet nie über die Berechtigung. Es übersetzt natürliche Sprache in einen API-Aufruf und übersetzt die API-Antwort zurück in natürliche Sprache. Das Entscheiden wird von Code erledigt, nicht von Wahrscheinlichkeit.

Für die vollständige technische Aufschlüsselung der Routing-Architektur, der Function-Calling-Muster und unserer Verifizierungspipeline siehe unsere technische Vertiefung.

Die regulatorischen Mauern rücken näher

Falls der Moffatt-Präzedenzfall nicht genug Motivation war — die regulatorische Landschaft ist im Begriff, deterministische Guardrails zur Pflicht zu machen.

Der EU AI Act stuft viele kundenorientierte KI-Systeme — besonders im Transportwesen, im Bankwesen und bei wesentlichen Diensten — als Hochrisiko ein. Artikel 14 schreibt menschliche Aufsicht vor: Systeme müssen so gestaltet sein, dass Menschen Ausgaben interpretieren, eingreifen und den Stopp-Knopf drücken können. Ein Black-Box-LLM-Wrapper erfüllt das nicht. Eine Deterministische Aktionsschicht — bei der der Compliance-Beauftragte die Regeln schreibt, die das System ausführt — schon.

GDPR-Artikel 22 gewährt Einzelpersonen das Recht, keiner Entscheidung unterworfen zu werden, die ausschließlich auf automatisierter Verarbeitung beruht, wenn diese Entscheidungen rechtliche oder erhebliche Auswirkungen haben. Eine Rückerstattung zu verweigern ist eine erhebliche Auswirkung. Einen Kreditantrag abzulehnen ist eine erhebliche Auswirkung. Wenn ein Kunde fragt "warum wurde ich abgelehnt?", kann ein neuronales Netzwerk seine Begründung nicht erklären, weil es keine Begründung hat — es hat statistische Gewichte. Ein deterministischer Logikbaum kann auf den exakten Knoten zeigen: "Kreditwürdigkeit unter Schwellenwert" oder "Ticket-Status: geflogen".

Und ISO 42001 — der erste globale Standard für KI-Governance — verlangt von Organisationen, abzubilden, wo probabilistische versus deterministische Logik verwendet wird, Halluzinationsraten zu messen und vollständige Prüfpfade zu führen. Wir haben unsere Architektur speziell so gestaltet, dass sie für diesen Standard prüfbereit ist. Jede Interaktion, jede Routing-Entscheidung, jede Richtlinienausführung wird mit einem nachvollziehbaren Logikpfad protokolliert.

Das ist keine theoretische Compliance. Ich habe in Räumen mit Rechtsabteilungen von Unternehmen gesessen, die wegen dieser Rahmenwerke ihre KI-Einsätze aktiv überdenken. Die Unternehmen, die jetzt die Guardrails bauen, werden KI schneller und breiter einsetzen als diejenigen, die sich abmühen, Compliance später nachzurüsten.

"Aber ist das nicht teuer?"

Die Leute fragen mich das immer, und ich verstehe den Instinkt. Semantisches Routing, deterministische Logikschichten, Wissensgraphen, Verifizierungspipelines zu bauen — es ist unbestreitbar komplexer, als einen API-Aufruf in ein schönes UI zu verpacken.

Aber lassen Sie mich die Frage umformulieren. Was kostet es, es nicht zu bauen?

Der Schaden von Air Canada betrug 800 $. Aber die Anwaltskosten stellten das in den Schatten. Der Reputationsschaden — "Fluggesellschaft argumentiert, ihr eigener Chatbot sei eine eigenständige Rechtsperson" wurde zu einer weltweiten Pointe — ist unkalkulierbar. Und das war eine einzige Interaktion über einen einzigen Trauertarif.

Stellen Sie sich nun einen Chatbot für Finanzdienstleistungen vor, der eine Kreditgenehmigung halluziniert. Einen Gesundheits-Bot, der eine Warnung vor einer Arzneimittelwechselwirkung abschwächt. Einen Versicherungs-Bot, der Deckungsbedingungen erfindet. Wir reden nicht mehr über 800 $. Wir reden über Sammelklagen-Terrain.

Die 14.200 $ pro Mitarbeiter und Jahr, die Unternehmen derzeit für die Minderung von Halluzinationen ausgeben — Menschen, die KI-Ausgaben manuell verifizieren, weil ihnen niemand vertraut — das sind die tatsächlichen Kosten "billiger" KI. Der Wrapper ist billig zu bauen und teuer im Betrieb. Die deterministische Architektur ist teuer zu bauen und billig, ihr zu vertrauen.

Hier geht es darum, was als Nächstes kommt

Ich möchte mit etwas schließen, das über die aktuelle Chatbot-Diskussion hinausgeht, denn ich glaube, das Moffatt-Urteil ist eine Vorschau auf eine viel größere Verschiebung.

Wir bewegen uns von einer Ära der KI-Chatbots zu einer Ära der KI-Agenten — Systeme, die nicht nur Fragen beantworten, sondern Handlungen ausführen. Flüge buchen. Geld überweisen. Ansprüche genehmigen. Verträge unterzeichnen. Die juristische Fiktion, dass "der Benutzer die Information verifizieren sollte", war schon schwach, als sie auf Chatbots angewendet wurde. Sie ist völlig unhaltbar, wenn sie auf Agenten angewendet wird, die Transaktionen autonom ausführen.

Jedes Unternehmen, das KI einsetzt, die Geld, Verträge oder regulierte Entscheidungen berührt, trifft gerade jetzt eine Wahl, ob es sich dessen bewusst ist oder nicht. Sie bauen entweder Systeme, in denen die Kreativität der KI durch deterministische Logik begrenzt ist — wo die Maschine innerhalb strikt durchgesetzter Guardrails gewandt und hilfreich sein kann — oder sie setzen eloquente, unbeaufsichtigte Agenten mit der rechtlichen Befugnis ein, Unternehmensrichtlinien eine Halluzination nach der anderen umzuschreiben.

Ich weiß, auf welcher Seite dieser Linie ich stehen möchte. Ich weiß, welche Seite das Gesetz verlangen wird.

Ihr Chatbot ist ein rechtlich bindender Mitarbeiter. Er braucht dieselbe Schulung, dieselbe Aufsicht und dieselben strikten Grenzen wie ein menschlicher Mitarbeiter, der mit Unternehmensgeldern umgeht. Sie würden einen neuen Mitarbeiter keine Rückerstattungsrichtlinien nach Bauchgefühl erfinden lassen. Lassen Sie das auch Ihre KI nicht tun.

Die Black-Box-Verteidigung ist tot. Die Wrapper-Ära geht zu Ende. Und die Unternehmen, die deterministische Aktionsschichten als Erste durchschauen, werden nicht nur Haftung vermeiden — sie werden diejenigen sein, die KI tatsächlich in die Teile ihres Geschäfts skalieren, wo sie am wichtigsten ist, weil sie diejenigen sein werden, deren Systemen man vertrauen kann.

Die Frage ist nicht, ob Ihre KI intelligent genug ist. Sie lautet, ob sie weiß, wann sie den Mund halten muss.

Related Research

Also Published On