
Jouw AI-chatbot is zojuist een juridisch bindende medewerker geworden. De meeste bedrijven hebben het niet door.
Een paar maanden nadat de uitspraak in de zaak Moffatt v. Air Canada naar buiten kwam, had ik een gesprek met een potentiële klant — een middelgroot fintechbedrijf, misschien 200 medewerkers, snel groeiend. Ze hadden een klantgerichte chatbot gebouwd met een populaire GPT-wrapper. Strakke UI. Vriendelijke toon. Klanten waren er dol op.
Ik stelde één vraag: "Wat gebeurt er als jullie bot de verkeerde rente noemt?"
Doodse stilte. Toen zei hun CTO: "Dat gebeurt niet. We hebben goede prompts."
Ik opende de uitspraak op mijn scherm en las hun de zin voor waarin het tribunaal zei dat Air Canada "zich niet kon losmaken van de AI-chatbot." Dat het bedrijf aansprakelijk was voor elk woord dat de bot genereerde, precies alsof een menselijke medewerker het had gezegd. Dat het verweer van de luchtvaartmaatschappij — de redenering dat de chatbot in feite een "aparte rechtspersoon" was die verantwoordelijk was voor zijn eigen fouten — werd verworpen met iets wat neigde naar rechterlijke minachting.
Het gezicht van de CTO veranderde. Want dit is wat die uitspraak eigenlijk betekent: als jouw AI-chatbot een klant een rente van 2% belooft in een omgeving van 5%, of een terugbetalingsbeleid verzint dat niet bestaat, of een garantievoorwaarde hallucineert — gefeliciteerd, je bedrijf heeft zojuist een contract ondertekend. Niet figuurlijk. Juridisch.
En het engste deel? Vrijwel niemand die enterprise-AI bouwt, heeft dit geïnternaliseerd.
De uitspraak die het risicoprofiel van elke AI-chatbot herschreef
Laat me je vertellen wat er werkelijk gebeurde in de zaak Moffatt, want de details doen er meer toe dan de krantenkoppen suggereerden.
De grootmoeder van Jake Moffatt overleed. Hij ging naar de website van Air Canada, vond de chatbot en vroeg naar rouwtarieven. De chatbot — zelfverzekerd, vloeiend, in de behulpzame toon waarvoor deze systemen zijn geoptimaliseerd — vertelde hem nu een ticket voor de volle prijs te kopen en binnen 90 dagen een rouwkorting aan te vragen voor een gedeeltelijke terugbetaling.
Dat beleid bestond niet. De feitelijke regels van de luchtvaartmaatschappij, verstopt in de tariefdocumenten en statische pagina's, zeiden het tegenovergestelde: geen terugbetaling met terugwerkende kracht zodra je hebt gevlogen. De chatbot had een beleid gehallucineerd dat klonk alsof het klopte, omdat de zinspatronen rond "rouw" en "terugbetaling" en "90 dagen" statistisch gezien vaak samen voorkomen in beleidsdocumenten van luchtvaartmaatschappijen in de hele sector.
Toen Moffatt om zijn terugbetaling vroeg en Air Canada nee zei, sleepte hij ze voor het tribunaal. De advocaten van Air Canada voerden een argument aan dat ik nog steeds adembenemend vind: ze beweerden dat de chatbot behandeld moest worden als een aparte rechtspersoon, verantwoordelijk voor zijn eigen uitspraken. Dat de juiste informatie elders op de website beschikbaar was, en dat het bedrijf dus zijn plicht had vervuld.
Het tribunaal verwierp dit niet zomaar. Tribunaallid Christopher Rivers stelde in essentie: er is geen betekenisvol onderscheid tussen een menselijke medewerker, een statische webpagina en een interactieve bot. Ze zijn allemaal het bedrijf dat tegen de klant praat.
Als jouw AI het zegt, heeft jouw bedrijf het ondertekend. Het tribunaal stelde vast dat hallucinaties geen softwarefouten zijn — het is nalatige verkeerde voorstelling van zaken.
Uit die uitspraak kwamen drie precedenten voort die elke CTO 's nachts wakker zouden moeten houden. Gebundelde aansprakelijkheid: het maakt niet uit of de informatie van HTML-tekst of van een neuraal netwerk komt — het is allemaal de voorstelling van zaken door het bedrijf. Zorgplicht: het inzetten van een ongeverifieerd probabilistisch model voor het verspreiden van beleid is nalatigheid. En het precedent dat de meeste huidige architecturen onderuit haalt: het "black box"-verweer is dood. De interne complexiteit van jouw AI-systeem biedt nul juridische bescherming.
De schadevergoeding was $800. Het precedent is miljarden aan toekomstige aansprakelijkheidsblootstelling waard.
Waarom "goede prompts" je niet zullen redden

Ik moet duidelijk zijn over iets wat veel AI-adviesbureaus niet willen horen: Retrieval-Augmented Generation is geen compliance-oplossing.
Toen ik voor het eerst de details van de Moffatt-zaak begon uit te pluizen, verwachtte ik te ontdekken dat de chatbot geen toegang had tot het juiste beleid. Dat zou een eenvoudige retrieval-fout zijn geweest — oplosbaar, begrijpelijk. In plaats daarvan vond ik iets ergers. De chatbot verstrekte zelfs een link naar de juiste pagina met het rouwbeleid. Hij had het juiste document. Hij vatte het alleen verkeerd samen.
Dit is de faalmodus die het "voeg gewoon RAG toe"-verhaal onderuit haalt. De chatbot haalde de juiste context op en hallucineerde toch het antwoord.
Dit is waarom. Grote taalmodellen zijn probabilistische machines. Ze voorspellen het volgende waarschijnlijke token op basis van statistische patronen in de trainingsdata. Wanneer een LLM zegt "terugbetalingen zijn mogelijk binnen 90 dagen," bevraagt het geen regeldatabase. Het voltooit een zinspatroon dat statistisch waarschijnlijk is op basis van miljoenen documenten die het tijdens de training heeft opgenomen — documenten die talloze verschillende terugbetalingsbeleiden van talloze verschillende bedrijven bevatten.
Het model het juiste document geven helpt. Maar als de opgehaalde tekst complex is, als de juridische taal dicht is, als er een subtiele ontkenning verstopt zit in een bijzin — dan kan het model de opgehaalde context negeren ten gunste van zijn vooraf getrainde vooroordelen. Dit is geen zeldzaam randgeval. Het is een bekende faalmodus die parametric memory dominance heet, en het gebeurt vaker juist bij het soort complexe beleidstaal dat het meest van belang is voor compliance.
Ik heb dit van dichtbij gezien. We testten een prototype voor een klant in de zorg, en het systeem had de juiste gegevens over geneesmiddeleninteracties in zijn contextvenster — letterlijk daar in de prompt. Het model genereerde toch een reactie die een waarschuwing voor een "ernstige interactie" afzwakte tot een "milde voorzichtigheid." Omdat in de trainingsdata de meeste tekst over die twee geneesmiddelen samen voorkwam in contexten die het risico bagatelliseerden. De retrieval was perfect. De generatie was gevaarlijk.
RAG levert kennis, maar het garandeert geen naleving. Je kunt een strikt logisch probleem niet oplossen met alleen een waarschijnlijkheidsmachine.
De cijfers bevestigen dit. De wereldwijde verliezen toegeschreven aan AI-hallucinaties bereikten $67,4 miljard in 2024. Zelfs de beste frontier-modellen — GPT-4o, Gemini 2.0 — behouden basale hallucinatiepercentages tussen 0,7% en 3%, afhankelijk van de complexiteit van de taak. Dat klinkt klein totdat je de rekensom maakt: de AI-assistent van een bank die een miljoen vragen per maand afhandelt met een hallucinatiepercentage van 0,7% produceert 7.000 potentiële regelgevingsovertredingen. Elke maand.
En ondernemingen betalen al een verborgen belasting voor deze onbetrouwbaarheid. Forrester schat dat het beperken van hallucinaties ongeveer $14.200 per medewerker per jaar kost aan verloren productiviteit — mensen die AI-werk dubbel controleren dat niet vertrouwd kan worden om op zichzelf te staan. De markt voor tools voor hallucinatiedetectie groeide met 318% tussen 2023 en 2025. Dat is geen teken dat een probleem wordt opgelost. Dat is een teken van een sector die krampachtig een fundamenteel gebrekkige aanpak zit te lappen.
Hoe ziet een chatbot die niet kan liegen eruit?

Er was een moment — ik herinner het me nog helder omdat het gebeurde tijdens een late architectuursessie met mijn team — waarop het kernidee op zijn plek viel. We waren aan het discussiëren over hoe we een LLM "nauwkeuriger" konden maken voor een compliance-use-case. Betere prompts. Betere retrieval. Fine-tuning op domeingegevens. En een van mijn engineers zei iets wat het gesprek stillegde: "Waarom vragen we het model om nauwkeurig te zijn? Het is niet ontworpen voor nauwkeurigheid. Het is ontworpen voor vloeiendheid."
Ze had gelijk. En die herformulering veranderde alles aan hoe we bouwen.
Het antwoord is niet om het probabilistische model minder probabilistisch te maken. Het antwoord is het helemaal geen beslissingen laten nemen wanneer de belangen hoog zijn.
Wij noemen dit een Deterministic Action Layer — een middleware-component die tussen de gebruiker en de LLM zit en fungeert als een verkeersregelaar. Wanneer een klant naar het weer vraagt of hulp wil bij het opstellen van een e-mail, doet de LLM waar hij goed in is: vloeiende, behulpzame, creatieve tekst genereren. Maar op het moment dat het gesprek terugbetalingen, prijzen, juridische voorwaarden, garanties of privacybeleid raakt — alles waar een verkeerd antwoord aansprakelijkheid creëert — schakelt het systeem volledig van modus.
In plaats van de LLM een antwoord te laten genereren op basis van zijn gewichten, activeert de Deterministic Action Layer hard-coded logica. Een databasequery. Een beslisboom. Een vooraf geschreven, juridisch getoetste antwoordsjabloon. De rol van de LLM krimpt van "auteur" tot "vertaler" — het kan het resultaat herformuleren tot een beleefde zin, maar het kan de informatie niet toevoegen, verwijderen of herinterpreteren.
Bekijk het zo. Als de Moffatt-chatbot deze architectuur had gehad, dan was dit gebeurd: de semantische router detecteert de intentie — bereavement_refund. In plaats van het model te laten fantaseren over wat het denkt dat rouwterugbetalingsbeleiden meestal zeggen, voert het een deterministische functie uit: if ticket_status == 'flown' return NO_REFUND. Het antwoord komt terug: "Ons beleid verbiedt strikt terugbetalingen na de reis. Referentie: Tariefregel 45." Saai. Juridisch waterdicht. Precies wat er nodig was.
Ik heb uitgebreid over deze architectuur geschreven in de interactieve versie van ons onderzoek, maar het kerninzicht is simpel: scheid het gesprek van de compliance. Laat het neurale netwerk de rommelige, prachtige variabiliteit van menselijke taal aan. Laat deterministische code de onderdelen aan waar het fout zijn geld kost.
Het Silence Protocol
Er is een specifiek ontwerppatroon dat we gebruiken en dat volgens mij de filosofie beter vat dan welk architectuurdiagram dan ook. Wij noemen het het Silence Protocol.
Wanneer een gebruiker vraagt naar een onderwerp dat we hebben geclassificeerd als "Compliance Critical," worden de creatieve capaciteiten van de generatieve AI feitelijk gedempt. Het systeem schakelt van de modus "Auteur" naar de modus "Lezer". Het haalt de exacte tekst op uit de database en levert die woordelijk, of vult een strikt sjabloon met variabelen uit een vertrouwde bron.
En dit is het deel waar sommige productmanagers zich ongemakkelijk bij voelen: als de gebruiker een vraag stelt die in een beleidshiaat valt — waar geen deterministische regel bestaat — improviseert het systeem niet. Het zegt: "Ik kan die vraag niet rechtstreeks beantwoorden. Laat me je doorverbinden met een menselijke specialist."
Ik had een potentiële klant die hier hard tegenin ging. "Gebruikers willen directe antwoorden," zei hij. "Een chatbot die 'ik weet het niet' zegt, voelt kapot aan."
Ik vroeg hem welke kapotter aanvoelt: een chatbot die zegt "ik verbind je door met een mens," of een chatbot die een terugbetalingsbeleid verzint dat het bedrijf moet honoreren, waarna het juridische team zes maanden bezig is met schadebeperking?
Juridisch gezien is creativiteit ten aanzien van contractvoorwaarden synoniem aan fabricage. De meest waardevolle eigenschap van een enterprise-AI is niet wat hij kan zeggen — het is wat hem belet wordt te zeggen.
We schakelen creativiteit uit voor compliance-onderwerpen, want in een post-Moffatt-wereld is een AI die "behulpzaam" een beleid improviseert een AI die in real time zonder toestemming jouw contracten herschrijft.
Hoe weet het systeem wat gevaarlijk is?
Dit is de vraag die ik het vaakst krijg, en het is de juiste. De architectuur werkt alleen als de routeringslaag — de verkeersregelaar — betrouwbaar onderscheid kan maken tussen "vertel me over de geschiedenis van jullie bedrijf" (veilig voor LLM-generatie) en "kan ik hier een terugbetaling op krijgen?" (moet deterministisch worden afgehandeld).
Wij gebruiken semantic routing, wat fundamenteel verschilt van de fragiele keyword-matching van oudere chatbotsystemen. Een keyword-systeem dat zoekt naar "terugbetaling" zou "ik wil mijn geld terug" of "kun je me vergoeden" missen. Semantic routing zet de vraag van de gebruiker om in een hoogdimensionale vector-embedding en vergelijkt die met vooraf gedefinieerde canonieke voorbeelden voor beperkte onderwerpen.
Het cruciale detail: deze routeringslaag bevindt zich buiten het contextvenster van de LLM. Dit is enorm belangrijk voor de beveiliging. Prompt-injection-aanvallen — waarbij gebruikers invoer maken die is ontworpen om het model te misleiden zodat het zijn instructies negeert — vormen een reële en groeiende bedreiging. Maar als de routeringsbeslissing plaatsvindt voordat de vraag het model überhaupt bereikt, worden die aanvallen irrelevant voor de compliance-logica. Je kunt geen systeem jailbreaken dat het model nooit de sleutels geeft.
Zodra een gevoelige intentie is gedetecteerd, gebruiken we function calling — een mogelijkheid in moderne LLM's waarbij het model gestructureerde data uitvoert (een JSON-object dat een specifieke functie aanroept) in plaats van vrije tekst. De LLM haalt parameters uit het gesprek — ticket-ID, aankoopdatum, reisdatum — en geeft die door aan een deterministisch codeblok. Python. SQL. Wat dan ook de daadwerkelijke bedrijfslogica uitvoert. Het model berekent nooit de terugbetaling. Het beslist nooit over de rechtmatigheid. Het vertaalt natuurlijke taal naar een API-aanroep en vertaalt de API-respons terug naar natuurlijke taal. Het beslissen wordt gedaan door code, niet door waarschijnlijkheid.
Voor de volledige technische uitleg van de routeringsarchitectuur, function-calling-patronen en onze verificatiepijplijn, zie onze technische verdieping.
De regelgevende muren komen dichterbij
Als het Moffatt-precedent nog niet genoeg motivatie was, dan staat het regelgevingslandschap op het punt om deterministische guardrails niet-optioneel te maken.
De EU AI Act classificeert veel klantgerichte AI-systemen — vooral in transport, bankwezen en essentiële diensten — als High-Risk. Artikel 14 verplicht menselijk toezicht: systemen moeten zo worden ontworpen dat mensen de uitkomsten kunnen interpreteren, kunnen ingrijpen en de stopknop kunnen indrukken. Een black-box-LLM-wrapper voldoet hier niet aan. Een Deterministic Action Layer — waarbij de compliance officer de regels schrijft die het systeem uitvoert — wel.
AVG artikel 22 geeft individuen het recht om niet onderworpen te worden aan beslissingen die uitsluitend zijn gebaseerd op geautomatiseerde verwerking wanneer die beslissingen juridische of aanzienlijke gevolgen hebben. Een terugbetaling weigeren is een aanzienlijk gevolg. Een leningaanvraag weigeren is een aanzienlijk gevolg. Wanneer een klant vraagt "waarom ben ik geweigerd?", kan een neuraal netwerk zijn redenering niet uitleggen, omdat het geen redenering heeft — het heeft statistische gewichten. Een deterministische logica-boom kan wijzen op de exacte knoop: "Kredietscore onder de drempel" of "Ticketstatus: gevlogen."
En ISO 42001 — de eerste wereldwijde standaard voor AI-governance — vereist dat organisaties in kaart brengen waar probabilistische versus deterministische logica wordt gebruikt, hallucinatiepercentages meten en volledige audittrails bijhouden. We hebben onze architectuur specifiek ontworpen om audit-klaar te zijn voor deze standaard. Elke interactie, elke routeringsbeslissing, elke beleidsuitvoering wordt gelogd met een traceerbaar logisch pad.
Dit is geen theoretische compliance. Ik heb in vergaderruimtes gezeten met juridische teams van ondernemingen die hun AI-implementaties actief heroverwegen vanwege deze kaders. De bedrijven die de guardrails nu bouwen, zullen AI sneller en breder inzetten dan degenen die later halsoverkop compliance moeten aanpassen.
"Maar is dit niet duur?"
Mensen vragen me dit altijd, en ik begrijp het instinct. Het bouwen van semantic routing, deterministische logica-lagen, kennisgrafen, verificatiepijplijnen — het is onmiskenbaar complexer dan een API-aanroep in een mooie UI verpakken.
Maar laat me de vraag herformuleren. Wat zijn de kosten van het niet bouwen ervan?
De schadevergoeding van Air Canada was $800. Maar de advocaatkosten deden dat verbleken. De reputatieschade — "luchtvaartmaatschappij beweert dat haar eigen chatbot een aparte rechtspersoon is" werd een wereldwijde mikpunt van spot — is onberekenbaar. En dat was één enkele interactie over één enkel rouwtarief.
Stel je nu een chatbot voor financiële dienstverlening voor die een leninggoedkeuring hallucineert. Een zorgbot die een waarschuwing voor een geneesmiddeleninteractie afzwakt. Een verzekeringsbot die dekkingsvoorwaarden verzint. We hebben het niet meer over $800. We hebben het over collectieve-claim-terrein.
De $14.200 per medewerker per jaar die ondernemingen momenteel uitgeven aan het beperken van hallucinaties — mensen die handmatig AI-uitkomsten verifiëren omdat niemand ze vertrouwt — dat zijn de werkelijke kosten van "goedkope" AI. De wrapper is goedkoop om te bouwen en duur om te gebruiken. De deterministische architectuur is duur om te bouwen en goedkoop om te vertrouwen.
Dit gaat over wat er hierna komt
Ik wil eindigen met iets dat verder gaat dan het huidige chatbotgesprek, want ik denk dat de Moffatt-uitspraak een voorproefje is van een veel grotere verschuiving.
We bewegen van een tijdperk van AI-chatbots naar een tijdperk van AI-agents — systemen die niet alleen vragen beantwoorden maar ook acties ondernemen. Vluchten boeken. Geld overmaken. Claims goedkeuren. Overeenkomsten ondertekenen. De juridische fictie dat "de gebruiker de informatie zou moeten verifiëren" was al zwak toen die op chatbots werd toegepast. Ze is volstrekt onhoudbaar wanneer ze wordt toegepast op agents die autonoom transacties uitvoeren.
Elk bedrijf dat AI inzet die geld, contracten of gereguleerde beslissingen raakt, maakt op dit moment een keuze, of ze zich dat nu realiseren of niet. Ze bouwen ofwel systemen waarin de creativiteit van de AI wordt begrensd door deterministische logica — waar de machine vloeiend en behulpzaam kan zijn binnen strikt gehandhaafde guardrails — of ze zetten welbespraakte, onbewaakte agents in met de juridische bevoegdheid om het bedrijfsbeleid één hallucinatie tegelijk te herschrijven.
Ik weet aan welke kant van die lijn ik wil staan. Ik weet aan welke kant de wet zal gaan eisen.
Jouw chatbot is een juridisch bindende medewerker. Hij heeft dezelfde training, hetzelfde toezicht en dezelfde strikte grenzen nodig als een menselijke medewerker die met bedrijfsgeld omgaat. Je zou een nieuwe medewerker geen terugbetalingsbeleid op gevoel laten verzinnen. Laat jouw AI dat ook niet doen.
Het black-box-verweer is dood. Het wrapper-tijdperk loopt ten einde. En de bedrijven die als eerste deterministic action layers doorgronden, zullen niet alleen aansprakelijkheid vermijden — ze zullen degenen zijn die AI daadwerkelijk opschalen naar de onderdelen van hun bedrijf waar het er het meest toe doet, omdat zij degenen zullen zijn wier systemen vertrouwd kunnen worden.
De vraag is niet of jouw AI slim genoeg is. Het is of hij weet wanneer hij zijn mond moet houden.