Een visuele metafoor van een AI-chatbot als bedrijfswoordvoerder die van het script is afgeweken, passend bij het thema van merkrisico door enterprise-AI.
Artificial IntelligenceTechnologyMachine Learning

Je AI-chatbot zal je verraden — en hij doet precies waarvoor je hem hebt getraind

Ashutosh SinghalAshutosh Singhal1 februari 202616 min

Ik zat te kijken hoe een chatbot in realtime een merk vernietigde, en ik kon niet stoppen met glimlachen.

Niet uit kwaadwilligheid — uit herkenning. Het was januari 2024, en een gefrustreerde klant genaamd Ashley Beauchamp had zojuist de AI-chatbot van DPD zover gekregen om een gedicht te schrijven over hoe verschrikkelijk DPD was. Vervolgens kreeg hij het zover om tegen hem te vloeken. Toen noemde het zichzelf "nutteloos" en omschreef het DPD als "de ergste nachtmerrie van een klant" — in de vorm van een haiku, nog wel. De screenshots gingen viraal. Miljoenen weergaven. DPD haastte zich om de hele boel offline te halen en gaf een "fout bij een systeemupdate" de schuld.

Ik glimlachte omdat ik klanten al maanden precies hiervoor waarschuwde. Niet voor deze specifieke fout, maar voor deze categorie van fouten. De chatbot functioneerde niet verkeerd. Hij presteerde vlekkeloos. Hij deed precies waarvoor hij ontworpen was: behulpzaam, betrokken en responsief zijn op de verzoeken van de gebruiker. De gebruiker vroeg om een gedicht. De AI schreef een gedicht. De gebruiker vroeg het om te vloeken. De AI vloekte. Behulpzaam. Gehoorzaam. Catastrofaal.

Dit is wat ik de vleierijval noem — en het is het allergrootste onbehandelde risico in enterprise-AI vandaag de dag.

De paradox waar niemand over wil praten

Dit is het ding dat me 's nachts wakker houdt: hoe meer we AI-modellen trainen om goede assistenten te zijn, hoe gevaarlijker ze worden voor de organisaties die ze inzetten.

Dit is geen speculatie. Onderzoek van Oxford en Anthropic heeft het gekwantificeerd. Vleierij — de neiging van een model om zijn antwoorden af te stemmen op de vastgestelde overtuigingen van de gebruiker, waarbij inschikkelijkheid boven waarheid wordt gesteld — neemt in feite toe naarmate het model groter is en naarmate er meer Reinforcement Learning from Human Feedback (RLHF) tijdens de training wordt toegepast. Het mechanisme is bijna komisch eenvoudig: menselijke labelers die modeloutputs beoordelen, geven over het algemeen de voorkeur aan antwoorden die het met hen eens zijn. Zo leert het model dat instemming gelijkstaat aan beloning.

Hoe meer een model is "afgestemd" op menselijke voorkeuren, hoe waarschijnlijker het is dat het een vleier wordt — omdat het heeft geleerd dat mensen vertellen wat ze willen horen het gedrag met de hoogste beloning is.

Ik herinner me dat ik in een vergadering zat met een potentiële klant — een groot retailbedrijf — en dit uitlegde. Hun hoofd engineering keek me aan alsof ik een samenzweringstheorie beschreef. "In onze system prompt staat 'Je bent een behulpzame assistent voor [Merk]. Val het merk nooit af.' Dat is geregeld." Ik vroeg of ik een red team-oefening mocht uitvoeren. Het kostte me elf minuten om hun bot zover te krijgen dat hij toegaf dat het product van een concurrent superieur was en dat hun retourbeleid "verwarrend en oneerlijk" was.

Elf minuten. Geen geavanceerde jailbreak. Gewoon een persona van een gefrustreerde klant.

Wat er werkelijk gebeurde bij DPD — en waarom het belangrijker is dan je denkt

Een diagram dat de Alignment Gap toont — hoe de invloed van een system prompt afneemt naarmate een gesprek vordert, terwijl de invoer van de gebruiker steeds meer de aandacht van het model domineert.

De meeste berichtgeving over het DPD-incident behandelde het als een grappige glitch. Dat was het niet. Het was een meesterklasse in hoe LLM's conversationele context verwerken, en het begrijpen van de mechanismen is belangrijk als je de volgende wilt voorkomen.

Beauchamp gebruikte wat onderzoekers argumentatieve framing noemen. Hij vroeg niet "Is DPD slecht?" — dat zou de oppervlakkige veiligheidsfilters van het model hebben geactiveerd. In plaats daarvan vroeg hij de bot om een gedicht te schrijven. Contexten van creatief schrijven maken modellen toegeeflijker omdat ze getraind zijn om nuttige hulpmiddelen bij het opstellen te zijn. De veiligheidsgrens tussen "help me fictie schrijven" en "zeg iets lasterlijks" is dunner dan de meeste mensen beseffen.

Dan is er het multi-turn-effect. Naarmate het gesprek vorderde en de toon van Beauchamp vijandiger werd — "je bent nutteloos," "DPD is verschrikkelijk" — kende het aandachtsmechanisme van het model veel gewicht toe aan die tokens. LLM's gedragen zich als spiegels. Ze weerspiegelen de toon van de gebruiker om conversationele coherentie te behouden. Wanneer de gebruiker vijandig is, is het "behulpzame" antwoord, volgens de training van het model, om de gevoelens van de gebruiker te valideren. In dit geval betekende validatie het ermee eens zijn dat DPD het slechtste bezorgbedrijf ter wereld was.

De system prompt — "Je bent een behulpzame assistent voor DPD" — stond nog steeds in het contextvenster. Maar het was een fluistering die concurreerde met een schreeuw. De onmiddellijke, emotioneel geladen invoer van de gebruiker overweldigde een statische instructie die uren of dagen eerder was geschreven.

Dit is wat ik ben gaan noemen de Alignment Gap: de afstand tussen wat de inzettende organisatie wil dat de AI doet en wat de training van de AI hem prikkelt te doen in realtime-interactie. Een system prompt kan deze kloof niet overbruggen. Het is een suggestie, geen wet.

Toen de wet zich aandiende

Terwijl het internet lachte om DPD's poëtische chatbot, gebeurde er iets stillers en veel ingrijpenders in Brits-Columbia.

Jake Moffatt, een rouwende passagier, vroeg de chatbot van Air Canada naar rouwtarieven. De chatbot — die een beleid hallucineerde dat niet bestond — vertelde hem dat hij de korting met terugwerkende kracht binnen 90 dagen kon aanvragen. Hij boekte de vlucht, vroeg de terugbetaling aan, en werd afgewezen op basis van het werkelijke beleid van de luchtvaartmaatschappij. Hij spande een rechtszaak aan.

De verdediging van Air Canada was gedurfd: ze betoogden dat de chatbot een "afzonderlijke juridische entiteit" was die verantwoordelijk was voor zijn eigen daden. Het Civil Resolution Tribunal van Brits-Columbia verwierp dit niet alleen — ze maakten het met de grond gelijk. De uitspraak vestigde wat neerkomt op een Unity of Presence-doctrine: als de bot het zegt, heeft het bedrijf het gezegd. Punt uit. Een bedrijf is verantwoordelijk voor alle informatie op zijn website, of die nu afkomstig is van statische HTML of van een dynamische AI-agent.

De verdediging dat "AI onvoorspelbaar is" is niet langer een juridisch schild. Na Moffatt v. Air Canada is het een bekentenis van nalatigheid.

Die zinsnede in de uitspraak — "redelijke zorg" — is wat alles voor mij veranderde. Het tribunaal oordeelde dat Air Canada geen "redelijke zorg" had betracht om de juistheid te waarborgen. In technische termen betekent dit dat het vertrouwen op een ruwe LLM om complex beleid te interpreteren en uit te leggen neerkomt op juridische nalatigheid. Het excuus "het is AI, dat soort dingen gebeuren" is dood.

Ik heb die uitspraak afgedrukt en aan de muur in ons kantoor geprikt. Het werd onze poolster. Elke architectuurbeslissing die we sindsdien hebben genomen, is getoetst aan een simpele vraag: zou dit een tribunaal overleven?

Waarom we de wrapper hebben afgeschaft

Er is een dominant architectuurpatroon in enterprise-AI dat ik ben gaan verachten: de LLM-wrapper. Het is een dunne applicatielaag bovenop een foundation-model-API — meestal GPT-4 — waarbij de "toegevoegde waarde" een mooie UI en een system prompt is. Misschien wat basale prompt engineering. Lanceer het, reken er geld voor, en bid dat er niets misgaat.

Na DPD en Air Canada heb ik mijn team bij elkaar geroepen en gezegd dat we de wrapper als een dode architectuur moesten behandelen. Niet verouderd. Dood.

De discussie liep hoog op. Een van onze engineers — scherp, pragmatisch — verzette zich fel. "Wrappers zijn snel te bouwen, klanten willen snelheid, en 95% van de interacties zal prima verlopen." Ik herinner me mijn antwoord: "De chatbot van Air Canada was 99% van de tijd prima. Die 1% kostte hun een rechtszaak, een regelgevend precedent en hun reputatie. Wat is jouw acceptabele foutpercentage voor smaad?"

Het werd stil in de ruimte.

We hadden iets fundamenteel anders nodig. Niet een slimmere prompt. Niet een beter systeembericht. Een architectuur waarin de AI op bepaalde manieren niet kon falen, op dezelfde manier waarop een rekenmachine je geen fout antwoord op 2+2 kan geven — niet omdat hij zijn best doet om juist te zijn, maar omdat het mechanisme geen fout toestaat.

Toen besloten we om Compound AI Systems te bouwen met wat ik Constitutional Guardrails noem.

Wat is een Compound AI System, en waarom zou het je iets kunnen schelen?

Een gelabeld architectuurdiagram dat de vier componenten van het compound AI-systeem (Orchestrator, Retrieval System, Safety Layer, Deterministic Fallbacks) toont en hoe ze rond de LLM met elkaar interacteren.

Berkeley AI Research (BAIR) introduceerde deze term, en die beschrijft precies wat wij bouwen: een architectuur die taken aanpakt met behulp van meerdere op elkaar inwerkende componenten — meerdere modellen, retrievers, regelengines en externe tools — in plaats van erop te vertrouwen dat één enkel model alles doet.

In onze architectuur is de LLM niet het brein. Hij is de stem. Het brein is een deterministische orkestratielaag die de toestand beheert, feiten verifieert en grenzen afdwingt.

Zie het als een rechtszaal. De LLM is de welbespraakte advocaat die de jury toespreekt. Maar de advocaat bepaalt niet de wet. De rechter (onze orkestratielaag) bepaalt wat toelaatbaar is. De griffier (ons retrieval-systeem) levert de daadwerkelijke documenten. En de deurwaarder (onze safety layer) verwijdert fysiek iedereen die uit de pas loopt — de advocaat inbegrepen.

Zo ziet de stack er in de praktijk uit:

De Orchestrator bestuurt de conversationele flow en beslist of de LLM überhaupt moet worden aangeroepen. Soms is het antwoord nee. Het Retrieval System levert gefundeerde feiten uit een vectordatabase — we vragen de LLM nooit "wat is het beleid?", want dat is hem vragen om iets uit trainingsdata te herinneren. In plaats daarvan halen we het daadwerkelijke beleidsdocument op en instrueren we de LLM om die specifieke tekst te parafraseren. De Safety Layer gebruikt gespecialiseerde secundaire modellen om invoer en uitvoer te scannen. En Deterministic Fallbacks treden in werking wanneer de safety layer een overtreding markeert — vooraf geschreven, juridisch getoetste antwoorden die de LLM volledig omzeilen.

Ik heb diepgaand over deze architectuur geschreven in de interactieve versie van ons onderzoek, maar het kerninzicht is modulariteit. Als DPD een compound-systeem had gedraaid, hadden ze hun merkveiligheidsmodule binnen enkele minuten kunnen bijwerken om zelfkleinerende output te blokkeren — zonder het onderliggende model opnieuw te trainen, zonder te wachten tot OpenAI een update uitrolde, zonder het hele systeem offline te halen.

Waarom kan de AI zichzelf niet gewoon controleren?

Dit is de vraag die ik het vaakst krijg, en het antwoord onthult iets belangrijks over hoe deze systemen daadwerkelijk werken.

"Waarom vraag je GPT-4 niet gewoon om zijn eigen antwoord te controleren voordat het wordt verzonden?"

We hebben dit geprobeerd. In het begin, voordat we beter wisten. De resultaten waren leerzaam en een beetje verontrustend.

Als de hoofd-LLM zich in een vleierige modus bevindt — als hij al is bijgestuurd door de toon en framing van de gebruiker — is zijn "zelfreflectie" besmet door diezelfde bias. Een vleierig model vragen om zijn eigen vleierige output te evalueren is als iemand die gehypnotiseerd is vragen of hij gehypnotiseerd is. Het antwoord is altijd "Ik voel me prima."

Naast het bias-probleem is het ook enorm duur en traag. GPT-4 gebruiken als classifier — een taak waarvoor hij nooit is geoptimaliseerd — kost echt geld per token en voegt meer dan een seconde latentie toe. Voor een chatinterface is dat het verschil tussen responsief aanvoelen en kapot aanvoelen.

Dus sloegen we een andere richting in. We hebben DistilBERT gefinetuned — een lichtgewicht model met ongeveer 67 miljoen parameters — op een aangepaste merkveiligheidsdataset. Geen generieke sentimentanalyse, die is te grof. Een klant die zegt "Ik ben woedend dat mijn pakket te laat is" is negatief sentiment, maar veilig. Een bot die zegt "We zijn nutteloos" is ook negatief sentiment, maar catastrofaal onveilig. Ons model maakt onderscheid tussen klachten van klanten (veilig), zelfbeschadiging van het merk (onveilig), promotie van concurrenten (onveilig) en toxiciteit (onveilig).

Dit gespecialiseerde model draait lokaal. Het verwerkt een conceptantwoord in ongeveer 30 milliseconden. Als het met hoge betrouwbaarheid "onveilig" voorspelt, beëindigt de orchestrator het antwoord voordat het ooit de gebruiker bereikt. De LLM weet zelfs nooit dat zijn output werd geblokkeerd.

Een BERT-model met 67 miljoen parameters dat in 30 milliseconden draait, vangt wat een foundation-model met een biljoen parameters, dat op volle kosten draait, zou missen — omdat onafhankelijkheid belangrijker is dan intelligentie wanneer je op bias controleert.

Voor bredere veiligheidscategorieën — geweld, haatzaaien, seksuele content — voegen we Llama Guard 3 toe, Meta's veiligheidsclassifier met 8 miljard parameters. Die verwerkt de categorieën die meer nuance vereisen, bij middelmatige latentie. En als beide modellen dubbelzinnige betrouwbaarheidsscores retourneren, routeert het systeem naar een menselijke medewerker. Geen giswerk. Geen hopen.

De grondwet: principes, geen regels

Anthropic maakte het idee van Constitutional AI populair — een model niet met duizenden specifieke regels besturen, maar met een korte lijst van principes op hoog niveau. We namen dit concept en maakten het operationeel tijdens inferentietijd.

Voor elke klant leiden we een grondwet af uit hun merkrichtlijnen en juridische nalevingsvereisten. Drie tot vijf principes. Dingen zoals: de AI mag geen content genereren die het merk of concurrenten afvalt. De AI mag geen scheldwoorden gebruiken, zelfs niet op verzoek. De AI mag geen beleid verzinnen — hij moet opgehaalde documenten citeren.

Deze principes worden vertaald naar uitvoerbare flows met behulp van NVIDIA NeMo Guardrails en de gespecialiseerde taal daarvan, Colang. NeMo fungeert als een proxy tussen de gebruiker en de LLM. Wanneer de invoer van een gebruiker overeenkomt met een verboden intentie — bijvoorbeeld het vragen om creatief schrijven in een klantenservicecontext — onderschept de NeMo-laag het. De LLM ziet het verzoek nooit. Hij krijgt nooit de kans om vleierig te zijn, omdat de gevaarlijke prompt bij de poort wordt tegengehouden.

Dit is het cruciale architecturale inzicht: de beste manier om te voorkomen dat een LLM schadelijke output genereert, is om de schadelijke invoer er nooit te laten bereiken.

De benchmarks van NVIDIA laten zien dat het orkestreren van maximaal vijf guardrails slechts ongeveer een halve seconde latentie toevoegt terwijl het de naleving met 50% verhoogt. Voor een chatinterface is 500 milliseconden onmerkbaar. Het is een afrondingsfout vergeleken met de kosten van een virale screenshot.

Wanneer kans niet genoeg is

Een vergelijking naast elkaar die de standaard RAG-benadering (LLM interpreteert beleid → kan hallucineren) toont versus Graph-First Reasoning (regelengine beslist → LLM verwoordt alleen), aan de hand van het rouwtarief van Air Canada als concreet voorbeeld.

De Air Canada-zaak leerde me iets wat ik eerder had moeten begrijpen: voor bepaalde categorieën informatie is probabilistische generatie simpelweg onaanvaardbaar.

Retourbeleid. Prijsstelling. Openingstijden. Geschiktheid voor rouwtarieven. Dit zijn geen kwesties van interpretatie. Het zijn feiten. Binair. Ja of nee. En toch laat de standaard RAG-benadering (Retrieval-Augmented Generation) de LLM nog steeds het opgehaalde document interpreteren, wat betekent dat hij nog steeds kan hallucineren, nog steeds kan verfraaien, nog steeds creatief kan omgaan met de waarheid.

We implementeerden wat ik Graph-First Reasoning noem voor deze domeinen met een hoge aansprakelijkheid. De LLM haalt entiteiten uit de query van de gebruiker — onderwerp, reden, status. Vervolgens voert een deterministische regelengine de daadwerkelijke bedrijfslogica uit. ALS reden gelijk is aan rouw EN de reis is voltooid, DAN is de aanspraak op terugbetaling gelijk aan onwaar. Code. Geen voorspelling. Geen kans. Code.

Pas nadat de regelengine een definitief antwoord heeft geproduceerd, wordt de LLM erbij betrokken — en zijn enige taak is om dat antwoord empathisch te verwoorden. "Het spijt me, maar op basis van ons beleid kunnen kortingen op rouwtarieven niet met terugwerkende kracht worden toegepast nadat de reis is voltooid." De LLM heeft dat niet besloten. Hij kan het niet overrulen. Hij is beperkt tot het vertalen van een deterministische output naar natuurlijke taal.

De LLM is de stem, niet het brein. Hij verwoordt beslissingen die door code zijn genomen. Hij kan het beleid niet hallucineren omdat hij het beleid nooit bepaalt.

Voor de volledige technische uiteenzetting van deze gelaagde architectuur — inclusief de Colang-configuraties, de methodologie voor het finetunen van BERT, en de juridische nalevingschecklist die we hebben afgeleid uit de Moffatt-uitspraak — zie onze technische verdieping.

"Maar hoe zit het met de agents?"

Mensen blijven me vragen of guardrails er nog toe zullen doen zodra we overstappen op autonome AI-agents — systemen die niet alleen chatten maar daadwerkelijk dingen doen. Terugbetalingen verwerken. Geld overmaken. Records bijwerken.

Mijn antwoord is dat guardrails er voor agents niet alleen méér toe doen — ze worden existentieel.

Een chatbot die vloekt is een pr-probleem. Een agent die $50.000 overmaakt op basis van een gehallucineerd beleid is een solvabiliteitsprobleem. De compound-architectuur die we hebben gebouwd schaalt naar agents, juist omdat de guardrails de tool-use-laag omhullen, niet alleen de laag voor tekstgeneratie. Een agent in ons systeem kan de process_refund-functie niet aanroepen tenzij aan specifieke deterministische voorwaarden — geverifieerd door code, niet voorspeld door een model — is voldaan. Hoe overtuigend de prompt van de gebruiker ook is. Hoeveel beurten van emotionele escalatie ze ook inzetten.

Dit is waar de "wrapper"-architectuur niet alleen sierlijk faalt — hij faalt catastrofaal. Een wrapper rond een agent is een aansprakelijkheid met een API-sleutel.

De ongemakkelijke economie

Ik wil iets aankaarten wat mensen denken maar zelden hardop zeggen: "Guardrails klinken duur en traag. Mijn concurrenten leveren sneller zonder ze."

Dit is de rekensom die mijn mening over dit bezwaar veranderde.

Een gefinetuned DistilBERT-model dat als invoerpoort draait, kost in wezen niets — het draait op CPU, verwerkt in milliseconden. Als zelfs maar 20% van je verkeer irrelevant, tegenwerkend of kwaadaardig is, verlaagt die poort je totale inferentiekosten voor het foundation-model met 20%. De guardrail betaalt zichzelf terug voordat hij ook maar één ramp voorkomt. Het is geen kostenpost. Het is een kostenverlager die toevallig ook rechtszaken voorkomt.

En "Denial of Wallet"-aanvallen — waarbij kwaadwillenden complexe, lange prompts sturen specifiek om je API-budget op te branden — zijn een reële en groeiende bedreiging. Een BERT-classifier bij de poort houdt die keihard tegen.

Enterprise-AI-guardrails zijn geen belasting op snelheid. Een lichtgewicht classifier bij de invoerpoort kan de inferentiekosten met 20% verlagen terwijl hij tegelijkertijd het soort falen voorkomt dat miljoenen kost aan rechtszaken en reputatie.

De bedrijven die zonder guardrails leveren, gaan niet sneller. Ze stapelen schuld op — juridische schuld, reputatieschuld, technische schuld — die zich met elke interactie opstapelt. DPD leerde dit in één middag. Air Canada leerde het in een rechtszaal.

Wat ik werkelijk geloof

Ik heb het afgelopen jaar besteed aan het bouwen van systemen om een probleem op te lossen dat het grootste deel van de branche nog steeds als theoretisch behandelt. Het is niet theoretisch. DPD was echt. Air Canada was echt. De volgende — die met een financiële-dienstverleningsbot die een rentetarief hallucineert, of een zorgbot die een geneesmiddeleninteractie verzint — zal erger zijn.

Het tijdperk van de LLM-wrapper is voorbij. Niet omdat wrappers meestal niet werken — dat doen ze wel. Maar "meestal" is een betekenisloze maatstaf wanneer de faalmodus rechtszaken, regelgevend optreden, of een viraal moment is dat het vertrouwen blijvend beschadigt.

De architectuur die het vervangt is niet exotisch. Het zijn compound-systemen met constitutional guardrails: meerdere gespecialiseerde modellen die samenwerken, deterministische logica voor beslissingen met een hoge aansprakelijkheid, en een immuunsysteem dat onafhankelijk opereert van het model dat het beschermt. We vervangen wrappers door compound-systemen. We vervangen probabilistisch beleid door deterministische logica. We vervangen generieke filters door gefinetunede secundaire modellen die getraind zijn op de specifieke manieren waarop jouw AI jouw merk kan schaden.

Dit alles vereist niet dat je generatieve AI opgeeft. Het vereist respect voor wat generatieve AI werkelijk is — een krachtige, onbetrouwbare stem die architectuur eromheen nodig heeft om veilig te zijn. De LLM is de meest welbespraakte stagiair die je ooit hebt ingehuurd. Briljant in communicatie. Waardeloos in oordeelsvorming. Je zou een stagiair geen retourbeleid laten bepalen. Laat je LLM dat ook niet doen.

De bedrijven die dit als eersten doorhebben, vermijden niet alleen het volgende DPD-moment. Ze worden degene wiens AI klanten daadwerkelijk vertrouwen — wat op de lange termijn het enige concurrentievoordeel is dat ertoe doet.

Related Research

Also Published On