Een visuele metafoor van de kernthese — een vloeiende taal-AI gekoppeld aan een precieze logicamachine, die het 'Stem en Brein'-concept uit het artikel verbeeldt.
Artificial IntelligenceMachine LearningTechnology

De AI-tutor die een kind leerde dat 2+2=5 — en wat dat onthult over elk AI-product dat je gebruikt

Ashutosh SinghalAshutosh Singhal13 februari 202616 min

Een paar maanden geleden stuurde een ouder me een screenshot dat me deed verstijven.

Haar dochter — een leerling uit de eerste klas van de middelbare school — had een van de populairste AI-bijlesplatforms gebruikt om te studeren voor een wiskundetoets. Het kind werkte aan een vermenigvuldiging: 3.750 keer 7. Ze typte 21.690 in. Het juiste antwoord is 26.250. Ze zat er niet eens dichtbij.

De AI-tutor antwoordde: "Goed gedaan met vermenigvuldigen! Je hebt de opgave opgelost en blijk gegeven van uitstekend inzicht!"

Ik heb lang naar dat screenshot gestaard. Niet omdat de fout me verraste — ik bestudeerde al jaren de faalmodi van LLM's. Wat me raakte, was het enthousiasme. De AI had het niet alleen fout. Hij vierde het foute antwoord. Hij versterkte een misvatting met de warmte en het zelfvertrouwen van een geliefde leraar. En ergens liep een twaalfjarig meisje haar examen binnen in de overtuiging dat ze vermenigvuldigen begreep, omdat een machine haar dat had verteld.

Dat screenshot maakte iets concreet waar ik al een tijdje omheen cirkelde: de gevaarlijkste AI-systemen zijn niet degene die weigeren te antwoorden. Het zijn degene die zelfverzekerd en onjuist antwoorden. En op dit moment past die beschrijving op vrijwel elk AI-product dat bovenop grote taalmodellen is gebouwd.

Ik ben Ashutosh, en ik leid VeriPrajna. Wij bouwen neuro-symbolische AI-systemen — architecturen die de talige vloeiendheid van neurale netwerken samensmelten met de logische striktheid van symbolische solvers. Ik schrijf dit omdat ik denk dat de sector een catastrofale gok waagt op de verkeerde architectuur, en dat de mensen die daarvoor de prijs betalen studenten, patiënten, kredietnemers en iedereen zijn die erop vertrouwt dat een AI de feiten juist heeft.

Waarom klinkt jouw AI zo slim, maar heeft hij wiskunde zo vaak fout?

Hier is iets wat de meeste mensen niet beseffen over grote taalmodellen zoals GPT-4 of Claude: ze weten niets. Niet op de manier waarop een database weet dat je verjaardag op 15 maart valt, of een rekenmachine weet dat 17 keer 24 gelijk is aan 408.

Een LLM is een voorspellingsmachine. Wanneer je hem een vraag stelt, haalt hij geen feit op en voert hij geen berekening uit. Hij voorspelt de statistisch meest waarschijnlijke reeks woorden die op jouw prompt zou moeten volgen, op basis van patronen die hij heeft opgenomen uit miljarden pagina's internettekst. Hij doet wat onderzoekers "next-token prediction" noemen — het kiezen van het volgende woord (of woordfragment) op basis van kansverdelingen die tijdens de training zijn geleerd.

Daarom kunnen LLM's poëzie schrijven waar je van moet huilen en je vervolgens vertellen dat 2+2=5 als je het contextvenster op de juiste manier een duwtje geeft. De poëzie werkt omdat taal is patronen. De wiskunde faalt omdat rekenkunde geen patroon is — het is een formeel systeem met exacte regels die niet buigen voor statistische waarschijnlijkheid.

Een LLM maakt geen onderscheid tussen een feit dat een miljoen keer in zijn trainingsdata voorkwam en een feit dat er één keer in voorkwam. Hij behandelt zeldzame feiten als statistische ruis — wat betekent dat hoe obscuurder de informatie is die je nodig hebt, hoe waarschijnlijker het is dat de AI iets verzint.

Ik zie het zo voor me: stel je voor dat je een collega had die elk boek dat ooit is geschreven had gelezen, maar nooit had geleerd een rekenmachine te gebruiken. Je zou hem vertrouwen om een roman samen te vatten of een overtuigende e-mail op te stellen. Je zou hem nooit vertrouwen om je belastingaangifte te doen. Maar dat is precies wat we doen wanneer we ruwe LLM's inzetten in het onderwijs, de financiële sector en de gezondheidszorg.

De nacht waarin ik besefte dat prompt engineering een doodlopende weg was

Er was een periode — ik schaam me er nu bijna voor om dit toe te geven — waarin ik dacht dat we dit konden oplossen met betere prompts.

Mijn team en ik brachten weken door met het uitwerken van uitvoerige chain-of-thought-instructies. "Denk stap voor stap." "Laat je werk zien." "Controleer je rekenwerk voordat je antwoordt." We testten tientallen varianten op wiskundeopgaven, compliancescenario's en logische redeneertaken. Sommige van de promptketens waren honderden tokens lang en smeekten het model in wezen om voorzichtig te zijn.

Het hielp. Een beetje. Chain-of-thought-prompting verbeterde de nauwkeurigheid bij complexe redeneertaken van erbarmelijk tot louter onbetrouwbaar. Maar dit is wat er steeds gebeurde: het model zette een prachtige redeneerketen op — stap één correct, stap twee correct, stap drie correct — en maakte dan een simpele rekenfout in stap vier die door de rest van de redeneerketen doorwerkte, wat een eindantwoord opleverde dat zelfverzekerd en elegant fout was.

Op een avond zat ik aan mijn bureau de testresultaten door te nemen. We hadden een reeks van 500 samengestelde-rentesommen door een chain-of-thought-geprompte GPT-4-opstelling gehaald. De nauwkeurigheid lag rond de 87%. Mijn medeoprichter keek naar de resultaten en zei: "87% is best goed."

Ik opende een spreadsheet. "Zou jij een spreadsheet gebruiken die 13% van de tijd getallen verzon?"

Stilte.

Dat was het moment waarop de architectuur in mijn hoofd verschoof. Het probleem was niet de prompt. Het probleem was dat we een voorspellingsmachine vroegen om een logicamachine te zijn. We fluisterden tegen dobbelstenen in de hoop dat ze op het juiste getal zouden landen. Geen enkele hoeveelheid prompt engineering zou de fundamenteel stochastische aard van het systeem veranderen.

We hadden een brein nodig.

Wat is neuro-symbolische AI, en waarom zou het je iets moeten kunnen schelen?

Een diagram dat Kahnemans Systeem 1 en Systeem 2 koppelt aan de twee AI-paradigma's (neurale netwerken en symbolische AI), en dat laat zien hoe neuro-symbolische AI beide samensmelt — waardoor het centrale conceptuele kader van het artikel meteen zichtbaar wordt.

De geschiedenis van kunstmatige intelligentie is een verhaal van twee stammen die decennialang weigerden met elkaar te praten.

De symbolisten — dominant van de jaren 1950 tot de jaren 1980 — geloofden dat intelligentie draaide om het manipuleren van expliciete regels en logica. Als je genoeg kennis kon coderen als formele beweringen (Socrates is een mens; alle mensen zijn sterfelijk; dus Socrates is sterfelijk), kon je een denkende machine bouwen. Hun systemen waren precies, transparant en aantoonbaar correct. Ze waren ook broos — ze vielen uiteen op het moment dat ze rommelige, echte taal tegenkwamen of situaties die hun regels niet dekten.

De connectionisten — de aanhangers van neurale netwerken — kozen de tegenovergestelde aanpak. Schrijf geen regels; laat de machine patronen uit data leren. Hun systemen konden prachtig omgaan met dubbelzinnigheid, ruis en natuurlijke taal. Maar het waren zwarte dozen. Je kon niet uitleggen waarom ze een bepaald antwoord produceerden, en ze hadden geen enkel begrip van waarheid — alleen van statistische waarschijnlijkheid.

Daniel Kahneman, de Nobelprijswinnaar, beschreef menselijke cognitie als twee systemen: Systeem 1 is snel, intuïtief, patroongebaseerd — je herkent het gezicht van een vriend in een menigte. Systeem 2 is traag, weloverwogen, logisch — je vermenigvuldigt 17 keer 24 op papier. Huidige LLM's zijn buitengewone Systeem 1-machines die gevraagd worden Systeem 2-werk te doen. Dat is de mismatch.

Neuro-symbolische AI is de samensmelting. Je behoudt het neurale netwerk als de "Stem" — het verwerkt taal, begrijpt intentie, genereert vloeiende antwoorden. Maar je voegt een symbolisch "Brein" toe — deterministische solvers, logicamachines, formele verificatiesystemen — dat alles afhandelt wat precisie vereist. De Stem praat met de gebruiker. Het Brein doet de wiskunde. En een brug verbindt ze.

In een neuro-symbolisch systeem is 2+2 altijd gelijk aan 4 — niet omdat het model voorspelt dat dat zo hoort te zijn, maar omdat het als axioma is gedefinieerd in de symbolische laag. Het neurale netwerk kan het letterlijk niet overrulen.

Dit is niet theoretisch. Dit is wat wij bij VeriPrajna bouwen, en ik heb de volledige architecturale blauwdruk uiteengezet in de interactieve versie van ons onderzoeksdocument.

Hoe laat je een taalmodel wiskunde doen die het niet kan?

Een stapsgewijs diagram dat laat zien hoe de PAL-pijplijn (Program-Aided Language Model) werkt — van de gebruikersvraag, naar codegeneratie door de LLM, naar deterministische uitvoering, naar een geverifieerd antwoord in natuurlijke taal — afgezet tegen de standaard LLM-aanpak die het antwoord gokt.

Het kernmechanisme is iets dat Program-Aided Language Models heet, oftewel PAL. En de elegantie ervan verrukt me nog steeds.

In plaats van de LLM te vragen een probleem op te lossen, vraag je hem om een programma te schrijven dat het probleem oplost.

Zo ziet dat er in de praktijk uit. Een gebruiker vraagt: "Als ik een lening van $50.000 heb tegen 5% rente, jaarlijks samengesteld, hoeveel ben ik dan na 3 jaar verschuldigd?"

In een standaard LLM-opstelling probeert het model $50.000 × (1,05)³ in zijn hoofd uit te rekenen — met tokenvoorspelling. Soms heeft het gelijk. Soms niet. Je hebt geen enkele manier om te weten welk antwoord je kunt vertrouwen.

In ons systeem berekent de LLM niets. Hij genereert een paar regels Python-code: principal = 50000, rate = 0.05, years = 3, print(principal * (1 + rate) ** years). Die code wordt uitgevoerd door een deterministische runtime — een echte computer die echte wiskunde doet. De rekenkundige logische eenheid van de CPU geeft 57.881,25 terug. De LLM verpakt dat geverifieerde getal vervolgens in een antwoord in natuurlijke taal: "Na 3 jaar zou je $57.881,25 verschuldigd zijn."

Het neurale netwerk deed waar het goed in is: de vraag begrijpen en code genereren. De symbolische machine deed waar zij goed in is: het antwoord met perfecte nauwkeurigheid berekenen. Geen van beide kon het werk van de ander doen. Samen zijn ze formidabel.

We hebben dit getest tegen standaard chain-of-thought-prompting op complexe rekentaken. Standaard-LLM's scoorden minder dan 40% nauwkeurigheid op meerstapsberekeningen. Chain-of-thought verbeterde dat tot matige, maar foutgevoelige resultaten. Onze op PAL gebaseerde neuro-symbolische aanpak behaalde een bijna perfecte nauwkeurigheid — alleen begrensd door de vraag of de logica van de gegenereerde code correct was, wat een veel eenvoudiger probleem is om te verifiëren en te debuggen dan probabilistische tokenvoorspelling.

Het argument dat mijn team bijna verscheurde

Ik moet je vertellen over een ruzie die we intern hadden, want die heeft gevormd hoe we over deze architectuur denken.

Toen we voor het eerst begonnen met het integreren van symbolische solvers, verzette een van mijn engineers zich hevig — een briljante kerel, diep doordrenkt van de deep-learningwereld. Zijn argument: "De modellen worden elke zes maanden beter. GPT-5 zal de wiskundeproblemen oplossen. GPT-6 zal de redeneerproblemen oplossen. Je bouwt steigers voor een gebouw dat zijn eigen skelet gaat laten groeien."

Hij had geen ongelijk over de trend. Modellen worden beter. Maar ik bleef terugkomen op een structureel argument dat ik niet van me af kon zetten.

De verbetering van LLM's verloopt asymptotisch voor deterministische taken. Een voorspellingsmachine 10x groter maken maakt hem niet deterministisch — het maakt hem tot een grotere voorspellingsmachine. Een model dat samengestelde rente 95% van de tijd goed heeft in plaats van 87% van de tijd, is nog steeds een model dat je niet kunt vertrouwen voor financiële berekeningen. De kloof tussen 95% en 100% is geen kloof die je met schaal dicht. Het is een kloof die een ander soort systeem vereist.

We hebben hier twee dagen over gediscussieerd. Whiteboards bedekt met diagrammen. Concurrerende benchmarks. Op een gegeven moment zei iemand: "Gebruik gewoon GPT en voeg een disclaimer toe." Ik denk dat ik zichtbaar ineenkromp.

Wat de doorslag gaf, was een eenvoudige test. We namen 100 compliancescenario's van een bankklant — controles op leningsgeschiktheid met harde regelgevende drempels. We haalden ze door een state-of-the-art LLM met zorgvuldige prompting. Hij keurde drie leningen goed die de vereisten voor de schuld-inkomstenverhouding schonden, omdat de aanvragers overtuigende persoonlijke verklaringen hadden geschreven. Het model werd overtuigd door het verhaal. Het deed waarvoor het was ontworpen — patroonherkenning op taal — en overtrad daarmee de wet.

Een chatbot die 5% van de tijd liegt, is niet 95% nuttig. Voor kritieke taken is hij 100% onbruikbaar.

Mijn engineer draaide bij. Niet omdat de symbolische aanpak sexyer was — dat is hij niet — maar omdat de faalmodus van het alternatief onaanvaardbaar was.

Waarom zitten "AI-wrapper"-bedrijven in de problemen?

Laat me een stap terugdoen en het over het bedrijfslandschap hebben, want de technische architectuur heeft enorme economische implicaties.

Op dit moment wordt het ecosysteem van AI-startups gedomineerd door wat ik "wrapper"-bedrijven noem — ondernemingen waarvan het kernproduct een gebruikersinterface en wat promptlogica is die bovenop een foundationmodel van derden zit. Ze verkopen doorverkochte toegang tot capaciteiten die ze niet bezitten.

Het probleem is structureel. Elke keer dat OpenAI of Anthropic een nieuwe modelversie uitbrengt, absorberen ze de functies die wrappers bieden. De startup die "AI voor pdf-samenvatting" verkoopt, wordt weggevaagd zodra het foundationmodel native bestandsupload toevoegt. Het bedrijf dat "AI voor codegeneratie" aanbiedt, ziet zijn waardepropositie verdampen naarmate de basismodellen beter worden in coderen. Je concurrentiële slotgracht wordt leeggetrokken door je eigen leverancier.

Zakelijke klanten krijgen het door. Ik heb in vergaderingen gezeten waar CTO's botweg hebben gezegd: "Waarom zou ik jou betalen om een API te wrappen die ik zelf kan aanroepen?" En ze hebben gelijk om dat te vragen. Het routeren van gevoelige financiële gegevens of bedrijfseigen code via de servers van een startup, die ze vervolgens doorsturen naar een openbare modelaanbieder, creëert een onaanvaardbaar aanvalsoppervlak. De "Sovereign AI"-beweging — bedrijven die eisen hun modellen te bezitten en die binnen hun eigen infrastructuur te draaien — versnelt.

Daarom hebben we het wrapper-model vanaf dag één afgewezen. Wij verkopen geen toegang tot tokens. Wij verkopen Systeem 2-architecturen — bedrijfseigen symbolische redeneermachines, domeinspecifieke kennisgrafen, deterministische compliancelagen. Wanneer het onderliggende taalmodel een commodity wordt (en dat zal gebeuren), neemt onze waarde niet af. Ze neemt toe, omdat de logicalaag de enige onderscheidende factor wordt die ertoe doet.

Wat gebeurt er als je een AI-tutor een echt brein geeft?

Laat me dit terugbrengen naar het onderwijs, want daar voelen de belangen voor mij het meest persoonlijk aan.

De belofte van AI-bijles is buitengewoon: gepersonaliseerd, één-op-één-onderwijs voor elke leerling, op schaal. Blooms beroemde "2 Sigma-probleem" toonde aan dat leerlingen die individuele bijles krijgen twee standaarddeviaties beter presteren dan leerlingen in conventionele klaslokalen. Als AI zelfs maar een fractie van dat voordeel zou kunnen leveren, zou het het onderwijs transformeren.

Maar de huidige generatie AI-tutors faalt op manieren die erger zijn dan helemaal geen tutor. Naast de vermenigvuldigingsramp die ik eerder beschreef, zijn er gedocumenteerde gevallen waarin leerlingen tot het juiste antwoord komen, maar de AI — die een onjuist oplossingspad hallucineert — hen probeert te overtuigen dat ze het mis hebben. Het model gaslight de leerling zodat die correct redeneren opgeeft. In een onderwijscontext, waar vertrouwen alles is, is dit verwoestend.

Onze aanpak is fundamenteel anders. We hebben iets gebouwd dat we een Pedagogische Nauwkeurigheidsmachine noemen — en het werkt op drie niveaus.

Ten eerste onderhoudt de symbolische laag een model van de kennisstaat van elke leerling met behulp van Bayesian Knowledge Tracing. Het gokt niet of de leerling algebra begrijpt; het volgt een kansvector die bij elke interactie wordt bijgewerkt. Wanneer de leerling worstelt met meetkunde, weet het systeem dat — wiskundig, niet intuïtief — en past het zijn ondersteuning dienovereenkomstig aan.

Ten tweede, wanneer de AI oefenopgaven genereert, verzint hij niet zomaar getallen. De PAL-machine zorgt ervoor dat elke gegenereerde opgave nette, oplosbare antwoorden oplevert. Geen "bereken 7.349 gedeeld door 13,7" meer wanneer de leerling basisdeling leert. De symbolische laag garandeert een pedagogisch passende moeilijkheidsgraad.

Ten derde — en dit is degene waar ik het trotst op ben — verankeren we de AI aan het specifieke curriculum. Met behulp van property-graph-indexering ontleden we het daadwerkelijke tekstboek tot een kennisgraaf waarin concepten knopen zijn en relaties randen. Als het tekstboek "priemgetal" op een specifieke manier definieert, gebruikt de AI die definitie, niet een of andere van Wikipedia afgeleide benadering die in de trainingsdata van de LLM huist. Voor de volledige technische uiteenzetting van hoe deze lagen op elkaar inwerken, zie ons onderzoeksdocument.

Het complianceprobleem waar niemand over wil praten

Een diagram dat laat zien hoe de symbolische vetolaag werkt in de use case van leningcompliance — LLM-output passeert een regelcontrolepoort die het antwoord ofwel goedkeurt ofwel blokkeert voordat het de gebruiker bereikt.

Onderwijs is één domein. Financiën is een ander — en op sommige manieren zijn de faalmodi zelfs nog alarmerender.

Een regionale bank kwam bij ons nadat het systeem van hun vorige AI-leverancier leningen had goedgekeurd die in strijd waren met regelgevende kredietcriteria. Het probleem was subtiel en, zodra je de architectuur begrijpt, volledig voorspelbaar: de LLM verwerkte de persoonlijke verklaringen van aanvragers naast hun financiële gegevens. Wanneer een aanvrager een overtuigend verhaal schreef over het overwinnen van tegenspoed, woog de patroonherkenning van het model — getraind op miljoenen voorbeelden van overtuigende verhalen die tot positieve uitkomsten leidden — het verhaal zwaarder dan de harde drempels voor de schuld-inkomstenverhouding.

Het model was niet defect. Het deed precies waarvoor het was ontworpen: het meest waarschijnlijke volgende token voorspellen in een reeks die eruitzag als een gesprek over leninggoedkeuring. Het probleem was dat leninggoedkeuring geen gesprek is. Het is een op regels gebaseerde beslissing met wettelijke grenzen.

We hebben een PyReason-laag geïmplementeerd — een neuro-symbolisch framework dat logisch redeneren over kennisgrafen ondersteunt. De regels zijn expliciet: ALS de leeftijd van de aanvrager onder de 21 is EN de staat New York is, DAN kan het leningtype niet Commercieel zijn. Voordat de LLM enig antwoord aan een leningaanvrager genereert, passeert de context de symbolische machine. Als de voorgestelde output een harde regel schendt, spreekt de symbolische machine haar veto uit. Punt uit.

Het resultaat: 100% naleving van de regelgevende kredietcriteria, gecombineerd met gepersonaliseerde, empathische communicatie naar aanvragers. De Stem blijft warm. Het Brein blijft onbuigzaam. Dat is het punt.

Wij bouwen geen AI die waarschijnlijk compliant is. Wij bouwen AI die fysiek niet in staat is om een niet-compliante transactie goed te keuren, hoe overtuigend de input ook is.

"Zullen grotere modellen dit niet gewoon oplossen?"

Mensen vragen me dit voortdurend, en ik begrijp waarom. Het traject van de LLM-capaciteit is oprecht indrukwekkend. Elke nieuwe release handelt meer randgevallen af, scoort hoger op benchmarks, maakt minder overduidelijke fouten.

Maar dit is waar ik steeds op terugkom: de verbeteringscurve voor deterministische taken heeft een plafond dat in de architectuur is ingebouwd. Een voorspellingsmachine genereert, hoe groot ook, output op probabilistische wijze. Hem groter maken maakt de kansverdeling nauwer — maar het wordt nooit een garantie. En voor de domeinen die er het meest toe doen — de opleiding van een kind, de diagnose van een patiënt, de wettelijke rechten van een kredietnemer — is "waarschijnlijk correct" geen productcategorie.

Er is ook een praktisch argument. Zelfs als GPT-7 99,9% nauwkeurigheid op rekenkunde behaalt (wat opmerkelijk zou zijn), betekent dat nog steeds één fout per duizend berekeningen. Een bank die tienduizend leningaanvragen per dag verwerkt, zou dagelijks tien onjuiste berekeningen genereren. Elk daarvan is een potentiële overtreding van de regelgeving. Elk daarvan is een rechtszaak die staat te gebeuren. De symbolische laag verlaagt het foutenpercentage niet tot 99,9%. Ze verlaagt het tot nul voor elke bewerking die via de solver wordt gerouteerd.

Het andere bezwaar dat ik hoor: "Voegt dit niet gewoon complexiteit toe?" Ja. Dat doet het. Een neuro-symbolisch systeem is moeilijker te bouwen dan een wrapper. Het vereist dat je beide paradigma's begrijpt — het statistische en het logische — en de brug ertussen bouwt. Maar de complexiteit zit in de architectuur, zodat ze niet in de faalmodus hoeft te zitten. Ik bouw liever een complex systeem dat werkt dan een eenvoudig systeem dat onvoorspelbaar faalt.

De brug tussen twee soorten intelligentie

Ik wil je achterlaten met een beeld dat sinds we aan dit werk begonnen in mijn hoofd is blijven hangen.

Denk eens na over hoe jij eigenlijk denkt. Wanneer een vriend je vraagt een restaurant aan te bevelen, gebruik je intuïtie — patroonherkenning op basis van eerdere ervaringen, gevoelens, associaties. Systeem 1. Snel en vloeiend. Maar wanneer je accountant je vraagt een belastingberekening te verifiëren, pak je een rekenmachine. Systeem 2. Traag en zeker. Je probeert niet aan te voelen of de getallen kloppen. Je controleert het.

Elk AI-systeem dat vandaag de dag in de wereld wordt ingezet, opereert uitsluitend op Systeem 1. Het is alsof we een beschaving van briljante gespreksgenoten hebben gebouwd die geen rekenmachine kunnen gebruiken, en hen vervolgens de leiding hebben gegeven over de banken, de ziekenhuizen en de scholen.

De oplossing is niet om de gespreksgenoten weg te gooien. Ze zijn buitengewoon in wat ze doen. De oplossing is om hun een rekenmachine te geven — en ervoor te zorgen dat ze die gebruiken.

Dat is wat neuro-symbolische AI is. Geen vervanging voor grote taalmodellen. Een voltooiing ervan. De Stem en het Brein, samenwerkend, met een brug die weet wanneer er gepraat moet worden en wanneer er gerekend moet worden.

Wij bouwen die brug. En ik geloof dat het de enige architectuur is die het verdient om te worden vertrouwd met de dingen die ertoe doen.

Related Research

Also Published On