
Je AI-bijlesdocent weet niet dat je vorige week worstelde met breuken
Een paar maanden nadat we bij Veriprajna aan ons eerste AI-bijlesprototype waren begonnen, zag ik een demo waar ik trots op had moeten zijn. Een student typte een vraag over kwadratische vergelijkingen. De AI reageerde prachtig — geduldig, socratisch, aanmoedigend. Het loodste de student door het ontbinden in factoren met de warmte van een favoriete leraar. Iedereen in de kamer knikte.
Toen kwam de student de volgende dag terug en vroeg naar verhoudingen. De AI had geen idee dat dit dezelfde student was die al drie weken worstelde met breuken. Het behandelde haar als een vreemde. Het serveerde inhoud die uitging van een beheersing die zij niet had. Binnen vier minuten sloot ze het tabblad.
Die demo brak iets in me. Niet omdat de technologie faalde — ze presteerde precies zoals ontworpen. Ze genereerde het volgende statistisch waarschijnlijke token in een gesprek. Ze speelde met griezelige vloeiendheid een leraar na. Maar ze wist niets over deze student. Ze kon haar worsteling met breuken niet verbinden met het verhoudingsprobleem dat voor haar lag. Ze had geen geheugen, geen model, geen theorie over wie zij als lerende was.
Op dat moment besefte ik: de meeste AI-bijlesdocenten zijn helemaal geen bijlesdocenten. Het zijn chatbots in een lerarenkostuum.
En dat besef stuurde mijn team op een pad dat fundamenteel veranderde wat we aan het bouwen zijn.
Wat maakt een leraar tot een leraar?
Denk eens aan de beste leraar die je ooit hebt gehad. Ik durf te wedden dat wat hem of haar geweldig maakte niet het vermogen was om dingen helder uit te leggen — hoewel ze dat waarschijnlijk ook deden. Het was dat ze jou kenden. Ze herinnerden zich dat je dichtklapte tijdens mondelinge presentaties. Ze merkten op dat je het concept altijd begreep, maar onder druk rekenfouten maakte. Ze pasten zich aan, sessie na sessie, en bouwden een mentaal model van je sterke punten en hiaten op dat maandenlang bleef bestaan.
Dat mentale model is het cruciale. Niet de uitleg. Niet het socratisch vragen stellen. Het model van de geest van de lerende dat na verloop van tijd evolueert.
Kijk nu naar wat de EdTech-industrie "AI-aangedreven gepersonaliseerd leren" noemt. Bijna zonder uitzondering zijn deze producten dunne softwarelagen rond een openbare API — GPT-4, Claude, wat er volgend kwartaal ook uitkomt. De hele "intelligentie" leeft in een systeemprompt die zoiets zegt als: "Je bent een behulpzame wiskundedocent. Wees geduldig en aanmoedigend."
Die prompt bestuurt de toon, niet de strategie. Hij vertelt het model hoe het moet klinken, niet wat het moet onderwijzen. En omdat LLM's toestandsloze waarschijnlijkheidsmachines zijn — ze voorspellen het volgende woord op basis van het huidige gespreksvenster — behandelen ze elke sessie als een op zichzelf staande gebeurtenis. Ze kunnen een misvatting van drie maanden geleden niet koppelen aan een falen vandaag, omdat ze geen persistente representatie hebben van de kennis van de lerende.
Onderwijs is niet het genereren van uitleg. Het is het beheren van de cognitieve toestand van een lerende in de loop van de tijd.
Dit is het onderscheid dat de hele "AI-bijles"-markt verkeerd begrijpt.
De nacht waarin de cijfers een ander verhaal vertelden
Ik moet je vertellen over een specifieke avond, want die veranderde de koers van ons bedrijf.
We hadden ons wrapper-gebaseerde prototype draaiend met een kleine groep studenten, en ik ging op een late avond de interactielogs door, in de verwachting het gebruikelijke patroon te vinden — studenten stellen vragen, de AI beantwoordt ze, iedereen blij. In plaats daarvan vond ik iets verontrustends.
De AI had een student een correct eindantwoord op een algebraprobleem gegeven — maar de tussenliggende redeneerstappen waren verkeerd. De student, een tienerscholier zonder enige manier om geldige logica van een zelfverzekerde hallucinatie te onderscheiden, had de gebrekkige redenering opgenomen en toegepast op de volgende drie problemen. Elk volgend antwoord was fout op een manier die rechtstreeks terug te voeren was op de verzonnen uitleg van de AI.
Onderzoek bevestigt dit. Studies naar LLM's in wiskundebijles hebben aangetoond dat modellen vaak correcte antwoorden geven via incorrecte tussenstappen, of correct studentenwerk als fout aanmerken. Een beginnende student kan het verschil niet zien tussen een echte uitleg en een plausibel klinkende hallucinatie. De AI klinkt hoe dan ook gezaghebbend.
Ik belde die nacht mijn medeoprichter. "We bouwen geen bijlesdocent," zei ik. "We bouwen een zelfverzekerde leugenaar die af en toe iets goed heeft."
Dat was hard. Maar het was ook het moment waarop we een andere vraag begonnen te stellen: wat als de intelligentie in een AI-bijlesdocent helemaal niet in het taalmodel zou moeten leven?
Waarom faalt het inpakken van een LLM voor echt leren?

De tekortkomingen zijn geen randgevallen. Ze zijn architecturaal. Drie problemen bleven opduiken in onze logs, en het zijn dezelfde drie problemen waar elke wrapper-gebaseerde bijlesdocent uiteindelijk tegenaan loopt:
Het geheugentekort. De leerreis van een student strekt zich uit over maanden — duizenden micro-interacties. Zelfs met uitdijende contextvensters zijn de kosten en latentie van het verwerken van de volledige geschiedenis van een student voor elke afzonderlijke uitwisseling prohibitief op schaal. Dus vergeet de AI. Ze vergeet dat deze student weken geleden het optellen van gehele getallen onder de knie kreeg en het niet hoeft te herhalen. Ze vergeet dat ze steeds dezelfde tekenfout maakt in vergelijkingen. Elke sessie begint bijna vanaf nul.
Het hallucinatieprobleem. Ik heb dit al beschreven, maar het is de moeite waard om te benadrukken: wanneer een AI een student zelfverzekerd door een foutieve redenering loodst, stapelt de schade zich op. De student krijgt niet slechts één probleem fout — ze internaliseert een gebrekkig mentaal model dat toekomstig leren corrumpeert. En de AI heeft geen mechanisme om dit te betrappen, omdat ze geen model heeft van wat de student daadwerkelijk weet.
Het strategische vacuüm. "Gedraag je als een leraar" is een instructie over persona, niet over pedagogiek. Een echte leraar neemt honderden micro-beslissingen per les: moet ik een hint geven of laat ik ze worstelen? Moet ik teruggaan naar voorkennis of vooruit duwen? Moet ik overschakelen van visuele naar verbale uitleg? Deze beslissingen vereisen een theorie over de student. De wrapper heeft geen theorie. Hij reageert op het huidige bericht. Dat is alles.
Wat is Deep Knowledge Tracing, en waarom zou het je iets kunnen schelen?
Hier moet ik even wat technisch worden, maar ik beloof je dat het weer verbinding maakt met de student die haar tabblad sloot.
Knowledge Tracing is een machine-learning-taak met een specifiek doel: het modelleren van de kennis van een student in de loop van de tijd om toekomstige prestaties te voorspellen. Het bestaat al decennia, te beginnen met iets dat Bayesian Knowledge Tracing heet — een systeem dat kennis als binair behandelt. Je "kent" breuken of je kent ze niet. Elk concept leeft in zijn eigen silo. Elke vraag moet handmatig worden getagd door een menselijke expert.
Die aanpak is beperkt op manieren die ertoe doen. Leren is niet binair. Je kunt het concept van breuken begrijpen maar consequent fouten maken wanneer de noemers verschillend zijn. Je kunt "roestig" zijn op iets dat je vorige maand onder de knie had. En concepten zijn niet onafhankelijk — worstelen met vermenigvuldigen voorspelt worstelen met delen, maar de oude modellen konden dat niet vatten tenzij een mens de relatie expliciet codeerde.
Deep Knowledge Tracing, geïntroduceerd in een baanbrekend artikel van Piech et al. aan Stanford, gooide dat allemaal overboord. In plaats van binaire labels en handgecodeerde afhankelijkheden gebruikt DKT recurrente neurale netwerken — specifiek Long Short-Term Memory-netwerken — om de structuur van kennis rechtstreeks uit interactiegegevens van studenten te leren. Geen handmatige tagging. Geen binaire aannames.
De kerninnovatie is wat ik de "Brain State" ben gaan noemen — een hoogdimensionale vector die dient als een digitale proxy voor alles wat het systeem gelooft over de huidige kennis van een student. Het is geen cijferlijst die vroegere prestaties registreert. Het is een voorspellend model van de huidige bekwaamheid dat bij elke afzonderlijke interactie wordt bijgewerkt.
De Brain State registreert niet wat je gisteren goed had. Ze voorspelt wat je morgen goed zult hebben — en waarom.
Wanneer een student een vraag beantwoordt, werkt het LSTM deze vector bij. De uitvoer is een waarschijnlijkheid voor elke andere vraag in de database: hoe waarschijnlijk is het dat deze student elke vraag op dit moment correct beantwoordt? Die waarschijnlijkheidskaart is waar de echte magie gebeurt.
Ik heb over de volledige technische architectuur geschreven — de gating-mechanismen, het vanishing-gradient-probleem, de vergelijkende prestatiegegevens — in ons onderzoeksartikel. Maar het inzicht dat er voor dit essay toe doet is eenvoudiger: DKT toonde een verbetering van 25% in voorspellende nauwkeurigheid ten opzichte van traditionele Bayesiaanse methoden. Dat is geen incrementele winst. Dat is het verschil tussen een systeem dat je student een beetje kent en een systeem dat dat werkelijk doet.
Het argument dat ons bijna deed ontsporen
Ik wil eerlijk zijn over iets. Toen ik voor het eerst voorstelde om een DKT-systeem te bouwen in plaats van door te itereren op onze chatbot-wrapper, verzette mijn team zich ertegen. Hevig.
"We hebben een werkend product," zei een van onze engineers. "Gebruikers vinden het leuk om ermee te praten. Waarom bouwen we het fundament opnieuw?"
Een adviseur was nog botter: "Gebruik gewoon GPT. Het model wordt elke zes maanden beter. Jouw knowledge-tracing-ding zal achterhaald zijn voordat je het lanceert."
Ik begreep de logica. LLM's verbeteren snel. Contextvensters breiden uit. Waarom een aparte cognitieve architectuur bouwen als het taalmodel uiteindelijk misschien alles zou kunnen afhandelen?
Dit is wat ik hun vertelde, en ik geloof het nog steeds: een LLM die beter wordt in het genereren van tekst wordt niet beter in het begrijpen van een lerende. Dit zijn fundamenteel verschillende vermogens. Het ene is talig. Het andere is cognitief. Je kunt de meest welbespraakte bijlesdocent ter wereld hebben, maar als die zich niet herinnert dat je vorige week worstelde met breuken, is die welbespraaktheid verspild.
Het team kwam bij — niet vanwege mijn argument, maar vanwege de data. We voerden een eenvoudig experiment uit: we gaven dezelfde groep studenten hetzelfde curriculum, de helft via onze wrapper en de helft via een ruwe vroege versie van ons DKT-gestuurde systeem. Het voltooiingspercentage van de DKT-groep was bijna driemaal zo hoog. Niet omdat de uitleg beter was. Omdat de volgorde beter was. Het systeem wist wanneer het moest duwen en wanneer het moest ondersteunen.
Hoe houd je een student in de flowzone?

Dit is waar de psychologie de wiskunde ontmoet, en het is het deel van ons werk dat ik het mooist vind.
Het concept "Flow" van Mihaly Csikszentmihalyi beschrijft een toestand van volledige absorptie — wanneer je zo opgaat in een taak dat de tijd verdwijnt. Het gebeurt alleen wanneer de uitdaging overeenkomt met je vaardigheidsniveau. Te makkelijk, en je verveelt je. Te moeilijk, en je bent angstig. Het optimale punt is smal.
In een traditioneel klaslokaal is het bijna onmogelijk om dat optimale punt voor 30 verschillende studenten tegelijk te vinden. In een standaard chatbot wordt het niet eens geprobeerd — de AI beantwoordt gewoon wat je ook vraagt. Maar in een DKT-systeem geeft de waarschijnlijkheidsvector je iets buitengewoons: een realtimekaart van waar de flowzone van elke student ligt.
Herinner je je die uitvoer — de kans op correctheid voor elke vraag in de database? We kunnen die waarschijnlijkheden rechtstreeks koppelen aan psychologische toestanden:
Wanneer de voorspelde waarschijnlijkheid boven de 0,75 ligt, heeft de student die inhoud waarschijnlijk onder de knie. Het aan hen tonen riskeert verveling. Onder de 0,35 zullen ze waarschijnlijk falen — het presenteren zonder ondersteuning riskeert frustratie en uitval. Maar in die band tussen 0,40 en 0,70, waar de student misschien 55% of 60% kans heeft om het goed te doen? Dat is de zone. Ze weten genoeg om het probleem te proberen, maar moeten nadenken om het op te lossen. Dat is Vygotsky's Zone van Naaste Ontwikkeling, gekwantificeerd.
We veranderden een psychologische theorie uit de jaren zeventig in een selectiealgoritme. De student weet niet dat het gebeurt. Het voelt gewoon alsof het materiaal altijd precies goed is.
Ons systeem draait een continue lus: de student antwoordt, het LSTM werkt de Brain State bij, de waarschijnlijkheden verschuiven, en de volgende vraag wordt geselecteerd om hen zwevend te houden in die zone van maximale betrokkenheid. Als ze struikelen, serveert het systeem automatisch eenvoudigere ondersteunende inhoud om het zelfvertrouwen te herstellen voordat het terugkeert naar complexiteit. Als ze er moeiteloos doorheen gaan, duwt het harder.
Dit is wat ik bedoel wanneer ik zeg dat de intelligentie niet in het taalmodel zou moeten leven. Het LLM beslist niet wat er wordt onderwezen. De Brain State doet dat. Het LLM beslist alleen hoe het wordt gezegd.
Waarom kan het taalmodel dit niet gewoon allemaal doen?

Mensen vragen me dit voortdurend, en het is een terechte vraag. Als LLM's slimmer, met langere context en capabeler worden, waarom dan een apart systeem bouwen?
Drie redenen.
Ten eerste, kosten en latentie. Het verwerken van de volledige interactiegeschiedenis van een student — mogelijk duizenden uitwisselingen over maanden — via een LLM voor elke afzonderlijke reactie is rekenkundig duur en traag. Het DKT-model verwerkt dezelfde data in milliseconden omdat het architecturaal is ontworpen voor sequentiële toestandsvolging. Het is het juiste gereedschap voor de klus.
Ten tweede, hallucinatiebeheersing. Wanneer ons systeem de volgende beste vraag identificeert om te presenteren, beperkt het de reikwijdte van het LLM. In plaats van GPT vrij te laten rondzwerven over de hele wiskunde, vertellen we het: "Presenteer Probleem #882. De student heeft 60% kans om het op te lossen. Geef een hint gerelateerd aan ontbinden in factoren als ze aarzelen." Door de zoekruimte te beperken, verkleinen we drastisch de kans dat het model plausibel klinkende onzin genereert.
Ten derde — en dit is het strategische argument — verdedigbaarheid. Als je hele product een prompt is die rond een openbare API is gewikkeld, heb je geen slotgracht. Iedereen kan het in een weekend repliceren. Maar een DKT-model dat is getraind op duizenden leertrajecten, voortdurend verfijnd door echte studentendata? Dat is een eigen activum. Hoe meer studenten het systeem gebruiken, hoe beter het voorspelt, en hoe beter het voorspelt, hoe meer studenten blijven. Het is een datavliegwiel dat concurrenten niet via een API-aanroep kunnen klonen.
Voor een diepere blik op hoe we dit hebben gearchitecteerd — de neuro-symbolische integratie, het cold-start-probleem, de transfer-learning-strategieën — heb ik een interactieve rondleiding samengesteld die dieper ingaat dan ik hier kan.
De cold start en de eerste twintig vragen
Eén uitdaging waar we weken mee worstelden: wat doe je met een gloednieuwe student? Het DKT-model heeft interactiegegevens nodig om een Brain State op te bouwen, maar de student heeft geen geschiedenis. Dit is het klassieke "cold start"-probleem in machine learning, en in het onderwijs is het bijzonder pijnlijk omdat die eerste paar interacties bepalen of de student terugkomt.
Onze oplossing heeft drie lagen. We trainen het model voor op geanonimiseerde geaggregeerde data van duizenden historische leertrajecten, om een basislijn vast te stellen. Wanneer een nieuwe student arriveert, wijzen we hen toe aan een lerende-cluster op basis van een korte diagnostische beoordeling, en zaaien we hun verborgen toestand met de centroïde van vergelijkbare lerenden. Vervolgens — en dit deel vergde het meeste afstemmen — ontwierpen we het LSTM om binnen de eerste 10 tot 20 interacties snel af te wijken van de generieke basislijn naar een gepersonaliseerde toestand.
Die eerste twintig vragen zijn het belangrijkst. We besteedden weken aan het kalibreren ervan — niet alleen voor diagnostische nauwkeurigheid, maar voor betrokkenheid. Als de diagnostiek als een toets voelt, haken studenten af. Als het als een gesprek voelt, leunen ze naar voren. Dat goed krijgen was net zozeer een ontwerpprobleem als een machine-learning-probleem.
Wat de voltooiingspercentages daadwerkelijk laten zien
Ik ga niet doen alsof ons systeem perfect is. We staan nog aan het begin. Maar de cijfers uit onze pilots vertellen een verhaal dat moeilijk te weerleggen is.
Traditionele online cursussen — MOOC's, standaard LMS-platforms — zien voltooiingspercentages rond de 15 tot 20%. Dat cijfer is al meer dan een decennium hardnekkig consistent. Adaptieve systemen aangedreven door knowledge tracing stuwen dat naar 60 tot 80%. In bedrijfstrainingscontexten, waar de metriek die ertoe doet de tijd tot bekwaamheid is, hebben adaptieve systemen reducties van 40 tot 50% in de totale trainingstijd aangetoond — omdat medewerkers inhoud overslaan die ze al beheersen en zich alleen richten op hun daadwerkelijke hiaten.
Het "2 Sigma"-probleem, geïdentificeerd door onderwijsonderzoeker Benjamin Bloom, toonde aan dat één-op-één-bijles leerresultaten oplevert die twee standaarddeviaties boven klassikaal onderwijs liggen. De uitdaging was altijd schaalbaarheid — je kunt niet elke student een persoonlijke bijlesdocent geven. DKT lost dat probleem niet volledig op, maar het komt dichterbij dan wat dan ook dat ik heb gezien, omdat het elke student een systeem geeft dat daadwerkelijk hun kennis modelleert, geen generiek curriculum.
Het 2-Sigma-probleem ging nooit over het vinden van betere uitleg. Het ging over het vinden van een manier om elke lerende individueel te kennen, op schaal. Dat is een toestandsvolgingsprobleem, geen taalprobleem.
De ongemakkelijke waarheid over "gepersonaliseerd leren"
Dit is wat ik ben gaan geloven, en ik weet dat het geen populaire mening is in EdTech: "Gepersonaliseerd Leren" zoals de industrie het momenteel praktiseert is grotendeels een leugen.
De lettergrootte veranderen is geen personalisatie. Een student laten kiezen tussen video en tekst is geen personalisatie. Zelfs het aanpassen van de moeilijkheidsgraad op basis van de laatste drie antwoorden is nauwelijks personalisatie — het is een thermostaat, geen mentor.
Echte personalisatie vereist een persistent, evoluerend model van de individuele lerende. Het vereist onthouden dat deze student visuele concepten snel beheerst maar worstelt met symbolische notatie. Het vereist begrijpen dat haar falen op het verhoudingsprobleem van vandaag verband houdt met een hiaat in het begrip van breuken van weken geleden. Het vereist voorspellen, niet alleen of ze de volgende vraag goed zal hebben, maar waarom ze het misschien fout zal hebben — en het pad dienovereenkomstig aanpassen.
Dat is wat de Brain State doet. En daarom geloof ik dat de toekomst van educatieve AI niet gaat over het bouwen van betere chatbots. Het gaat over het bouwen van betere cognitieve architecturen daaronder.
Het LLM is de mond. Het DKT-model is het brein. Zonder het brein praat de mond alleen maar.
Een systeem dat onthoudt
Ik blijf terugkomen op die student uit onze vroege demo — degene die haar tabblad sloot toen de AI haar vergat. Ik denk aan haar omdat ze miljoenen lerenden vertegenwoordigt die gepersonaliseerd onderwijs beloofd is en die een chatbot met een vriendelijke systeemprompt kregen.
Wij bouwen iets anders. Geen systeem dat betere uitleg genereert — de LLM's zullen daar vanzelf beter in blijven worden. Wij bouwen een systeem dat onthoudt. Dat weet dat je vorige week worstelde met breuken, en daarom je worsteling met verhoudingen vandaag anticipeert. Dat je houdt in de smalle band waar leren daadwerkelijk plaatsvindt — genoeg uitgedaagd om te groeien, genoeg ondersteund om niet af te haken.
De technologie hiervoor bestaat. Deep Knowledge Tracing is niet theoretisch. De LSTM-architecturen zijn bewezen. De flowzone kan worden gekwantificeerd en gericht benaderd. De vraag was nooit of het mogelijk was. De vraag was of iemand de moeite zou nemen om het te bouwen wanneer een wrapper op GPT plakken zoveel makkelijker was.
Wij namen de moeite. En ik denk dat de studenten die blijven — degenen die het tabblad niet sluiten — het bewijs zullen zijn.