
Votre tuteur IA ne sait pas que vous avez peiné sur les fractions la semaine dernière
Quelques mois après le début de la construction de notre premier prototype de tuteur IA chez Veriprajna, j'ai assisté à une démonstration qui aurait dû me rendre fier. Une élève a saisi une question sur les équations du second degré. L'IA a répondu magnifiquement — patiente, socratique, encourageante. Elle a guidé l'élève à travers la factorisation avec la chaleur d'un professeur préféré. Tout le monde dans la salle acquiesçait.
Puis l'élève est revenue le lendemain et a posé une question sur les ratios. L'IA n'avait aucune idée qu'il s'agissait de la même élève qui peinait sur les fractions depuis trois semaines. Elle l'a traitée comme une inconnue. Elle a servi un contenu présupposant une maîtrise qu'elle n'avait pas. En quatre minutes, elle a fermé l'onglet.
Cette démonstration a brisé quelque chose en moi. Non pas parce que la technologie avait échoué — elle s'est comportée exactement comme prévu. Elle a généré le prochain token statistiquement probable dans une conversation. Elle a joué le rôle d'un professeur avec une aisance troublante. Mais elle ne savait rien de cette élève. Elle ne pouvait pas relier ses difficultés avec les fractions au problème de ratios qui se présentait à elle. Elle n'avait aucune mémoire, aucun modèle, aucune théorie de qui elle était en tant qu'apprenante.
C'est alors que j'ai compris : la plupart des tuteurs IA ne sont pas du tout des tuteurs. Ce sont des chatbots déguisés en professeurs.
Et cette prise de conscience a engagé mon équipe sur une voie qui a fondamentalement changé ce que nous construisons.
Qu'est-ce qui fait d'un professeur un professeur ?
Pensez au meilleur professeur que vous ayez jamais eu. Je parie que ce qui le rendait génial n'était pas sa capacité à expliquer les choses clairement — même s'il faisait probablement cela aussi. C'était qu'il vous connaissait. Il se souvenait que vous vous figiez pendant les exposés oraux. Il remarquait que vous saisissiez toujours le concept mais commettiez des erreurs de calcul sous pression. Il s'ajustait, séance après séance, construisant un modèle mental de vos forces et de vos lacunes qui persistait sur des mois.
Ce modèle mental, c'est là l'essentiel. Pas l'explication. Pas le questionnement socratique. Le modèle de l'esprit de l'apprenant qui évolue au fil du temps.
Regardez maintenant ce que l'industrie de l'EdTech appelle « l'apprentissage personnalisé propulsé par l'IA ». Presque sans exception, ces produits sont de fines surcouches logicielles autour d'une API publique — GPT-4, Claude, ou quoi que ce soit qui sortira le trimestre prochain. Toute « l'intelligence » réside dans une invite système qui dit quelque chose comme : « Vous êtes un tuteur de mathématiques serviable. Soyez patient et encourageant. »
Cette invite contrôle le ton, pas la stratégie. Elle indique au modèle comment sonner, pas quoi enseigner. Et parce que les LLM sont des moteurs de probabilité sans état — ils prédisent le mot suivant en fonction de la fenêtre de conversation actuelle — ils traitent chaque séance comme un événement isolé. Ils ne peuvent pas relier une idée fausse d'il y a trois mois à un échec d'aujourd'hui, car ils n'ont aucune représentation persistante des connaissances de l'apprenant.
L'éducation n'est pas la génération d'explications. C'est la gestion de l'état cognitif d'un apprenant au fil du temps.
C'est la distinction sur laquelle l'ensemble du marché des « tuteurs IA » se trompe.
La nuit où les chiffres ont raconté une autre histoire
Je dois vous parler d'une soirée en particulier, car elle a changé la direction de notre entreprise.
Nous faisions tourner notre prototype basé sur une surcouche avec un petit groupe d'élèves, et je parcourais les journaux d'interactions tard un soir, m'attendant à trouver le schéma habituel — les élèves posent des questions, l'IA y répond, tout le monde est content. Au lieu de cela, j'ai trouvé quelque chose de troublant.
L'IA avait donné à un élève une réponse finale correcte à un problème d'algèbre — mais les étapes de raisonnement intermédiaires étaient fausses. L'élève, un lycéen de seconde sans aucun moyen de distinguer une logique valide d'une hallucination assurée, avait absorbé le raisonnement erroné et l'avait appliqué aux trois problèmes suivants. Chaque réponse ultérieure était fausse d'une manière qui remontait directement à l'explication fabriquée par l'IA.
La recherche le confirme. Des études sur les LLM dans le tutorat en mathématiques ont constaté que les modèles fournissent fréquemment des réponses correctes via des étapes intermédiaires incorrectes, ou signalent comme faux un travail correct de l'élève. Un élève novice ne peut pas faire la différence entre une véritable explication et une hallucination qui semble plausible. L'IA a l'air tout aussi autoritaire dans les deux cas.
J'ai appelé mon cofondateur cette nuit-là. « Nous ne construisons pas un tuteur », ai-je dit. « Nous construisons un menteur sûr de lui qui tombe juste de temps en temps. »
C'était dur. Mais c'était aussi le moment où nous avons commencé à poser une autre question : et si l'intelligence d'un tuteur IA ne devait pas du tout résider dans le modèle de langage ?
Pourquoi surcoucher un LLM échoue-t-il pour un véritable apprentissage ?

Les défaillances ne sont pas des cas limites. Elles sont architecturales. Trois problèmes revenaient sans cesse dans nos journaux, et ce sont les trois mêmes problèmes que tout tuteur basé sur une surcouche finira par rencontrer :
Le déficit de mémoire. Le parcours d'apprentissage d'un élève s'étend sur des mois — des milliers de micro-interactions. Même avec des fenêtres de contexte de plus en plus grandes, le coût et la latence du traitement de l'historique entier d'un élève pour chaque échange sont prohibitifs à grande échelle. Alors l'IA oublie. Elle oublie que cet élève a maîtrisé l'addition des entiers il y a des semaines et n'a pas besoin de la réviser. Elle oublie qu'elle continue de faire la même erreur de signe dans les équations. Chaque séance repart de presque zéro.
Le problème d'hallucination. Je l'ai déjà décrit, mais cela vaut la peine d'insister : lorsqu'une IA guide avec assurance un élève à travers un raisonnement faux, les dégâts s'aggravent. L'élève ne se trompe pas seulement sur un problème — il intériorise un modèle mental erroné qui corrompt l'apprentissage futur. Et l'IA n'a aucun mécanisme pour détecter cela, car elle n'a aucun modèle de ce que l'élève sait réellement.
Le vide stratégique. « Agis comme un professeur » est une instruction sur le personnage, pas sur la pédagogie. Un vrai professeur prend des centaines de micro-décisions par leçon : dois-je donner un indice ou les laisser peiner ? Dois-je revenir à un prérequis ou avancer ? Dois-je passer d'une explication visuelle à une explication verbale ? Ces décisions requièrent une théorie de l'élève. La surcouche n'a aucune théorie. Elle réagit au message actuel. C'est tout.
Qu'est-ce que le suivi profond des connaissances, et pourquoi devriez-vous vous en soucier ?
C'est ici que je dois devenir un peu technique, mais je vous promets que cela se rattache à l'élève qui a fermé son onglet.
Le suivi des connaissances (Knowledge Tracing) est une tâche d'apprentissage automatique avec un objectif précis : modéliser les connaissances d'un élève au fil du temps pour prédire ses performances futures. Il existe depuis des décennies, à commencer par ce qu'on appelle le suivi bayésien des connaissances (Bayesian Knowledge Tracing) — un système qui traite le savoir comme binaire. Soit vous « connaissez » les fractions, soit non. Chaque concept vit dans son propre silo. Chaque question doit être étiquetée manuellement par un expert humain.
Cette approche est limitée d'une manière qui compte. L'apprentissage n'est pas binaire. Vous pouvez comprendre le concept des fractions mais commettre systématiquement des erreurs lorsque les dénominateurs sont différents. Vous pouvez être « rouillé » sur quelque chose que vous avez maîtrisé le mois dernier. Et les concepts ne sont pas indépendants — peiner sur la multiplication prédit des difficultés avec la division, mais les anciens modèles ne pouvaient pas capturer cela à moins qu'un humain ne code explicitement la relation.
Le suivi profond des connaissances (Deep Knowledge Tracing), présenté dans un article fondateur de Piech et al. à Stanford, a tout balayé. Au lieu d'étiquettes binaires et de dépendances codées à la main, le DKT utilise des réseaux de neurones récurrents — plus précisément, des réseaux à mémoire à court et long terme (Long Short-Term Memory) — pour apprendre la structure des connaissances directement à partir des données d'interaction des élèves. Aucun étiquetage manuel. Aucune hypothèse binaire.
L'innovation clé est ce que j'ai commencé à appeler l'« état cérébral » (Brain State) — un vecteur en haute dimension qui sert de substitut numérique de tout ce que le système croit à propos des connaissances actuelles d'un élève. Ce n'est pas un carnet de notes enregistrant les performances passées. C'est un modèle prédictif de la capacité actuelle qui se met à jour à chaque interaction.
L'état cérébral n'enregistre pas ce que vous avez réussi hier. Il prédit ce que vous réussirez demain — et pourquoi.
Lorsqu'un élève répond à une question, le LSTM met à jour ce vecteur. La sortie est une probabilité pour chaque autre question de la base de données : quelle est la probabilité que cet élève réponde correctement à chacune, à l'instant même ? Cette carte de probabilités est là où opère la véritable magie.
J'ai écrit sur l'architecture technique complète — les mécanismes de porte, le problème de la disparition du gradient, les données de performance comparatives — dans notre article de recherche. Mais l'idée qui compte pour cet essai est plus simple : le DKT a montré une amélioration de 25 % de la précision prédictive par rapport aux méthodes bayésiennes traditionnelles. Ce n'est pas un gain marginal. C'est la différence entre un système qui connaît plus ou moins votre élève et un qui la connaît réellement.
L'argument qui a failli nous faire dérailler
Je veux être honnête sur un point. Lorsque j'ai proposé pour la première fois de construire un système DKT au lieu d'itérer sur notre surcouche de chatbot, mon équipe a résisté. Fermement.
« Nous avons un produit qui fonctionne », a dit l'un de nos ingénieurs. « Les utilisateurs aiment lui parler. Pourquoi reconstruire les fondations ? »
Un conseiller a été encore plus direct : « Utilisez simplement GPT. Le modèle s'améliore tous les six mois. Votre truc de suivi des connaissances sera obsolète avant même que vous ne le livriez. »
Je comprenais la logique. Les LLM s'améliorent rapidement. Les fenêtres de contexte s'élargissent. Pourquoi construire une architecture cognitive distincte alors que le modèle de langage pourrait finir par tout gérer ?
Voici ce que je leur ai dit, et je le crois toujours : un LLM qui devient meilleur pour générer du texte ne devient pas meilleur pour comprendre un apprenant. Ce sont des capacités fondamentalement différentes. L'une est linguistique. L'autre est cognitive. Vous pouvez avoir le tuteur le plus éloquent du monde, mais s'il ne se souvient pas que vous avez peiné sur les fractions la semaine dernière, son éloquence est gaspillée.
L'équipe s'est ralliée — non pas à cause de mon argument, mais à cause des données. Nous avons mené une expérience simple : nous avons donné au même groupe d'élèves le même programme, la moitié via notre surcouche et l'autre moitié via une version primitive et précoce de notre système guidé par le DKT. Le taux d'achèvement du groupe DKT était presque triple. Non pas parce que les explications étaient meilleures. Parce que le séquençage était meilleur. Le système savait quand pousser et quand étayer.
Comment maintenir un élève dans la zone de flux ?

C'est ici que la psychologie rencontre les mathématiques, et c'est la partie de notre travail que je trouve la plus belle.
Le concept de « flux » (Flow) de Mihaly Csikszentmihalyi décrit un état d'absorption complète — lorsque vous êtes si engagé dans une tâche que le temps disparaît. Cela ne se produit que lorsque le défi correspond à votre niveau de compétence. Trop facile, et vous vous ennuyez. Trop difficile, et vous êtes anxieux. Le point idéal est étroit.
Dans une salle de classe traditionnelle, trouver ce point idéal pour 30 élèves différents simultanément est quasiment impossible. Dans un chatbot standard, ce n'est même pas tenté — l'IA répond simplement à tout ce que vous demandez. Mais dans un système DKT, le vecteur de probabilité vous donne quelque chose d'extraordinaire : une carte en temps réel de l'endroit où se trouve la zone de flux de chaque élève.
Vous vous souvenez de cette sortie — la probabilité de réponse correcte pour chaque question de la base de données ? Nous pouvons faire correspondre ces probabilités directement à des états psychologiques :
Lorsque la probabilité prédite est supérieure à 0,75, l'élève a probablement maîtrisé ce contenu. Le lui montrer risque de l'ennuyer. En dessous de 0,35, il est susceptible d'échouer — le présenter sans soutien risque de provoquer frustration et abandon. Mais dans cette bande entre 0,40 et 0,70, où l'élève a peut-être 55 % ou 60 % de chances de réussir ? C'est là la zone. Il en sait assez pour tenter le problème mais doit réfléchir pour le résoudre. C'est la zone proximale de développement de Vygotski, quantifiée.
Nous avons transformé une théorie psychologique des années 1970 en un algorithme de sélection. L'élève ne sait pas que cela se produit. Il a simplement l'impression que le contenu est toujours parfaitement adapté.
Notre système exécute une boucle continue : l'élève répond, le LSTM met à jour l'état cérébral, les probabilités évoluent, et la question suivante est sélectionnée pour le maintenir suspendu dans cette zone d'engagement maximal. S'il trébuche, le système sert automatiquement un contenu d'étayage plus simple pour reconstruire la confiance avant de revenir à la complexité. S'il progresse aisément, il pousse plus fort.
C'est ce que je veux dire lorsque j'affirme que l'intelligence ne devrait pas résider dans le modèle de langage. Le LLM ne décide pas quoi enseigner. L'état cérébral le décide. Le LLM décide seulement comment le dire.
Pourquoi le modèle de langage ne peut-il pas simplement tout faire cela ?

On me pose constamment cette question, et c'est une question légitime. Si les LLM deviennent plus intelligents, avec des contextes plus longs et davantage de capacités, pourquoi construire un système distinct ?
Trois raisons.
Premièrement, le coût et la latence. Traiter l'historique complet des interactions d'un élève — potentiellement des milliers d'échanges sur des mois — à travers un LLM pour chaque réponse est coûteux en calcul et lent. Le modèle DKT traite les mêmes données en quelques millisecondes, car il est architecturalement conçu pour le suivi séquentiel de l'état. C'est le bon outil pour la tâche.
Deuxièmement, le confinement des hallucinations. Lorsque notre système identifie la meilleure question suivante à présenter, il restreint la portée du LLM. Au lieu de laisser GPT errer librement à travers l'ensemble des mathématiques, nous lui indiquons : « Présente le problème n° 882. L'élève a 60 % de chances de le résoudre. Fournis un indice lié à la factorisation s'il hésite. » En restreignant l'espace de recherche, nous réduisons considérablement la possibilité que le modèle génère des absurdités à l'apparence plausible.
Troisièmement — et c'est l'argument stratégique — la défendabilité. Si tout votre produit est une invite enveloppée autour d'une API publique, vous n'avez aucun rempart concurrentiel. N'importe qui peut le reproduire en un week-end. Mais un modèle DKT entraîné sur des milliers de trajectoires d'apprentissage, continuellement affiné par de vraies données d'élèves ? C'est un actif propriétaire. Plus les élèves utilisent le système, mieux il prédit, et mieux il prédit, plus les élèves restent. C'est un volant d'inertie de données que les concurrents ne peuvent pas cloner via un appel d'API.
Pour un examen plus approfondi de la façon dont nous avons conçu cela — l'intégration neuro-symbolique, le problème du démarrage à froid, les stratégies d'apprentissage par transfert — j'ai préparé une visite guidée interactive qui entre dans plus de détails que je ne peux le faire ici.
Le démarrage à froid et les vingt premières questions
Un défi avec lequel nous nous sommes débattus pendant des semaines : que faire d'un élève tout nouveau ? Le modèle DKT a besoin de données d'interaction pour construire un état cérébral, mais l'élève n'a aucun historique. C'est le problème classique du « démarrage à froid » en apprentissage automatique, et en éducation il est particulièrement douloureux, car ces premières interactions déterminent si l'élève reviendra.
Notre solution comporte trois couches. Nous pré-entraînons le modèle sur des données agrégées anonymisées provenant de milliers de traces d'apprentissage historiques, établissant une référence. Lorsqu'un nouvel élève arrive, nous l'affectons à un groupe d'apprenants sur la base d'une courte évaluation diagnostique, en amorçant son état caché avec le centroïde d'apprenants similaires. Ensuite — et cette partie a demandé le plus de réglages — nous avons conçu le LSTM pour diverger rapidement de la référence générique vers un état personnalisé au cours des 10 à 20 premières interactions.
Ces vingt premières questions sont les plus importantes. Nous avons passé des semaines à les calibrer — non seulement pour la précision diagnostique, mais aussi pour l'engagement. Si le diagnostic ressemble à un test, les élèves abandonnent. S'il ressemble à une conversation, ils s'y investissent. Bien réussir cela relevait autant d'un problème de conception que d'un problème d'apprentissage automatique.
Ce que les taux d'achèvement révèlent réellement
Je ne vais pas prétendre que notre système est parfait. Nous en sommes encore aux débuts. Mais les chiffres de nos projets pilotes racontent une histoire difficile à contester.
Les cours en ligne traditionnels — MOOC, plateformes LMS standard — affichent des taux d'achèvement d'environ 15 à 20 %. Ce chiffre est resté obstinément constant pendant plus d'une décennie. Les systèmes adaptatifs propulsés par le suivi des connaissances poussent cela à 60 à 80 %. Dans les contextes de formation en entreprise, où la métrique qui compte est le temps nécessaire pour atteindre la compétence, les systèmes adaptatifs ont montré des réductions de 40 à 50 % du temps de formation total — parce que les employés sautent le contenu qu'ils maîtrisent déjà et se concentrent uniquement sur leurs véritables lacunes.
Le problème des « 2 sigmas », identifié par le chercheur en éducation Benjamin Bloom, a montré que le tutorat individuel produit des résultats d'apprentissage supérieurs de deux écarts-types à l'enseignement en classe. Le défi a toujours été la mise à l'échelle — vous ne pouvez pas donner un tuteur personnel à chaque élève. Le DKT ne résout pas entièrement ce problème, mais il s'en rapproche plus que tout ce que j'ai vu, car il donne à chaque élève un système qui modélise réellement ses connaissances, et non un programme générique.
Le problème des 2 sigmas n'a jamais consisté à trouver de meilleures explications. Il consistait à trouver un moyen de connaître chaque apprenant individuellement, à grande échelle. C'est un problème de suivi d'état, pas un problème de langage.
La vérité qui dérange sur « l'apprentissage personnalisé »
Voici ce à quoi j'en suis venu à croire, et je sais que ce n'est pas une opinion populaire dans l'EdTech : « l'apprentissage personnalisé » tel que l'industrie le pratique actuellement est en grande partie un mensonge.
Changer la taille de la police n'est pas de la personnalisation. Laisser un élève choisir entre la vidéo et le texte n'est pas de la personnalisation. Même adapter la difficulté en fonction des trois dernières réponses n'est guère de la personnalisation — c'est un thermostat, pas un mentor.
La véritable personnalisation exige un modèle persistant et évolutif de l'apprenant individuel. Elle exige de se souvenir que cet élève maîtrise rapidement les concepts visuels mais peine avec la notation symbolique. Elle exige de comprendre que son échec sur le problème de ratios d'aujourd'hui est lié à une lacune dans la compréhension des fractions datant de plusieurs semaines. Elle exige de prédire non seulement si elle réussira la question suivante, mais aussi pourquoi elle pourrait se tromper — et d'ajuster le parcours en conséquence.
C'est ce que fait l'état cérébral. Et c'est pourquoi je crois que l'avenir de l'IA éducative ne consiste pas à construire de meilleurs chatbots. Il consiste à construire de meilleures architectures cognitives en dessous d'eux.
Le LLM est la bouche. Le modèle DKT est le cerveau. Sans le cerveau, la bouche ne fait que parler.
Un système qui se souvient
Je reviens sans cesse à cette élève de notre première démonstration — celle qui a fermé son onglet lorsque l'IA l'a oubliée. Je pense à elle parce qu'elle représente des millions d'apprenants à qui l'on a promis une éducation personnalisée et qui ont reçu un chatbot avec une aimable invite système.
Nous construisons quelque chose de différent. Non pas un système qui génère de meilleures explications — les LLM continueront de s'améliorer là-dessus par eux-mêmes. Nous construisons un système qui se souvient. Qui sait que vous avez peiné sur les fractions la semaine dernière, et anticipe donc votre difficulté avec les ratios aujourd'hui. Qui vous maintient dans la bande étroite où l'apprentissage se produit réellement — suffisamment mis au défi pour progresser, suffisamment soutenu pour ne pas abandonner.
La technologie pour cela existe. Le suivi profond des connaissances n'est pas théorique. Les architectures LSTM ont fait leurs preuves. La zone de flux peut être quantifiée et ciblée. La question n'a jamais été de savoir si c'était possible. La question était de savoir si quiconque se donnerait la peine de le construire alors que coller une surcouche sur GPT était tellement plus facile.
Nous nous en sommes donné la peine. Et je pense que les élèves qui restent — ceux qui ne ferment pas l'onglet — en seront la preuve.