
Le tuteur IA qui a appris à une enfant que 2+2=5 — et ce que cela révèle sur tous les produits d'IA que vous utilisez
Il y a quelques mois, une mère m'a envoyé une capture d'écran qui m'a glacé le sang.
Sa fille — une élève de cinquième — utilisait l'une des plateformes de tutorat par IA les plus populaires pour réviser un contrôle de mathématiques. L'enfant travaillait sur une multiplication : 3 750 fois 7. Elle a tapé 21 690. La bonne réponse est 26 250. Elle n'était même pas proche.
Le tuteur IA a répondu : « Excellent travail sur la multiplication ! Tu as résolu le problème et tu as fait preuve d'une superbe réflexion ! »
J'ai fixé cette capture d'écran pendant un long moment. Pas parce que l'erreur me surprenait — j'étudiais les modes de défaillance des LLM depuis des années. Ce qui m'a frappé, c'était l'enthousiasme. L'IA ne s'est pas contentée de se tromper. Elle a célébré la mauvaise réponse. Elle a renforcé une idée fausse avec la chaleur et l'assurance d'un professeur adoré. Et quelque part, une fillette de douze ans est entrée dans sa salle d'examen convaincue qu'elle comprenait la multiplication parce qu'une machine le lui avait dit.
Cette capture d'écran a cristallisé une idée autour de laquelle je tournais depuis un moment : les systèmes d'IA les plus dangereux ne sont pas ceux qui refusent de répondre. Ce sont ceux qui répondent avec assurance et de manière incorrecte. Et à l'heure actuelle, cette description s'applique à presque tous les produits d'IA construits par-dessus les grands modèles de langage.
Je m'appelle Ashutosh, et je dirige Veriprajna. Nous construisons des systèmes d'IA neuro-symbolique — des architectures qui fusionnent la fluidité linguistique des réseaux de neurones avec la rigueur logique des solveurs symboliques. J'écris ceci parce que je pense que l'industrie fait un pari catastrophique sur la mauvaise architecture, et que ceux qui en paieront le prix seront les élèves, les patients, les emprunteurs et tous ceux qui font confiance à une IA pour établir les faits correctement.
Pourquoi votre IA a-t-elle l'air si intelligente mais se trompe-t-elle autant en maths ?
Voici quelque chose que la plupart des gens ignorent au sujet des grands modèles de langage comme GPT-4 ou Claude : ils ne savent rien. Pas au sens où une base de données sait que votre anniversaire est le 15 mars, ou qu'une calculatrice sait que 17 fois 24 font 408.
Un LLM est un moteur de prédiction. Lorsque vous lui posez une question, il ne récupère pas un fait et n'effectue pas de calcul. Il prédit la séquence de mots la plus probable statistiquement qui devrait suivre votre requête, d'après les motifs qu'il a absorbés à partir de milliards de pages de texte issues d'Internet. Il réalise ce que les chercheurs appellent la « prédiction du token suivant » — choisir le mot suivant (ou un fragment de mot) en fonction des distributions de probabilité apprises pendant l'entraînement.
C'est pourquoi les LLM peuvent écrire une poésie qui vous fait pleurer, puis vous dire que 2+2=5 si vous orientez la fenêtre de contexte de la bonne façon. La poésie fonctionne parce que le langage est fait de motifs. Les maths échouent parce que l'arithmétique n'est pas un motif — c'est un système formel avec des règles exactes qui ne plient pas face à la vraisemblance statistique.
Un LLM ne distingue pas un fait apparu un million de fois dans ses données d'entraînement d'un fait apparu une seule fois. Il traite les faits rares comme du bruit statistique — ce qui signifie que plus l'information dont vous avez besoin est obscure, plus l'IA est susceptible d'inventer quelque chose.
Je le vois de cette manière : imaginez que vous ayez un collègue qui aurait lu tous les livres jamais écrits mais n'aurait jamais appris à se servir d'une calculatrice. Vous lui feriez confiance pour résumer un roman ou rédiger un e-mail persuasif. Vous ne lui feriez jamais confiance pour faire votre déclaration d'impôts. Pourtant, c'est exactement ce que nous faisons lorsque nous déployons des LLM bruts dans l'éducation, la finance et la santé.
La nuit où j'ai compris que l'ingénierie des prompts était une impasse
Il y a eu une période — j'ai presque honte de l'avouer aujourd'hui — où je pensais que nous pourrions corriger cela avec de meilleurs prompts.
Mon équipe et moi avons passé des semaines à concevoir des instructions élaborées de raisonnement en chaîne. « Réfléchis étape par étape. » « Montre ton raisonnement. » « Vérifie deux fois ton arithmétique avant de répondre. » Nous avons testé des dizaines de variantes sur des problèmes de mathématiques, des scénarios de conformité, des tâches de raisonnement logique. Certaines de ces chaînes de prompts faisaient des centaines de tokens de long, suppliant essentiellement le modèle d'être prudent.
Cela a aidé. Un peu. Le prompting en chaîne de pensée a fait passer la précision sur les tâches de raisonnement complexe d'abyssale à simplement peu fiable. Mais voici ce qui n'arrêtait pas de se produire : le modèle déroulait une magnifique chaîne de logique — étape un correcte, étape deux correcte, étape trois correcte — puis commettait une simple erreur d'arithmétique à l'étape quatre qui se propageait au reste de la chaîne de raisonnement, produisant une réponse finale qui était, avec assurance et élégance, fausse.
Un soir, j'examinais les résultats de tests à mon bureau. Nous avions passé une batterie de 500 calculs d'intérêts composés dans une configuration GPT-4 avec prompting en chaîne de pensée. Le taux de précision tournait autour de 87 %. Mon cofondateur a regardé les résultats et a dit : « 87 %, c'est plutôt bon. »
J'ai ouvert un tableur. « Utiliserais-tu un tableur qui fabriquerait des chiffres 13 % du temps ? »
Silence.
C'est à ce moment-là que l'architecture a basculé dans ma tête. Le problème n'était pas le prompt. Le problème, c'est que nous demandions à un moteur de prédiction d'être un moteur de logique. Nous chuchotions à des dés en espérant qu'ils tombent sur le bon chiffre. Aucune quantité d'ingénierie de prompts ne changerait la nature stochastique fondamentale du système.
Il nous fallait un cerveau.
Qu'est-ce que l'IA neuro-symbolique, et pourquoi devriez-vous vous en soucier ?

L'histoire de l'intelligence artificielle est celle de deux tribus qui ont passé des décennies à refuser de se parler.
Les Symbolistes — dominants des années 1950 aux années 1980 — croyaient que l'intelligence consistait à manipuler des règles et une logique explicites. Si vous pouviez encoder suffisamment de connaissances sous forme d'énoncés formels (Socrate est un homme ; tous les hommes sont mortels ; donc Socrate est mortel), vous pouviez construire une machine pensante. Leurs systèmes étaient précis, transparents et démontrablement corrects. Ils étaient aussi fragiles — ils volaient en éclats dès qu'ils rencontraient un langage réel et désordonné ou des situations que leurs règles ne couvraient pas.
Les Connexionnistes — la mouvance des réseaux de neurones — ont adopté l'approche inverse. N'écrivez pas de règles ; laissez la machine apprendre des motifs à partir de données. Leurs systèmes savaient magnifiquement gérer l'ambiguïté, le bruit et le langage naturel. Mais c'étaient des boîtes noires. On ne pouvait pas expliquer pourquoi ils produisaient une réponse particulière, et ils n'avaient aucune notion de vérité — seulement de vraisemblance statistique.
Daniel Kahneman, le lauréat du prix Nobel, a décrit la cognition humaine comme deux systèmes : le Système 1 est rapide, intuitif, fondé sur les motifs — vous reconnaissez le visage d'un ami dans une foule. Le Système 2 est lent, délibéré, logique — vous multipliez 17 par 24 sur papier. Les LLM actuels sont d'extraordinaires moteurs de Système 1 à qui l'on demande de faire un travail de Système 2. Voilà le décalage.
L'IA neuro-symbolique est la fusion. Vous conservez le réseau de neurones comme la « Voix » — il gère le langage, comprend l'intention, génère des réponses fluides. Mais vous ajoutez un « Cerveau » symbolique — des solveurs déterministes, des moteurs de logique, des systèmes de vérification formelle — qui gère tout ce qui exige de la précision. La Voix parle à l'utilisateur. Le Cerveau fait les maths. Et un pont les relie.
Dans un système neuro-symbolique, 2+2 fera toujours 4 — non pas parce que le modèle prédit que ce devrait être le cas, mais parce que c'est défini comme un axiome dans la couche symbolique. Le réseau de neurones ne peut littéralement pas le contredire.
Ceci n'est pas théorique. C'est ce que nous construisons chez Veriprajna, et j'ai exposé l'intégralité du plan architectural dans la version interactive de notre article de recherche.
Comment faire faire à un modèle de langage des maths qu'il ne sait pas faire ?

Le mécanisme clé s'appelle les Program-Aided Language Models, ou PAL. Et son élégance me ravit encore.
Au lieu de demander au LLM de résoudre un problème, vous lui demandez d'écrire un programme qui résout le problème.
Voici à quoi cela ressemble en pratique. Un utilisateur demande : « Si j'ai un prêt de 50 000 $ à 5 % d'intérêt composé annuellement, combien dois-je après 3 ans ? »
Dans une configuration LLM standard, le modèle tente de calculer 50 000 $ × (1,05)³ de tête — au moyen de la prédiction de tokens. Parfois il tombe juste. Parfois non. Vous n'avez aucun moyen de savoir à quelle réponse vous pouvez vous fier.
Dans notre système, le LLM ne calcule rien. Il génère quelques lignes de code Python : principal = 50000, rate = 0.05, years = 3, print(principal * (1 + rate) ** years). Ce code est exécuté par un environnement d'exécution déterministe — un vrai ordinateur faisant de vraies maths. L'unité arithmétique et logique du processeur renvoie 57 881,25. Le LLM enveloppe ensuite ce nombre vérifié dans une réponse en langage naturel : « Après 3 ans, vous devriez 57 881,25 $. »
Le réseau de neurones a fait ce en quoi il excelle : comprendre la question et générer du code. Le moteur symbolique a fait ce en quoi il excelle : calculer la réponse avec une précision parfaite. Ni l'un ni l'autre ne pouvait faire le travail de l'autre. Ensemble, ils sont redoutables.
Nous avons testé cela face au prompting standard en chaîne de pensée sur des tâches arithmétiques complexes. Les LLM standards ont obtenu moins de 40 % de précision sur les calculs à plusieurs étapes. La chaîne de pensée a amélioré cela pour donner des résultats modérés mais sujets aux erreurs. Notre approche neuro-symbolique fondée sur PAL a atteint une précision quasi parfaite — limitée seulement par la question de savoir si la logique du code généré était correcte, ce qui est un problème bien plus facile à vérifier et à déboguer que la prédiction probabiliste de tokens.
L'argument qui a failli diviser mon équipe
Je dois vous parler d'une dispute que nous avons eue en interne, parce qu'elle a façonné notre façon de penser cette architecture.
Quand nous avons commencé à intégrer des solveurs symboliques, l'un de mes ingénieurs — un type brillant, profondément imprégné du monde de l'apprentissage profond — s'y est vivement opposé. Son argument : « Les modèles s'améliorent tous les six mois. GPT-5 réglera les problèmes de maths. GPT-6 réglera les problèmes de raisonnement. Vous construisez un échafaudage pour un bâtiment qui va faire pousser son propre squelette. »
Il n'avait pas tort sur la tendance. Les modèles s'améliorent bel et bien. Mais je revenais sans cesse à un argument structurel dont je n'arrivais pas à me défaire.
L'amélioration des LLM est asymptotique pour les tâches déterministes. Rendre un moteur de prédiction 10 fois plus gros ne le rend pas déterministe — cela en fait un plus gros moteur de prédiction. Un modèle qui calcule correctement les intérêts composés 95 % du temps au lieu de 87 % reste un modèle auquel vous ne pouvez pas vous fier pour des calculs financiers. L'écart entre 95 % et 100 % n'est pas un écart que l'on comble avec l'échelle. C'est un écart qui exige un autre type de système.
Nous en avons débattu pendant deux jours. Des tableaux blancs couverts de schémas. Des benchmarks concurrents. À un moment, quelqu'un a dit : « Utilisez simplement GPT et ajoutez un avertissement. » Je crois que j'ai visiblement tressailli.
Ce qui a tranché la question, c'est un test simple. Nous avons pris 100 scénarios de conformité d'un client bancaire — des vérifications d'éligibilité à un prêt avec des seuils réglementaires stricts. Nous les avons passés dans un LLM à la pointe de la technologie avec un prompting soigné. Il a approuvé trois prêts qui enfreignaient les exigences de ratio d'endettement parce que les demandeurs avaient rédigé des déclarations personnelles convaincantes. Le modèle a été persuadé par le récit. Il faisait ce pour quoi il avait été conçu — reconnaître des motifs dans le langage — et, ce faisant, il a enfreint la loi.
Un chatbot qui ment 5 % du temps n'est pas utile à 95 %. Pour les tâches critiques, il est inutilisable à 100 %.
Mon ingénieur s'est rallié. Pas parce que l'approche symbolique était plus séduisante — elle ne l'est pas — mais parce que le mode de défaillance de l'alternative était inacceptable.
Pourquoi les entreprises « surcouche d'IA » sont-elles en difficulté ?
Prenons un peu de recul pour parler du paysage économique, car l'architecture technique a d'énormes implications économiques.
À l'heure actuelle, l'écosystème des start-up d'IA est dominé par ce que j'appelle les entreprises « surcouches » — des sociétés dont le produit principal est une interface utilisateur et un peu de logique de prompts posées sur un modèle de fondation tiers. Elles revendent l'accès à des capacités qu'elles ne possèdent pas.
Le problème est structurel. Chaque fois qu'OpenAI ou Anthropic sort une nouvelle version de modèle, ils absorbent les fonctionnalités que les surcouches fournissent. La start-up qui vend de l'« IA pour le résumé de PDF » est balayée dès que le modèle de fondation ajoute l'upload natif de fichiers. L'entreprise proposant de l'« IA pour la génération de code » voit sa proposition de valeur s'évaporer à mesure que les modèles de base s'améliorent en programmation. Votre douve concurrentielle est asséchée par votre propre fournisseur.
Les clients grands comptes s'en rendent compte. J'ai assisté à des réunions où des directeurs techniques ont dit, sans détour : « Pourquoi vous paierais-je pour envelopper une API que je peux appeler moi-même ? » Et ils ont raison de poser la question. Faire transiter des dossiers financiers sensibles ou du code propriétaire par les serveurs d'une start-up, qui les achemine ensuite vers un fournisseur de modèle public, crée une surface d'attaque inacceptable. Le mouvement de l'« IA souveraine » — des entreprises exigeant de posséder leurs modèles et de les exécuter au sein de leur propre infrastructure — s'accélère.
C'est pourquoi nous avons rejeté le modèle de la surcouche dès le premier jour. Nous ne vendons pas d'accès à des tokens. Nous vendons des architectures de Système 2 — des moteurs de raisonnement symbolique propriétaires, des graphes de connaissances spécifiques à un domaine, des couches de conformité déterministes. Quand le modèle de langage sous-jacent sera banalisé (et il le sera), notre valeur ne diminuera pas. Elle augmentera, parce que la couche logique deviendra le seul facteur de différenciation qui compte.
Que se passe-t-il quand vous donnez un vrai cerveau à un tuteur IA ?
Revenons-en à l'éducation, car c'est là que les enjeux me semblent les plus personnels.
La promesse du tutorat par IA est extraordinaire : un enseignement personnalisé, en tête-à-tête, pour chaque élève, à grande échelle. Le célèbre « problème des 2 sigmas » de Bloom a montré que les élèves qui reçoivent un tutorat individuel obtiennent des résultats supérieurs de deux écarts-types à ceux des élèves des salles de classe classiques. Si l'IA pouvait offrir ne serait-ce qu'une fraction de ce bénéfice, elle transformerait l'éducation.
Mais la génération actuelle de tuteurs IA échoue de façons qui sont pires que l'absence totale de tuteur. Au-delà du désastre de la multiplication que j'ai décrit plus haut, il existe des cas documentés où les élèves parviennent à la bonne réponse, mais où l'IA — hallucinant une voie de résolution erronée — tente de les convaincre qu'ils ont tort. Le modèle fait du gaslighting à l'élève jusqu'à ce qu'il abandonne un raisonnement correct. Dans un contexte éducatif, où la confiance est tout, c'est dévastateur.
Notre approche est fondamentalement différente. Nous avons construit ce que nous appelons un moteur de précision pédagogique — et il fonctionne sur trois niveaux.
Premièrement, la couche symbolique maintient un modèle de l'état des connaissances de chaque élève à l'aide du Bayesian Knowledge Tracing. Elle ne devine pas si l'élève comprend l'algèbre ; elle suit un vecteur de probabilité mis à jour à chaque interaction. Quand l'élève peine en géométrie, le système le sait — mathématiquement, pas intuitivement — et ajuste son étayage en conséquence.
Deuxièmement, quand l'IA génère des exercices, elle ne se contente pas d'inventer des nombres. Le moteur PAL garantit que chaque problème généré produit des réponses propres et résolvables. Fini le « calcule 7 349 divisé par 13,7 » alors que l'élève apprend la division de base. La couche symbolique garantit une difficulté pédagogiquement appropriée.
Troisièmement — et c'est celui dont je suis le plus fier — nous ancrons l'IA dans le programme scolaire précis. Grâce à l'indexation par graphe de propriétés, nous analysons le manuel réel pour le transformer en un graphe de connaissances où les concepts sont des nœuds et les relations des arêtes. Si le manuel définit « nombre premier » d'une manière précise, l'IA utilise cette définition, et non une quelconque approximation dérivée de Wikipédia présente dans les données d'entraînement du LLM. Pour la décomposition technique complète de la façon dont ces couches interagissent, consultez notre article de recherche.
Le problème de conformité dont personne ne veut parler

L'éducation est un domaine. La finance en est un autre — et, à certains égards, les modes de défaillance y sont encore plus alarmants.
Une banque régionale est venue nous voir après que le système de leur précédent fournisseur d'IA eut approuvé des prêts qui enfreignaient les critères réglementaires de prêt. Le problème était subtil et, une fois que l'on comprend l'architecture, tout à fait prévisible : le LLM traitait les déclarations personnelles des demandeurs en même temps que leurs données financières. Quand un demandeur écrivait une histoire touchante sur le fait d'avoir surmonté des difficultés, la reconnaissance de motifs du modèle — entraînée sur des millions d'exemples de récits persuasifs menant à des issues positives — pondérait le récit au-dessus des seuils stricts de ratio d'endettement.
Le modèle ne dysfonctionnait pas. Il faisait exactement ce pour quoi il avait été conçu : prédire le token suivant le plus probable dans une séquence ressemblant à une conversation d'approbation de prêt. Le problème, c'est que l'approbation d'un prêt n'est pas une conversation. C'est une décision fondée sur des règles, avec des limites légales.
Nous avons mis en place une couche PyReason — un cadre neuro-symbolique qui prend en charge le raisonnement logique sur des graphes de connaissances. Les règles sont explicites : SI l'âge du demandeur est inférieur à 21 ans ET l'État est New York, ALORS le type de prêt ne peut pas être Commercial. Avant que le LLM ne génère la moindre réponse à un demandeur de prêt, le contexte passe par le moteur symbolique. Si la sortie proposée enfreint une règle stricte, le moteur symbolique y oppose son veto. Point final.
Le résultat : une adhésion à 100 % aux critères réglementaires de prêt, combinée à une communication personnalisée et empathique envers les demandeurs. La Voix reste chaleureuse. Le Cerveau reste inflexible. C'est là tout l'intérêt.
Nous ne construisons pas d'IA qui est probablement conforme. Nous construisons de l'IA qui est physiquement incapable d'approuver une transaction non conforme, quelle que soit la force de persuasion de l'entrée.
« Des modèles plus gros ne vont-ils pas simplement régler ça ? »
Les gens me posent constamment cette question, et je comprends pourquoi. La trajectoire des capacités des LLM est réellement impressionnante. Chaque nouvelle version gère davantage de cas limites, obtient de meilleurs scores aux benchmarks, commet moins d'erreurs évidentes.
Mais voici ce à quoi je reviens sans cesse : la courbe d'amélioration pour les tâches déterministes a un plafond inscrit dans l'architecture. Un moteur de prédiction, aussi grand soit-il, génère des sorties de manière probabiliste. Le rendre plus gros resserre la distribution de probabilité — mais cela ne devient jamais une garantie. Et pour les domaines qui comptent le plus — l'éducation d'un enfant, le diagnostic d'un patient, les droits légaux d'un emprunteur — « probablement correct » n'est pas une catégorie de produit.
Il y a aussi un argument pratique. Même si GPT-7 atteignait 99,9 % de précision en arithmétique (ce qui serait remarquable), cela signifierait tout de même une erreur pour mille calculs. Une banque traitant dix mille demandes de prêt par jour générerait dix calculs erronés par jour. Chacun est une violation réglementaire potentielle. Chacun est un procès en puissance. La couche symbolique ne réduit pas le taux d'erreur à 99,9 %. Elle le réduit à zéro pour toute opération acheminée par le solveur.
L'autre objection que j'entends : « N'est-ce pas simplement ajouter de la complexité ? » Oui. C'est le cas. Un système neuro-symbolique est plus difficile à construire qu'une surcouche. Il exige de comprendre les deux paradigmes — le statistique et le logique — et de concevoir le pont entre eux. Mais la complexité réside dans l'architecture pour qu'elle n'ait pas à résider dans le mode de défaillance. Je préfère construire un système complexe qui fonctionne plutôt qu'un système simple qui échoue de façon imprévisible.
Le pont entre deux formes d'intelligence
Je veux vous laisser sur une image qui me trotte dans la tête depuis que nous avons commencé ce travail.
Réfléchissez à la façon dont vous pensez réellement. Quand un ami vous demande de recommander un restaurant, vous faites appel à l'intuition — reconnaissance de motifs sur des expériences passées, ressentis, associations. Système 1. Rapide et fluide. Mais quand votre comptable vous demande de vérifier un calcul d'impôts, vous sortez une calculatrice. Système 2. Lent et certain. Vous n'essayez pas de deviner par intuition si les chiffres s'additionnent correctement. Vous vérifiez.
Chaque système d'IA déployé dans le monde aujourd'hui fonctionne sur le seul Système 1. C'est comme si nous avions bâti une civilisation de brillants causeurs incapables de se servir d'une calculatrice, puis les avions mis à la tête des banques, des hôpitaux et des écoles.
La solution n'est pas de jeter les causeurs. Ils sont extraordinaires dans ce qu'ils font. La solution est de leur tendre une calculatrice — et de veiller à ce qu'ils s'en servent.
Voilà ce qu'est l'IA neuro-symbolique. Pas un remplacement des grands modèles de langage. Un achèvement de ceux-ci. La Voix et le Cerveau, travaillant ensemble, avec un pont qui sait quand parler et quand calculer.
Nous construisons ce pont. Et je crois que c'est la seule architecture qui mérite qu'on lui confie les choses qui comptent.