
Votre chatbot IA vient de devenir un employé juridiquement contraignant. La plupart des entreprises ne l'ont pas remarqué.
Quelques mois après que la décision Moffatt c. Air Canada a été rendue, j'étais au téléphone avec un client potentiel — une entreprise fintech de taille moyenne, peut-être 200 employés, en forte croissance. Ils avaient créé un chatbot orienté client à l'aide d'un wrapper GPT populaire. Interface épurée. Ton amical. Les clients l'adoraient.
J'ai posé une seule question : « Que se passe-t-il quand votre bot cite le mauvais taux d'intérêt ? »
Silence de mort. Puis leur CTO a dit : « Ça n'arrivera pas. On a de bons prompts. »
J'ai affiché la décision sur mon écran et je leur ai lu le passage où le tribunal a déclaré qu'Air Canada « ne pouvait pas se dissocier du chatbot IA ». Que l'entreprise était responsable de chaque mot généré par le bot, exactement comme si un employé humain l'avait dit. Que la défense de la compagnie aérienne — soutenant que le chatbot était en substance une « entité juridique distincte » responsable de ses propres erreurs — a été rejetée avec quelque chose proche du mépris judiciaire.
Le visage du CTO a changé. Parce que voici ce que cette décision signifie réellement : si votre chatbot IA promet à un client un taux de 2 % dans un environnement à 5 %, ou invente une politique de remboursement qui n'existe pas, ou hallucine une clause de garantie — félicitations, votre entreprise vient de signer un contrat. Pas métaphoriquement. Juridiquement.
Et le plus effrayant ? Presque personne parmi ceux qui construisent de l'IA d'entreprise n'a intégré cette réalité.
La décision qui a réécrit le profil de risque de tout chatbot IA
Laissez-moi vous raconter ce qui s'est réellement passé dans l'affaire Moffatt, car les détails comptent bien plus que ne le laissaient entendre les gros titres.
La grand-mère de Jake Moffatt est décédée. Il s'est rendu sur le site d'Air Canada, a trouvé le chatbot, et a posé une question sur les tarifs de deuil. Le chatbot — avec assurance, aisance, sur le ton serviable pour lequel ces systèmes sont optimisés — lui a dit d'acheter maintenant un billet plein tarif et de demander une réduction pour deuil dans un délai de 90 jours afin d'obtenir un remboursement partiel.
Cette politique n'existait pas. Les règles réelles de la compagnie aérienne, enfouies dans les documents tarifaires et les pages statiques, disaient le contraire : aucun remboursement rétroactif une fois que vous avez pris le vol. Le chatbot avait halluciné une politique qui semblait correcte parce que, statistiquement, les schémas de formulation autour de « deuil », « remboursement » et « 90 jours » coexistent fréquemment dans les documents de politique des compagnies aériennes de tout le secteur.
Lorsque Moffatt a demandé son remboursement et qu'Air Canada a refusé, il les a assignés devant le tribunal. Les avocats d'Air Canada ont avancé un argument que je trouve encore stupéfiant : ils ont prétendu que le chatbot devait être traité comme une entité juridique distincte, responsable de ses propres déclarations. Que l'information correcte était disponible ailleurs sur le site, si bien que l'entreprise avait rempli son devoir.
Le tribunal ne s'est pas contenté de rejeter cet argument. Le membre du tribunal Christopher Rivers a essentiellement déclaré : il n'existe aucune distinction significative entre un agent humain, une page web statique et un bot interactif. Tous constituent l'entreprise s'adressant au client.
Si votre IA le dit, votre entreprise l'a signé. Le tribunal a établi que les hallucinations ne sont pas des bugs logiciels — ce sont des déclarations inexactes par négligence.
Trois précédents sont ressortis de cette décision et devraient tenir éveillé la nuit tout directeur technique. Responsabilité unifiée : peu importe que l'information provienne d'un texte HTML ou d'un réseau de neurones — c'est dans tous les cas la représentation de l'entreprise. Devoir de diligence : déployer un modèle probabiliste non vérifié pour la diffusion de politiques constitue une négligence. Et celui qui éventre la plupart des architectures actuelles : la défense de la « boîte noire » est morte. La complexité interne de votre système d'IA n'offre aucune protection juridique.
Les dommages-intérêts s'élevaient à 800 $. Le précédent, lui, vaut des milliards en exposition future à la responsabilité.
Pourquoi de « bons prompts » ne vous sauveront pas

J'ai besoin d'être direct sur un point que beaucoup de cabinets de conseil en IA ne veulent pas entendre : la génération augmentée par récupération n'est pas une solution de conformité.
Quand j'ai commencé à creuser les détails de l'affaire Moffatt, je m'attendais à découvrir que le chatbot n'avait pas accès à la politique correcte. Cela aurait été un simple échec de récupération — corrigeable, compréhensible. Au lieu de cela, j'ai trouvé quelque chose de pire. Le chatbot fournissait en réalité un lien vers la page correcte de la politique de deuil. Il avait le bon document. Il l'a simplement résumé de travers.
C'est le mode de défaillance qui brise le discours du « il suffit d'ajouter du RAG ». Le chatbot a récupéré le bon contexte et a quand même halluciné la réponse.
Voici pourquoi. Les grands modèles de langage sont des moteurs probabilistes. Ils prédisent le prochain token probable en fonction des schémas statistiques présents dans les données d'entraînement. Quand un LLM dit « les remboursements sont possibles dans un délai de 90 jours », il n'interroge pas une base de données de règles. Il complète un schéma de phrase statistiquement probable d'après des millions de documents ingérés pendant son entraînement — des documents qui incluaient d'innombrables politiques de remboursement différentes provenant d'innombrables entreprises différentes.
Donner au modèle le document correct aide. Mais si le texte récupéré est complexe, si le langage juridique est dense, s'il y a une négation subtile enfouie dans une proposition subordonnée — le modèle peut ignorer le contexte récupéré au profit de ses biais pré-entraînés. Ce n'est pas un cas limite rare. C'est un mode de défaillance connu appelé dominance de la mémoire paramétrique, et il se produit d'autant plus souvent avec précisément ce type de langage de politique complexe qui importe le plus pour la conformité.
J'ai vu cela de mes propres yeux. Nous testions un prototype pour un client dans le secteur de la santé, et le système avait les bonnes données d'interaction médicamenteuse dans sa fenêtre de contexte — littéralement juste là, dans le prompt. Le modèle a tout de même généré une réponse qui atténuait un avertissement d'« interaction grave » en une « légère précaution ». Parce que dans les données d'entraînement, la plupart des textes concernant ces deux médicaments ensemble apparaissaient dans des contextes qui minimisaient le risque. La récupération était parfaite. La génération était dangereuse.
Le RAG fournit de la connaissance, mais il ne garantit pas le respect des règles. On ne peut pas résoudre un problème de logique stricte avec un moteur de probabilité seul.
Les chiffres le confirment. Les pertes mondiales attribuées aux hallucinations d'IA ont atteint 67,4 milliards de dollars en 2024. Même les meilleurs modèles de pointe — GPT-4o, Gemini 2.0 — conservent des taux d'hallucination de base compris entre 0,7 % et 3 % selon la complexité de la tâche. Cela paraît faible jusqu'à ce que vous fassiez le calcul : l'assistant IA d'une banque traitant un million de requêtes par mois à un taux d'hallucination de 0,7 % produit 7 000 violations réglementaires potentielles. Chaque mois.
Et les entreprises paient déjà une taxe cachée pour ce manque de fiabilité. Forrester estime que l'atténuation des hallucinations coûte environ 14 200 $ par employé et par an en perte de productivité — des humains vérifiant deux fois un travail d'IA auquel on ne peut se fier pour tenir tout seul. Le marché des outils de détection d'hallucinations a crû de 318 % entre 2023 et 2025. Ce n'est pas le signe d'un problème en train d'être résolu. C'est le signe d'un secteur qui rafistole frénétiquement une approche fondamentalement défectueuse.
À quoi ressemble un chatbot incapable de mentir ?

Il y a eu un moment — je m'en souviens clairement parce que c'est arrivé lors d'une séance d'architecture tard le soir avec mon équipe — où l'idée centrale a fait tilt. Nous débattions de la façon de rendre un LLM « plus précis » pour un cas d'usage de conformité. De meilleurs prompts. Une meilleure récupération. Un fine-tuning sur des données de domaine. Et l'un de mes ingénieurs a dit quelque chose qui a arrêté net la conversation : « Pourquoi demandons-nous au modèle d'être précis ? Il n'est pas conçu pour la précision. Il est conçu pour la fluidité. »
Elle avait raison. Et ce recadrage a tout changé dans notre façon de construire.
La réponse n'est pas de rendre le modèle probabiliste moins probabiliste. La réponse est de ne pas le laisser prendre de décisions du tout lorsque les enjeux sont élevés.
Nous appelons cela une couche d'action déterministe — un composant middleware qui se place entre l'utilisateur et le LLM, agissant comme un contrôleur du trafic. Quand un client pose une question sur la météo ou veut de l'aide pour rédiger un e-mail, le LLM fait ce dans quoi il excelle : générer un texte fluide, utile et créatif. Mais dès l'instant où la conversation touche aux remboursements, aux tarifs, aux clauses juridiques, aux garanties, à la politique de confidentialité — tout ce où une mauvaise réponse crée une responsabilité — le système change entièrement de mode.
Au lieu de laisser le LLM générer une réponse à partir de ses poids, la couche d'action déterministe déclenche une logique codée en dur. Une requête de base de données. Un arbre de décision. Un modèle de réponse pré-rédigé et juridiquement validé. Le rôle du LLM se réduit d'« auteur » à « traducteur » — il peut reformuler le résultat en une phrase courtoise, mais il ne peut ni ajouter, ni supprimer, ni réinterpréter l'information.
Voyez les choses ainsi. Si le chatbot de Moffatt avait eu cette architecture, voici ce qui se serait produit : le routeur sémantique détecte l'intention — bereavement_refund. Au lieu de laisser le modèle improviser sur ce qu'il pense que disent habituellement les politiques de remboursement pour deuil, il exécute une fonction déterministe : if ticket_status == 'flown' return NO_REFUND. La réponse revient : « Notre politique interdit strictement les remboursements après le voyage. Référence : règle tarifaire 45. » Ennuyeux. Juridiquement inattaquable. Exactement ce qu'il fallait.
J'ai écrit en profondeur sur cette architecture dans la version interactive de notre recherche, mais l'intuition centrale est simple : séparer la conversation de la conformité. Laissez le réseau de neurones gérer la variabilité désordonnée et magnifique du langage humain. Laissez le code déterministe gérer les parties où se tromper coûte de l'argent.
Le protocole du silence
Il existe un motif de conception spécifique que nous utilisons et qui, je crois, capture la philosophie mieux que n'importe quel schéma d'architecture. Nous l'appelons le protocole du silence.
Quand un utilisateur pose une question sur un sujet que nous avons classé comme « critique pour la conformité », les capacités créatives de l'IA générative sont effectivement mises en sourdine. Le système passe du mode « Auteur » au mode « Lecteur ». Il récupère le texte exact de la base de données et le sert mot pour mot, ou remplit un modèle strict avec des variables provenant d'une source de confiance.
Et voici la partie qui met certains chefs de produit mal à l'aise : si l'utilisateur pose une question qui tombe dans une lacune de la politique — là où aucune règle déterministe n'existe — le système n'improvise pas. Il dit : « Je ne peux pas répondre directement à cette question. Laissez-moi vous mettre en relation avec un spécialiste humain. »
Un client potentiel s'y est fermement opposé. « Les utilisateurs veulent des réponses instantanées », a-t-il dit. « Un chatbot qui dit “je ne sais pas” donne l'impression d'être défectueux. »
Je lui ai demandé lequel semble le plus défectueux : un chatbot qui dit « laissez-moi vous mettre en relation avec un humain », ou un chatbot qui invente une politique de remboursement, que l'entreprise est obligée d'honorer, et à cause duquel l'équipe juridique passe six mois à limiter les dégâts ?
En termes juridiques, la créativité concernant les clauses d'un contrat est synonyme de fabrication. La caractéristique la plus précieuse d'une IA d'entreprise n'est pas ce qu'elle peut dire — c'est ce qu'on l'empêche de dire.
Nous désactivons la créativité pour les sujets de conformité parce que, dans un monde post-Moffatt, une IA qui improvise « obligeamment » une politique est une IA qui réécrit vos contrats en temps réel sans autorisation.
Comment le système sait-il ce qui est dangereux ?
C'est la question qu'on me pose le plus souvent, et c'est la bonne. L'architecture ne fonctionne que si la couche de routage — le contrôleur du trafic — peut distinguer de manière fiable entre « parlez-moi de l'histoire de votre entreprise » (sûr pour la génération par LLM) et « puis-je obtenir un remboursement là-dessus ? » (doit être traité de manière déterministe).
Nous utilisons le routage sémantique, qui est fondamentalement différent de la fragile correspondance par mots-clés des anciens systèmes de chatbot. Un système par mots-clés cherchant « remboursement » manquerait « je veux récupérer mon argent » ou « pouvez-vous me rembourser ». Le routage sémantique convertit la requête de l'utilisateur en un plongement vectoriel de haute dimension et le compare à des exemples canoniques prédéfinis pour les sujets restreints.
Le détail clé : cette couche de routage se situe en dehors de la fenêtre de contexte du LLM. Cela importe énormément pour la sécurité. Les attaques par injection de prompt — où les utilisateurs conçoivent des entrées destinées à tromper le modèle pour qu'il ignore ses instructions — constituent une menace réelle et croissante. Mais si la décision de routage a lieu avant que la requête n'atteigne le modèle, ces attaques deviennent sans importance pour la logique de conformité. Vous ne pouvez pas jailbreaker un système qui ne donne jamais les clés au modèle en premier lieu.
Une fois qu'une intention sensible est détectée, nous utilisons l'appel de fonction — une capacité des LLM modernes où le modèle produit des données structurées (un objet JSON appelant une fonction spécifique) plutôt que du texte libre. Le LLM extrait des paramètres de la conversation — numéro de billet, date d'achat, date de voyage — et les transmet à un bloc de code déterministe. Python. SQL. Quel que soit ce qui exécute la véritable logique métier. Le modèle ne calcule jamais le remboursement. Il ne décide jamais de l'admissibilité. Il traduit le langage naturel en un appel d'API, et traduit la réponse de l'API à nouveau en langage naturel. La décision est prise par le code, non par la probabilité.
Pour la ventilation technique complète de l'architecture de routage, des schémas d'appel de fonction et de notre pipeline de vérification, consultez notre analyse technique approfondie.
Les murs réglementaires se resserrent
Si le précédent Moffatt n'était pas une motivation suffisante, le paysage réglementaire est sur le point de rendre les garde-fous déterministes non optionnels.
Le règlement européen sur l'IA (EU AI Act) classe de nombreux systèmes d'IA orientés client — en particulier dans les transports, la banque et les services essentiels — comme à haut risque. L'article 14 impose une supervision humaine : les systèmes doivent être conçus de sorte que les humains puissent interpréter les sorties, intervenir et actionner le bouton d'arrêt. Un wrapper LLM en boîte noire ne satisfait pas à cette exigence. Une couche d'action déterministe — où le responsable de la conformité rédige les règles que le système exécute — le fait.
L'article 22 du RGPD accorde aux personnes le droit de ne pas faire l'objet de décisions fondées exclusivement sur un traitement automatisé lorsque ces décisions produisent des effets juridiques ou significatifs. Refuser un remboursement est un effet significatif. Refuser une demande de prêt est un effet significatif. Quand un client demande « pourquoi ai-je été refusé ? », un réseau de neurones ne peut pas expliquer son raisonnement parce qu'il n'a pas de raisonnement — il a des poids statistiques. Un arbre de logique déterministe peut pointer le nœud exact : « Score de crédit inférieur au seuil » ou « Statut du billet : vol effectué ».
Et l'ISO 42001 — la première norme mondiale pour la gouvernance de l'IA — exige des organisations qu'elles cartographient où sont utilisées la logique probabiliste et la logique déterministe, qu'elles mesurent les taux d'hallucination et qu'elles tiennent des pistes d'audit complètes. Nous avons conçu notre architecture spécifiquement pour être prête à l'audit selon cette norme. Chaque interaction, chaque décision de routage, chaque exécution de politique est journalisée avec un chemin logique traçable.
Ce n'est pas de la conformité théorique. Je me suis retrouvé dans des salles avec des équipes juridiques d'entreprise qui repensent activement leurs déploiements d'IA à cause de ces cadres. Les entreprises qui construisent les garde-fous dès maintenant déploieront l'IA plus vite et plus largement que celles qui se démènent pour ajouter la conformité après coup.
« Mais n'est-ce pas coûteux ? »
Les gens me posent toujours cette question, et je comprends l'instinct. Construire un routage sémantique, des couches de logique déterministe, des graphes de connaissances, des pipelines de vérification — c'est indéniablement plus complexe que d'envelopper un appel d'API dans une belle interface.
Mais laissez-moi recadrer la question. Quel est le coût de ne pas le construire ?
Les dommages-intérêts d'Air Canada s'élevaient à 800 $. Mais les frais juridiques ont largement dépassé ce montant. Le préjudice de réputation — « une compagnie aérienne soutient que son propre chatbot est une entité juridique distincte » est devenu un objet de moquerie mondial — est incalculable. Et il s'agissait d'une seule interaction à propos d'un seul tarif de deuil.
Imaginez maintenant un chatbot de services financiers qui hallucine l'approbation d'un prêt. Un bot de santé qui atténue un avertissement d'interaction médicamenteuse. Un bot d'assurance qui invente des clauses de couverture. On ne parle plus de 800 $. On parle du territoire des actions collectives.
Les 14 200 $ par employé et par an que les entreprises dépensent actuellement pour l'atténuation des hallucinations — des humains vérifiant manuellement les sorties de l'IA parce que personne ne leur fait confiance — voilà le véritable coût de l'IA « bon marché ». Le wrapper est bon marché à construire et coûteux à exploiter. L'architecture déterministe est coûteuse à construire et bon marché à laquelle se fier.
Il s'agit de ce qui vient ensuite
Je veux terminer sur quelque chose qui dépasse la conversation actuelle sur les chatbots, car je pense que la décision Moffatt est un avant-goût d'un changement bien plus vaste.
Nous passons d'une ère de chatbots IA à une ère d'agents IA — des systèmes qui ne se contentent pas de répondre aux questions mais qui prennent des actions. Réserver des vols. Transférer de l'argent. Approuver des réclamations. Signer des accords. La fiction juridique selon laquelle « l'utilisateur devrait vérifier l'information » était déjà fragile appliquée aux chatbots. Elle est complètement intenable appliquée à des agents qui exécutent des transactions de manière autonome.
Chaque entreprise déployant une IA qui touche à l'argent, aux contrats ou à des décisions réglementées fait un choix en ce moment même, qu'elle en soit consciente ou non. Soit elle construit des systèmes où la créativité de l'IA est bornée par une logique déterministe — où la machine peut être fluide et utile à l'intérieur de garde-fous strictement appliqués — soit elle déploie des agents éloquents et non supervisés dotés de l'autorité juridique de réécrire la politique de l'entreprise une hallucination à la fois.
Je sais de quel côté de cette ligne je veux être. Je sais quel côté la loi va exiger.
Votre chatbot est un employé juridiquement contraignant. Il a besoin de la même formation, de la même supervision et des mêmes limites strictes qu'un employé humain qui manipule les fonds de l'entreprise. Vous ne laisseriez pas une nouvelle recrue inventer des politiques de remboursement au feeling. Ne laissez pas votre IA le faire non plus.
La défense de la boîte noire est morte. L'ère du wrapper touche à sa fin. Et les entreprises qui maîtriseront les premières les couches d'action déterministes ne se contenteront pas d'éviter la responsabilité — ce seront celles qui feront réellement passer l'IA à l'échelle dans les parties de leur activité où elle compte le plus, parce que ce seront celles dont les systèmes pourront être dignes de confiance.
La question n'est pas de savoir si votre IA est assez intelligente. C'est de savoir si elle sait quand se taire.