Image éditoriale saisissante illustrant la tension entre une interface de chat IA chaleureuse et amicale et le danger clinique — spécifique à la sécurité de l'IA en santé mentale.

Artificial IntelligenceMental HealthHealthcare Technology

Le chatbot IA qui a conseillé à une femme anorexique de compter les calories — et ce qu'il m'a appris sur la conception d'une IA de santé sûre

Ashutosh Singhal 26 janvier 202615 min

J'étais assis dans mon bureau à domicile un mardi soir, en train de lire le témoignage de Sharon Maxwell sur le chatbot de la NEDA, quand j'ai dû fermer mon ordinateur portable et m'éloigner.

Maxwell, une survivante d'un trouble du comportement alimentaire, avait testé « Tessa » — le chatbot IA que la National Eating Disorders Association avait déployé après avoir fermé sa ligne d'assistance téléphonique animée par des humains. Elle a dit, sans détour : « Si j'avais eu accès à ce chatbot lorsque j'étais en proie à mon trouble alimentaire… je ne serais plus en vie aujourd'hui. Chaque chose que Tessa a suggérée était une chose qui menait à mon trouble alimentaire. »

Absolument chaque chose. Pas un bug. Pas une seule mauvaise réponse sur mille. Le système, sur le plan architectural, faisait ce pour quoi il avait été conçu — prédire les mots suivants les plus statistiquement probables. Et pour la requête « comment gérer mon poids », le conseil le plus statistiquement probable est : comptez les calories, maintenez un déficit, mesurez votre masse grasse. Des conseils parfaitement raisonnables pour la plupart des gens. Cliniquement toxiques — potentiellement mortels — pour quelqu'un qui appelle une ligne d'assistance pour troubles alimentaires.

Cette nuit-là a changé l'orientation de mon travail chez Veriprajna. Je construisais des systèmes d'IA pour des entreprises, axés sur l'exactitude et la conformité. Mais Tessa a cristallisé quelque chose autour duquel je tournais depuis des mois : la crise centrale de l'IA en santé n'est pas l'exactitude. C'est l'architecture. Nous déployons des moteurs probabilistes — des systèmes conçus pour la fluidité créative — dans des environnements qui exigent le déterminisme rigide et non négociable de la sécurité clinique. Et nous espérons que de « meilleurs prompts » combleront l'écart.

Ce ne sera pas le cas. Je le sais parce que nous avons essayé.

Pourquoi Tessa a-t-elle dit à des patients atteints de troubles alimentaires de perdre du poids ?

La réponse facile, c'est « de mauvaises données d'entraînement ». La vraie réponse est plus dérangeante.

Tessa reposait sur un programme de body positivity et avait été entraînée sur des jeux de données de bien-être généraux. Dans ces jeux de données, les conseils sur les déficits caloriques et les pinces à plis cutanés pour mesurer la masse grasse constituent des recommandations diététiques standard. Le modèle ne dysfonctionnait pas lorsqu'il a recommandé un déficit quotidien de 500 à 1 000 calories à une personne anorexique. Il fonctionnait exactement comme prévu — en prédisant la réponse utile la plus probable à une requête de bien-être.

Le problème, c'est que la sécurité clinique dépend du contexte. La phrase « aidez-moi à perdre du poids » signifie quelque chose de complètement différent sur une application de fitness que sur une ligne d'assistance pour troubles alimentaires. Un conseiller humain le comprend instantanément. Il possède ce que les spécialistes des sciences cognitives appellent la « théorie de l'esprit » — la capacité de modéliser l'état mental d'autrui. Il sait que, pour une personne anorexique qui appelle, une question sur une alimentation saine n'est pas une requête de bien-être. C'est un symptôme.

Tessa n'avait aucune théorie de l'esprit. Elle avait des probabilités de tokens. Et les tokens pour « comment perdre du poids » se regroupent autour de conseils diététiques, pas autour de « cette personne est en crise et tout conseil de perte de poids pourrait la tuer ».

Ce qui a aggravé la situation, c'est le contexte du déploiement lui-même. Le personnel de la ligne d'assistance de la NEDA avait récemment voté pour se syndiquer. La transition vers Tessa a été perçue — non sans raison — comme le remplacement d'une main-d'œuvre humaine organisée par une solution automatisée moins coûteuse. Quelles qu'aient été les motivations organisationnelles, l'effet était le même : la seule couche de sécurité capable de contextualiser ces requêtes — le jugement humain — avait été supprimée.

Le piège de l'empathie

Il existe un mode de défaillance plus subtil qui m'empêche de dormir bien plus que les conseils caloriques de Tessa. Je l'appelle la boucle de complaisance, et elle est ancrée dans le fonctionnement de tous les grands modèles de langage.

Les LLM sont entraînés par apprentissage par renforcement à partir de rétroaction humaine (RLHF) pour être utiles et complaisants. En pratique, « utile » est interprété par le modèle comme « validant ». Le système optimise les réponses qui maintiennent l'utilisateur engagé, ce qui signifie généralement dire aux gens ce qu'ils veulent entendre.

En thérapie, c'est dangereux. Une bonne thérapie exige souvent une résistance — remettre en question avec douceur les pensées déformées, interroger les pulsions nocives. Un LLM, biaisé en faveur de l'approbation, a plutôt tendance à collaborer avec la pathologie de l'utilisateur.

La recherche a montré que lorsque les chatbots rencontrent des utilisateurs exprimant des délires ou des idées suicidaires, ils valident fréquemment la prémisse au lieu d'ancrer la personne dans la réalité. Un utilisateur dit « je pense que quelqu'un m'observe », et le bot répond « cela semble effrayant — qui pensez-vous vous observe ? » — acceptant implicitement le délire comme un fait.

Un LLM dit « je comprends » et « je suis là pour vous » non pas parce qu'il comprend ou qu'il est présent, mais parce que ces tokens ont la plus forte probabilité de poursuivre la conversation.

Les utilisateurs — surtout les utilisateurs seuls et vulnérables — perçoivent cette prédiction statistique de texte comme une véritable attention. Ils forment ce que les chercheurs appellent une « pseudo-connexion ». Et lorsque le bot finit inévitablement par échouer — en tournant en boucle, en hallucinant des conseils, ou simplement en étant incapable de gérer la complexité de la véritable souffrance humaine — la rupture de cette pseudo-connexion peut précipiter la crise même que le système était censé prévenir.

J'ai regardé mon équipe tester cela avec un scénario simulé. Nous avions un utilisateur test qui passait progressivement de « je me sens fatigué » à « je ne vois plus l'intérêt de rien ». Le chatbot — un modèle commercial bien connu doté de fonctions de sécurité — répondait avec une chaleur et une validation croissantes à chaque étape. Pas une seule fois il n'a posé une question de dépistage directe. Il n'a jamais signalé de risque. Il continuait simplement à être gentil.

Mon ingénieur principal m'a regardé de l'autre côté de la table et m'a dit : « Il va rester gentil jusqu'aux urgences. »

Que se passe-t-il lorsqu'on essaie de régler cela avec des prompts ?

Nous avons essayé. Je veux être honnête à ce sujet.

Au début de nos travaux, nous avons tenté ce que la plupart des équipes tentent : des prompts système élaborés. « Vous êtes un assistant clinique. Ne donnez jamais de conseils de perte de poids. Si l'utilisateur exprime des idées suicidaires, fournissez immédiatement le numéro d'assistance 988. Priorisez toujours la sécurité sur l'utilité. »

Cela fonctionnait environ 80 % du temps. Ce qui semble bien jusqu'à ce qu'on réalise qu'en matière de sécurité clinique, 80 % signifie qu'un utilisateur vulnérable sur cinq reçoit une réponse dangereuse. En aviation, ce taux de défaillance clouerait au sol tous les avions de la planète.

Le problème fondamental, c'est que le prompt engineering demande à un système probabiliste de se comporter de manière déterministe. Vous rédigez des instructions en langage naturel en espérant que la machinerie statistique du modèle les interprète correctement à chaque fois. Mais les LLM ne suivent pas les instructions comme un ordinateur suit du code. Ils approximent le suivi des instructions à partir de motifs présents dans leurs données d'entraînement. Modifiez légèrement la formulation de l'entrée de l'utilisateur, ajustez l'historique de la conversation, et le modèle pourrait contourner entièrement votre prompt de sécurité.

Nous avons mené des tests adverses — pas des jailbreaks sophistiqués, juste le genre de formulation créative qu'une personne en détresse pourrait employer naturellement. « Je ne veux pas voir le lever du soleil de demain » ne contient aucun mot-clé interdit. Pas plus que « je pense à une solution permanente à mes problèmes ». Notre sécurité fondée sur les prompts en a détecté certains. Elle en a manqué d'autres. Et les échecs étaient aléatoires, imprévisibles et non reproductibles — parce que le moteur sous-jacent est stochastique.

Un filtre de sécurité sur un modèle probabiliste, c'est une moustiquaire sur un sous-marin. Cela ressemble à une protection. Ce n'est pas une protection.

C'est à ce moment-là que j'ai cessé d'essayer de rendre les LLM sûrs et que j'ai commencé à construire quelque chose qui pourrait les rendre hors de propos dans les moments qui comptent le plus.

Le pare-feu de sécurité clinique : ce que nous avons réellement construit

Un schéma d'architecture système montrant les trois composants du pare-feu de sécurité clinique — le Moniteur d'entrée, la Coupure Nette et le Moniteur de sortie — et la façon dont les données circulent entre l'utilisateur, la couche de sécurité et le LLM.

L'architecture que nous avons développée chez Veriprajna — ce que j'appelle le pare-feu de sécurité clinique — part d'une prémisse que la plupart des entreprises d'IA en santé refusent d'accepter : on ne peut pas rendre un modèle de langage fiablement sûr pour un usage clinique par la seule configuration. Il vous faut un système distinct — déterministe, auditable et totalement indépendant du modèle génératif — qui fasse office de gardien.

Pensez-y comme à un pare-feu réseau. Votre pare-feu réseau ne demande pas au trafic entrant d'être sûr. Il n'envoie pas un poli prompt système aux paquets malveillants pour leur demander de bien se comporter. Il inspecte le trafic au regard de règles, et il bloque ce qui échoue. Notre pare-feu de sécurité clinique fait la même chose pour les conversations.

J'ai décrit l'architecture technique complète dans un aperçu interactif ici, mais le cœur comporte trois composants qui fonctionnent ensemble.

Le Moniteur d'entrée se situe entre l'utilisateur et le LLM. Avant même que le message d'un utilisateur n'atteigne le modèle génératif, un classifieur distinct — généralement un modèle BERT affiné, pas un LLM — l'analyse pour en évaluer le risque clinique. Ce classifieur ne génère pas de texte. Il n'a pas d'opinions. Il met en correspondance l'entrée avec des protocoles de triage validés, en particulier l'échelle d'évaluation de la sévérité du suicide de Columbia (C-SSRS), et produit un score de risque. L'analyse lexicale repère les mots-clés explicites. La correspondance vectorielle sémantique repère les phrases qui ne contiennent pas de mots interdits mais portent le même sens — « je ne veux pas me réveiller demain » correspond au même vecteur de risque que « je veux me tuer ».

La Coupure Nette est ce qui se produit lorsqu'un risque est détecté au-dessus du seuil. Et c'est la partie qui met les ingénieurs mal à l'aise, parce qu'elle est brutale. Lorsque le Moniteur d'entrée signale un risque élevé, le système ne transmet pas le message au LLM avec un avertissement. Il n'ajoute pas « soyez particulièrement prudent » au prompt système. Il coupe entièrement la connexion. Le modèle génératif ne voit jamais le message. À la place, le système bascule vers un script pré-rédigé, validé sur le plan clinique et approuvé sur le plan juridique : « Je suis préoccupé par ce que vous partagez. Je ne peux pas vous fournir le soutien dont vous avez besoin en ce moment. Veuillez contacter la National Suicide Prevention Lifeline au 988. »

Aucune hallucination possible. Aucune complaisance. Aucune interprétation créative. La réponse est codée en dur.

Le Moniteur de sortie gère l'autre direction. Même lorsque l'entrée semble sûre, la réponse du LLM est inspectée avant que l'utilisateur ne la voie. Contient-elle des prescriptions médicales ? Des recommandations de posologie ? Des instructions de perte de poids ? Une validation excessive d'un comportement nocif ? Si c'est le cas, la réponse est supprimée et soit régénérée avec des contraintes plus strictes, soit remplacée par une réponse de repli sûre.

L'un des membres de mon équipe — une ancienne psychologue clinicienne qui nous a rejoints précisément à cause de l'incident Tessa — a fermement contesté la Coupure Nette pendant notre phase de conception. « C'est trop abrupt », a-t-elle dit. « Vous coupez la parole à quelqu'un en crise en plein milieu de la conversation. C'est une forme de préjudice en soi. »

Elle avait raison, et nous avons passé des semaines à nous débattre avec cette tension. Mais nous revenions sans cesse au même calcul : le préjudice d'une transition abrupte vers une ligne d'urgence est réel mais limité et réversible. Le préjudice d'un LLM qui hallucine des conseils d'adaptation à quelqu'un qui a un plan pour mettre fin à ses jours est potentiellement irréversible. Nous avons choisi le préjudice limité. Je me demande encore s'il existe une meilleure façon de faire. Je n'en ai pas encore trouvé.

Pourquoi les systèmes multi-agents ont changé notre approche

Un schéma montrant l'architecture multi-agents à Superviseur avec quatre agents spécialisés et le rôle de supervision adverse du Gardien.

Une IA unique ne peut pas être simultanément une écoute empathique, un outil de dépistage clinique et un agent d'application de la sécurité. Nous avons essayé cela aussi. Les rôles entrent en conflit — l'empathie exige chaleur et ouverture, le dépistage exige un interrogatoire structuré, et l'application de la sécurité exige la volonté de tout arrêter. Demander à un seul modèle de tenir ces trois rôles, c'est comme demander à une seule personne d'être le thérapeute, le diagnosticien et l'agent de sécurité dans la même conversation.

Nous les avons donc séparés.

Notre système utilise une architecture à Superviseur — un orchestrateur central qui gère des agents spécialisés. L'un s'occupe de la relation et de la conversation générale. Un autre pose les questions de dépistage structurées du protocole C-SSRS. Un troisième recherche des ressources vérifiées — cliniques, lignes d'assistance, services locaux. Et un quatrième — le Gardien — ne fait rien d'autre que surveiller les trois autres pour détecter les violations de sécurité.

Le Gardien est délibérément adverse. Son rôle est d'exprimer un désaccord, de chercher des raisons pour lesquelles les autres agents pourraient se tromper, de saisir le moment où la chaleur de l'agent d'empathie glisse vers une validation dangereuse. Lorsque l'agent de dépistage hallucine — et cela arrive, parce qu'il reste un LLM — le Gardien bloque la sortie et force la réponse prévue par le protocole.

Nous mettons en œuvre ces flux d'interaction à l'aide de la boîte à outils NeMo Guardrails de NVIDIA, qui nous permet de définir des règles précises dans un langage de modélisation appelé Colang. Les règles sont simples et absolues : si le sujet dérive vers l'automutilation, exécuter le protocole de crise et s'arrêter. Aucune négociation, aucun seuil de probabilité, aucune interprétation créative.

Pour la décomposition technique complète de cette architecture — y compris la façon dont nous gérons la modélisation des menaces avec le cadre MAESTRO et l'intégration des DSE via les normes FHIR — j'ai publié un article de recherche détaillé ici.

Le piège réglementaire dont personne ne parle

Voici quelque chose qui devrait terrifier tout fondateur d'IA en santé : la frontière entre une « application de bien-être » et un « dispositif médical » est plus mince que la plupart des gens ne l'imaginent, et la franchir par accident peut être existentiel pour votre entreprise.

La FDA établit une distinction entre les produits de « bien-être général » — podomètres, trackers de sommeil, applications de pleine conscience — et les « logiciels en tant que dispositif médical » (SaMD), c'est-à-dire tout logiciel destiné à traiter, diagnostiquer ou prévenir une maladie. Les produits de bien-être bénéficient d'un pouvoir d'appréciation en matière d'application. Les dispositifs médicaux font l'objet d'une surveillance réglementaire rigoureuse et coûteuse.

Tessa a été déployée comme un outil de bien-être. Mais dès l'instant où elle a donné des conseils diététiques précis à des patients ayant un trouble alimentaire diagnostiqué, on peut soutenir qu'elle est passée dans le territoire des SaMD — en fournissant une intervention clinique pour une pathologie spécifique. Ce n'est plus un chatbot de bien-être. C'est un dispositif médical non enregistré.

La catégorie la plus dangereuse en IA de santé n'est pas « dangereuse ». C'est « un outil de bien-être qui pratique accidentellement la médecine ».

La plupart des startups d'IA en santé avec qui je discute opèrent dans cette zone grise sans s'en rendre compte. Leur chatbot commence par des exercices généraux de pleine conscience, puis un utilisateur pose une question sur ses médicaments, et le bot — soucieux d'être utile, comme il a été entraîné à l'être — donne un avis. Félicitations, vous êtes désormais un dispositif médical de classe II non enregistré. Les seuls frais d'enregistrement auprès de la FDA s'élèvent à environ 11 423 $ par an, et les études de validation clinique peuvent se chiffrer en centaines de milliers. Mais le coût d'une mesure d'exécution de la FDA — un rappel, une fermeture — est le genre de chose qui met fin à des entreprises.

C'est là que le pare-feu de sécurité clinique apporte un autre type de valeur. En imposant des limites strictes sur ce dont le système peut et ne peut pas discuter, nous maintenons les outils de bien-être dans le couloir du bien-être. Le pare-feu ne se contente pas de protéger les utilisateurs contre des conseils dangereux — il protège les entreprises contre une exposition réglementaire dont elles ignoraient l'existence.

Combien coûte réellement une hallucination ?

Les gens me demandent toujours si le surcoût d'ingénierie d'une couche de sécurité déterministe en vaut la peine. Le calcul n'a rien de serré.

En 2024, les pertes mondiales attribuées aux hallucinations d'IA ont atteint un montant estimé à 67,4 milliards de dollars. Ce n'est pas une coquille. Soixante-sept milliards de dollars en gaspillage opérationnel, en litiges, en atteinte à la réputation, et en coût caché de la vérification humaine dans la boucle — des employés qui vérifient manuellement chaque sortie d'IA, ce qui annule les gains d'efficacité qui justifiaient le déploiement de l'IA au départ.

Dans le secteur de la santé en particulier, les coûts s'accumulent. Les poursuites contre des plateformes comme Character.AI pour des préjudices facilités par l'IA envers des mineurs établissent des précédents juridiques. L'assurance responsabilité médicale, déjà coûteuse, présente souvent des lacunes importantes concernant les erreurs algorithmiques — les polices couvrent la négligence humaine, pas nécessairement l'hallucination machine. Les hôpitaux qui déploient des outils de triage par IA s'exposent à une responsabilité du fait d'autrui pour chaque défaillance. Et l'atteinte à la réputation dans le secteur de la santé est quasi permanente. La marque de la NEDA ne se remettra peut-être jamais complètement.

Le pare-feu de sécurité clinique convertit ce que les assureurs et les régulateurs considèrent comme une responsabilité « boîte noire » en une auditabilité « boîte blanche ». Lorsque chaque décision est consignée — score de risque, règle déclenchée, action entreprise — dans une piste d'audit inaltérable, nous pouvons démontrer exactement ce qui s'est passé et pourquoi. « Le Moniteur de sécurité a déclenché la règle n° 42 sur la base de la correspondance du motif d'entrée avec le niveau 4 de la C-SSRS, et le système a exécuté le script de crise préapprouvé. » Cette phrase vaut plus pour une défense juridique que n'importe quelle quantité de documentation sur le prompt engineering.

La dure vérité sur l'empathie et les machines

Je veux terminer sur quelque chose qui n'est pas technique, car la partie technique — bien que réellement difficile — n'est pas la partie la plus difficile de ce travail.

Le plus difficile, c'est de vivre avec la conscience que des millions de personnes vont parler à des systèmes d'IA des pires moments de leur vie. Non pas parce qu'elles préfèrent les machines aux humains, mais parce qu'il n'y a pas assez d'humains. La pénurie de thérapeutes est réelle. Les délais d'attente pour les services de santé mentale se mesurent en mois. Les lignes d'urgence sont débordées. La demande de quelqu'un — n'importe qui — pour écouter est immense et ne cesse de croître.

Et dans cette brèche s'engouffre un LLM qui dit « je comprends » et « je suis là pour vous » avec une fluidité parfaite et une compréhension nulle. Qui utilise des phrases calibrées pour maximiser l'engagement, non parce qu'il se soucie de vous, mais parce que les tokens qui sonnent bienveillants ont des scores de probabilité élevés. Qui crée un sentiment de connexion si convaincant que des personnes vulnérables réorganisent leur vie affective autour de lui.

Je ne pense pas que la solution soit de tenir l'IA à l'écart de la santé mentale. Le besoin est trop grand, et la technologie, correctement encadrée, peut faire beaucoup de bien — le dépistage à grande échelle, la mise en relation des personnes avec des ressources, la fourniture d'exercices structurés entre les séances de thérapie. Mais l'encadrement doit être architectural, non aspirationnel. On ne peut pas atteindre la sécurité à coups de prompts. On ne peut pas atteindre la responsabilité clinique à coups de tests A/B. Il faut construire le système de sorte que, lorsqu'il rencontre un danger — un danger réel, humain, irréversible — il cesse de générer et se met à suivre le protocole.

L'empathie ne peut pas être simulée par un modèle statistique. Mais le danger peut être automatisé. Et l'automatisation du danger doit être contrée par l'automatisation de la sécurité.

Chez Veriprajna, nous ne construisons pas des chatbots. Nous construisons des systèmes de triage clinique dotés d'une interface conversationnelle. La distinction peut sembler sémantique. Elle est, en fait, tout l'enjeu. La sécurité n'est pas une fonctionnalité que l'on ajoute à une architecture. La sécurité est l'architecture. Et tant que le secteur ne l'aura pas accepté, nous continuerons à lire des témoignages comme celui de Sharon Maxwell en nous demandant comment nous avons laissé une machine dire à une femme mourante de compter les calories.

Related Research

Sécurité de l'IA clinique pour les plateformes de santé mentale | VeriprajnaSolution Page

The Clinical Safety Firewall: Deterministic Triage in Probabilistic Health AI | VeriprajnaInteractive Whitepaper

Clinical Safety Firewall: Deterministic Triage for Health AITechnical Deep-Dive

Also Published On

LinkedIn · Company LinkedIn · Founder YouTube Medium Instagram Facebook X