Un diptyque conceptuel illustrant la tension centrale de l'article : la photo d'une vraie voiture endommagée face à une version impeccable « améliorée » par l'IA, représentant le problème de vérité de l'IA en assurance.
Artificial IntelligenceInsuranceComputer Vision

Une IA a « réparé » une voiture accidentée et refusé le sinistre. C'est là que j'ai compris que le secteur avait un problème.

Ashutosh SinghalAshutosh Singhal18 février 202612 min

Je fixais deux photos de la même voiture.

La première avait été prise par un assuré après une collision par l'arrière. Du métal froissé, de la peinture arrachée jusqu'à l'acier nu, un pare-chocs qui avait l'air d'avoir servi de ralentisseur. La deuxième photo — censée représenter le même véhicule, traitée par le nouvel outil d'IA rutilant de l'assureur — montrait un arrière impeccable. Des lignes lisses, une peinture parfaite, pas une éraflure. Le moteur de traitement automatisé des sinistres a regardé cette deuxième image et a fait exactement ce à quoi on pouvait s'attendre : il a refusé le sinistre. Aucun dommage visible.

L'assuré, debout dans son allée à côté d'une voiture dont le pare-chocs était de toute évidence détruit, a intenté une action pour mauvaise foi. Et l'assureur s'est retrouvé avec une preuve fabriquée numériquement qui contredisait la réalité physique.

C'est l'incident du « pare-chocs impeccable », et lorsque j'en ai lu les détails pour la première fois, j'ai ressenti un mélange d'horreur et de satisfaction d'avoir vu juste. De l'horreur parce qu'une IA avait bel et bien commis une destruction de preuves — altérant un document juridique d'une manière qui a nui à une personne réelle. De la satisfaction parce que c'était précisément le mode de défaillance contre lequel mon équipe et moi mettions en garde depuis des mois, la raison même pour laquelle nous avons conçu Veriprajna comme nous l'avons fait.

Le secteur de l'assurance n'a pas un problème d'IA. Il a un problème de vérité. Et les outils que la plupart des assureurs s'empressent d'adopter aggravent les choses.

La nuit où la bosse a disparu

Laissez-moi expliquer ce qui s'est réellement passé dans cette affaire de pare-chocs, car le mécanisme technique a son importance.

L'assureur avait intégré un outil d'IA générative dans son application mobile de déclaration de sinistres. L'objectif affiché était assez anodin : « améliorer » la qualité des photos téléversées par les clients afin que les experts puissent voir les dommages plus clairement. Un meilleur éclairage, des détails plus nets, ce genre de choses.

Mais voici ce que font réellement les modèles génératifs d'images. Ils sont entraînés sur des milliards d'images pour apprendre à quoi les choses devraient ressembler. Dans l'univers mathématique du modèle — son espace latent — une « voiture » est très majoritairement représentée comme un objet lisse et symétrique aux surfaces intactes. C'est à cela que ressemblent les voitures sur la grande majorité des photos d'internet.

Ainsi, lorsque ce modèle a rencontré une bosse, il n'a pas vu un dommage. Il a vu du bruit. Une anomalie statistique. Un écart par rapport au motif attendu d'une « voiture ». Et il a fait ce pour quoi il avait été conçu : il a supprimé le bruit. Le modèle a utilisé un procédé appelé inpainting pour lisser numériquement le métal froissé et le transformer en une aile parfaite, pixel par pixel.

Pour un modèle de diffusion, une bosse ressemble à du bruit. Le modèle la supprime. En art, c'est une fonctionnalité. En assurance, c'est la destruction automatisée de preuves.

Ce n'était pas un bug. Le modèle a fonctionné exactement comme prévu. C'est ce qui m'empêche de dormir la nuit.

Pourquoi l'IA générative se trompe-t-elle sans cesse là-dessus ?

Un schéma comparatif montrant comment l'IA générative (plausibilité sémantique) et la vision par ordinateur forensique (mesure physique) traitent la même photo de voiture endommagée, expliquant pourquoi les modèles génératifs échouent à l'évaluation des dommages.

Je me souviens d'une conversation avec un investisseur potentiel au tout début — peut-être six mois après le lancement de Veriprajna. Il sortait tout juste de la démo d'une autre startup InsurTech, qui utilisait GPT-4 Vision pour classer les dommages des véhicules à partir de photos. « Pourquoi ne pas simplement faire un wrapper autour de GPT ? » a-t-il demandé. « C'est plus rapide. C'est moins cher. La démo avait l'air géniale. »

J'ai affiché deux images sur mon ordinateur portable. L'une était une vraie photo de dommages de grêle sur une berline noire — de minuscules creux invisibles à l'œil non averti, mais déformant nettement les reflets sur le capot. L'autre était un deepfake que j'avais généré en environ quatre minutes avec un outil d'image grand public : une voiture impeccable avec une fissure peinte numériquement en travers du pare-brise.

Je lui ai demandé : « Laquelle présente de vrais dommages ? »

Il a désigné le deepfake.

C'est là le problème. Les modèles d'IA générative — ceux qui alimentent la grande majorité des startups d'« IA de sinistres » en ce moment — fonctionnent sur la plausibilité sémantique, pas sur la réalité forensique. Ils sont entraînés à comprendre à quoi ressemblent les choses, pas ce qu'elles sont. Un modèle qui excelle à générer des images photoréalistes de voitures est, par ce même mécanisme exact, exécrable pour déterminer si les dommages sur une photo sont réels, synthétiques ou ont été effacés numériquement.

Et les entreprises qui construisent par-dessus ces modèles ? La plupart sont ce que le secteur appelle des wrappers — de fines couches d'interface au-dessus de l'API de quelqu'un d'autre. Elles ne possèdent pas le modèle. Elles ne contrôlent pas les données d'entraînement. Elles ne peuvent pas expliquer pourquoi une décision a été prise. Si OpenAI met à jour les poids de son modèle demain pour le rendre plus « esthétiquement plaisant », l'outil d'évaluation des dommages d'un wrapper pourrait se mettre à réparer les voitures avec plus d'enthousiasme, et l'entreprise InsurTech ne saurait même pas que cela s'est produit.

L'assureur, quant à lui, conserve 100 % de la responsabilité.

J'ai abordé ce problème de dépendance plus en détail dans la version interactive de nos recherches, mais en résumé : si vous ne possédez pas le cerveau qui prend les décisions concernant vos sinistres, vous ne maîtrisez pas votre risque.

Que se passe-t-il quand les fraudeurs obtiennent les mêmes outils ?

Voici le rebondissement qui aggrave encore les choses.

Tandis que les assureurs utilisent accidentellement l'IA pour supprimer les dommages, les fraudeurs utilisent la même technologie pour les fabriquer. La barrière à l'entrée de la fraude à l'assurance s'est essentiellement effondrée.

N'importe qui peut désormais photographier un véhicule parfaitement intact, ouvrir un outil de génération d'images grand public et lui demander d'« ajouter un pare-chocs avant enfoncé » ou de « simuler des dommages d'incendie ». L'inpainting moderne gère l'éclairage, les ombres et les reflets avec un réalisme terrifiant. Un classificateur d'images IA standard — du type que la plupart des assureurs utilisent — regardera ce deepfake et confirmera : oui, c'est une voiture accidentée. Il échoue parce qu'il évalue le contenu, et non l'empreinte structurelle de la façon dont l'image a été générée.

Cela devient plus sombre encore. Des réseaux criminels utilisent l'IA générative pour créer des identités synthétiques — des visages hyperréalistes de personnes qui n'existent pas, de faux permis de conduire, des dossiers médicaux fabriqués. Ces fantômes numériques souscrivent des polices, paient des primes pendant quelques mois pour se forger une légitimité, puis déposent des sinistres catastrophiques. En assurance-vie, des avis de décès et des rapports de médecin légiste générés par IA. En assurance santé, des radiographies montrant des fractures qui ne se sont jamais produites.

Et les défenses traditionnelles échouent. Les images générées par IA ont souvent des métadonnées effacées ou synthétisées. Les examinateurs humains ? Les recherches montrent qu'ils font à peine mieux qu'un tirage à pile ou face pour détecter les deepfakes de haute qualité.

La même technologie qui permet à un assureur d'« améliorer » une photo permet à un fraudeur d'en fabriquer une. Et la plupart des outils d'IA sur le marché sont incapables de faire la différence.

C'est la course aux armements dont personne dans l'InsurTech ne veut parler honnêtement.

La loupe, pas le pinceau

Un schéma d'architecture à trois couches montrant le pipeline d'analyse forensique de Veriprajna — segmentation sémantique, estimation monoculaire de la profondeur et analyse de la réflexion spéculaire — avec ce que détecte chaque couche.

Il y a eu un moment précis où la philosophie derrière Veriprajna s'est cristallisée pour moi. Mon équipe et moi étions en train de nous disputer — de nous disputer pour de vrai, le ton monté — au sujet de notre approche technique.

L'un de nos ingénieurs voulait affiner un grand modèle vision-langage pour la classification des dommages. Cela aurait été plus rapide à construire, plus facile à présenter en démo et, franchement, cela aurait paru plus impressionnant aux investisseurs. « Le marché veut du génératif », disait-il. « C'est là qu'est le financement. »

J'ai affiché l'affaire du pare-chocs impeccable sur l'écran de la salle de conférence. « Voilà où le génératif vous mène », ai-je dit. « Un procès et un document falsifié. »

La salle est devenue silencieuse. Puis notre chercheur principal en vision par ordinateur — qui avait passé des années dans l'inspection industrielle avant de nous rejoindre — a dit quelque chose que je n'ai jamais oublié : « Un expert n'a pas besoin d'un pinceau. Il a besoin d'une loupe. »

C'est devenu notre principe de conception. Nous ne générons rien. Nous ne modifions pas un seul pixel. Nous mesurons.

Notre architecture comporte trois couches, et chacune traite l'image comme une preuve, non comme une matière première :

La segmentation sémantique identifie les dommages au niveau du pixel. Non pas « cette voiture est endommagée » — c'est inutile. Nos modèles classent chaque pixel individuel : ce pixel est de la peinture intacte, ce pixel est une rayure, ce pixel est une bosse, ce pixel est de la rouille. Le résultat est un masque précis superposé à l'image originale et intacte. Parce que nous connaissons les dimensions physiques de pièces automobiles spécifiques — le pare-chocs d'une Toyota Camry 2024 fait 180 cm de large — nous pouvons calculer la surface exacte des dommages en centimètres carrés. Ce chiffre alimente directement le logiciel d'estimation des réparations.

L'estimation monoculaire de la profondeur résout le problème qui a fait échouer l'affaire du pare-chocs : comprendre la géométrie 3D à partir d'une photo plane. En s'entraînant sur d'immenses jeux de données de géométries de voitures avec des vérités terrain LiDAR, nos modèles apprennent à quoi devrait ressembler la courbure d'un passage de roue, ce que signifie la planéité d'un panneau de porte. Une bosse apparaît comme un gouffre dans la carte de profondeur. Nous calculons des gradients — un gradient abrupt signifie un pli marqué qui nécessite probablement le remplacement du panneau ; un gradient faible signifie une bosse légère réparable par débosselage sans peinture. Nous pouvons estimer le volume de métal déplacé. Pas une supposition. Une mesure.

L'analyse de la réflexion spéculaire est la couche dont je suis le plus fier, car elle détecte ce que tout le reste manque. Les voitures modernes sont brillantes. Leurs surfaces agissent comme des miroirs. Une bosse sur une voiture noire laquée peut ne pas changer du tout la couleur des pixels — mais elle déforme la réflexion. Les lignes droites de l'environnement (horizons, lignes électriques, arêtes de bâtiments) devraient suivre la courbure de la carrosserie lorsqu'elles s'y reflètent. Une bosse agit comme un miroir déformant, faisant pincer, tourbillonner ou se briser ces lignes. Nous avons entraîné nos modèles à dissocier la couleur de la peinture des motifs de réflexion et à reconstruire la carte des normales de surface — un vecteur 3D représentant l'angle de la surface à chaque pixel. Cela détecte les dommages de grêle invisibles à l'œil nu, le gauchissement structurel loin du point d'impact, et même les réparations antérieures où les marques de ponçage perturbent la spécularité du vernis.

Pour le détail technique complet des trois couches, consultez notre article de recherche.

Pourquoi les assureurs ne peuvent-ils pas simplement expliquer leurs décisions d'IA ?

Une comparaison côte à côte de ce qu'un système d'IA générative et un système d'IA forensique peuvent produire lorsqu'un régulateur ou un tribunal exige une explication pour une décision de sinistre.

C'est la question que les régulateurs posent désormais, haut et fort, et la plupart des assureurs n'ont pas de bonne réponse.

La NAIC — la National Association of Insurance Commissioners — a publié un Model Bulletin qui a fondamentalement changé le paysage de la conformité. Il place la responsabilité des résultats de l'IA carrément sur l'assureur, même lorsque l'IA est un outil tiers. Vous ne pouvez pas vous cacher derrière l'excuse du wrapper. Si le modèle de votre fournisseur hallucine ou discrimine, c'est vous qui êtes responsable. Le bulletin impose des programmes de gouvernance écrits, une diligence raisonnable sur la traçabilité des données du fournisseur et l'architecture du modèle, et — élément crucial — la capacité d'expliquer toute décision pilotée par l'IA à un assuré.

Essayez d'expliquer un refus de sinistre produit par un modèle génératif. « La distribution probabiliste du modèle a préféré un pare-chocs lisse » ne survivra pas à un tribunal.

Comparez maintenant cela à ce que produit notre système : « Le sinistre a été traité sur la base de la détection de dommages sur l'aile arrière gauche. Le système a identifié une rayure de 14 cm de long et une bosse d'une surface de 45 cm², validée par l'analyse de la carte de profondeur. » C'est empiriquement vérifiable. C'est recevable.

L'EU AI Act va plus loin. L'IA utilisée pour l'évaluation des risques d'assurance impliquant des personnes physiques est classée à haut risque, ce qui déclenche une gouvernance des données obligatoire, une journalisation automatique des événements et des exigences de supervision humaine. Notre technologie de masque superposé — où l'expert voit la photo originale avec une couche d'analyse activable — est spécifiquement conçue pour cela. Nous ne remplaçons pas l'humain. Nous l'augmentons. Il reste le décideur, ce qui constitue une garantie juridique (safe harbor) essentielle au titre de l'AI Act.

Et puis il y a la destruction de preuves. Dans le système juridique américain, altérer des preuves pertinentes pour une procédure judiciaire — même involontairement — peut entraîner des sanctions, des instructions d'inférence défavorable (où l'on demande au jury de présumer que la preuve perdue vous était préjudiciable) ou un jugement sommaire. Lorsqu'un outil d'IA générative introduit des pixels synthétiques dans une photo de sinistre, il s'agit techniquement d'une altération. Si l'original a été écrasé, c'est une destruction de preuves.

Nous hachons chaque image originale avec SHA-256 à l'instant même où elle arrive. Notre IA lit le tampon de l'image mais n'y écrit jamais. Toute l'analyse — masques, cartes de profondeur, rapports — est enregistrée dans des fichiers annexes distincts liés au hachage de l'original. Chaque accès est journalisé. La preuve reste intacte.

Si votre IA ne peut pas prouver qu'elle n'a pas altéré la preuve, vous avez déjà perdu le procès avant même qu'il ne commence.

La course aux armements à laquelle personne ne s'est préparé

On me demande parfois si la vision par ordinateur déterministe est « suffisante » — si nous ne sommes pas trop prudents en refusant d'utiliser des modèles génératifs.

Je pense qu'ils posent la mauvaise question.

La bonne question est : que se passe-t-il quand votre système de sinistres ne peut pas faire la distinction entre une vraie photo et une photo synthétique ? Que se passe-t-il quand le deepfake d'un fraudeur passe votre classificateur d'IA avec une confiance plus élevée qu'un sinistre légitime ? Que se passe-t-il quand votre outil d'« amélioration » fabrique discrètement des preuves dans une affaire qui finit devant un tribunal fédéral ?

Ce ne sont pas des hypothèses. Cela se produit en ce moment même. Et les assureurs qui utilisent des modèles génératifs polyvalents comme première ligne de défense apportent un pinceau à une enquête forensique.

Nos modèles sont déterministes. On ne peut pas faire d'injection de prompt dans un réseau de segmentation sémantique. On ne peut pas amadouer un modèle d'estimation de la profondeur pour qu'il ignore une bosse. Ces systèmes fonctionnent à partir de gradients d'intensité de pixels et d'analyse de texture — ils extraient des caractéristiques des propriétés physiques de la lumière frappant un capteur d'appareil photo. Il n'y a aucun mécanisme de suivi d'instructions à exploiter.

Ce n'est pas du conservatisme. C'est de l'ingénierie pour un monde où l'adversaire a accès aux mêmes outils génératifs que vous.

L'écran de l'expert

Je veux terminer par une image — non pas une photo, mais une représentation de ce à quoi ressemble, selon moi, l'avenir.

Un expert ouvre son tableau de bord. Il ne voit pas une voiture « réparée ». Il ne voit pas la meilleure supposition d'une IA sur ce à quoi la voiture aurait pu ressembler avant l'accident. Il voit la photo réelle, prise par l'assuré, avec un masque de dommages activable montrant exactement où l'IA a détecté des rayures, des bosses et de la rouille. Il voit une carte thermique de profondeur révélant que la bosse sur l'aile arrière est profonde de 12 mm avec un gradient abrupt — pli marqué, nécessitant probablement un remplacement. Il voit l'analyse de la réflexion signaler un léger gauchissement à trois pouces du point d'impact qu'aucun œil humain ne pourrait détecter.

Il voit une piste d'audit expliquant chaque constat. Et c'est lui qui décide.

L'IA n'a pas décidé. Elle a éclairé. La preuve n'a pas été altérée. Elle a été révélée.

C'est là la différence entre un système qui crée des fictions plausibles et un système qui mesure des vérités dérangeantes. Le secteur de l'assurance s'est bâti sur le principe selon lequel on paie pour ce qui s'est réellement passé — et non pour ce qu'un modèle estime s'être probablement passé. Chaque pixel d'une photo de sinistre est une preuve. Au moment où vous laissez une IA en modifier ne serait-ce qu'un seul, vous avez quitté le domaine de la vérité pour entrer dans celui de la probabilité.

Et la probabilité, dans une salle d'audience, n'est qu'un autre mot pour dire doute raisonnable.

Related Research

Also Published On