Una división conceptual que muestra la tensión central del artículo: la foto de un coche realmente dañado frente a una versión impecable "mejorada" por IA, que representa el problema de verdad en la IA de seguros.
Artificial IntelligenceInsuranceComputer Vision

Una IA "reparó" un coche siniestrado y denegó la reclamación. Ahí supe que el sector tenía un problema.

Ashutosh SinghalAshutosh Singhal18 de febrero de 202612 min

Me quedé mirando dos fotos del mismo coche.

La primera la tomó un asegurado después de una colisión por alcance. Metal aplastado, pintura raspada hasta dejar el acero al descubierto, un parachoques que parecía haber sido usado como reductor de velocidad. La segunda foto —supuestamente el mismo vehículo, procesada por la flamante y reluciente herramienta de IA de la aseguradora— mostraba una parte trasera impecable. Líneas suaves, pintura perfecta, ni un rasguño. El motor automatizado de siniestros miró esa segunda imagen e hizo exactamente lo que cabría esperar: denegó la reclamación. Cero daños visibles.

El asegurado, de pie en la entrada de su casa junto a un coche que muy evidentemente tenía el parachoques destrozado, demandó por mala fe. Y la aseguradora se quedó con una prueba fabricada digitalmente que contradecía la realidad física.

Este es el incidente del «Parachoques Impecable», y cuando leí los detalles por primera vez, sentí una mezcla de horror y reivindicación. Horror porque una IA había cometido, en la práctica, destrucción de pruebas —alterando un registro legal de una forma que perjudicó a una persona real—. Reivindicación porque este era exactamente el modo de fallo sobre el que mi equipo y yo llevábamos meses advirtiendo, la razón por la que construimos Veriprajna como lo hicimos.

El sector de los seguros no tiene un problema de IA. Tiene un problema de verdad. Y las herramientas que la mayoría de las aseguradoras se apresuran a adoptar lo están empeorando.

La noche en que la abolladura desapareció

Déjame explicar lo que realmente ocurrió en aquel caso del parachoques, porque el mecanismo técnico importa.

La aseguradora había integrado una herramienta de IA generativa en su aplicación móvil de siniestros. El objetivo declarado era bastante inocente: «mejorar» la calidad de las fotos que subían los clientes para que los peritos pudieran ver los daños con mayor claridad. Mejor iluminación, detalles más nítidos, ese tipo de cosas.

Pero esto es lo que realmente hacen los modelos generativos de imágenes. Se entrenan con miles de millones de imágenes para aprender cómo deberían verse las cosas. En el universo matemático del modelo —su espacio latente— un «coche» está representado abrumadoramente como un objeto liso y simétrico, con superficies sin roturas. Así es como se ven los coches en la inmensa mayoría de las fotos de internet.

Así que cuando este modelo encontró una abolladura, no vio daños. Vio ruido. Una anomalía estadística. Una desviación del patrón esperado de «coche». E hizo aquello para lo que fue diseñado: eliminó el ruido. El modelo usó un proceso llamado inpainting para suavizar digitalmente el metal aplastado hasta convertirlo de nuevo en un guardabarros perfecto, píxel a píxel.

Para un modelo de difusión, una abolladura parece ruido. El modelo la elimina. En el arte, eso es una virtud. En los seguros, es la destrucción automatizada de pruebas.

Esto no fue un error. El modelo funcionó exactamente como fue diseñado. Esa es la parte que me quita el sueño.

¿Por qué la IA generativa se sigue equivocando en esto?

Un diagrama comparativo que muestra cómo la IA generativa (plausibilidad semántica) frente a la visión por computador forense (medición física) procesan la misma foto de un coche dañado, explicando por qué los modelos generativos fallan en la evaluación de daños.

Recuerdo una conversación con un posible inversor al principio de todo —quizá a los seis meses de estar construyendo Veriprajna—. Acababa de venir de una demostración de otra startup de InsurTech, una que usaba GPT-4 Vision para clasificar daños de vehículos a partir de fotos. «¿Por qué no simplemente envuelves GPT?», me preguntó. «Es más rápido. Es más barato. La demo se veía genial.»

Abrí dos imágenes en mi portátil. Una era una foto real de daños por granizo en un sedán negro —diminutas hendiduras invisibles para el ojo inexperto, pero que deformaban claramente los reflejos sobre el capó—. La otra era un deepfake que había generado en unos cuatro minutos con una herramienta de imágenes de consumo: un coche impecable con una grieta pintada digitalmente a lo largo del parabrisas.

Le pregunté: «¿Cuál tiene daños reales?»

Señaló el deepfake.

Ese es el problema. Los modelos de IA generativa —los que impulsan la inmensa mayoría de las startups de «siniestros con IA» en este momento— operan sobre la plausibilidad semántica, no la realidad forense. Están entrenados para entender qué aspecto tienen las cosas, no lo que las cosas son. Un modelo brillante generando imágenes fotorrealistas de coches es, por ese mismo mecanismo, pésimo a la hora de determinar si el daño de una foto es real, sintético o ha sido borrado digitalmente.

¿Y las empresas que construyen sobre estos modelos? La mayoría son lo que la industria llama wrappers —finas capas de interfaz sobre la API de otro—. No son dueñas del modelo. No controlan los datos de entrenamiento. No pueden explicar por qué se tomó una decisión. Si OpenAI actualiza mañana los pesos de su modelo para que sea más «estéticamente agradable», la herramienta de evaluación de daños de un wrapper podría empezar a reparar coches con mayor entusiasmo, y la empresa de InsurTech ni siquiera se enteraría de que ocurrió.

La aseguradora, mientras tanto, conserva el 100 % de la responsabilidad.

Escribí sobre este problema de dependencia con mayor profundidad en la versión interactiva de nuestra investigación, pero la versión corta es: si no eres dueño del cerebro que toma las decisiones sobre tus siniestros, no controlas tu riesgo.

¿Qué ocurre cuando los defraudadores consiguen las mismas herramientas?

Aquí está el giro que hace que esto sea aún peor.

Mientras las aseguradoras usan accidentalmente la IA para eliminar daños, los defraudadores usan la misma tecnología para fabricarlos. La barrera de entrada al fraude de seguros se ha derrumbado prácticamente.

Ahora alguien puede fotografiar un vehículo perfectamente intacto, abrir una herramienta de generación de imágenes de consumo y pedirle que «añada un parachoques delantero destrozado» o «simule daños por incendio». El inpainting moderno maneja la iluminación, las sombras y los reflejos con un realismo aterrador. Un clasificador de imágenes de IA estándar —del tipo que usa la mayoría de las aseguradoras— mirará ese deepfake y confirmará: sí, este es un coche destrozado. Falla porque evalúa el contenido, no la huella estructural de cómo se generó la imagen.

La cosa se pone más siniestra. Las redes criminales usan la IA generativa para crear identidades sintéticas —rostros hiperrealistas de personas que no existen, carnés de conducir falsos, historiales médicos fabricados—. Estos fantasmas digitales contratan pólizas, pagan primas durante unos meses para dar apariencia de legitimidad y luego presentan reclamaciones catastróficas. En los seguros de vida, esquelas e informes forenses generados por IA. En los seguros de salud, radiografías que muestran fracturas que nunca ocurrieron.

Y las defensas tradicionales están fallando. Las imágenes generadas por IA a menudo tienen metadatos borrados o sintetizados. ¿Los revisores humanos? La investigación demuestra que apenas lo hacen algo mejor que lanzar una moneda al aire a la hora de detectar deepfakes de alta calidad.

La misma tecnología que permite a una aseguradora «mejorar» una foto permite a un defraudador fabricar una. Y la mayoría de las herramientas de IA del mercado no pueden distinguir la diferencia.

Esta es la carrera armamentística de la que nadie en el InsurTech quiere hablar con honestidad.

La lupa, no el pincel

Un diagrama de arquitectura de tres capas que muestra el flujo de análisis forense de Veriprajna —segmentación semántica, estimación monocular de profundidad y análisis de reflexión especular— junto con lo que detecta cada capa.

Hubo un momento concreto en que la filosofía detrás de Veriprajna se cristalizó para mí. Mi equipo y yo discutíamos —discutíamos de verdad, alzando la voz— sobre nuestro enfoque técnico.

Uno de nuestros ingenieros quería afinar un gran modelo de visión y lenguaje para la clasificación de daños. Habría sido más rápido de construir, más fácil de demostrar y, francamente, habría resultado más impresionante para los inversores. «El mercado quiere generativo», dijo. «Ahí es donde está la financiación.»

Abrí el caso del Parachoques Impecable en la pantalla de la sala de reuniones. «Aquí es adonde te lleva lo generativo», dije. «Una demanda y un registro fabricado.»

La sala se quedó en silencio. Entonces nuestro investigador principal de visión por computador —que había pasado años en inspección industrial antes de unirse a nosotros— dijo algo que nunca he olvidado: «Un perito no necesita un pincel. Necesita una lupa.»

Eso se convirtió en nuestro principio de diseño. No generamos nada. No modificamos ni un solo píxel. Nosotros medimos.

Nuestra arquitectura tiene tres capas, y cada una trata la imagen como prueba, no como materia prima:

La segmentación semántica identifica los daños a nivel de píxel. No «este coche está dañado» —eso es inútil—. Nuestros modelos clasifican cada píxel individual: este píxel es pintura sin daños, este píxel es un rasguño, este píxel es una abolladura, este píxel es óxido. El resultado es una máscara precisa superpuesta sobre la imagen original e intacta. Como conocemos las dimensiones físicas de piezas concretas del coche —el parachoques de un Toyota Camry 2024 mide 180 cm de ancho—, podemos calcular el área exacta de daño en centímetros cuadrados. Ese número alimenta directamente el software de estimación de reparaciones.

La estimación monocular de profundidad resuelve el problema que hundió el caso del parachoques: comprender la geometría 3D a partir de una foto plana. Al entrenar con enormes conjuntos de datos de geometrías de coches con verdad de referencia de LiDAR, nuestros modelos aprenden qué aspecto debería tener la curvatura de un paso de rueda, qué significa la planitud de un panel de puerta. Una abolladura aparece como un socavón en el mapa de profundidad. Calculamos gradientes: un gradiente pronunciado significa un pliegue marcado que probablemente requiere sustituir el panel; un gradiente suave significa una abolladura leve reparable con reparación de abolladuras sin pintura. Podemos estimar el volumen de metal desplazado. No una conjetura. Una medición.

El análisis de reflexión especular es la capa de la que más orgulloso estoy, porque capta lo que todo lo demás pasa por alto. Los coches modernos son brillantes. Sus superficies actúan como espejos. Una abolladura en un coche negro reluciente puede que no cambie en absoluto el color de los píxeles, pero deforma el reflejo. Las líneas rectas del entorno (horizontes, cables eléctricos, bordes de edificios) deberían seguir la curvatura de la carrocería del coche al reflejarse. Una abolladura actúa como un espejo de feria, haciendo que esas líneas se pellizquen, se arremolinen o se rompan. Entrenamos nuestros modelos para desacoplar el color de la pintura de los patrones de reflexión y reconstruir el mapa de normales de la superficie —un vector 3D que representa el ángulo de la superficie en cada píxel—. Esto detecta daños por granizo invisibles a simple vista, pandeos estructurales lejos del punto de impacto e incluso reparaciones anteriores en las que las marcas de lijado alteran la especularidad de la capa transparente.

Para el desglose técnico completo de las tres capas, consulta nuestro artículo de investigación.

¿Por qué las aseguradoras no pueden simplemente explicar las decisiones de su IA?

Una comparación en paralelo de lo que puede producir un sistema de IA generativa frente a un sistema de IA forense cuando un regulador o un tribunal exige una explicación de una decisión sobre un siniestro.

Esta es la pregunta que los reguladores están haciendo ahora, en voz alta, y la mayoría de las aseguradoras no tiene una buena respuesta.

La NAIC —la Asociación Nacional de Comisionados de Seguros— publicó un Boletín Modelo que cambió de raíz el panorama del cumplimiento normativo. Sitúa la responsabilidad por los resultados de la IA de lleno sobre la aseguradora, incluso cuando la IA es una herramienta de terceros. No puedes esconderte tras la excusa del wrapper. Si el modelo de tu proveedor alucina o discrimina, eres responsable. El boletín exige programas de gobernanza por escrito, diligencia debida sobre el linaje de datos del proveedor y la arquitectura del modelo y —fundamentalmente— la capacidad de explicar a un asegurado cualquier decisión impulsada por IA.

Intenta explicar la denegación de un siniestro impulsada por un modelo generativo. «La distribución probabilística del modelo prefirió un parachoques liso» no va a sobrevivir en un tribunal.

Ahora compara eso con lo que produce nuestro sistema: «El siniestro se procesó a partir de la detección de daños en el panel lateral trasero izquierdo. El sistema identificó un rasguño de 14 cm de longitud y una abolladura con una superficie de 45 cm², validados mediante el análisis del mapa de profundidad.» Eso es empíricamente verificable. Eso es admisible.

La Ley de IA de la UE va más allá. La IA utilizada para la evaluación de riesgos de seguros que involucra a personas físicas se clasifica como de alto riesgo, lo que activa requisitos obligatorios de gobernanza de datos, registro automático de eventos y supervisión humana. Nuestra tecnología de máscara superpuesta —en la que el perito ve la foto original con una capa de análisis conmutable— está diseñada específicamente para esto. No sustituimos al humano. Lo potenciamos. Sigue siendo quien toma las decisiones, lo cual constituye un puerto seguro crítico bajo la Ley.

Y luego está la destrucción de pruebas. En el sistema legal de EE. UU., alterar pruebas relevantes para un procedimiento judicial —incluso de forma involuntaria— puede acarrear sanciones, instrucciones de inferencia adversa (en las que se le indica al jurado que asuma que la prueba perdida te perjudicaba) o un fallo sumario. Cuando una herramienta de IA generativa introduce píxeles sintéticos en la foto de un siniestro, eso es técnicamente una alteración. Si el original se sobrescribió, eso es destrucción de pruebas.

Aplicamos un hash SHA-256 a cada imagen original en el instante en que llega. Nuestra IA lee el búfer de la imagen, pero nunca escribe en él. Todo el análisis —máscaras, mapas de profundidad, informes— se guarda como archivos complementarios separados, vinculados al hash original. Cada acceso queda registrado. La prueba permanece impecable.

Si tu IA no puede demostrar que no alteró la prueba, ya has perdido el caso antes de que empiece.

La carrera armamentística para la que nadie se preparó

A veces la gente me pregunta si la visión por computador determinista es «suficiente» —si estamos siendo demasiado conservadores al negarnos a usar modelos generativos—.

Creo que están haciendo la pregunta equivocada.

La pregunta correcta es: ¿qué ocurre cuando tu sistema de siniestros no puede distinguir entre una foto real y una sintética? ¿Qué ocurre cuando el deepfake de un defraudador supera tu clasificador de IA con mayor confianza que una reclamación legítima? ¿Qué ocurre cuando tu herramienta de «mejora» fabrica silenciosamente pruebas en un caso que acaba en un tribunal federal?

Esos no son casos hipotéticos. Están ocurriendo ahora mismo. Y las aseguradoras que usan modelos generativos de propósito general como su primera línea de defensa están llevando un pincel a una investigación forense.

Nuestros modelos son deterministas. No puedes hacer prompt-injection a una red de segmentación semántica. No puedes engatusar a un modelo de estimación de profundidad para que ignore una abolladura. Estos sistemas operan sobre gradientes de intensidad de píxeles y análisis de texturas: extraen características de las propiedades físicas de la luz al incidir sobre el sensor de una cámara. No hay ningún mecanismo de seguimiento de instrucciones que explotar.

Eso no es conservadurismo. Es ingeniería para un mundo en el que el adversario tiene acceso a las mismas herramientas generativas que tú.

La pantalla del perito

Quiero terminar con una imagen —no una foto, sino una representación de cómo creo que será el futuro—.

Un perito abre su panel de control. No ve un coche «arreglado». No ve la mejor conjetura de una IA sobre cómo podría haber sido el coche antes del accidente. Ve la foto real, tomada por el asegurado, con una máscara de daños conmutable que muestra exactamente dónde detectó la IA rasguños, abolladuras y óxido. Ve un mapa de calor de profundidad que revela que la abolladura en el panel lateral trasero tiene 12 mm de profundidad con un gradiente pronunciado —pliegue marcado, probablemente necesita sustitución—. Ve el análisis de reflexión señalando un pandeo sutil a tres pulgadas del punto de impacto que ningún ojo humano captaría.

Ve un registro de auditoría que explica cada hallazgo. Y toma la decisión.

La IA no decidió. Iluminó. La prueba no se alteró. Se reveló.

Esa es la diferencia entre un sistema que crea ficciones plausibles y uno que mide verdades incómodas. El sector de los seguros se construyó sobre el principio de que pagas por lo que realmente ocurrió, no por lo que un modelo cree que probablemente ocurrió. Cada píxel de la foto de un siniestro es una prueba. En el momento en que dejas que una IA cambie aunque sea uno de ellos, has abandonado el dominio de la verdad y has entrado en el dominio de la probabilidad.

Y probabilidad, en un tribunal, no es más que otra forma de decir duda razonable.

Related Research

Also Published On