
AI「修好」了一辆事故车,还拒了赔——那一刻我确信保险业出了大问题
我盯着同一辆车的两张照片。
第一张是投保人在一次追尾事故后拍的。金属被撞得皱成一团,油漆刮到露出了裸露的钢板,保险杠看起来就像被当成减速带用过一样。第二张——据称是同一辆车,经过保险公司崭新光鲜的 AI 工具处理过——却呈现出一个完好无损的车尾。线条流畅,油漆完美,一道划痕都没有。自动理赔引擎看着第二张图像,做出了你能预料到的举动:它拒赔了。可见损伤为零。
投保人站在自家车道上,旁边就是一辆保险杠明显被撞毁的车,于是以“恶意”为由提起诉讼。而保险公司手里攥着的,是一份数字伪造的、与物理现实相矛盾的证据。
这就是所谓的“完美保险杠”事件。当我第一次读到这些细节时,内心交织着恐惧与被印证的感觉。恐惧,是因为一个 AI 实际上实施了证据灭失——以伤害真实个体的方式篡改了法律记录。被印证,是因为这正是我和团队几个月来一直在警告的那种失效模式,也是我们以那种方式打造 VeriPrajna 的原因。
保险行业没有 AI 问题。它面临的是一个真相问题。而大多数保险公司争相采用的工具,正在让情况变得更糟。
凹痕消失的那一夜
让我来解释那起保险杠案件中究竟发生了什么,因为其中的技术机制很重要。
这家保险公司在他们的移动理赔应用中集成了一款生成式 AI 工具。其宣称的目标本身够无害的:“增强”客户上传照片的质量,让理赔员能更清楚地看到损伤。更好的光照、更锐利的细节,诸如此类。
但生成式图像模型实际上做的是这样。它们在数十亿张图像上训练,以学习事物应该呈现出的样子。在模型的数学宇宙——它的潜空间——里,“车”被压倒性地表示为一个表面完整、光滑而对称的物体。这就是互联网上绝大多数照片里汽车的样子。
所以当这个模型遇到一处凹痕时,它看到的不是损伤。它看到的是噪声。一个统计上的异常。一个偏离“车”这一预期模式的偏差。于是它做了它被设计去做的事:它去除了噪声。模型使用了一种称为图像修复(inpainting)的处理方式,逐像素地将被撞变形的金属数字化地抚平,还原成一个完美的挡泥板。
对于扩散模型来说,一处凹痕看起来就像噪声。模型把它去除了。在艺术创作中,这是一项优点。在保险领域,这是对证据的自动化灭失。
这不是一个 bug。模型完全按照设计运作。这才是让我夜不能寐的部分。
为什么生成式 AI 总是把这件事搞错?

我记得早期与一位潜在投资人的一次对话——大概是打造 VeriPrajna 的第六个月。他刚看完另一家保险科技初创公司的演示,那家公司用 GPT-4 Vision 从照片中给车辆损伤分类。“你们为什么不直接套壳 GPT 呢?”他问。“更快。更便宜。演示看起来很棒。”
我在笔记本电脑上调出了两张图像。一张是一辆黑色轿车上冰雹损伤的真实照片——细小的凹坑对未经训练的眼睛来说是看不见的,但明显扭曲了引擎盖上的反光。另一张是我用一款消费级图像工具花大约四分钟生成的深度伪造图:一辆完好的车,挡风玻璃上被数字化地画上了一道裂纹。
我问他:“哪一张有真实损伤?”
他指向了那张深度伪造图。
问题就在这里。生成式 AI 模型——就是眼下为绝大多数“AI 理赔”初创公司提供动力的那些——运行的基础是语义合理性,而非取证现实。它们被训练来理解事物看起来是什么样,而不是事物究竟是什么。一个擅长生成照片级逼真汽车图像的模型,恰恰凭借完全相同的机制,在判断一张照片中的损伤是真实的、合成的,还是已被数字化抹除方面,表现糟糕。
而那些在这些模型之上构建产品的公司呢?它们中的大多数正是业内所称的套壳——覆盖在别人 API 之上的一层薄薄的接口层。它们不拥有模型。它们不掌控训练数据。它们无法解释某个决策为何做出。如果 OpenAI 明天更新模型权重,使其更“赏心悦目”,一个套壳产品的损伤评估工具可能就会开始更加热情地“修复”汽车,而这家保险科技公司甚至根本不会知道这件事发生了。
与此同时,保险公司承担着 100% 的责任。
我在我们研究的交互式版本中更深入地探讨了这个依赖性问题,但简而言之:如果你不拥有那个为你的理赔做决策的大脑,你就无法掌控自己的风险。
当欺诈者拿到同样的工具会怎样?
而让情况更糟的转折在这里。
当保险公司在无意间用 AI 来删除损伤时,欺诈者却在用同样的技术来制造损伤。保险欺诈的进入门槛已基本崩塌。
如今,有人可以给一辆完好无损的车拍照,打开一款消费级图像生成工具,然后输入提示词,让它“加上一个被撞烂的前保险杠”或“模拟火烧损伤”。现代的图像修复技术能以令人胆寒的逼真程度处理光照、阴影和反光。一款标准的 AI 图像分类器——大多数保险公司使用的那种——看着那张深度伪造图,会确认:没错,这是一辆被撞烂的车。它之所以失败,是因为它评估的是内容,而不是图像生成方式所留下的结构性指纹。
情况更加黑暗。犯罪团伙正在利用生成式 AI 来创建合成身份——不存在的人的超逼真面孔、假驾照、伪造的医疗记录。这些数字幽灵购买保单,缴纳几个月保费以建立可信度,然后提出灾难性的理赔。在人寿保险中,是 AI 生成的讣告和验尸报告。在健康保险中,是显示从未发生过的骨折的 X 光片。
而传统的防线正在失守。AI 生成的图像往往元数据被清除或被合成。人工审核员呢?研究表明,在检测高质量深度伪造方面,他们的表现只比抛硬币好那么一点点。
让保险公司能够“增强”一张照片的同一种技术,也让欺诈者能够伪造一张照片。而市面上大多数 AI 工具分辨不出其中的区别。
这就是保险科技界没人愿意坦诚谈论的那场军备竞赛。
是放大镜,而非画笔

曾有一个特定的时刻,VeriPrajna 背后的理念在我脑中凝结成形。当时我和团队正在争论——真真切切地争论,声音都提高了——争论我们的技术路线。
我们的一位工程师想微调一个大型视觉语言模型来做损伤分类。那样构建起来会更快,演示起来更容易,坦白说,在投资人面前也会显得更唬人。“市场想要生成式的东西,”他说。“钱就在那儿。”
我在会议室的屏幕上调出了“完美保险杠”那个案例。“这就是生成式会把你带到的地方,”我说。“一场官司,加上一份被伪造的记录。”
会议室安静了下来。然后我们的首席计算机视觉研究员——加入我们之前,他在工业检测领域干了很多年——说了一句我永远忘不了的话:“理赔员不需要一支画笔。他们需要的是一面放大镜。”
这成了我们的设计原则。我们不生成任何东西。我们不修改任何一个像素。我们只做一件事——测量。
我们的架构分为三层,每一层都把图像当作证据,而非原材料:
语义分割在像素级别识别损伤。不是“这辆车受损了”——那毫无用处。我们的模型对每一个单独的像素进行分类:这个像素是完好的油漆,这个像素是划痕,这个像素是凹痕,这个像素是锈蚀。输出是一个叠加在原始、未经改动图像之上的精确掩膜。因为我们知道特定车辆部件的物理尺寸——一辆 2024 款丰田凯美瑞的保险杠宽 180 厘米——所以我们能够计算出损伤的确切平方厘米面积。这个数字会直接输入维修估价软件。
单目深度估计解决了那个葬送了保险杠案件的问题:从一张平面照片理解三维几何。通过在带有 LiDAR 真值的海量车辆几何数据集上训练,我们的模型学会了轮拱的曲率应该是什么样,车门面板的平整意味着什么。一处凹痕会在深度图中显现为一个凹陷坑。我们计算梯度——陡峭的梯度意味着一道尖锐的折痕,可能需要更换钣金件;平缓的梯度意味着一处柔和的凹陷,可用免喷漆凹陷修复来处理。我们能够估算被挤压变形的金属体积。不是猜测。是测量。
镜面反射分析是我最引以为豪的一层,因为它能捕捉到其他所有方法都会遗漏的东西。现代汽车是有光泽的。它们的表面就像镜子一样。一辆锃亮的黑色汽车上的一处凹痕,或许根本不会改变像素的颜色——但它会扭曲反光。环境中的直线(地平线、电线、建筑物边缘)在被反射时,本应顺着车身的曲率延伸。一处凹痕就像哈哈镜,会让那些线条挤压、扭曲或断裂。我们训练模型将油漆颜色与反射图案解耦,并重建表面法线贴图——一个在每个像素处表示表面角度的三维向量。这能检测出肉眼看不见的冰雹损伤、远离撞击点的结构性屈曲,甚至是先前的修复痕迹——那里的打磨痕迹破坏了清漆层的镜面反光特性。
关于这三层的完整技术拆解,请参阅我们的研究论文。
为什么保险公司就不能直接解释他们的 AI 决策呢?

这正是监管机构如今在大声追问的问题,而大多数保险公司拿不出一个好答案。
NAIC——全美保险监理官协会——发布了一份示范公告,从根本上改变了合规格局。它把 AI 结果的责任明确无误地压在保险公司身上,即便这个 AI 是第三方工具。你无法躲在“套壳”这个借口后面。如果你的供应商的模型产生幻觉或造成歧视,你要承担责任。该公告强制要求制定书面的治理方案,对供应商的数据谱系和模型架构进行尽职调查,并且——至关重要的是——要求具备向投保人解释任何 AI 驱动决策的能力。
试试去解释一项由生成式模型做出的拒赔吧。“模型的概率分布更偏好一个光滑的保险杠”这种说法,是熬不过法庭的。
现在把它和我们的系统所生成的内容对比一下:“该理赔的处理,是基于在左后翼子板上检测到的损伤。系统识别出一道长 14 厘米的划痕,以及一处表面积为 45 平方厘米的凹痕,并经深度图分析验证。”这是可以实证核验的。这是可被法庭采纳的。
《欧盟 AI 法案》走得更远。用于涉及自然人的保险风险评估的 AI 被归类为高风险,从而触发强制性的数据治理、自动事件日志记录以及人工监督要求。我们的掩膜叠加技术——理赔员看到的是原始照片,上面覆盖着一个可切换的分析图层——正是为此而专门设计的。我们不取代人。我们增强人。他们仍然是决策者,而这在该法案下是一项至关重要的安全港。
然后还有证据灭失问题。在美国法律体系中,篡改与法律程序相关的证据——哪怕是无意的——都可能招致制裁、不利推定指示(即法官告知陪审团,假定那份遗失的证据对你不利),或即决判决。当一个生成式 AI 工具把合成像素引入一张理赔照片时,那在技术上就是篡改。如果原件被覆写了,那就是证据灭失。
每一张原始图像一到手,我们就立即用 SHA-256 对其做哈希。我们的 AI 读取图像缓冲区,但从不向其写入。所有分析结果——掩膜、深度图、报告——都作为独立的边车文件保存,并与原始哈希相关联。每一次访问都会被记录。证据保持原封不动。
如果你的 AI 无法证明它没有篡改证据,那么这场官司还没开始,你就已经输了。
无人为之做好准备的军备竞赛
有人偶尔会问我,确定性的计算机视觉是否“足够”——我们拒绝使用生成式模型,是不是太保守了。
我觉得他们问错了问题。
正确的问题是:当你的理赔系统无法区分一张真实照片和一张合成照片时,会发生什么?当一个欺诈者的深度伪造图以比合法理赔更高的置信度通过你的 AI 分类器时,会发生什么?当你的“增强”工具在一桩最终闹上联邦法院的案子里悄悄伪造了证据时,又会发生什么?
这些都不是假设。它们正在发生。而那些把通用生成式模型当作第一道防线的保险公司,无异于带着一支画笔去做一场取证调查。
我们的模型是确定性的。你无法对一个语义分割网络进行提示注入。你无法花言巧语地哄骗一个深度估计模型去忽略一处凹痕。这些系统运行的基础是像素强度梯度和纹理分析——它们从光线击中相机传感器的物理属性中提取特征。根本不存在可供利用的指令遵循机制。
这不是保守。这是为一个对手能拿到与你相同的生成式工具的世界而做的工程。
理赔员的屏幕
我想用一个画面来结尾——不是一张照片,而是一幅我心目中未来模样的图景。
一位理赔员打开他的仪表盘。他看到的不是一辆被“修好”的车。他看到的不是 AI 对这辆车在事故前可能是什么样子的最佳猜测。他看到的是投保人拍摄的那张真实照片,上面带有一个可切换的损伤掩膜,精确标示出 AI 检测到划痕、凹痕和锈蚀的位置。他看到一张深度热力图,显示后翼子板上的那处凹痕深达 12 毫米,且梯度陡峭——尖锐折痕,很可能需要更换。他看到反射分析标记出距撞击点三英寸处一处细微的屈曲,那是任何人眼都无法察觉的。
他看到一条审计轨迹,解释着每一项发现。然后,由他来做决定。
做决定的不是 AI。AI 只是照亮了它。证据没有被篡改。它只是被揭示了出来。
这就是一个制造貌似可信的虚构故事的系统,与一个测量令人不快之真相的系统之间的区别。保险行业建立在这样一条原则之上:你为实际发生的事情付费——而不是为一个模型认为很可能发生的事情付费。理赔照片里的每一个像素都是一份证据。你一旦允许 AI 改动其中哪怕一个像素,你就已经离开了真相的领域,进入了概率的领域。
而在法庭上,概率不过是“合理怀疑”的另一种说法罢了。