医疗保险 AI 治理
Lokken 诉 UnitedHealth 集体诉讼证明,90% 的申诉撤销率并非技术问题,而是一种违约行为。一家联邦法院目前正在审查 nH Predict 的内部开发文档、训练数据和验证报告。
如果您的 Medicare Advantage 计划在使用管理、事前授权或理赔处理中使用了 AI,那么问题不在于您的算法是否会受到审查,而在于它们能否经受住审查。
90%
经申诉撤销的 AI 拒赔
Lokken 诉 UnitedHealth 诉讼文件
$19.7B
医疗服务提供方为对抗拒赔的年度支出
AMA/行业数据,2025 年
2026 年 3 月
CMS 事前授权指标现已公开报告
CMS-0057-F 第二阶段截止日期
nH Predict 的失败并非软件漏洞,而是一种架构性缺陷,这一缺陷适用于当今 Medicare Advantage 承保决策中部署的大多数 AI 系统。
以下是典型的使用管理 AI 工作流如何产生法律责任。一份事前授权请求包含诊断代码(ICD-10)、操作代码(CPT/HCPCS)、患者人口统计信息和临床记录。AI 模型将其与历史理赔的训练数据集进行交叉比对,以预测住院时长、医疗必要性或批准概率。
失败点在于模型对哪些因素加权、又忽略了哪些因素。nH Predict 对基于诊断的康复时间线赋予了很高权重,却对个体临床指标(如血氧水平、护理人员可获得性或合并症相互作用)赋予了极小权重。一名患有高铁血红蛋白血症(一种危及生命的血液疾病)的患者,是根据其诊断分组的平均康复时间线被出院的,而非根据她的实际临床状况。她的家人自付了 $16,768 以避免过早出院。
这并非个别极端情况,而是在一个由个体临床差异决定医疗必要性的领域中部署相关性驱动模型的可预见结果。该模型为群体层面的吞吐量进行优化,而 Medicare 承保标准则要求个体层面的临床判断。
当 NaviHealth 的管理人员将相对于 nH Predict 预测的可接受偏差范围从 3% 收窄到 1% 时,他们便把一个决策支持工具变成了一个自动化的把关者。推翻该算法的临床医生面临纪律处分。在那一刻,所谓的“人在回路”变得徒有其表,而该系统产生的每一次拒赔都承载着完整的合同与监管法律责任。
您的《承保证明》文件承诺承保决策由“临床服务人员”和“医师”作出。如果是您的 AI 作出裁定、再由人工橡皮图章式批准,那么您就承担着与 Lokken 案法院所认定相同的违约风险。请将您的《承保证明》措辞与您实际的使用管理工作流进行对照核查。如果两者出现分歧,对方律师就会找到这一缺口。
Lokken 案 2026 年 3 月的证据开示命令(2026 WL 658883)准予原告查阅 AI 开发文档、训练数据规范和验证报告。如今每家 Medicare Advantage 组织都应假定其 AI 文档是可被证据开示的。如果您的模型缺乏结构化的决策日志、版本受控的训练数据记录和有据可查的验证结果,那么您无法捍卫您无法重建的东西。
三股监管力量正同时汇聚于医疗 AI 治理之上。每一股都有具体的截止日期、具体的要求和具体的处罚。
2026 年 1 月 1 日(已生效)
加急事前授权 72 小时处理时限。标准事前授权 7 天。除欺诈外,不得重新审议已批准的住院入院。
2026 年 3 月 31 日(当前)
公开报告 8 项事前授权指标:合同层面的拒赔率、处理时长、申诉撤销率。
2027 年 1 月 1 日
需采用 HL7 FHIR 事前授权 API(CRD、DTR、PAS)。完整的电子事前授权交易记录链。
得克萨斯州总检察长就首例医疗生成式 AI 调查达成和解(Pieces Technologies,2024 年 9 月),且《得克萨斯州负责任 AI 治理法》于 2026 年 1 月生效,授予了广泛的民事调查传唤权。宾夕法尼亚州提出立法,要求任何 AI 驱动的拒赔之前须经人类医疗服务提供方审核、强制保险方披露 AI 的使用情况,并提交年度合规声明。
跨州经营的 Medicare Advantage 组织面临一张拼凑而成的监管网:各州可能施加不同的 AI 透明度、审计和披露要求。单一的治理架构必须满足所有这些要求。
医疗 AI 在附件三下被归类为“高风险”。须于 2027 年 8 月前履行全部合规义务。处罚最高可达全球年营业额的 6%。要求包括风险管理计划、训练数据文档、人类监督机制以及持续的部署后监控。
汇聚风险: CMS 正在同步扩展其自身由 AI 驱动的审计能力。2020 支付年度的 RADV 审计已于 2026 年 2 月启动,使用异常检测来标记无依据的诊断和统计离群值。CMS 在要求您治理 AI 的同时,也在审计您的 AI。率先构建治理基础设施的计划,能够将合规从一项负担转化为一种竞争优势。
每家评估 AI 治理的 Medicare Advantage 组织都有五种选择。每一种都解决了问题的一部分,但没有一种能解决全部。
| 方法 | 你能得到什么 | 它止步于何处 | 典型成本 |
|---|---|---|---|
| AI 治理平台 Credo AI、Holistic AI、IBM Watsonx |
政策包、合规仪表盘、偏见监控、自动化证据收集 | 监控现有模型,但不会重建有缺陷的决策架构。如果您的使用管理 AI 从根本上就是错的(如 nH Predict),把它监控得更好也无法修正它。 | 平台许可费 $150K-500K/年 |
| 事前授权自动化供应商 Cohere Health、FinThrive、Availity |
更快的事前授权处理、更低的管理成本(Cohere 声称降低 47%)、更短的处理时长 | 优化的是吞吐量,而非可辩护性。不会产生逐决策的解释、人口统计差异分析或可用于诉讼的审计记录。 | $200K-1M/年,视处理量而定 |
| 四大/大型系统集成商 Deloitte、Accenture、McKinsey |
战略、治理框架设计、平台选型、实施管理 | 他们部署打包好的治理平台(Credo AI、Watsonx)并撰写政策文件,但不会为您特定的 Facets/QNXT 配置构建定制的可解释性中间件。单次合作费用为 $500K-5M+,耗时 6-18 个月。 | 每次合作 $500K-5M+ |
| 理赔平台供应商 Cognizant/TriZetto(Facets)、HealthEdge |
原生于其理赔平台的 AI 附加组件、集成分析、使用管理模块 | 利益冲突:维护您理赔平台的同一家公司又在为其销售 AI 附加组件。他们没有动力去揭示自家系统中的治理缺口。供应商锁定使问题进一步恶化。 | 随平台合同捆绑提供 |
| 自建 | 完全掌控、无供应商依赖、按您特定的理赔工作流定制 | 需要专门人才(同时懂 CMS 法规、理赔裁定工作流和法律可辩护性的机器学习工程师)。大多数 Medicare Advantage 组织的数据科学团队是为分析而优化的,而非为治理架构。若团队已具备,自建时间线为 12-24 个月。 | 人才+基础设施投入 $1-3M+ |
| Veriprajna | 算法审计+可解释性中间件+CMS 合规架构+诉讼就绪,为您的理赔技术栈量身定制 | 我们是咨询公司,而非平台。我们负责构建并交接。如果您需要一个长期的 SaaS 监控仪表盘,您仍然需要一个治理平台(我们会帮您选型并集成合适的那一个)。我们不取代您临床运营团队的判断。 | 按每次合作界定范围 |
每项能力都为与您现有的理赔处理技术栈集成而量身定制。我们不销售平台,我们构建您的计划所需的特定治理基础设施。
我们对您的使用管理 AI 进行逆向工程,以绘制出每一条决策路径。在一个有代表性的拒赔样本上进行的 SHAP 归因分析,会产生一张特征重要性图谱:哪些输入驱动了拒赔、哪些临床指标被低估,以及人口统计代理变量(邮政编码、双重资格状态)在何处引入了差异。
其产出是一份可在法庭上辩护的审计报告,包含特征归因图谱、人口统计差异分析,以及一份按风险排序、最有可能在申诉中失守的决策路径清单。对于供应商的黑盒模型,我们会纳入一份供应商透明度评估,记录您的供应商在证据开示下能够和无法产出哪些内容。
典型时间线:单个使用管理模型 6-10 周。
一个位于您的理赔平台(Facets、QNXT、HealthEdge)与您的使用管理 AI 之间的决策解释层。每一次承保裁定都会获得一份结构化解释:哪些输入特征驱动了该决策、模型的置信度评分,以及一份医师审核人员可在 30 秒内读完的自然语言依据。
对于低置信度的预测或训练数据中代表性不足的合并症病例,系统会将其转交人工审核,并预先填入临床背景信息。这不是一个监控仪表盘,而是一种架构性干预,使每一个个体决策都可审计、可解释。
集成接入点:REST API、兼容 HL7 FHIR、批处理与实时两种模式。
我们设计满足 CMS-0057-F 合规的技术基础设施:映射至全部 8 项必需指标的事前授权指标采集管道、与 NIST AI RMF 的 MEASURE 职能相一致的人口统计公平性监控,以及针对每一次 AI 辅助承保裁定的不可篡改审计记录链。
针对 2027 年 1 月的 FHIR API 强制要求,我们构建 CRD/DTR/PAS 集成层,使您的事前授权工作流在设计上即可产出一份完整的电子交易记录。现在就构建这一能力的计划,可以将合规负担转化为运营智能:在 CMS 看到之前,就实时洞察事前授权的模式、瓶颈和拒赔热点。
范围:可接入您现有理赔技术栈的中间件。并非平台替换。
在 2026 年 3 月 Lokken 案证据开示命令之后,每家 Medicare Advantage 组织都应从第一天起就以法律可辩护性为目标来设计 AI 系统。我们构建具有防篡改证据的决策日志(采用仅追加存储和加密哈希)、版本受控的模型文档,以及符合该案件所衍生证据标准的结构化解释记录。
我们还会开展红队演练,模拟原告的证据开示请求。我们的团队会逐一推演对方律师会要求什么、您的系统当前能产出什么,以及哪些缺口会构成风险敞口。其目标是在诉讼迫使您在时间压力下面对可辩护性缺口之前,就先行识别它们。
交付物:证据开示就绪报告+技术整改计划。
每一次合作都从审计开始。审计发现决定要构建什么。在了解您特定的理赔架构、使用管理工作流和监管风险敞口之前,我们不会先开出解决方案。
我们绘制您的 AI 决策路径,在有代表性的拒赔样本上运行 SHAP 归因,分析人口统计差异模式,并对照证据开示标准评估您供应商的文档。产出:一份按风险排序的报告,识别出哪些决策路径承载着最高的诉讼和监管风险敞口。
需要:访问模型预测结果和输入特征(非源代码)、含结果的 12-24 个月拒赔数据、理赔系统架构文档。
基于审计发现,我们设计针对您理赔技术栈的可解释性中间件、合规管道和诉讼就绪基础设施。本阶段产出详细的技术规范、集成图示和分阶段的实施计划。
与您的数据科学、临床运营和合规团队开展联合工作会议。我们需要理解的不仅是技术,还有围绕它的人工工作流。
我们构建治理中间件,将其与您的理赔平台集成,对照临床审核人员的反馈验证解释质量,并针对审计期间识别出的极端情况对系统进行压力测试。部署是渐进式的:一次一个决策类别,从风险最高的路径开始。
提示:集成时间线在很大程度上取决于您理赔平台的 API 成熟度。Facets(TriZetto)和 QNXT 有着不同的中间件要求。HealthEdge 的 API 层通常更易于接入。我们会切合实际地界定范围。
我们将所有权连同完整的文档、操作手册和监控规程一并移交给您的团队。我们会协助建立或重构您的 AI 治理委员会,明确章程、上报流程和模型变更管理流程。该系统将由您运营。
可选:按季度的治理审查保留服务,用于持续的模型验证、监管变化评估和审计记录链核验。
合作总时间线: 从审计启动到全面交接为 22-38 周。如果您需要在投入构建之前先了解自身的风险敞口,审计阶段(第一阶段)可作为一项独立合作来开展。许多计划都从这里起步。
回答关于您当前 AI 治理状况的六个问题。该评估会生成一份就绪度评分,并附上您可以立即采取行动的具体后续步骤——无论您是否与 Veriprajna 合作。
从决策路径分解开始。您的使用管理 AI 基于输入(诊断代码、操作代码、患者人口统计、历史使用模式)作出承保裁定。审计会追溯每一条路径,以识别哪些特征驱动了拒赔。我们在有代表性的近期拒赔样本上运行 SHAP 归因分析,以产出一张特征重要性图谱。
关键产出是一份差异分析:按年龄组、地理区域、双重资格状态和诊断分组分段的拒赔率。如果您的算法对某一人口统计分段的后急性期护理拒赔率为 22%,而对另一分段为 9%,那么这一差距就需要一个能够经受住原告取证的解释。
审计还会检查您模型的训练数据年份。如果您的使用管理 AI 是在 2019-2021 年的理赔数据上训练的,那么它学到的拒赔模式来自一个 CMS 监督较为宽松的时期。这些模式可能不再反映当前的医疗必要性标准,或 CMS 在其审计规程中所引用的临床指南。我们会将陈旧的训练数据标记为一项诉讼风险因素,并建议与 CMS 指南更新周期相一致的再训练时间表。
对于运行供应商黑盒模型的计划(这描述了大多数 Medicare Advantage 组织),审计还包括一份供应商透明度评估:您的供应商就模型架构、训练数据构成和验证方法提供了哪些文档?在 Lokken 案证据开示命令之后,这些文档是可被证据开示的。如果您的供应商无法产出它们,那么这一缺口就是您的法律责任。
Lokken 诉 UnitedHealth 案确立了两项判例,适用于每一家在承保决策中使用 AI 的 Medicare Advantage 组织。第一,法院裁定,以 AI 替代政策文件中所承诺的医师审核,构成潜在的违约。如果您面向会员的材料称承保决策由“临床人员”作出,但您的工作流却在医师审核之前(或取而代之)将裁定交由算法处理,那么您就承担着与 UnitedHealth 所面临相同的合同风险。
第二,2026 年 3 月的证据开示命令(2026 WL 658883)准予原告查阅内部 AI 开发文档、训练数据规范和验证报告。这意味着每家 Medicare Advantage 组织都应假定其 AI 文档在未来的诉讼中是可被证据开示的。
实际影响在于:审查您的《承保证明》文件和《福利摘要》中关于承保决策如何作出的措辞。如果它们提及“由医师进行临床审核”,那么您的 AI 工作流就必须能切实地支持(而非取代)这一审核。实施决策日志,以记录 AI 的建议、人类审核人员的评估,以及该人类是同意还是推翻了算法。能够展示真实的人在回路流程并具备有据可查的推翻率的计划,与 AI 输出仅被橡皮图章式批准的计划相比,处于根本不同的诉讼态势。
法庭可辩护性需要三个层次。解释层为每一次承保裁定产出一份结构化依据,使非技术受众(法官、陪审团、CMS 审计员)能够理解。这不是一张原始的 SHAP 图,而是一份自然语言陈述,例如:“对额外 14 天专业护理的承保被拒赔,是因为模型对诊断康复时间线(影响占 42%)和既往使用模式(影响占 31%)的加权高于患者所报告的功能受限(影响占 8%)。”当对方律师询问某一具体患者为何被拒赔时,您可在数分钟内产出这份记录。
审计记录链层以防篡改证据的日志捕获决策元数据:模型版本、输入特征、置信度评分、路由决策(自动批准、自动拒赔或人工审核)、审核人员身份和最终裁定。我们使用带加密哈希的仅追加存储,使该记录在事后无法被篡改。在 Lokken 案中,UnitedHealth 的脆弱性之一就是无法精确重建 nH Predict 是如何针对特定患者得出特定裁定的。
推翻文档层跟踪每一次人类审核人员不同意 AI 建议的情形。法院会审查您的推翻率。如果它接近于零,则表明人工审核徒有其表。如果它在 15-25%,则证明了真实的临床判断。我们会帮助您建立阈值和上报规程,以产生一个可辩护的推翻模式。
CMS-0057-F 分三个阶段展开。第一阶段(2026 年 1 月 1 日,现已生效):MA 计划必须在 72 小时内处理加急事前授权请求、在 7 个日历日内处理标准请求。除欺诈或明显错误外,计划不得重新审议先前已批准的住院入院。这一运营变化影响 AI 辅助的工作流,因为为吞吐量优化的模型如今要面对硬性的处理时限,这可能与人工审核要求相冲突。
第二阶段(2026 年 3 月 31 日,当前截止日期):计划必须在合同层面公开报告 8 项事前授权指标,包括批准率与拒赔率、平均处理时长和申诉撤销率。这一报告使您 AI 的拒赔模式对监管机构、原告律师、媒体和竞争对手可见。如果您的拒赔率显著高于 MA 平均水平(截至 2025 年数据为 15.7%),那就要准备好接受审查。
第三阶段(2027 年 1 月 1 日):计划必须实施基于 HL7 FHIR 的事前授权 API,具体包括临床决策规则(CRD)、文档模板与规则(DTR)和事前授权支持(PAS)。这是一项重大的 IT 投资。FHIR 强制要求实际上为每一笔事前授权交易创建了一份标准化的电子记录,使您的 AI 决策管道在设计上更透明、更可审计。
现在就构建合规架构、而非在 2026 年第三季度手忙脚乱的计划,可以把这一强制要求转化为治理优势。CMS 于 2025 年 6 月暂停了某些透明度要求(使用管理委员会中的健康公平专业知识、计划层面的指标细分),但核心的报告和 API 强制要求仍然有效。
治理委员会必须在 Medicare Advantage 组织内部三个鲜有交流的领域之间架起桥梁:临床运营(懂得医疗必要性标准和 CMS 承保指南)、技术(懂得 AI 模型、其训练数据及其失效模式),以及法务/合规(懂得诉讼和监管风险敞口)。
我们建议组建一个 7-9 人的委员会,并明确角色:由首席医务官或临床运营副总裁担任主席、一位能用通俗语言解释模型行为的数据科学负责人、一位跟踪 CMS 和各州监管要求的合规官、一位具备医疗保险诉讼经验的法律顾问、一位看到拒赔决策下游影响的会员服务代表,以及 2-3 位每日与 AI 互动的轮值临床审核人员。
委员会应每月召开会议,并设有固定议程:审查 AI 决策指标(按分段的拒赔率、推翻率、申诉结果)、评估任何模型变更或再训练事件、评估新的监管要求,并分流处理任何被标记的事件。
使一个治理委员会有效而非徒有其表的关键在于权力。委员会需要一份书面授权,以叫停 AI 部署、要求再训练,或对特定决策类别强制要求人工审核。如果委员会只能建议而不能执行,那它的存在只是为了做表面文章。在 Lokken 案之后,一个具备执行权的委员会是一项诉讼防御资产。而一个不具备执行权的委员会则是一项责任,因为它表明知晓风险却未采取行动。
成本模型包含四个层次。对于 Lokken 案规模的集体诉讼,直接诉讼成本在 3-5 年内的法律费用为 $5-15M,具体取决于案件是和解还是进入审判。这一数字不包括潜在的损害赔偿,而在一个由数百万 Medicare 受益人组成的集体中,损害赔偿可能高达数亿美元。
监管整改成本紧随诉讼而来。CMS 可以处以民事罚款、要求整改行动计划,并在极端情况下暂停参保。一份整改行动计划的平均实施成本在技术、流程重新设计和独立监控方面使 Medicare Advantage 组织花费 $2-8M。
运营中断是隐性成本。Lokken 案证据开示命令要求 UnitedHealth 产出内部 AI 文档,使工程和法务团队从运营工作中抽身。对于一家中型 Medicare Advantage 组织(50 万-200 万会员),可比的证据开示合规工作将耗用数据科学团队 6-12 个月的产能。
声誉损害会影响星级评定、会员留存和经纪人关系。MA 计划在星级上展开竞争;一次引发媒体报道的公开 AI 治理失败会拉低会员满意度评分(CAHPS),而这些评分会计入星级测算。下降一颗星,每位会员每年约损失 $500 的奖金支付。对于一个拥有 100 万会员的计划,这相当于每年 $500M。治理的商业理由很直接:一次全面的算法审计和合规架构的成本,只是诉讼风险敞口中任何单一组成部分的零头。
我们对医疗保险算法治理的分析,包括完整的 nH Predict 案例研究和监管合规框架。
治理前沿:算法完整性、企业责任,以及从预测式封装到深度 AI 解决方案的转变对 nH Predict 失败、因果 AI 替代方案、FDA 可信度框架映射,以及面向医疗支付方的 NIST AI RMF 运营化的技术深度剖析。
CMS-0057-F 第二阶段要求自 2026 年 3 月 31 日起公开报告事前授权指标。监管机构、原告律师和媒体都能看到您的数据。
一次 CMS 审计后的整改行动计划成本为 $2-8M。一次集体诉讼辩护在损害赔偿之前就需 $5-15M。一次全面的算法审计和治理架构成本低于二者中的任何一项,并能预防二者。