法律 AI 核验与治理

您的法律 AI 会产生幻觉。 我们构建那道能将其捕捉的核验层。

在同行评审测试中,Westlaw Precision 在 33% 的复杂查询上出现幻觉。Lexis+ AI 为 17%。每起事件的制裁金额已超过 $30,000。无论贵所使用的是 Harvey、Lexis Protege 还是开源模型,我们都能构建引证核验流水线、知识图谱基础设施和治理系统,让 AI 输出可以安全地用于提交立案。

33%

Westlaw Precision 幻觉率

斯坦福/JELS,2025

$30,000

第六巡回法院制裁,2026 年 3 月

Bloomberg Law

1,222

有据可查的 AI 幻觉法庭案件

Charlotin 数据库,2026

幻觉问题比虚假引证更严重

大多数律所都知道 Mata v. Avianca 一案:捏造的案件名称、$5,000 罚款、断送职业生涯的难堪。那是 2023 年。问题已经演变。制裁已经升级。而最该让您担忧的失效模式,恰恰是您当前的工具无法捕捉的那一种。

引证捏造(Mata 问题)

AI 凭空编造了一个并不存在的案件。 Varghese v. China Southern Airlines 有着令人信服的案卷编号、看似合理的法院,以及详尽的内部引证。它却完全是虚构的。这正是 Shepard's 和 KeyCite 能够捕捉的情形:一条在数据库中查无对应结果的引证。

专门构建的工具能大幅减少这类问题。Harvey 和 Lexis Protege 将其输出锚定在真实数据库中。但“减少”并不等于“消除”,2026 年 2 月新奥尔良一案就证明了这一点:该律师同时使用了 ChatGPT Westlaw Precision AI,却仍然提交了 11 条捏造或被歪曲的引证。

情境幻觉(真正的威胁)

AI 引用了一个真实存在的案件,用以支持一个该案件实际并不支持的主张。案卷编号有效。案件确实存在。KeyCite 返回绿色标记。但 AI 把异议意见当作多数意见的判决来引用。或者,它引用了一个案件,而该案件解释的是某项法规两年前被修订之前的旧版本。

这正是斯坦福研究中 33% 的 Westlaw 幻觉率所真正捕捉到的内容。不是虚假引证,而是对真实引证的错误分析。您的引证核验工具说该案件存在。它确实存在。只是它并没有说出 AI 所声称的那番话。而在时间压力下审阅输出的初级律师不会发现这一点,因为这条引证 看起来 是对的。

一个具体案例:被推翻法规的陷阱

一名诉讼律师让 Harvey 研究在特拉华州法律下对违反受信义务主张的抗辩。AI 返回了一份详尽的分析,引用了 Stone v. Ritter (2006)作为董事监督责任的标准。该引证是真实的。其判决摘要对于 2006 年而言是准确的。

AI 遗漏的是:特拉华州最高法院 2019 年在 Marchand v. Barnhill 案中的判决大幅扩展了 Caremark 义务,随后的衡平法院意见进一步发展了“关键使命”监管合规标准。AI 引用的是具有约束力的权威,从技术上讲它仍是“有效法律”(未被推翻),但其实际适用范围已被后来的发展大幅收窄,而引证标记不会捕捉到这一点。 Stone 仍然带有绿色的 KeyCite 标记。但建立在它之上的分析,对于 2026 年的立案提交而言仍然是错误的。

核验流水线通过以下方式捕捉这一点:不仅检查引证标记状态,还检查后续援引该案的引用,审查后来的案件是否对该判决作出了区分或收窄处理,并标记那些核心主张已被实质性修改——即便案件本身仍属“有效法律”——的意见。

法律 AI 全景:每个选项实际交付什么

每个平台都有其长处。但没有一个能解决完整的核验问题。下表是一份参考,您可以带到下一次技术委员会会议上。

选项 其擅长之处 引证准确性 缺口
Harvey AI 研究、起草、智能体(agentic)工作流。25,000+ 自定义智能体。完整的 LexisNexis 数据库访问权限。$11B 估值,覆盖 AmLaw 100 中的 50%。 锚定于 LexisNexis 数据。优于通用 LLM。未公布独立的幻觉率。 没有独立的核验层。输出核验是用户的责任。智能体工作流会产生复杂的多步骤输出,需要系统化的质量保证。
Westlaw AI / CoCounsel 深度研究能力。智能体文档审阅。基于 KeyCite 引证系统构建。CoCounsel 工作流于 2026 年初推出。 33% 幻觉率 (Precision 上)。Ask Practical Law 上为 17%。(斯坦福/JELS 2025) 已公布的准确性数据显示,在复杂查询上失效率显著。KeyCite 能捕捉捏造的引证,但捕捉不了情境幻觉。
Lexis+ 搭配 Protege 300+ 预构建工作流。四个专业化智能体。Shepard's 引证(黄金标准)。于 2026 年 2 月取代 Lexis+ AI。 17% 幻觉率。撤回了“100% 无幻觉”的声明。(斯坦福/JELS 2025) Shepard's 对州级行政裁决的覆盖存在滞后。智能体多步骤工作流尚属新事物,在规模化场景下未经验证。
开源 LLM + RAG 对模型、数据和核验逻辑拥有完全控制权。无供应商锁定。可构建自定义约束机制。 58-82% 幻觉率 (在没有专门核验的情况下)。在自定义 RAG 下高度不稳定。 需要大量工程投入。没有内置引证系统。数据访问难题:Harvard CAP 提供原始文本,但不提供编辑性增强内容。
四大会计师事务所 / 大型系统集成商 品牌公信力。全球规模。可以投入大量人力解决问题。与律所领导层已有的合作关系。 他们部署平台,而非构建核验基础设施。依赖供应商的准确性声明。 他们部署 Harvey 或 Lexis 便宣告完成。一项工作的费用在 $500K-$2M+ 之间,而本质上只是平台配置。没有自定义核验流水线的专长。法律 AI 只是综合性事务所中的一个小业务领域。
自建团队 完全控制。深度定制以贴合律所的业务领域和工作流。 完全取决于团队能力和持续投入。 需要招聘机器学习工程师、法律数据工程师和 NLP 专家。大多数律所无法在竞争中招到这类人才。持续维护负担相当沉重。

幻觉率数据来自经同行评审的斯坦福 HAI/JELS 研究(2025)。Harvey 未公布独立的准确性基准。这些缺口是结构性的,而非对质量的评判。表中的每个选项都能提供有价值的东西。

我们为法律 AI 团队构建什么

我们不替换您的研究平台。我们构建核验、治理和基础设施层,让您现有的工具能够安全地用于高风险业务。

引证核验流水线

在 AI 输出与人工审阅之间的自动化质量保证层。接收来自 Harvey、Lexis、Westlaw 或任何来源的研究输出。对照引证数据库运行引证存在性检查。标记负面处理。针对特定司法管辖区和法院级别验证具有约束力的权威。通过分析后续援引该案的引用,对情境准确性进行置信度评分。

当某业务领域具有密集的引证网络(税务、监管、专利申请)时,我们会采用基于图谱的核验。对于核验需求较轻的场景(合同审阅、合规备忘录),我们构建采用基于规则的检查与 LLM 交叉验证的精简流水线。

法律知识图谱

基于 Neo4j 构建的特定业务领域知识图谱。以法规、案件、规章和法律概念为节点。以引证关系、负面处理、管辖层级和时效性为边。我们从开放数据起步:Harvard Caselaw Access Project(670 万案件)、eCFR、Federal Register 和公开法庭记录。

在法律查询的检索相关性方面,GraphRAG 比向量 RAG 高出 14%。这一优势在多跳推理上最为突出:“找出第二巡回法院最近一个适用 Twombly 合理性标准的案件”是一次确定性的图谱遍历,而非模糊的文本搜索。我们为引证密度足以证明投入合理的特定业务领域构建图谱。

AI 治理系统

不是一份躺在共享盘里的政策 PDF。而是一个可强制执行的系统,落实 ABA 第 512 号意见的要求:按业务领域设置的工具审批工作流、追踪哪些 AI 工具被用于哪些客户事务的使用日志、带完成情况核实的培训追踪,以及能让职业责任险承保方满意的审计轨迹。当 68% 的法律从业者都曾使用过未经批准的 AI 工具时,您需要的是强制执行,而非指导方针。

该系统包含常规命令合规功能:一个收录 300+ 各法院特定 AI 要求的数据库、当立案进入有披露规则的司法管辖区时的自动标记,以及与每项命令具体要求相匹配的模板化披露用语。随着新命令的发布持续更新。

智能体工作流核验

Harvey 的 25,000+ 自定义智能体和 LexisNexis Protege 的四智能体架构如今已能自主处理多步骤工作流。一个基金设立智能体生成一份 40 页的分析。一个诉讼智能体跨多项主张起草证据开示请求。这些工作流需要系统化的核验,而非临时的抽查。

我们为智能体法律 AI 构建监控与验证层:在每个工作流阶段设置输出核验检查点、记录智能体查阅了哪些来源的溯源追踪、对每条主张和引证进行置信度评分,以及在律所自行设定的决策点上设置人在回路(human-in-the-loop)关卡。核验的规模随智能体工作流的复杂度而扩展。

引证核验流水线如何运作

这是我们为律所构建的逐步流程。它位于 AI 生成的输出与律师审阅之间,在错误进入立案提交之前将其捕捉。

1

引证提取

流水线接收 AI 生成的文本(来自 Harvey、Lexis、Westlaw 或任何来源),并使用模式匹配和 NLP 提取每一条法律引证。这包括标准判例汇编引证(678 F. Supp. 3d 443)、简略引用(“Id. at 445”)和法规引证(28 U.S.C. § 1332)。每条引证都被规范化为唯一标识符,将“the Mata case”“Mata v. Avianca”和“678 F. Supp. 3d 443”解析为同一实体。

2

存在性核验

每条提取出的引证都会对照权威数据库进行核验。对于判例法:该案件是否存在于所引的汇编卷册中?对于法规:该条款编号在所引法典中是否有效且现行?对于规章:该 CFR 条款是否存在于当前版本中?未通过存在性检查的引证会被标记为 捏造。这正是本可以捕捉到 Mata v. Avianca 的那道检查。

3

处理分析

有效引证会接受负面处理检查。该案件是否已被推翻、撤销、撤销原判或区分处理?该法规是否仍然有效,还是已被修订或废止?流水线超越引证标记本身:它分析后续援引该案的引用,以发现那些核心主张已被收窄、但案件仍保有正面引证状态的案例。这正是捕捉上文所述 Stone v. Ritter 问题的那道检查。

4

情境验证

最难的一道检查。流水线将 AI 归于所引案件的主张,与该案件的实际判决进行比对。如果 AI 写道“法院判决,在没有明显警示信号的情况下董事不负监督义务”,而所引案件实际判决恰恰相反,这就会被标记为 情境幻觉。这会使用第二次独立的 LLM 调用,输入真实的案件文本和 AI 的表述,并对照知识图谱中编码的判决进行交叉验证。

5

管辖权与权威性检查

在该立案提交所在的司法管辖区,所引案件是具有约束力的还是仅具说服力的?在第二巡回法院的诉状中引用第九巡回法院的意见仅具说服力。州初审法院的意见没有先例价值。流水线验证具有约束力的权威是否被正确识别,并标记那些被当作控制性法律呈现、实则仅具说服力的引证。

6

核验报告

输出是一份与 AI 生成工作成果并列的结构化报告。每条引证都获得一个状态: 已核验需注意 (有效但已被收窄/区分),或 未通过 (捏造、已被推翻或情境上不准确)。审阅律师能清楚看到哪些引证需要人工关注,将审阅负担从“逐项检查所有内容”降低为“检查被标记的项目”。该报告成为事务卷宗的一部分,用于审计轨迹之目的。

我们如何合作

每一项合作都始于了解贵所特定的风险状况、业务领域和现有技术栈。我们为您的工作流量身构建,而非套用通用方案。

第 1 阶段

评估与架构

第 1-3 周

  • 审计各业务组中当前的 AI 工具使用情况(包括影子 AI)
  • 将立案司法管辖区映射到常规命令要求
  • 按幻觉风险敞口识别风险最高的业务领域
  • 为您特定的平台设计核验流水线架构
  • 交付物:风险评估报告 + 技术架构文档

第 2 阶段

构建与集成

第 4-10 周

  • 为优先业务领域构建引证核验流水线
  • 为目标司法管辖区/领域构建知识图谱(如适用)
  • 部署治理系统:工具审批、使用日志、培训追踪
  • 与现有平台集成(Harvey API、Westlaw、Lexis)
  • 交付物:在预演环境中可运行的核验流水线 + 治理系统

第 3 阶段

试点与扩展

第 11-16 周

  • 在 2-3 个业务组的真实事务上进行试点
  • 测量:误报率、核验周转时间、律师采用率
  • 根据来自律师和合伙人的真实反馈进行优化
  • 扩展到更多业务领域和司法管辖区
  • 交付物:生产系统 + 扩展路线图 + 培训材料

坦诚的注意事项

  • 没有任何系统能消除所有风险。 核验流水线能捕捉引证错误。法律推理的质量仍需人类判断。我们构建的是安全网,而非自动驾驶。
  • 知识图谱的范围是一种取舍。 一个全面的联邦 + 50 州图谱是一项多年投入。我们从您风险敞口最高的业务领域和司法管辖区起步,并由此逐步扩展。
  • 数据访问限制了可能性。 LexisNexis 和 Westlaw 掌控着最全面、经编辑增强的数据库。我们基于开放数据(Harvard CAP、eCFR、公开记录)进行构建,并在存在 API 访问的情况下与您已获授权的数据库集成。覆盖范围在第一天绝不会赶上 Shepard's。
  • 治理系统只有在领导层强制执行时才有效。 我们构建技术。律所文化变革是另一个话题。

法律 AI 就绪度评估

回答这些问题,以了解贵所当前的风险敞口和核验成熟度。无论您是否与我们合作,结果都会为您提供一个框架,用于排定 AI 治理投入的优先级。

法律 AI 采购方真正会问的问题

Westlaw AI 和 Lexis+ AI 的实际幻觉率是多少?

2025 年发表于《Journal of Empirical Legal Studies》(实证法律研究期刊)的一项经同行评审的斯坦福研究,对两个平台进行了系统化测试。Westlaw Precision 有 33% 的时候出现幻觉,仅有 42% 的回应完全准确。Lexis+ AI(现为 Lexis+ 搭配 Protege)有 17% 的时候出现幻觉,仅有 20% 的回应完全准确。这些数字适用于复杂的多跳查询,也就是律师在诉讼和监管工作中每天处理的那一类。更简单的查询表现更好。

关键的细微之处:在该研究之后,LexisNexis 悄然撤回了其“100% 无幻觉”的营销用语,澄清该承诺仅适用于关联的法律引证,而不适用于围绕它们的推理。情境幻觉——即引用一个真实案件来支持一个它实际并不支持的主张——并不会被引证关联准确性指标所捕捉。核验流水线需要同时检查两点:案件是否存在,以及它是否说出了 AI 所声称的那番话。

法院关于 AI 披露的常规命令实际上是如何运作的,我们又如何跨司法管辖区追踪合规情况?

已有超过 300 名联邦和州法官采纳了规范立案中 AI 使用的常规命令或地方规则,且它们差异显著。有些仅要求披露曾使用 AI 及使用了哪些工具。另一些则要求证明每一条引证都已经过独立核验。北卡罗来纳州西区实际上完全禁止使用生成式 AI 进行起草,仅允许标准研究平台。佛罗里达州于 2026 年 2 月颁布了新的 AI 披露强制规定。一家联邦法院已裁定,AI 生成的文件不受律师-当事人特权保护。

合规挑战不在于读懂某一份命令。而在于追踪贵所立案所涉每一个司法管辖区的 300+ 份命令,随着法官修订要求而保持更新,并为每一次立案生成正确的披露用语。我们构建自动化的常规命令合规系统:一个按法院映射的现行要求数据库、当新立案进入有 AI 规则的司法管辖区时的自动标记,以及与每项命令具体要求相匹配的模板化披露用语。系统会随着新命令的发布而更新。

我们已经在用 Harvey AI 了。为什么还需要一个单独的核验层?

Harvey 在它所做的事情上非常出色。凭借 $11B 估值和 50% 的 AmLaw 100 采用率,它是研究、起草和工作流自动化方面领先的法律 AI 平台。随着 25,000+ 自定义智能体在该平台上运行,它正在成为基础设施。但 Harvey 是一个生成式平台,而非一个核验系统。它产出法律分析。它不会独立地对照第二个来源去核验那份分析。

引证核验流水线是另一回事。可以把它看作针对 AI 输出的质量保证,就如同律所设有独立于起草工具之外的文档审阅流程一样。我们构建核验层,接收 Harvey 的输出(或 Lexis Protege、Westlaw 或任何来源),并运行自动化检查:对照 KeyCite/Shepard's 检查引证存在性、标记负面处理、针对特定司法管辖区验证具有约束力的权威,以及置信度评分。

这一点在 Harvey 的智能体工作流中尤为重要,那里的长程智能体处理诸如基金设立之类的多步骤流程。一个自主智能体产出 40 页的分析,需要的是系统化的核验,而非临时的抽查。

ABA 第 512 号正式意见对 AI 治理有何要求,我们又如何合规?

ABA 第 512 号正式意见于 2024 年 7 月发布,是关于法律实务中生成式 AI 的首份全面的职业伦理指引。它涉及六项义务:胜任能力、保密、沟通、对法庭的坦诚、监督责任和收费。

实务要求很具体。胜任能力意味着律师必须理解 AI 的能力与局限,并定期更新这种理解,而不只是参加一次 CLE。保密意味着在将客户信息录入任何 AI 工具之前评估数据暴露风险,而大多数律所对于 Harvey、Lexis 或内部工具尚未系统化地做过这件事。监督意味着管理层律师必须制定全所范围的 AI 政策并确保培训,不仅针对律师,还针对所有接触 AI 工具的员工。在收费方面,律师不得就学习他们将经常使用的工具所花费的时间向客户收费。

合规不是一份政策文件。它需要一个可强制执行的系统:记录哪些工具被授权用于哪些业务领域的工具审批工作流、当未经批准的工具被用于客户事务时进行标记的使用监控(68% 的法律从业者至少使用过一次未经批准的 AI 工具)、带完成情况核实的培训追踪,以及能够经受住职业责任追究的文档记录。

与标准 RAG 相比,法律知识图谱如何提升引证准确性?

标准向量 RAG 依靠语义相似性运作。它找出看起来像您查询内容的文本。法律知识图谱则依靠结构化关系运作。它知道案件 A 解释了法规 B,案件 C 推翻了案件 A,以及来自第二巡回法院的案件 D 具有约束力,而来自第九巡回法院的案件 E 在第二巡回法院仅具说服力。

这一差异对三种具体的失效模式至关重要。第一,负面处理:向量 RAG 无法区分引用一个案件与推翻一个案件。一个被充分讨论的已被推翻案件在语义相似性上得分很高。而知识图谱拥有一条明确的 OVERRULES(推翻)边,能阻止将该案件作为具有约束力的权威检索出来。第二,多跳推理:诸如“找出第二巡回法院最近一个适用 Twombly 合理性标准的案件”这样的问题,需要从法规遍历到解释、再到巡回法院、再到日期。向量 RAG 检索出零碎片段,并寄希望于 LLM 将它们连接起来。而图谱会确定性地遍历这条路径。第三,管辖层级:如果文本相似,向量搜索会把州初审法院的意见与最高法院的裁决同等对待。而知识图谱编码了法院层级,会优先返回具有约束力的权威。

基准测试显示,在法律查询的检索相关性方面,GraphRAG 比向量 RAG 高出 14%。我们在 Neo4j 上构建特定业务领域的知识图谱,从引证网络最密集的监管合规和税务领域起步。

如果我们在没有适当治理的情况下采用 AI,我们的职业责任险会怎样?

职业责任险承保方在 2026 年正积极将 AI 使用纳入承保决策。其风险敞口是具体且有据可查的。如果律所律师允许 AI 在没有律师监督的情况下作出关键的法律判断,承保方可能会将其归类为未经授权的法律执业,而这通常被排除在承保范围之外。其逻辑是:没有律师监督就意味着没有律师提供专业服务,这意味着职业责任保单不予适用。

这在律所最为暴露之处造成了一个承保缺口。影子 AI 加剧了这一问题。当 68% 的法律从业者都曾使用过未经批准的工具时,律所在客户事务上就存在无据可查、没有审计轨迹的 AI 使用。如果一条幻觉引证导致制裁或不利结果,承保方会问:你们的 AI 治理政策是什么,你们能证明它得到了遵守吗?

AI 治理系统提供了这条文档轨迹:哪些工具获得批准、谁接受了培训、每项事务采取了哪些核验步骤。这并不是要回避 AI。而是要建立一份证据记录,在出事时让您的承保保持有效。

技术研究

我们对法律 AI 引证强制架构的详细分析,包括 GraphRAG 技术设计、知识图谱模式和实施蓝图。

$5,000 的幻觉与“套壳时代”的终结:面向企业级法律 AI 的引证强制 GraphRAG

对图约束解码、法律知识图谱模式设计以及引证核验系统架构的技术深度剖析。

一次被制裁的立案提交,代价高于一套核验系统

第六巡回法院于 2026 年 3 月处以 $30,000 的制裁。有些案件的制裁与律师费合计已超过 $100,000。

为您风险最高的业务领域构建一套引证核验流水线,只需数周即可完成,其成本只是一次制裁事件的零头。保护您职业责任险承保的治理系统,所需成本更低。问题不在于您是否负担得起构建它。而在于您是否负担得起不去构建它。

AI 风险评估

  • ✓ 审计当前的 AI 工具使用情况和影子 AI 敞口
  • ✓ 将立案司法管辖区映射到常规命令要求
  • ✓ 按业务领域评估幻觉风险
  • ✓ ABA 第 512 号意见合规缺口分析

核验流水线构建

  • ✓ 为优先业务领域构建引证核验流水线
  • ✓ 为目标司法管辖区构建知识图谱
  • ✓ 带强制执行和审计轨迹的 AI 治理系统
  • ✓ 常规命令合规自动化