法律 AI 引证核验与治理

幻觉问题比虚假引证更严重

大多数律所都知道 Mata v. Avianca 一案：捏造的案件名称、$5,000 罚款、断送职业生涯的难堪。那是 2023 年。问题已经演变。制裁已经升级。而最该让您担忧的失效模式，恰恰是您当前的工具无法捕捉的那一种。

引证捏造（Mata 问题）

AI 凭空编造了一个并不存在的案件。 Varghese v. China Southern Airlines 有着令人信服的案卷编号、看似合理的法院，以及详尽的内部引证。它却完全是虚构的。这正是 Shepard's 和 KeyCite 能够捕捉的情形：一条在数据库中查无对应结果的引证。

专门构建的工具能大幅减少这类问题。Harvey 和 Lexis Protege 将其输出锚定在真实数据库中。但“减少”并不等于“消除”，2026 年 2 月新奥尔良一案就证明了这一点：该律师同时使用了 ChatGPT 和 Westlaw Precision AI，却仍然提交了 11 条捏造或被歪曲的引证。

情境幻觉（真正的威胁）

AI 引用了一个真实存在的案件，用以支持一个该案件实际并不支持的主张。案卷编号有效。案件确实存在。KeyCite 返回绿色标记。但 AI 把异议意见当作多数意见的判决来引用。或者，它引用了一个案件，而该案件解释的是某项法规两年前被修订之前的旧版本。

这正是斯坦福研究中 33% 的 Westlaw 幻觉率所真正捕捉到的内容。不是虚假引证，而是对真实引证的错误分析。您的引证核验工具说该案件存在。它确实存在。只是它并没有说出 AI 所声称的那番话。而在时间压力下审阅输出的初级律师不会发现这一点，因为这条引证 看起来 是对的。

一个具体案例：被推翻法规的陷阱

一名诉讼律师让 Harvey 研究在特拉华州法律下对违反受信义务主张的抗辩。AI 返回了一份详尽的分析，引用了 Stone v. Ritter （2006）作为董事监督责任的标准。该引证是真实的。其判决摘要对于 2006 年而言是准确的。

AI 遗漏的是：特拉华州最高法院 2019 年在 Marchand v. Barnhill 案中的判决大幅扩展了 Caremark 义务，随后的衡平法院意见进一步发展了“关键使命”监管合规标准。AI 引用的是具有约束力的权威，从技术上讲它仍是“有效法律”（未被推翻），但其实际适用范围已被后来的发展大幅收窄，而引证标记不会捕捉到这一点。 Stone 仍然带有绿色的 KeyCite 标记。但建立在它之上的分析，对于 2026 年的立案提交而言仍然是错误的。

核验流水线通过以下方式捕捉这一点：不仅检查引证标记状态，还检查后续援引该案的引用，审查后来的案件是否对该判决作出了区分或收窄处理，并标记那些核心主张已被实质性修改——即便案件本身仍属“有效法律”——的意见。

法律 AI 全景：每个选项实际交付什么

每个平台都有其长处。但没有一个能解决完整的核验问题。下表是一份参考，您可以带到下一次技术委员会会议上。

选项	其擅长之处	引证准确性	缺口
Harvey AI	研究、起草、智能体（agentic）工作流。25,000+ 自定义智能体。完整的 LexisNexis 数据库访问权限。$11B 估值，覆盖 AmLaw 100 中的 50%。	锚定于 LexisNexis 数据。优于通用 LLM。未公布独立的幻觉率。	没有独立的核验层。输出核验是用户的责任。智能体工作流会产生复杂的多步骤输出，需要系统化的质量保证。
Westlaw AI / CoCounsel	深度研究能力。智能体文档审阅。基于 KeyCite 引证系统构建。CoCounsel 工作流于 2026 年初推出。	33% 幻觉率（Precision 上）。Ask Practical Law 上为 17%。（斯坦福/JELS 2025）	已公布的准确性数据显示，在复杂查询上失效率显著。KeyCite 能捕捉捏造的引证，但捕捉不了情境幻觉。
Lexis+ 搭配 Protege	300+ 预构建工作流。四个专业化智能体。Shepard's 引证（黄金标准）。于 2026 年 2 月取代 Lexis+ AI。	17% 幻觉率。撤回了“100% 无幻觉”的声明。（斯坦福/JELS 2025）	Shepard's 对州级行政裁决的覆盖存在滞后。智能体多步骤工作流尚属新事物，在规模化场景下未经验证。
开源 LLM + RAG	对模型、数据和核验逻辑拥有完全控制权。无供应商锁定。可构建自定义约束机制。	58-82% 幻觉率（在没有专门核验的情况下）。在自定义 RAG 下高度不稳定。	需要大量工程投入。没有内置引证系统。数据访问难题：Harvard CAP 提供原始文本，但不提供编辑性增强内容。
四大会计师事务所 / 大型系统集成商	品牌公信力。全球规模。可以投入大量人力解决问题。与律所领导层已有的合作关系。	他们部署平台，而非构建核验基础设施。依赖供应商的准确性声明。	他们部署 Harvey 或 Lexis 便宣告完成。一项工作的费用在 $500K-$2M+ 之间，而本质上只是平台配置。没有自定义核验流水线的专长。法律 AI 只是综合性事务所中的一个小业务领域。
自建团队	完全控制。深度定制以贴合律所的业务领域和工作流。	完全取决于团队能力和持续投入。	需要招聘机器学习工程师、法律数据工程师和 NLP 专家。大多数律所无法在竞争中招到这类人才。持续维护负担相当沉重。

幻觉率数据来自经同行评审的斯坦福 HAI/JELS 研究（2025）。Harvey 未公布独立的准确性基准。这些缺口是结构性的，而非对质量的评判。表中的每个选项都能提供有价值的东西。

我们为法律 AI 团队构建什么

我们不替换您的研究平台。我们构建核验、治理和基础设施层，让您现有的工具能够安全地用于高风险业务。

引证核验流水线

在 AI 输出与人工审阅之间的自动化质量保证层。接收来自 Harvey、Lexis、Westlaw 或任何来源的研究输出。对照引证数据库运行引证存在性检查。标记负面处理。针对特定司法管辖区和法院级别验证具有约束力的权威。通过分析后续援引该案的引用，对情境准确性进行置信度评分。

当某业务领域具有密集的引证网络（税务、监管、专利申请）时，我们会采用基于图谱的核验。对于核验需求较轻的场景（合同审阅、合规备忘录），我们构建采用基于规则的检查与 LLM 交叉验证的精简流水线。

法律知识图谱

基于 Neo4j 构建的特定业务领域知识图谱。以法规、案件、规章和法律概念为节点。以引证关系、负面处理、管辖层级和时效性为边。我们从开放数据起步：Harvard Caselaw Access Project（670 万案件）、eCFR、Federal Register 和公开法庭记录。

在法律查询的检索相关性方面，GraphRAG 比向量 RAG 高出 14%。这一优势在多跳推理上最为突出：“找出第二巡回法院最近一个适用 Twombly 合理性标准的案件”是一次确定性的图谱遍历，而非模糊的文本搜索。我们为引证密度足以证明投入合理的特定业务领域构建图谱。

AI 治理系统

不是一份躺在共享盘里的政策 PDF。而是一个可强制执行的系统，落实 ABA 第 512 号意见的要求：按业务领域设置的工具审批工作流、追踪哪些 AI 工具被用于哪些客户事务的使用日志、带完成情况核实的培训追踪，以及能让职业责任险承保方满意的审计轨迹。当 68% 的法律从业者都曾使用过未经批准的 AI 工具时，您需要的是强制执行，而非指导方针。

该系统包含常规命令合规功能：一个收录 300+ 各法院特定 AI 要求的数据库、当立案进入有披露规则的司法管辖区时的自动标记，以及与每项命令具体要求相匹配的模板化披露用语。随着新命令的发布持续更新。

智能体工作流核验

Harvey 的 25,000+ 自定义智能体和 LexisNexis Protege 的四智能体架构如今已能自主处理多步骤工作流。一个基金设立智能体生成一份 40 页的分析。一个诉讼智能体跨多项主张起草证据开示请求。这些工作流需要系统化的核验，而非临时的抽查。

我们为智能体法律 AI 构建监控与验证层：在每个工作流阶段设置输出核验检查点、记录智能体查阅了哪些来源的溯源追踪、对每条主张和引证进行置信度评分，以及在律所自行设定的决策点上设置人在回路（human-in-the-loop）关卡。核验的规模随智能体工作流的复杂度而扩展。

引证核验流水线如何运作

这是我们为律所构建的逐步流程。它位于 AI 生成的输出与律师审阅之间，在错误进入立案提交之前将其捕捉。

引证提取

流水线接收 AI 生成的文本（来自 Harvey、Lexis、Westlaw 或任何来源），并使用模式匹配和 NLP 提取每一条法律引证。这包括标准判例汇编引证（678 F. Supp. 3d 443）、简略引用（“Id. at 445”）和法规引证（28 U.S.C. § 1332）。每条引证都被规范化为唯一标识符，将“the Mata case”“Mata v. Avianca”和“678 F. Supp. 3d 443”解析为同一实体。

存在性核验

每条提取出的引证都会对照权威数据库进行核验。对于判例法：该案件是否存在于所引的汇编卷册中？对于法规：该条款编号在所引法典中是否有效且现行？对于规章：该 CFR 条款是否存在于当前版本中？未通过存在性检查的引证会被标记为捏造。这正是本可以捕捉到 Mata v. Avianca 的那道检查。

处理分析

有效引证会接受负面处理检查。该案件是否已被推翻、撤销、撤销原判或区分处理？该法规是否仍然有效，还是已被修订或废止？流水线超越引证标记本身：它分析后续援引该案的引用，以发现那些核心主张已被收窄、但案件仍保有正面引证状态的案例。这正是捕捉上文所述 Stone v. Ritter 问题的那道检查。

情境验证

最难的一道检查。流水线将 AI 归于所引案件的主张，与该案件的实际判决进行比对。如果 AI 写道“法院判决，在没有明显警示信号的情况下董事不负监督义务”，而所引案件实际判决恰恰相反，这就会被标记为情境幻觉。这会使用第二次独立的 LLM 调用，输入真实的案件文本和 AI 的表述，并对照知识图谱中编码的判决进行交叉验证。

管辖权与权威性检查

在该立案提交所在的司法管辖区，所引案件是具有约束力的还是仅具说服力的？在第二巡回法院的诉状中引用第九巡回法院的意见仅具说服力。州初审法院的意见没有先例价值。流水线验证具有约束力的权威是否被正确识别，并标记那些被当作控制性法律呈现、实则仅具说服力的引证。

核验报告

输出是一份与 AI 生成工作成果并列的结构化报告。每条引证都获得一个状态：已核验、需注意（有效但已被收窄/区分），或未通过（捏造、已被推翻或情境上不准确）。审阅律师能清楚看到哪些引证需要人工关注，将审阅负担从“逐项检查所有内容”降低为“检查被标记的项目”。该报告成为事务卷宗的一部分，用于审计轨迹之目的。

我们如何合作

每一项合作都始于了解贵所特定的风险状况、业务领域和现有技术栈。我们为您的工作流量身构建，而非套用通用方案。

第 1 阶段

评估与架构

第 1-3 周

审计各业务组中当前的 AI 工具使用情况（包括影子 AI）
将立案司法管辖区映射到常规命令要求
按幻觉风险敞口识别风险最高的业务领域
为您特定的平台设计核验流水线架构
交付物：风险评估报告 + 技术架构文档

第 2 阶段

构建与集成

第 4-10 周

为优先业务领域构建引证核验流水线
为目标司法管辖区/领域构建知识图谱（如适用）
部署治理系统：工具审批、使用日志、培训追踪
与现有平台集成（Harvey API、Westlaw、Lexis）
交付物：在预演环境中可运行的核验流水线 + 治理系统

第 3 阶段

试点与扩展

第 11-16 周

在 2-3 个业务组的真实事务上进行试点
测量：误报率、核验周转时间、律师采用率
根据来自律师和合伙人的真实反馈进行优化
扩展到更多业务领域和司法管辖区
交付物：生产系统 + 扩展路线图 + 培训材料

坦诚的注意事项

没有任何系统能消除所有风险。 核验流水线能捕捉引证错误。法律推理的质量仍需人类判断。我们构建的是安全网，而非自动驾驶。
知识图谱的范围是一种取舍。 一个全面的联邦 + 50 州图谱是一项多年投入。我们从您风险敞口最高的业务领域和司法管辖区起步，并由此逐步扩展。
数据访问限制了可能性。 LexisNexis 和 Westlaw 掌控着最全面、经编辑增强的数据库。我们基于开放数据（Harvard CAP、eCFR、公开记录）进行构建，并在存在 API 访问的情况下与您已获授权的数据库集成。覆盖范围在第一天绝不会赶上 Shepard's。
治理系统只有在领导层强制执行时才有效。 我们构建技术。律所文化变革是另一个话题。

法律 AI 就绪度评估

回答这些问题，以了解贵所当前的风险敞口和核验成熟度。无论您是否与我们合作，结果都会为您提供一个框架，用于排定 AI 治理投入的优先级。

法律 AI 采购方真正会问的问题

Westlaw AI 和 Lexis+ AI 的实际幻觉率是多少？

2025 年发表于《Journal of Empirical Legal Studies》（实证法律研究期刊）的一项经同行评审的斯坦福研究，对两个平台进行了系统化测试。Westlaw Precision 有 33% 的时候出现幻觉，仅有 42% 的回应完全准确。Lexis+ AI（现为 Lexis+ 搭配 Protege）有 17% 的时候出现幻觉，仅有 20% 的回应完全准确。这些数字适用于复杂的多跳查询，也就是律师在诉讼和监管工作中每天处理的那一类。更简单的查询表现更好。

关键的细微之处：在该研究之后，LexisNexis 悄然撤回了其“100% 无幻觉”的营销用语，澄清该承诺仅适用于关联的法律引证，而不适用于围绕它们的推理。情境幻觉——即引用一个真实案件来支持一个它实际并不支持的主张——并不会被引证关联准确性指标所捕捉。核验流水线需要同时检查两点：案件是否存在，以及它是否说出了 AI 所声称的那番话。

法院关于 AI 披露的常规命令实际上是如何运作的，我们又如何跨司法管辖区追踪合规情况？

已有超过 300 名联邦和州法官采纳了规范立案中 AI 使用的常规命令或地方规则，且它们差异显著。有些仅要求披露曾使用 AI 及使用了哪些工具。另一些则要求证明每一条引证都已经过独立核验。北卡罗来纳州西区实际上完全禁止使用生成式 AI 进行起草，仅允许标准研究平台。佛罗里达州于 2026 年 2 月颁布了新的 AI 披露强制规定。一家联邦法院已裁定，AI 生成的文件不受律师-当事人特权保护。

合规挑战不在于读懂某一份命令。而在于追踪贵所立案所涉每一个司法管辖区的 300+ 份命令，随着法官修订要求而保持更新，并为每一次立案生成正确的披露用语。我们构建自动化的常规命令合规系统：一个按法院映射的现行要求数据库、当新立案进入有 AI 规则的司法管辖区时的自动标记，以及与每项命令具体要求相匹配的模板化披露用语。系统会随着新命令的发布而更新。

我们已经在用 Harvey AI 了。为什么还需要一个单独的核验层？

Harvey 在它所做的事情上非常出色。凭借 $11B 估值和 50% 的 AmLaw 100 采用率，它是研究、起草和工作流自动化方面领先的法律 AI 平台。随着 25,000+ 自定义智能体在该平台上运行，它正在成为基础设施。但 Harvey 是一个生成式平台，而非一个核验系统。它产出法律分析。它不会独立地对照第二个来源去核验那份分析。

引证核验流水线是另一回事。可以把它看作针对 AI 输出的质量保证，就如同律所设有独立于起草工具之外的文档审阅流程一样。我们构建核验层，接收 Harvey 的输出（或 Lexis Protege、Westlaw 或任何来源），并运行自动化检查：对照 KeyCite/Shepard's 检查引证存在性、标记负面处理、针对特定司法管辖区验证具有约束力的权威，以及置信度评分。

这一点在 Harvey 的智能体工作流中尤为重要，那里的长程智能体处理诸如基金设立之类的多步骤流程。一个自主智能体产出 40 页的分析，需要的是系统化的核验，而非临时的抽查。

ABA 第 512 号正式意见对 AI 治理有何要求，我们又如何合规？

ABA 第 512 号正式意见于 2024 年 7 月发布，是关于法律实务中生成式 AI 的首份全面的职业伦理指引。它涉及六项义务：胜任能力、保密、沟通、对法庭的坦诚、监督责任和收费。

实务要求很具体。胜任能力意味着律师必须理解 AI 的能力与局限，并定期更新这种理解，而不只是参加一次 CLE。保密意味着在将客户信息录入任何 AI 工具之前评估数据暴露风险，而大多数律所对于 Harvey、Lexis 或内部工具尚未系统化地做过这件事。监督意味着管理层律师必须制定全所范围的 AI 政策并确保培训，不仅针对律师，还针对所有接触 AI 工具的员工。在收费方面，律师不得就学习他们将经常使用的工具所花费的时间向客户收费。

合规不是一份政策文件。它需要一个可强制执行的系统：记录哪些工具被授权用于哪些业务领域的工具审批工作流、当未经批准的工具被用于客户事务时进行标记的使用监控（68% 的法律从业者至少使用过一次未经批准的 AI 工具）、带完成情况核实的培训追踪，以及能够经受住职业责任追究的文档记录。

与标准 RAG 相比，法律知识图谱如何提升引证准确性？

标准向量 RAG 依靠语义相似性运作。它找出看起来像您查询内容的文本。法律知识图谱则依靠结构化关系运作。它知道案件 A 解释了法规 B，案件 C 推翻了案件 A，以及来自第二巡回法院的案件 D 具有约束力，而来自第九巡回法院的案件 E 在第二巡回法院仅具说服力。

这一差异对三种具体的失效模式至关重要。第一，负面处理：向量 RAG 无法区分引用一个案件与推翻一个案件。一个被充分讨论的已被推翻案件在语义相似性上得分很高。而知识图谱拥有一条明确的 OVERRULES（推翻）边，能阻止将该案件作为具有约束力的权威检索出来。第二，多跳推理：诸如“找出第二巡回法院最近一个适用 Twombly 合理性标准的案件”这样的问题，需要从法规遍历到解释、再到巡回法院、再到日期。向量 RAG 检索出零碎片段，并寄希望于 LLM 将它们连接起来。而图谱会确定性地遍历这条路径。第三，管辖层级：如果文本相似，向量搜索会把州初审法院的意见与最高法院的裁决同等对待。而知识图谱编码了法院层级，会优先返回具有约束力的权威。

基准测试显示，在法律查询的检索相关性方面，GraphRAG 比向量 RAG 高出 14%。我们在 Neo4j 上构建特定业务领域的知识图谱，从引证网络最密集的监管合规和税务领域起步。

如果我们在没有适当治理的情况下采用 AI，我们的职业责任险会怎样？

职业责任险承保方在 2026 年正积极将 AI 使用纳入承保决策。其风险敞口是具体且有据可查的。如果律所律师允许 AI 在没有律师监督的情况下作出关键的法律判断，承保方可能会将其归类为未经授权的法律执业，而这通常被排除在承保范围之外。其逻辑是：没有律师监督就意味着没有律师提供专业服务，这意味着职业责任保单不予适用。

这在律所最为暴露之处造成了一个承保缺口。影子 AI 加剧了这一问题。当 68% 的法律从业者都曾使用过未经批准的工具时，律所在客户事务上就存在无据可查、没有审计轨迹的 AI 使用。如果一条幻觉引证导致制裁或不利结果，承保方会问：你们的 AI 治理政策是什么，你们能证明它得到了遵守吗？

AI 治理系统提供了这条文档轨迹：哪些工具获得批准、谁接受了培训、每项事务采取了哪些核验步骤。这并不是要回避 AI。而是要建立一份证据记录，在出事时让您的承保保持有效。

您的法律 AI 会产生幻觉。我们构建那道能将其捕捉的核验层。

幻觉问题比虚假引证更严重

引证捏造（Mata 问题）

情境幻觉（真正的威胁）

一个具体案例：被推翻法规的陷阱

法律 AI 全景：每个选项实际交付什么

我们为法律 AI 团队构建什么

引证核验流水线

法律知识图谱

AI 治理系统

智能体工作流核验

引证核验流水线如何运作

引证提取

存在性核验

处理分析

情境验证

管辖权与权威性检查

核验报告

我们如何合作

评估与架构

构建与集成

试点与扩展

坦诚的注意事项

法律 AI 就绪度评估

法律 AI 采购方真正会问的问题

Westlaw AI 和 Lexis+ AI 的实际幻觉率是多少？

法院关于 AI 披露的常规命令实际上是如何运作的，我们又如何跨司法管辖区追踪合规情况？

我们已经在用 Harvey AI 了。为什么还需要一个单独的核验层？

ABA 第 512 号正式意见对 AI 治理有何要求，我们又如何合规？

与标准 RAG 相比，法律知识图谱如何提升引证准确性？

如果我们在没有适当治理的情况下采用 AI，我们的职业责任险会怎样？

技术研究

一次被制裁的立案提交，代价高于一套核验系统

AI 风险评估

核验流水线构建

同步发布于

您的法律 AI 会产生幻觉。 我们构建那道能将其捕捉的核验层。

幻觉问题比虚假引证更严重

引证捏造（Mata 问题）

情境幻觉（真正的威胁）

一个具体案例：被推翻法规的陷阱

法律 AI 全景：每个选项实际交付什么

我们为法律 AI 团队构建什么

引证核验流水线

法律知识图谱

AI 治理系统

智能体工作流核验

引证核验流水线如何运作

引证提取

存在性核验

处理分析

情境验证

管辖权与权威性检查

核验报告

我们如何合作

评估与架构

构建与集成

试点与扩展

坦诚的注意事项

法律 AI 就绪度评估

法律 AI 采购方真正会问的问题

Westlaw AI 和 Lexis+ AI 的实际幻觉率是多少？

法院关于 AI 披露的常规命令实际上是如何运作的，我们又如何跨司法管辖区追踪合规情况？

我们已经在用 Harvey AI 了。为什么还需要一个单独的核验层？

ABA 第 512 号正式意见对 AI 治理有何要求，我们又如何合规？

与标准 RAG 相比，法律知识图谱如何提升引证准确性？

如果我们在没有适当治理的情况下采用 AI，我们的职业责任险会怎样？

技术研究

一次被制裁的立案提交，代价高于一套核验系统

AI 风险评估

核验流水线构建

同步发布于

您的法律 AI 会产生幻觉。我们构建那道能将其捕捉的核验层。