法律 AI 驗證與治理
在同儕審查的測試中,Westlaw Precision 在 33% 的複雜查詢上出現幻覺。Lexis+ AI 為 17%。制裁金額已突破每起事件 $30,000。無論貴所使用 Harvey、Lexis Protege 還是開源模型,我們都能建構引用驗證流程、知識圖譜基礎架構與治理系統,讓 AI 輸出能安全地提交歸檔。
33%
Westlaw Precision 幻覺率
Stanford/JELS,2025
$30,000
第六巡迴法院制裁,2026 年 3 月
Bloomberg Law
1,222
已記錄的 AI 幻覺法庭案件
Charlotin 資料庫,2026
大多數律所都知道 Mata v. Avianca 案:捏造的案件名稱、$5,000 罰款、足以斷送職業生涯的難堪。那是 2023 年的事。問題已經演變。制裁不斷升級。而最該讓您擔心的失效模式,正是您目前的工具無法捕捉的那一種。
AI 憑空捏造出一個並不存在的案件。 Varghese v. China Southern Airlines 案有著令人信服的案號、看似合理的法院,以及詳盡的內部引用。但它完全是虛構的。這正是 Shepard's 和 KeyCite 能捕捉的:一個在資料庫中查無實據的引用。
專門打造的工具能大幅減少此問題。Harvey 和 Lexis Protege 將其輸出建立在真實資料庫之上。但「減少」不等於「消除」,而 2026 年 2 月的紐奧良案件證明了這一點:該律師同時使用了 ChatGPT 與 Westlaw Precision AI,仍然提交了 11 個捏造或被錯誤描述的引用。
AI 引用了一個真實案件,卻用以支持該案件並不支持的主張。案號有效。案件確實存在。KeyCite 回傳綠色標記。但 AI 卻把不同意見(反對意見)當作多數判決見解來引用。又或者它引用了一個解釋舊版法條的案件,而該法條兩年前就已修訂。
這正是史丹佛研究中 33% 的 Westlaw 幻覺率所實際捕捉到的內容。並非虛構引用,而是對真實引用的錯誤分析。您的引用驗證工具說該案件存在。它確實存在。只是它並沒有說 AI 所聲稱的內容。而在時間壓力下審閱輸出的初級律師不會發現問題,因為這個引用 看起來 是正確的。
一位訴訟律師請 Harvey 研究在德拉瓦州法下違反受託義務索賠的抗辯理由。AI 回傳了一份詳盡的分析,引用了 Stone v. Ritter 案(2006)作為董事監督責任的標準。引用是真實的。判決見解摘要在 2006 年是準確的。
AI 遺漏的是:德拉瓦州最高法院 2019 年在 Marchand v. Barnhill 案中的判決,大幅擴展了 Caremark 義務,且後續衡平法院的意見更進一步發展了「關鍵任務」監管合規標準。AI 引用的是技術上仍屬「有效法律」(未被推翻)的具拘束力權威,但其實務應用已因後續發展而被大幅限縮,而引用標記不會捕捉到這一點。 Stone 案仍有綠色的 KeyCite 標記。但建立在其上的分析,對於 2026 年的歸檔提交而言仍然是錯誤的。
驗證流程能捕捉到這一點,方法是不僅檢查引用標記狀態,還檢查後續的引用參考文獻,審查後續案件是否有區分或限縮該判決見解,並標記出核心主張即使案件本身仍屬「有效法律」、卻已被實質修改的意見。
每個平台都有其優勢。但沒有一個能解決完整的驗證問題。這張表格可作為您帶到下次技術委員會會議的參考資料。
| 選項 | 它擅長什麼 | 引用準確度 | 缺口 |
|---|---|---|---|
| Harvey AI | 研究、起草、代理式工作流程。25,000+ 個自訂代理。完整的 LexisNexis 資料庫存取權。$11B 估值,AmLaw 100 中的 50% 採用。 | 建立在 LexisNexis 資料之上。優於通用型 LLM。未公布獨立的幻覺率。 | 沒有獨立的驗證層。輸出驗證是使用者的責任。代理式工作流程產生複雜的多步驟輸出,需要系統化的品質保證。 |
| Westlaw AI / CoCounsel | 深度研究能力。代理式文件審查。建立在 KeyCite 引用系統之上。CoCounsel 工作流程於 2026 年初推出。 | Precision 上有 33% 的幻覺率 Ask Practical Law 上為 17%。(Stanford/JELS 2025) | 已公布的準確度數據顯示在複雜查詢上有顯著的失效率。KeyCite 能捕捉捏造引用,但無法捕捉情境幻覺。 |
| Lexis+ 搭配 Protege | 300+ 個預建工作流程。四個專門代理。Shepard's Citations(黃金標準)。於 2026 年 2 月取代 Lexis+ AI。 | 17% 的幻覺率。撤回了「100% 無幻覺」的聲明。(Stanford/JELS 2025) | Shepard's 在州級行政決定上的涵蓋範圍有所滯後。代理式多步驟工作流程是新的,且尚未在規模化下得到驗證。 |
| 開源 LLM + RAG | 對模型、資料與驗證邏輯有完全的控制權。無供應商鎖定。可建構自訂的約束機制。 | 58-82% 的幻覺率 (在沒有專門打造的驗證的情況下)。在自訂 RAG 下變異極大。 | 需要大量的工程投資。沒有內建的引用系統。資料存取挑戰:Harvard CAP 提供原始文字,但沒有編輯加值內容。 |
| 四大會計師事務所 / 大型系統整合商 | 品牌公信力。全球規模。能投入大量人力解決問題。與律所領導層已有既存關係。 | 導入既有平台,而非建構驗證基礎架構。仰賴供應商的準確度聲明。 | 他們部署 Harvey 或 Lexis 便認為大功告成。委任案件費用高達 $500K-$2M+,而其本質不過是平台配置。沒有自訂驗證流程的專業能力。法律 AI 在通才型事務所中只是一個小型專業領域。 |
| 內部自建 | 完全控制。深度客製化以契合律所的執業領域與工作流程。 | 完全取決於團隊能力與持續投資。 | 需要聘僱機器學習工程師、法律資料工程師與 NLP 專家。大多數律所無法在競爭中招募到這類人才。持續的維護負擔相當沉重。 |
幻覺率數據出自同儕審查的 Stanford HAI/JELS 研究(2025)。Harvey 尚未公布獨立的準確度基準。這些缺口是結構性的,並非品質評斷。表中每個選項都有其有價值之處。
我們不取代您的研究平台。我們建構驗證、治理與基礎架構層,讓您現有的工具在高風險執業中也能安全使用。
位於 AI 輸出與人工審查之間的自動化品質保證層。接收來自 Harvey、Lexis、Westlaw 或任何來源的研究輸出。對照引用資料庫執行引用存在性檢查。標記負面處置。針對特定管轄區與法院層級驗證具拘束力的權威。透過分析後續引用參考文獻,為情境準確度評定信心分數。
當執業領域具有密集的引用網絡時(稅務、監管、專利申請),我們會採用基於圖譜的驗證。對於較輕量的驗證需求(合約審查、合規備忘錄),我們則建構採用規則式檢查與 LLM 交叉驗證的精簡流程。
建立在 Neo4j 上的執業領域專屬知識圖譜。以節點代表法規、案件、規章與法律概念。以邊編碼引用關係、負面處置、管轄階層與時間有效性。我們從開放資料起步:Harvard Caselaw Access Project(670 萬件案件)、eCFR、Federal Register 與公開法院紀錄。
在法律查詢的檢索相關性上,GraphRAG 比向量 RAG 高出 14%。其優勢在多跳推理上最為明顯:「找出最近一件適用 Twombly 合理性標準的第二巡迴法院案件」是一次確定性的圖譜遍歷,而非模糊的文字搜尋。我們針對引用密度足以支撐投資的特定執業領域建構圖譜。
不是一份躺在共享磁碟機裡的政策 PDF。而是一套可執行的系統,落實 ABA Opinion 512 的要求:依執業領域劃分的工具核准工作流程、追蹤哪些 AI 工具用於哪些客戶事務的使用紀錄、附完成驗證的訓練追蹤,以及能讓專業責任險承保人滿意的稽核軌跡。當 68% 的法律專業人員都曾使用未經核准的 AI 工具時,您需要的是強制執行,而非指導方針。
該系統包含常設命令合規:一個收錄 300+ 條法院特定 AI 要求的資料庫、當歸檔提交進入具有揭露規則的管轄區時自動標記,以及符合各命令特定要求的範本化揭露用語。隨著新命令的發布持續更新。
Harvey 的 25,000+ 個自訂代理與 LexisNexis Protege 的四代理架構,現在已能自主處理多步驟工作流程。一個基金設立代理可產出一份 40 頁的分析。一個訴訟代理可跨多項索賠起草證據開示請求。這些工作流程需要系統化的驗證,而非臨時的抽查。
我們為代理式法律 AI 建構監控與驗證層:在每個工作流程階段設置輸出驗證檢查點、記錄代理查閱了哪些來源的來源追蹤、對每項主張與引用評定信心分數,以及在律所自行定義的決策點設置人在迴路中的閘門。驗證會隨著代理式工作流程的複雜度而擴展。
這是我們為律所建構的逐步流程。它位於 AI 生成的輸出與律師審查之間,在錯誤抵達歸檔提交之前將其捕捉。
流程接收 AI 生成的文字(來自 Harvey、Lexis、Westlaw 或任何來源),並運用模式比對與 NLP 擷取每一個法律引用。這包括標準的判例彙編引用(678 F. Supp. 3d 443)、簡式參考(「Id. at 445」),以及法條引用(28 U.S.C. § 1332)。每個引用都會被正規化為一個唯一識別碼,將「the Mata case」、「Mata v. Avianca」與「678 F. Supp. 3d 443」解析為同一個實體。
每個擷取出的引用都會對照權威資料庫進行驗證。對於判例法:這個案件是否存在於所引用的判例彙編卷冊中?對於法條:這個條號在所引用的法典中是否有效且為現行版本?對於規章:這個 CFR 條款是否存在於現行版本中?未通過存在性檢查的引用會被標記為 捏造。這正是本可捕捉到 Mata v. Avianca 案的檢查。
有效的引用會被檢查是否有負面處置。該案件是否已被推翻、撤銷、廢棄或區分?該法條是否仍然有效,還是已被修訂或廢止?該流程超越引用標記:它分析後續引用參考文獻,以偵測核心主張已被限縮、但案件仍保有正面引用狀態的案例。這正是能捕捉前述 Stone v. Ritter 問題的檢查。
最困難的檢查。流程將 AI 歸於所引用案件的主張,與該案件實際的判決見解進行比對。如果 AI 寫道「法院認定董事在沒有警訊的情況下不負監督義務」,而所引用的案件實際上認定的是相反的結論,則此處會被標記為 情境幻覺。這會運用第二次獨立的 LLM 呼叫,搭配實際案件文字與 AI 的描述,並對照知識圖譜中編碼的判決見解進行交叉驗證。
所引用的案件在提交歸檔的管轄區內具有拘束力還是僅具說服力?在第二巡迴法院訴狀中引用的第九巡迴法院意見僅具說服力。州初審法院的意見不具任何先例效力。流程會驗證具拘束力的權威是否被正確辨識,並標記出被當作具控制效力之法律呈現、但實際上僅具說服力的引用。
輸出是一份與 AI 生成工作成果並列的結構化報告。每個引用都會獲得一個狀態: 已驗證、 注意 (有效但已被限縮/區分),或 未通過 (捏造、被推翻或情境不準確)。審查律師能精確看出哪些引用需要人工關注,將審查負擔從「全部檢查」降為「檢查被標記的項目」。該報告會成為事務檔案的一部分,以供稽核軌跡之用。
每一次委任都從理解貴所特定的風險樣態、執業領域與既有技術堆疊開始。我們為您的工作流程量身打造,而非套用通用方案。
第 1 階段
第 1-3 週
第 2 階段
第 4-10 週
第 3 階段
第 11-16 週
回答這些問題,以了解貴所目前的風險暴露與驗證成熟度。無論您是否與我們合作,這些結果都能為您提供一個排定 AI 治理投資優先順序的框架。
一項於 2025 年發表在《Journal of Empirical Legal Studies》的同儕審查史丹佛研究,對兩個平台進行了系統性測試。Westlaw Precision 有 33% 的時間出現幻覺,僅有 42% 的回應完全準確。Lexis+ AI(現為 Lexis+ 搭配 Protege)有 17% 的時間出現幻覺,僅有 20% 的回應完全準確。這些數字適用於複雜的多跳查詢,也就是律師在訴訟與監管工作中每日處理的那一類。較簡單的查找表現較佳。
關鍵的細微之處:LexisNexis 在該研究後悄悄撤回了其「100% 無幻覺」的行銷用語,澄清該承諾僅適用於連結的法律引用,而不適用於圍繞它們的推理。情境幻覺,亦即引用一個真實案件以支持它並不支持的主張,並未被引用連結準確度的指標所捕捉。驗證流程需要兩者兼檢:案件是否存在,以及它是否說了 AI 所聲稱的內容。
已有超過 300 名聯邦與州法官採用了規範歸檔提交中 AI 使用的常設命令或地方規則,而它們之間差異甚大。有些僅要求揭露曾使用 AI 以及使用了哪些工具。有些則要求確認每一個引用都已經過獨立驗證。北卡羅來納州西區實際上完全禁止以生成式 AI 進行起草,僅允許標準的研究平台。佛羅里達州於 2026 年 2 月頒布了一項新的 AI 揭露規定。一家聯邦法院已裁定,AI 生成的文件不受律師與當事人保密特權的保護。
合規挑戰不在於閱讀一條命令。而在於跨貴所歸檔的每一個管轄區追蹤 300+ 條命令,在法官修訂要求時保持其更新,並為每一次歸檔產生正確的揭露用語。我們建構自動化的常設命令合規系統:一個依法院對應的現行要求資料庫、當新的歸檔進入具有 AI 規則的管轄區時自動標記,以及符合各命令特定要求的範本化揭露用語。系統會隨著新命令的發布而更新。
Harvey 在其本職上表現出色。以 $11B 的估值和 AmLaw 100 中 50% 的採用率,它是研究、起草與工作流程自動化方面領先的法律 AI 平台。隨著 25,000+ 個自訂代理在平台上運作,它正逐漸成為基礎架構。但 Harvey 是一個生成式平台,而非驗證系統。它產出法律分析。它不會對照第二個來源獨立驗證該分析。
引用驗證流程是一個獨立的考量。可以把它想成是針對 AI 輸出的品質保證,就如同律所擁有獨立於起草工具之外存在的文件審查流程一樣。我們建構的驗證層會接收 Harvey 的輸出(或 Lexis Protege、Westlaw 或任何來源),並執行自動化檢查:對照 KeyCite/Shepard's 的引用存在性、負面處置標記、針對特定管轄區的具拘束力權威驗證,以及信心評分。
這在 Harvey 的代理式工作流程中尤為重要,因為其中長程代理會處理如基金設立等多步驟流程。一個自主代理產出一份 40 頁的分析,需要的是系統化的驗證,而非臨時的抽查。
ABA Formal Opinion 512 於 2024 年 7 月發布,是第一份關於法律執業中生成式 AI 的全面性倫理指引。它涉及六項義務:能力、保密、溝通、對審判庭的坦誠、督導責任,以及收費。
其實務要求是具體的。能力意味著律師必須理解 AI 的能力與限制,並定期更新此一理解,而不僅是參加一次 CLE。保密意味著在將客戶資訊輸入任何 AI 工具之前評估資料暴露風險,而大多數律所對於 Harvey、Lexis 或內部工具並未系統性地做到這一點。督導意味著管理職律師必須建立全所性的 AI 政策並確保訓練落實,不僅針對律師,也針對所有接觸 AI 工具的員工。在收費方面,律師不得就學習其將經常使用的工具所花費的時間向客戶收費。
合規不是一份政策文件。它需要一套可執行的系統:記錄哪些工具獲授權用於哪些執業領域的工具核准工作流程、在客戶事務上使用未經核准工具時加以標記的使用監控(68% 的法律專業人員至少曾使用過一次未經核准的 AI 工具)、附完成驗證的訓練追蹤,以及能在專業責任調查中存續的文件紀錄。
標準的向量 RAG 透過語意相似度運作。它會找出看起來像您查詢的文字。法律知識圖譜則透過結構性關係運作。它知道案件 A 解釋了法條 B、案件 C 推翻了案件 A,以及來自第二巡迴法院的案件 D 具拘束力,而來自第九巡迴法院的案件 E 在第二巡迴法院僅具說服力。
這個差異對三種特定的失效模式至關重要。第一,負面處置:向量 RAG 無法區分引用一個案件與推翻一個案件。一個被詳盡論述的、已遭推翻的案件在語意相似度上會得到高分。知識圖譜則有一個明確的 OVERRULES 邊,阻止將該案件作為具拘束力權威來檢索。第二,多跳推理:像「找出最近一件適用 Twombly 合理性標準的第二巡迴法院案件」這樣的問題,需要從法條遍歷到解釋、到巡迴法院、再到日期。向量 RAG 檢索出片段,然後寄望 LLM 將它們連接起來。圖譜則確定性地遍歷該路徑。第三,管轄階層:若文字相似,向量搜尋會將州初審法院的意見與最高法院的裁決一視同仁。知識圖譜則編碼了法院階層,並優先回傳具拘束力的權威。
基準測試顯示,在法律查詢的檢索相關性上,GraphRAG 比向量 RAG 高出 14%。我們在 Neo4j 上建構執業領域專屬的知識圖譜,從引用網絡最密集的監管合規與稅務領域起步。
專業責任險承保人在 2026 年正積極將 AI 使用納入核保決策中。其風險暴露是具體且有據可查的。如果律所律師允許 AI 在沒有律師監督的情況下做出關鍵的法律判斷,承保人可能將此歸類為無照執業,而這通常被排除在承保範圍之外。其邏輯是:沒有律師監督意味著並無律師提供專業服務,這意味著專業責任險保單不適用。
這在律所最為暴露之處製造了一個承保缺口。影子 AI 更加劇了此問題。當 68% 的法律專業人員曾使用未經核准的工具時,律所在客戶事務上便存在未經記錄、且無稽核軌跡的 AI 使用。如果一個出現幻覺的引用導致制裁或不利結果,承保人會問:你們的 AI 治理政策是什麼,你們能否證明該政策得到了遵循?
AI 治理系統提供了文件軌跡:哪些工具獲核准、誰接受了訓練、每項事務採取了哪些驗證步驟。這無關乎迴避 AI。而關乎建立起一份證據紀錄,在出狀況時讓您的承保範圍保持完好。
我們對法律 AI 引用強制架構的詳盡分析,包括 GraphRAG 技術設計、知識圖譜結構描述,以及實作藍圖。
$5,000 的幻覺與包裝層時代的終結:面向企業級法律 AI 的引用強制 GraphRAG深入剖析圖譜約束解碼、法律知識圖譜結構描述設計,以及引用驗證系統的架構。
第六巡迴法院於 2026 年 3 月課以 $30,000 的制裁。某些案件的制裁與律師費合計已超過 $100,000。
為您風險最高的執業領域建構一套引用驗證流程,只需數週時間,其成本僅為單次制裁事件的一小部分。保護您專業責任險承保範圍的治理系統,所需更少。問題不在於您是否負擔得起建構這套系統。而在於您是否負擔得起不建構它。