法律 AI 引用驗證與治理

幻覺問題比虛構引用更嚴重

大多數律所都知道 Mata v. Avianca 案：捏造的案件名稱、$5,000 罰款、足以斷送職業生涯的難堪。那是 2023 年的事。問題已經演變。制裁不斷升級。而最該讓您擔心的失效模式，正是您目前的工具無法捕捉的那一種。

引用捏造（Mata 問題）

AI 憑空捏造出一個並不存在的案件。 Varghese v. China Southern Airlines 案有著令人信服的案號、看似合理的法院，以及詳盡的內部引用。但它完全是虛構的。這正是 Shepard's 和 KeyCite 能捕捉的：一個在資料庫中查無實據的引用。

專門打造的工具能大幅減少此問題。Harvey 和 Lexis Protege 將其輸出建立在真實資料庫之上。但「減少」不等於「消除」，而 2026 年 2 月的紐奧良案件證明了這一點：該律師同時使用了 ChatGPT 與 Westlaw Precision AI，仍然提交了 11 個捏造或被錯誤描述的引用。

情境幻覺（真正的威脅）

AI 引用了一個真實案件，卻用以支持該案件並不支持的主張。案號有效。案件確實存在。KeyCite 回傳綠色標記。但 AI 卻把不同意見（反對意見）當作多數判決見解來引用。又或者它引用了一個解釋舊版法條的案件，而該法條兩年前就已修訂。

這正是史丹佛研究中 33% 的 Westlaw 幻覺率所實際捕捉到的內容。並非虛構引用，而是對真實引用的錯誤分析。您的引用驗證工具說該案件存在。它確實存在。只是它並沒有說 AI 所聲稱的內容。而在時間壓力下審閱輸出的初級律師不會發現問題，因為這個引用 看起來 是正確的。

一個具體實例：被推翻法條的陷阱

一位訴訟律師請 Harvey 研究在德拉瓦州法下違反受託義務索賠的抗辯理由。AI 回傳了一份詳盡的分析，引用了 Stone v. Ritter 案（2006）作為董事監督責任的標準。引用是真實的。判決見解摘要在 2006 年是準確的。

AI 遺漏的是：德拉瓦州最高法院 2019 年在 Marchand v. Barnhill 案中的判決，大幅擴展了 Caremark 義務，且後續衡平法院的意見更進一步發展了「關鍵任務」監管合規標準。AI 引用的是技術上仍屬「有效法律」（未被推翻）的具拘束力權威，但其實務應用已因後續發展而被大幅限縮，而引用標記不會捕捉到這一點。 Stone 案仍有綠色的 KeyCite 標記。但建立在其上的分析，對於 2026 年的歸檔提交而言仍然是錯誤的。

驗證流程能捕捉到這一點，方法是不僅檢查引用標記狀態，還檢查後續的引用參考文獻，審查後續案件是否有區分或限縮該判決見解，並標記出核心主張即使案件本身仍屬「有效法律」、卻已被實質修改的意見。

法律 AI 全景：每個選項實際上提供什麼

每個平台都有其優勢。但沒有一個能解決完整的驗證問題。這張表格可作為您帶到下次技術委員會會議的參考資料。

選項	它擅長什麼	引用準確度	缺口
Harvey AI	研究、起草、代理式工作流程。25,000+ 個自訂代理。完整的 LexisNexis 資料庫存取權。$11B 估值，AmLaw 100 中的 50% 採用。	建立在 LexisNexis 資料之上。優於通用型 LLM。未公布獨立的幻覺率。	沒有獨立的驗證層。輸出驗證是使用者的責任。代理式工作流程產生複雜的多步驟輸出，需要系統化的品質保證。
Westlaw AI / CoCounsel	深度研究能力。代理式文件審查。建立在 KeyCite 引用系統之上。CoCounsel 工作流程於 2026 年初推出。	Precision 上有 33% 的幻覺率 Ask Practical Law 上為 17%。（Stanford/JELS 2025）	已公布的準確度數據顯示在複雜查詢上有顯著的失效率。KeyCite 能捕捉捏造引用，但無法捕捉情境幻覺。
Lexis+ 搭配 Protege	300+ 個預建工作流程。四個專門代理。Shepard's Citations（黃金標準）。於 2026 年 2 月取代 Lexis+ AI。	17% 的幻覺率。撤回了「100% 無幻覺」的聲明。（Stanford/JELS 2025）	Shepard's 在州級行政決定上的涵蓋範圍有所滯後。代理式多步驟工作流程是新的，且尚未在規模化下得到驗證。
開源 LLM + RAG	對模型、資料與驗證邏輯有完全的控制權。無供應商鎖定。可建構自訂的約束機制。	58-82% 的幻覺率（在沒有專門打造的驗證的情況下）。在自訂 RAG 下變異極大。	需要大量的工程投資。沒有內建的引用系統。資料存取挑戰：Harvard CAP 提供原始文字，但沒有編輯加值內容。
四大會計師事務所 / 大型系統整合商	品牌公信力。全球規模。能投入大量人力解決問題。與律所領導層已有既存關係。	導入既有平台，而非建構驗證基礎架構。仰賴供應商的準確度聲明。	他們部署 Harvey 或 Lexis 便認為大功告成。委任案件費用高達 $500K-$2M+，而其本質不過是平台配置。沒有自訂驗證流程的專業能力。法律 AI 在通才型事務所中只是一個小型專業領域。
內部自建	完全控制。深度客製化以契合律所的執業領域與工作流程。	完全取決於團隊能力與持續投資。	需要聘僱機器學習工程師、法律資料工程師與 NLP 專家。大多數律所無法在競爭中招募到這類人才。持續的維護負擔相當沉重。

幻覺率數據出自同儕審查的 Stanford HAI/JELS 研究（2025）。Harvey 尚未公布獨立的準確度基準。這些缺口是結構性的，並非品質評斷。表中每個選項都有其有價值之處。

我們為法律 AI 團隊建構什麼

我們不取代您的研究平台。我們建構驗證、治理與基礎架構層，讓您現有的工具在高風險執業中也能安全使用。

引用驗證流程

位於 AI 輸出與人工審查之間的自動化品質保證層。接收來自 Harvey、Lexis、Westlaw 或任何來源的研究輸出。對照引用資料庫執行引用存在性檢查。標記負面處置。針對特定管轄區與法院層級驗證具拘束力的權威。透過分析後續引用參考文獻，為情境準確度評定信心分數。

當執業領域具有密集的引用網絡時（稅務、監管、專利申請），我們會採用基於圖譜的驗證。對於較輕量的驗證需求（合約審查、合規備忘錄），我們則建構採用規則式檢查與 LLM 交叉驗證的精簡流程。

法律知識圖譜

建立在 Neo4j 上的執業領域專屬知識圖譜。以節點代表法規、案件、規章與法律概念。以邊編碼引用關係、負面處置、管轄階層與時間有效性。我們從開放資料起步：Harvard Caselaw Access Project（670 萬件案件）、eCFR、Federal Register 與公開法院紀錄。

在法律查詢的檢索相關性上，GraphRAG 比向量 RAG 高出 14%。其優勢在多跳推理上最為明顯：「找出最近一件適用 Twombly 合理性標準的第二巡迴法院案件」是一次確定性的圖譜遍歷，而非模糊的文字搜尋。我們針對引用密度足以支撐投資的特定執業領域建構圖譜。

AI 治理系統

不是一份躺在共享磁碟機裡的政策 PDF。而是一套可執行的系統，落實 ABA Opinion 512 的要求：依執業領域劃分的工具核准工作流程、追蹤哪些 AI 工具用於哪些客戶事務的使用紀錄、附完成驗證的訓練追蹤，以及能讓專業責任險承保人滿意的稽核軌跡。當 68% 的法律專業人員都曾使用未經核准的 AI 工具時，您需要的是強制執行，而非指導方針。

該系統包含常設命令合規：一個收錄 300+ 條法院特定 AI 要求的資料庫、當歸檔提交進入具有揭露規則的管轄區時自動標記，以及符合各命令特定要求的範本化揭露用語。隨著新命令的發布持續更新。

代理式工作流程驗證

Harvey 的 25,000+ 個自訂代理與 LexisNexis Protege 的四代理架構，現在已能自主處理多步驟工作流程。一個基金設立代理可產出一份 40 頁的分析。一個訴訟代理可跨多項索賠起草證據開示請求。這些工作流程需要系統化的驗證，而非臨時的抽查。

我們為代理式法律 AI 建構監控與驗證層：在每個工作流程階段設置輸出驗證檢查點、記錄代理查閱了哪些來源的來源追蹤、對每項主張與引用評定信心分數，以及在律所自行定義的決策點設置人在迴路中的閘門。驗證會隨著代理式工作流程的複雜度而擴展。

引用驗證流程如何運作

這是我們為律所建構的逐步流程。它位於 AI 生成的輸出與律師審查之間，在錯誤抵達歸檔提交之前將其捕捉。

引用擷取

流程接收 AI 生成的文字（來自 Harvey、Lexis、Westlaw 或任何來源），並運用模式比對與 NLP 擷取每一個法律引用。這包括標準的判例彙編引用（678 F. Supp. 3d 443）、簡式參考（「Id. at 445」），以及法條引用（28 U.S.C. § 1332）。每個引用都會被正規化為一個唯一識別碼，將「the Mata case」、「Mata v. Avianca」與「678 F. Supp. 3d 443」解析為同一個實體。

存在性驗證

每個擷取出的引用都會對照權威資料庫進行驗證。對於判例法：這個案件是否存在於所引用的判例彙編卷冊中？對於法條：這個條號在所引用的法典中是否有效且為現行版本？對於規章：這個 CFR 條款是否存在於現行版本中？未通過存在性檢查的引用會被標記為捏造。這正是本可捕捉到 Mata v. Avianca 案的檢查。

處置分析

有效的引用會被檢查是否有負面處置。該案件是否已被推翻、撤銷、廢棄或區分？該法條是否仍然有效，還是已被修訂或廢止？該流程超越引用標記：它分析後續引用參考文獻，以偵測核心主張已被限縮、但案件仍保有正面引用狀態的案例。這正是能捕捉前述 Stone v. Ritter 問題的檢查。

情境驗證

最困難的檢查。流程將 AI 歸於所引用案件的主張，與該案件實際的判決見解進行比對。如果 AI 寫道「法院認定董事在沒有警訊的情況下不負監督義務」，而所引用的案件實際上認定的是相反的結論，則此處會被標記為情境幻覺。這會運用第二次獨立的 LLM 呼叫，搭配實際案件文字與 AI 的描述，並對照知識圖譜中編碼的判決見解進行交叉驗證。

管轄與權威檢查

所引用的案件在提交歸檔的管轄區內具有拘束力還是僅具說服力？在第二巡迴法院訴狀中引用的第九巡迴法院意見僅具說服力。州初審法院的意見不具任何先例效力。流程會驗證具拘束力的權威是否被正確辨識，並標記出被當作具控制效力之法律呈現、但實際上僅具說服力的引用。

驗證報告

輸出是一份與 AI 生成工作成果並列的結構化報告。每個引用都會獲得一個狀態：已驗證、注意（有效但已被限縮／區分），或未通過（捏造、被推翻或情境不準確）。審查律師能精確看出哪些引用需要人工關注，將審查負擔從「全部檢查」降為「檢查被標記的項目」。該報告會成為事務檔案的一部分，以供稽核軌跡之用。

我們的工作方式

每一次委任都從理解貴所特定的風險樣態、執業領域與既有技術堆疊開始。我們為您的工作流程量身打造，而非套用通用方案。

第 1 階段

評估與架構

第 1-3 週

稽核各執業群組目前的 AI 工具使用情況（包括影子 AI）
將歸檔管轄區對應至常設命令要求
依幻覺風險暴露程度辨識風險最高的執業領域
為您的特定平台設計驗證流程架構
交付成果：風險評估報告 + 技術架構文件

第 2 階段

建構與整合

第 4-10 週

為優先執業領域建構引用驗證流程
為目標管轄區／領域建構知識圖譜（如適用）
部署治理系統：工具核准、使用紀錄、訓練追蹤
與既有平台整合（Harvey API、Westlaw、Lexis）
交付成果：在預備環境中可運作的驗證流程 + 治理系統

第 3 階段

試行與擴展

第 11-16 週

與 2-3 個執業群組在實際事務上試行
衡量：誤報率、驗證周轉時間、律師採用率
依據律師與合夥人的真實世界回饋進行優化
擴展至其他執業領域與管轄區
交付成果：正式系統 + 擴展路線圖 + 訓練教材

誠實的注意事項

沒有任何系統能消除所有風險。 驗證流程能捕捉引用錯誤。法律推理的品質仍需人類判斷。我們建構的是安全網，而非自動駕駛。
知識圖譜的範圍是一種取捨。 一個涵蓋聯邦 + 50 州的全面性圖譜是一項多年期的投資。我們從您風險暴露最高的執業領域與管轄區起步，再由此擴展。
資料存取限制了可能性。 LexisNexis 與 Westlaw 掌握著最全面、經編輯加值的資料庫。我們在開放資料（Harvard CAP、eCFR、公開紀錄）上建構，並在有 API 存取權的地方與您授權的資料庫整合。涵蓋範圍在第一天絕不會比得上 Shepard's。
治理系統唯有在領導層強制執行時才有效。 我們建構技術。律所文化的轉變是另一個獨立的議題。

法律 AI 就緒度評估

回答這些問題，以了解貴所目前的風險暴露與驗證成熟度。無論您是否與我們合作，這些結果都能為您提供一個排定 AI 治理投資優先順序的框架。

法律 AI 買家實際會問的問題

Westlaw AI 與 Lexis+ AI 的實際幻覺率是多少？

一項於 2025 年發表在《Journal of Empirical Legal Studies》的同儕審查史丹佛研究，對兩個平台進行了系統性測試。Westlaw Precision 有 33% 的時間出現幻覺，僅有 42% 的回應完全準確。Lexis+ AI（現為 Lexis+ 搭配 Protege）有 17% 的時間出現幻覺，僅有 20% 的回應完全準確。這些數字適用於複雜的多跳查詢，也就是律師在訴訟與監管工作中每日處理的那一類。較簡單的查找表現較佳。

關鍵的細微之處：LexisNexis 在該研究後悄悄撤回了其「100% 無幻覺」的行銷用語，澄清該承諾僅適用於連結的法律引用，而不適用於圍繞它們的推理。情境幻覺，亦即引用一個真實案件以支持它並不支持的主張，並未被引用連結準確度的指標所捕捉。驗證流程需要兩者兼檢：案件是否存在，以及它是否說了 AI 所聲稱的內容。

法院關於 AI 揭露的常設命令實際上如何運作，我們又該如何跨管轄區追蹤合規情況？

已有超過 300 名聯邦與州法官採用了規範歸檔提交中 AI 使用的常設命令或地方規則，而它們之間差異甚大。有些僅要求揭露曾使用 AI 以及使用了哪些工具。有些則要求確認每一個引用都已經過獨立驗證。北卡羅來納州西區實際上完全禁止以生成式 AI 進行起草，僅允許標準的研究平台。佛羅里達州於 2026 年 2 月頒布了一項新的 AI 揭露規定。一家聯邦法院已裁定，AI 生成的文件不受律師與當事人保密特權的保護。

合規挑戰不在於閱讀一條命令。而在於跨貴所歸檔的每一個管轄區追蹤 300+ 條命令，在法官修訂要求時保持其更新，並為每一次歸檔產生正確的揭露用語。我們建構自動化的常設命令合規系統：一個依法院對應的現行要求資料庫、當新的歸檔進入具有 AI 規則的管轄區時自動標記，以及符合各命令特定要求的範本化揭露用語。系統會隨著新命令的發布而更新。

我們已經在使用 Harvey AI。為什麼還需要一個獨立的驗證層？

Harvey 在其本職上表現出色。以 $11B 的估值和 AmLaw 100 中 50% 的採用率，它是研究、起草與工作流程自動化方面領先的法律 AI 平台。隨著 25,000+ 個自訂代理在平台上運作，它正逐漸成為基礎架構。但 Harvey 是一個生成式平台，而非驗證系統。它產出法律分析。它不會對照第二個來源獨立驗證該分析。

引用驗證流程是一個獨立的考量。可以把它想成是針對 AI 輸出的品質保證，就如同律所擁有獨立於起草工具之外存在的文件審查流程一樣。我們建構的驗證層會接收 Harvey 的輸出（或 Lexis Protege、Westlaw 或任何來源），並執行自動化檢查：對照 KeyCite/Shepard's 的引用存在性、負面處置標記、針對特定管轄區的具拘束力權威驗證，以及信心評分。

這在 Harvey 的代理式工作流程中尤為重要，因為其中長程代理會處理如基金設立等多步驟流程。一個自主代理產出一份 40 頁的分析，需要的是系統化的驗證，而非臨時的抽查。

ABA Formal Opinion 512 對 AI 治理有何要求，我們又該如何遵循？

ABA Formal Opinion 512 於 2024 年 7 月發布，是第一份關於法律執業中生成式 AI 的全面性倫理指引。它涉及六項義務：能力、保密、溝通、對審判庭的坦誠、督導責任，以及收費。

其實務要求是具體的。能力意味著律師必須理解 AI 的能力與限制，並定期更新此一理解，而不僅是參加一次 CLE。保密意味著在將客戶資訊輸入任何 AI 工具之前評估資料暴露風險，而大多數律所對於 Harvey、Lexis 或內部工具並未系統性地做到這一點。督導意味著管理職律師必須建立全所性的 AI 政策並確保訓練落實，不僅針對律師，也針對所有接觸 AI 工具的員工。在收費方面，律師不得就學習其將經常使用的工具所花費的時間向客戶收費。

合規不是一份政策文件。它需要一套可執行的系統：記錄哪些工具獲授權用於哪些執業領域的工具核准工作流程、在客戶事務上使用未經核准工具時加以標記的使用監控（68% 的法律專業人員至少曾使用過一次未經核准的 AI 工具）、附完成驗證的訓練追蹤，以及能在專業責任調查中存續的文件紀錄。

與標準 RAG 相比，法律知識圖譜如何提升引用準確度？

標準的向量 RAG 透過語意相似度運作。它會找出看起來像您查詢的文字。法律知識圖譜則透過結構性關係運作。它知道案件 A 解釋了法條 B、案件 C 推翻了案件 A，以及來自第二巡迴法院的案件 D 具拘束力，而來自第九巡迴法院的案件 E 在第二巡迴法院僅具說服力。

這個差異對三種特定的失效模式至關重要。第一，負面處置：向量 RAG 無法區分引用一個案件與推翻一個案件。一個被詳盡論述的、已遭推翻的案件在語意相似度上會得到高分。知識圖譜則有一個明確的 OVERRULES 邊，阻止將該案件作為具拘束力權威來檢索。第二，多跳推理：像「找出最近一件適用 Twombly 合理性標準的第二巡迴法院案件」這樣的問題，需要從法條遍歷到解釋、到巡迴法院、再到日期。向量 RAG 檢索出片段，然後寄望 LLM 將它們連接起來。圖譜則確定性地遍歷該路徑。第三，管轄階層：若文字相似，向量搜尋會將州初審法院的意見與最高法院的裁決一視同仁。知識圖譜則編碼了法院階層，並優先回傳具拘束力的權威。

基準測試顯示，在法律查詢的檢索相關性上，GraphRAG 比向量 RAG 高出 14%。我們在 Neo4j 上建構執業領域專屬的知識圖譜，從引用網絡最密集的監管合規與稅務領域起步。

如果我們在沒有適當治理的情況下採用 AI，我們的專業責任險會怎麼樣？

專業責任險承保人在 2026 年正積極將 AI 使用納入核保決策中。其風險暴露是具體且有據可查的。如果律所律師允許 AI 在沒有律師監督的情況下做出關鍵的法律判斷，承保人可能將此歸類為無照執業，而這通常被排除在承保範圍之外。其邏輯是：沒有律師監督意味著並無律師提供專業服務，這意味著專業責任險保單不適用。

這在律所最為暴露之處製造了一個承保缺口。影子 AI 更加劇了此問題。當 68% 的法律專業人員曾使用未經核准的工具時，律所在客戶事務上便存在未經記錄、且無稽核軌跡的 AI 使用。如果一個出現幻覺的引用導致制裁或不利結果，承保人會問：你們的 AI 治理政策是什麼，你們能否證明該政策得到了遵循？

AI 治理系統提供了文件軌跡：哪些工具獲核准、誰接受了訓練、每項事務採取了哪些驗證步驟。這無關乎迴避 AI。而關乎建立起一份證據紀錄，在出狀況時讓您的承保範圍保持完好。

您的法律 AI 會產生幻覺。我們建構攔截它的那一層。

幻覺問題比虛構引用更嚴重

引用捏造（Mata 問題）

情境幻覺（真正的威脅）

一個具體實例：被推翻法條的陷阱

法律 AI 全景：每個選項實際上提供什麼

我們為法律 AI 團隊建構什麼

引用驗證流程

法律知識圖譜

AI 治理系統

代理式工作流程驗證

引用驗證流程如何運作

引用擷取

存在性驗證

處置分析

情境驗證

管轄與權威檢查

驗證報告

我們的工作方式

評估與架構

建構與整合

試行與擴展

誠實的注意事項

法律 AI 就緒度評估

法律 AI 買家實際會問的問題

Westlaw AI 與 Lexis+ AI 的實際幻覺率是多少？

法院關於 AI 揭露的常設命令實際上如何運作，我們又該如何跨管轄區追蹤合規情況？

我們已經在使用 Harvey AI。為什麼還需要一個獨立的驗證層？

ABA Formal Opinion 512 對 AI 治理有何要求，我們又該如何遵循？

與標準 RAG 相比，法律知識圖譜如何提升引用準確度？

如果我們在沒有適當治理的情況下採用 AI，我們的專業責任險會怎麼樣？

技術研究

單一一次被制裁的歸檔，代價高於一套驗證系統

AI 風險評估

驗證流程建構

同步發佈於

您的法律 AI 會產生幻覺。 我們建構攔截它的那一層。

幻覺問題比虛構引用更嚴重

引用捏造（Mata 問題）

情境幻覺（真正的威脅）

一個具體實例：被推翻法條的陷阱

法律 AI 全景：每個選項實際上提供什麼

我們為法律 AI 團隊建構什麼

引用驗證流程

法律知識圖譜

AI 治理系統

代理式工作流程驗證

引用驗證流程如何運作

引用擷取

存在性驗證

處置分析

情境驗證

管轄與權威檢查

驗證報告

我們的工作方式

評估與架構

建構與整合

試行與擴展

誠實的注意事項

法律 AI 就緒度評估

法律 AI 買家實際會問的問題

Westlaw AI 與 Lexis+ AI 的實際幻覺率是多少？

法院關於 AI 揭露的常設命令實際上如何運作，我們又該如何跨管轄區追蹤合規情況？

我們已經在使用 Harvey AI。為什麼還需要一個獨立的驗證層？

ABA Formal Opinion 512 對 AI 治理有何要求，我們又該如何遵循？

與標準 RAG 相比，法律知識圖譜如何提升引用準確度？

如果我們在沒有適當治理的情況下採用 AI，我們的專業責任險會怎麼樣？

技術研究

單一一次被制裁的歸檔，代價高於一套驗證系統

AI 風險評估

驗證流程建構

同步發佈於

您的法律 AI 會產生幻覺。我們建構攔截它的那一層。