稅務合規 AI
Thomson Reuters 的「Ready to Review」自動編製 1040 申報表。CCH Axcess Expert AI 跨 10,000 家事務所草擬諮詢洞見。Blue J 回答稅務研究問題的異議率低於 700 分之 1。
編製問題正在被解決,驗證問題卻沒有。當 AI 將某項扣除額誤分類為線上(above-the-line)而非線下(below-the-line)時,20% 的準確性罰款落在簽署申報表的人身上,而不是草擬申報表的演算法身上。我們建構的驗證層,能在這些錯誤送達 IRS 之前攔截它們。
$126B+
美國企業年度稅務合規成本
Fortune,2026 年 3 月
8.8% → 22.6%
IRS 大型企業查核率上升
IRS 執法重點,2026 年
50%
察覺到 AI 造成財務損失的會計師比例
Accountancy Age,2026 年 3 月
稅務 AI 的失誤不是孤立的幻覺。它們是烙印在訓練資料中的系統性偏誤,會以完美的文法和聽來合理的引註,產生自信滿滿卻錯誤的答案。
綜合預算調解法案(OBBBA)依《國內稅收法典》(IRC)第 163(h)(4)(A) 條,為合格客車貸款利息(QPVLI)創設了一項新的扣除額。該扣除額被置於 第 63(b)(7) 條,這意味著它減少的是 課稅所得(taxable income),而非調整後總所得(adjusted gross income)。
這是一項線下(below-the-line)扣除額。它不會降低 AGI。
然而截至 2026 年 4 月,H&R Block 自家網站仍將其描述為「線上(above-the-line)優惠」。成千上萬的部落格文章、SEO 優化文章和財經內容農場,重複著同樣的誤分類。當以這類內容訓練的 LLM 回答關於 OBBBA 扣除額的問題時,會以高度自信重現該錯誤,因為錯誤的描述出現的頻率比正確的法條文字高出數個數量級(orders of magnitude)。
| 影響範圍 | 若被誤分類為線上(Above-the-Line) | 實際法定效果 | 財務後果 |
|---|---|---|---|
| AGI 計算 | 錯誤地降低 AGI | 不影響 AGI | 聯邦稅短繳 |
| 州稅(與 AGI 連動的州) | 錯誤地降低州稅 | 在多數州無影響 | 多州查核風險暴露 |
| Medicare IRMAA 保費 | 虛假的保費調降 | 對保費無影響 | 退休人士的意外支出 |
| 醫療費用扣除門檻 | 錯誤地降低 7.5% 門檻 | 對門檻無影響 | 扣除額被否准 + 利息 |
| 學生貸款 IDR | 虛假的資格認定 | 對還款無影響 | 違反貸款條款 |
單一的線上/線下誤分類,會連鎖影響至少五項下游計算。這只是一條條文。IRC 有數千條。
LLM 並不會對稅法進行推理。它們是根據訓練資料中的模式來預測下一個 token。當部落格圈對某項條文有 90% 是錯的(這在技術性立法變動中很常見)時,模型的權重便會收斂到錯誤答案,無論提示為何。
RAG 有所幫助,但無法解決此問題。Blue J 會擷取法條文字,但 LLM 仍須加以詮釋。修正用語(「第 163(h) 條經插入……予以修正」)需要從片段中重建法典的現行狀態。若模型的內部權重已被數百萬篇錯誤的部落格文章所偏誤,它便會充當一名帶有偏見的讀者,連正確擷取的文字也會誤讀。
提示工程同樣無法修復此問題。你無法指示一個機率引擎變成一個邏輯求解器。對於需要確定性正確(deterministic correctness)的條文,架構本身必須改變。
下列每個類別都解決了一個真實的問題。但沒有一個能驗證 AI 生成的稅務立場。本表的設計,是供在評估稅務技術投資的內部會議中調出參閱。
| 類別 | 主要參與者 | 他們實際在做什麼 | 誠實的缺口 |
|---|---|---|---|
| 平台既有業者 | Thomson Reuters ONESOURCE+、Wolters Kluwer CCH Axcess Expert AI、Intuit ProConnect | 端到端合規:資料匯入、申報表編製、申報、工作流程自動化。ONESOURCE 宣稱例行報告減少 65%。CCH Axcess 嵌入於 10,000 家事務所之中。 | 依自家規則驗證自家輸出。沒有跨平台驗證。代理式 AI(agentic AI)是工作流程自動化,而非立場驗證。上游的資料品質問題會一路向下傳遞。 |
| AI 稅務研究 | Blue J(1.22 億美元 D 輪)、TaxGPT(460 萬美元)、Bizora | 在精選的權威資料庫上進行自然語言稅務研究。Blue J:在 GPT-4.1 上的 RAG,異議率 <1/700。Bizora:全 50 州 SALT,每月 $30-120。 | 機率性答案。1/700 的異議率衡量的是使用者的異議,而非客觀真實的準確度。不知道正確答案的使用者,無法對一個錯誤答案表示異議。不適合作為高罰款立場的唯一依據。 |
| 確定性稅務引擎 | Vertex(3 億+ 種稅率)、Avalara(84 億美元 + 貝萊德 5 億美元)、Sovos(Sovi AI) | 間接稅計算:跨 12,000+ 個管轄區的稅率、豁免與申報。對涵蓋情境 100% 確定。完整的查核軌跡。 | 無法處理自然語言。無法對模稜兩可的條文(事實與情境測試)進行推理。新增規則需手動編碼。僅限於間接稅;所得稅驗證是另一個獨立問題。 |
| 四大會計師事務所/大型系統整合商 | EY+IBM(watsonx)、KPMG(Tax AI Accelerator)、Deloitte、PwC | 供內部使用的專有 AI 工具。EY 以 80% 外國稅務合規自動化為目標。KPMG 於 2026 年 2 月推出 Tax AI Accelerator。PwC 宣稱開發人員生產力提升 20-50%。 | 為自家業務委任案而建的專有工具,貴稅務部門無法取得。委任案費用為 50 萬至 500 萬美元以上。他們導入平台,而非建構客製化驗證層。他們的 AI 工具驗證的是自家的工作,而非貴方的。 |
| 神經符號/決策平台 | Rainbird AI(BDO 客戶) | 具備 AI 護欄(guardrails)的確定性圖形推論。BDO 將研發稅務審查從 5 小時縮短至數秒。透明的推理鏈。 | 通用型平台,並非稅務專用。每個使用案例都需要客製化建構知識圖譜。BDO 案例是研發抵減(狹窄領域),而非通用稅務合規。以英國為重心。 |
| 學術/研究 | Catala(INRIA)、PROLEG(日本 NII)、Sarah Lawsky(西北大學) | 用於將稅法形式化的領域專用語言。Catala 擅長處理預設/例外邏輯。法國政府用於住房補貼。Lawsky 在 IRC 第 121、132 條上做了示範。 | 尚未達到可投產階段。Catala 編譯器被描述為「仍不穩定」。完整 IRC 超過 400 萬字。僅有少數美國條文被形式化。PROLEG 是為日本《民法典》設計。距離企業部署尚有數年之遙。Veriprajna 也無法解決此問題;我們改用 OPA/Rego 進行生產環境的規則編碼。 |
本表中缺少的:一個與廠商無關的驗證層,能位於上述任一平台之上,並以確定性的方式攔截立場層級的錯誤。那正是我們填補的缺口。
每一次委任都是客製化的。以下是我們為稅務技術工作帶來的能力,而非你可以從貨架上購買的產品。
我們以 OPA/Rego 編碼高錯誤率的 IRC 條文,建立一個確定性驗證層,依法定邏輯測試 AI 生成的稅務立場。我們選擇 OPA 而非 Catala,是因為 OPA 已從 CNCF 畢業、擁有龐大社群、能產生全面的查核軌跡,並能與現代 API 架構整合。Catala 雖然優雅,但在美國稅務上沒有任何生產環境部署,且編譯器並不穩定。
一次典型的初期建構涵蓋 10-15 條條文:第 199A 條(QBI 扣除額)、第 163(j) 條(營業利息限制)、第 1031 條(同類資產交換)、OBBBA QPVLI、第 280A 條(家庭辦公室)及第 30D 條(電動車抵減)。這些是根據錯誤頻率資料與罰款風險暴露而挑選的。
該引擎以結構化的稅務立場作為輸入,並回傳通過/未通過結果,以及具體的法定引註鏈。它透過 REST API 與 ONESOURCE、CCH Axcess、Blue J 或內部工具整合。
我們建構以 Neo4j 為基礎的知識圖譜,編碼 IRC 的交叉參照、修正鏈與預設/例外階層。該圖譜呈現出向量搜尋會遺漏的關係:第 163(h)(4)(B) 條對第 163(h)(4)(A) 條的例外設下數值上限,而後者本身又是對第 163(h)(1) 條一般禁止規定的例外。
每一份圖譜都針對客戶的稅務立場範圍客製化界定。一家有移轉訂價考量的跨國企業,所獲得的圖譜會不同於一家面臨銷售與使用稅複雜性的國內零售商。我們不嘗試編碼完整的 IRC。那是一項耗時數年、耗資數百萬美元的學術工程。我們編碼的是貴方特定查核風險集中之處的條文。
知識圖譜實現了 GraphRAG 擷取:查詢會遍歷法定結構,而不僅是關鍵字相似度。當 LLM 詢問 OBBBA 扣除額時,圖譜不僅擷取第 163(h)(4) 條,還會依序擷取第 62/63 條的區別以及逐步淘汰公式。
在 Heppner 判決(紐約南區聯邦地方法院,2026 年 2 月)之後,使用公開的 AI 工具進行稅務研究,會產生特權棄權(privilege waiver)的風險。Rakoff 法官認定,與公開可用的 AI 平台的通訊不受律師-當事人特權(attorney-client privilege)保護。Morgan Lewis 建議所有內部稅務專業人士仰賴封閉式的內部 AI 系統。
我們設計並部署企業級 AI 架構,使任何資料都不會離開客戶的邊界。LLM 採自我託管或在客戶的 VPC 中執行。知識圖譜在本地。驗證引擎在內部就地處理一切。對於需要由律師主導使用 AI(以強化 Kovel 安排下的特權主張)的事務所,我們會據此建構架構。
這並非要再打造一個聊天機器人。而是要確保:若特權問題在訴訟或查核中浮現,你既有的 AI 稅務研究工作流程能站得住腳。
78% 的企業執行 4-7 套 ERP 系統(Phoenix Strategy Group)。稅務資料散落在 SAP、Oracle、NetSuite,有時還在某位明年就要退休的人所維護的 Excel 試算表裡。50% 的稅務部門主管將缺乏可持續的資料策略列為其最大障礙(EY)。
我們建構連接器。以 Apache Airflow 進行協調、以 dbt 進行 GAAP 至稅基的轉換、在每個檢查點以 OPA 驗證規則,在資料品質問題傳遞進申報表之前加以攔截。目標是讓結構化、已驗證的稅務資料,從來源系統持續流入你所使用的任何合規平台。
這是我們所做最不光鮮的工作,卻往往最有價值。一個驗證引擎的好壞,取決於它所接收的資料。
GloBE 計算是確定性的。OECD 2026 年 1 月的行政指引確認,支柱二已進入合規階段。公式是已知的。困難在於,要為你營運所及的每一個管轄區,餵入精確的個體層級財務資料。
我們建構客製化資料管線,將當地法定帳目連接至 GloBE 報告要求:逐管轄區的有效稅率計算、合格的國內最低補充稅(top-up tax)模型,以及基於實質的所得排除計算。該管線會自動處理 GAAP 差異、集團內部沖銷與貨幣換算。確定性計算引擎位於一條乾淨資料管線的末端,而非架在人工調節的試算表之上。
每一次委任都從界定範圍(scoping)階段開始。我們不銷售預製解決方案,因為每一個企業稅務環境都不相同。
我們繪製你目前的稅務技術堆疊:你使用哪些平台、資料如何在 ERP 與合規工具之間流動、何處發生人工介入,以及哪些條文帶有最高的罰款風險暴露。產出是一份依風險排序的驗證目標清單與一份詳細的建構規格書。若範圍界定顯示現成工具已能解決你的問題,我們會直說。並非每個稅務部門都需要客製化驗證層。
我們以 OPA/Rego 編碼優先條文、在 Neo4j 中建構相關的知識圖譜區段、建構至你既有平台的 API 連接器,並在你的環境中部署驗證引擎。每一條編碼後的條文,都會與你的資深稅務人員進行一輪驗證循環。規則編碼是透明的:你的團隊可以閱讀 OPA 政策,並確認其與他們對法條的理解相符。
驗證引擎在真實稅務立場上,與你既有的工作流程並行運作。我們衡量攔截率(已辨識的錯誤)、誤報率(被標記的正確立場)與整合穩定性。調整即時進行。試行期間,正是知識圖譜根據你實際的稅務立場範圍(而非假設情境)獲得精修之時。
國會平均每年對稅法做出 420 項變動(納稅人權益維護處)。IRS 持續發布一連串通告、稅收裁定與擬議法規。隨著你的風險樣態演變,我們更新 OPA 規則、擴充知識圖譜,並為新條文新增涵蓋範圍。維護委任包含每季一次的驗證效能指標檢視與優先順序調整。
我們不編製稅務申報表。我們不取代你的合規平台。我們不提供法律意見,也不擔任你的稅務顧問。我們建構的是讓你既有工具與顧問更可靠的技術層。若你需要一家事務所來編製你的申報表,Thomson Reuters 和 Wolters Kluwer 擁有極佳的平台。若你需要有人來驗證那些申報表中 AI 輔助的立場是否與法條一致,那就是我們的工作。
回答六個關於你目前稅務技術環境的問題。本評估會辨識出驗證缺口存在之處,以及在建構驗證層之前所需的基礎步驟。
第 1 題,共 6 題
你需要一個獨立於產生答案的 AI 工具之外運作的驗證層。驗證 AI 稅務研究的核心問題在於:產生錯誤答案的同一套 LLM 偏誤,也會產生聽來令人信服的理由。要求 AI 去「檢查它自己的作業」,依舊是經由產生該錯誤的同一套機率權重在跑。
有效的驗證需要一個具備確定性邏輯的獨立系統。我們將這些建構為 OPA/Rego 政策引擎,編碼特定的 IRC 條文。驗證引擎接收 AI 的結論(例如「此扣除額減少 AGI」),並依編碼後的法條加以測試。若法條另有規定,引擎會回傳一個硬性封鎖,並附上具體的條文引註。
這之所以有效,是因為驗證層無法存取部落格文章、訓練資料或熱門度訊號。它只知道法條怎麼說。對於企業部署,我們通常從 10-15 條罰款風險暴露最高的高錯誤率條文開始(第 199A 條 QBI、第 163(j) 條營業利息限制、第 1031 條同類資產交換、OBBBA QPVLI)。驗證引擎透過 API 與你已在使用的任何稅務平台整合,無論那是 ONESOURCE、CCH Axcess、Blue J 還是內部工具。
負責的是 CPA 或稅務顧問。每一家主要稅務軟體廠商都對 AI 輸出免除責任。Thomson Reuters、Intuit 與 Wolters Kluwer 都明確聲明,AI 生成的內容不構成稅務意見,且專業人士仍須負責。
AICPA 修訂後的《稅務服務標準聲明》(2024 年 1 月生效)要求會員在使用電子工具時善盡專業注意義務,各州會計師委員會也正在草擬 AI 專屬指引。IRS 並不在乎一個錯誤立場是由人類、AI 還是一顆神奇魔球所產生。IRC 第 6662 條下的準確性相關罰款,對因疏失或重大短報所致的短繳課以 20% 罰款,不論使用何種工具。第 6663 條下的詐欺罰款高達 75%。
2026 年 2 月的 Heppner 判決又添了一層:若稅務專業人士使用公開的 AI 工具並輸入受特權保護的客戶資訊,該特權可能被全面棄權。這正是我們建構封閉式、企業級驗證系統,將敏感資料保留在組織邊界之內的原因。我們產生的驗證查核軌跡也具有防禦性的用途。當某個 AI 輔助的立場日後遭到質疑時,一份顯示法定邏輯鏈的確定性查核軌跡,會比「AI 這麼說的」更能有力地證明已善盡注意義務。
有可能。Heppner 判決(2026 年 2 月 10 日,紐約南區聯邦地方法院,Rakoff 法官)確立:與公開可用的 AI 平台的通訊,不受律師-當事人特權或工作成果原則(work product doctrine)保護。被告曾將從其律師處得知的資訊輸入一個公開的 AI 工具,法院認定此舉構成向第三方揭露,進而摧毀了該特權。
對稅務部門而言,其影響重大。內部稅務法律顧問經常研究涉及潛在風險暴露、積極規劃或查核防禦策略的敏感立場。若該研究是透過公開的 AI 工具進行,則分析內容、所提問題與所提供的資料,全都可能變得可被揭示(discoverable)。
Morgan Lewis 於 2026 年 3 月發布了詳細指引,建議所有內部稅務專業人士避免將機密或受特權保護的資訊輸入公開的 AI 系統,而應仰賴僅供組織內相關人員存取的封閉式內部 AI 系統。具備適當 Kovel 型安排(即 AI 的使用由律師主導)的企業 AI 架構,能提供更強的保護。我們將這些建構為自我託管或私有雲的部署,使任何資料都不會離開客戶的環境。LLM 在邊界內執行、知識圖譜在本地、驗證引擎在內部就地或在客戶的 VPC 中處理一切。
Blue J 與 ONESOURCE 解決的是不同的問題。Blue J 是一個機率性的稅務研究工具。它透過 RAG 擷取相關的權威依據,並產生以精選來源為基礎的答案。其低於 700 分之 1 的異議率令人印象深刻,但該指標衡量的是使用者的異議,而非法定的客觀真實。一個不知道正確答案的使用者,無法對一個錯誤答案表示異議。
ONESOURCE 是一個合規平台。其確定性引擎處理稅務計算(稅率、表單、申報),而 ONESOURCE+ 加入了用於工作流程自動化的代理式 AI(agentic AI)。它的設計目的並非驗證新穎的稅務立場,或攔截 AI 生成研究中的誤分類錯誤。
確定性驗證引擎做的是這兩種工具都不做的事:它接收一個具體的稅務立場,並依編碼後的法定邏輯加以測試。該引擎不產生答案,而是驗證答案。可以把它想成稅務立場的編譯器型別檢查器。該立場要麼滿足法定條件,要麼不滿足。當它不滿足時,引擎會回傳具體的失敗點(例如「扣除額被分類為第 62 條,但法條將其置於第 63(b)(7) 條」)。這與 Blue J 和 ONESOURCE 相輔相成。Blue J 產生研究。ONESOURCE 編製申報表。驗證引擎則在申報表送出之前,檢查所採取的立場是否與法條一致。
這是一種混合模式。GloBE 計算本身是確定性的,且非常適合自動化:計算逐管轄區的有效稅率、與 15% 的最低標準比較、計算補充稅(top-up tax)。KPMG、EY 與 Deloitte 都提供支柱二計算引擎。困難之處不在計算,而在資料。
支柱二需要跨跨國企業營運所及每一個管轄區的個體層級財務資料。那些資料散落在不同的 ERP、不同的會計科目表結構、不同的當地 GAAP 準則之中。只有 15% 的東南亞組織表示已為支柱二合規做好充分準備(EY,2026)。瓶頸在於將當地法定帳目連接至 GloBE 報告要求,而不在於跑公式。
AI 在兩個具體環節有所幫助:從各異的來源擷取並標準化資料,以及在當地 GAAP 處理與 GloBE 框架之間進行轉譯。我們建構客製化資料管線,以 Apache Airflow 進行協調、以 dbt 進行轉換,並在每個檢查點以 OPA 驗證規則,在資料品質問題傳遞進 GloBE 計算之前加以攔截。計算引擎本身是確定性的。需要客製化工作的,是餵入它的那條資料管線。
一個聚焦的驗證引擎,涵蓋 10-15 條高錯誤率的 IRC 條文,初期建構通常需 8-12 週,費用為 $150K-$300K,視條文的複雜度與需要 API 整合的稅務平台數量而定。其中包含 OPA 政策編碼、相關 IRC 交叉參照的知識圖譜建構、至你既有稅務平台的 API 連接器,以及一段使用真實稅務立場的試行期。
作為對照,平均一份企業稅務申報表光是編製就要花 $9,090(Fortune,2026)。一家在 20 個州申報的中型市場企業,光是編製人力每年就花費 $180K+。驗證引擎在這項既有支出之上,再加上一個品質層。
持續維護的費用為每月 $3K-$8K,涵蓋每年的稅法更新(國會平均每年做出 420 項變動)、新 IRS 指引的納入,以及規則擴充。納入支柱二管線工作、ERP 資料整合或保護特權安全架構設計的較大型委任,會另行界定範圍,通常需 4-6 個月。我們在一次為期 2 週的範圍界定委任($15K-$25K)之後,以固定費用為其報價;該委任會繪製你目前的稅務技術堆疊、辨識風險最高的立場,並產出一份詳細的建構規格書。
本解決方案頁面背後的研究,可作為互動式白皮書取得。
隨機鸚鵡 vs. 法定法典:AI 稅務合規中的共識性錯誤與神經符號解方一份詳盡的分析,探討 LLM 如何透過訓練資料偏誤系統性地產生錯誤的稅務建議,並提出一套用於確定性稅務驗證的神經符號架構。
隨著企業查核率上升至 22.6%、準確性罰款達短繳金額的 20%,單一條被誤分類的條文,所付出的代價就超過一個驗證引擎。
從一次為期 2 週的範圍界定委任開始。我們繪製你的稅務技術堆疊、辨識你風險最高的條文,並產出一份你可以呈給領導層的建構規格書。