税务合规 AI
Thomson Reuters 的"Ready to Review"自动准备 1040 表格。CCH Axcess Expert AI 为 10,000 家事务所起草咨询洞察。Blue J 回答税务研究问题,不一致率低于七百分之一。
准备问题正在被解决,验证问题却没有。当 AI 把一项扣除项错误地归类为线上扣除(above-the-line)而非线下扣除(below-the-line)时,20% 的准确性罚款落在签署该报税表的人身上,而不是起草它的算法身上。我们构建的正是验证层,能在这些错误抵达 IRS 之前将其捕获。
$126B+
美国企业税务合规年度成本
Fortune,2026 年 3 月
8.8% → 22.6%
IRS 大型企业审计率上升
IRS 执法优先事项,2026 年
50%
意识到 AI 造成财务损失的会计师比例
Accountancy Age,2026 年 3 月
税务 AI 失败并非孤立的幻觉。它们是训练数据中固化的系统性偏差,会以完美的语法和听上去合理的引证给出自信却错误的答案。
《综合预算调节法案》(OBBBA)在 IRC 第 163(h)(4)(A) 条下创设了一项针对合格乘用车贷款利息(QPVLI)的新扣除。该扣除被置于 第 63(b)(7) 条,这意味着它减少的是 应纳税所得额,而非调整后总收入。
这是一项线下扣除(below-the-line)。它不会降低 AGI。
然而截至 2026 年 4 月,H&R Block 自己的网站仍将其描述为一项"线上激励(above-the-line incentive)"。成千上万的博客文章、SEO 优化文章和金融内容农场重复着同样的错误归类。当基于这些内容训练的 LLM 回答关于 OBBBA 扣除的问题时,它们会高度自信地复现这一错误,因为错误的表述出现的频率比正确的法定条文高出几个数量级。
| 影响领域 | 若被误归为线上扣除(above-the-line) | 实际的法定效果 | 财务后果 |
|---|---|---|---|
| AGI 计算 | 错误地降低 AGI | 不影响 AGI | 联邦税少缴 |
| 州税(与 AGI 挂钩的州) | 错误地降低州税 | 在多数州无影响 | 多州审计风险 |
| Medicare IRMAA 保费 | 虚假的保费下降 | 对保费无影响 | 退休人员的意外成本 |
| 医疗扣除门槛 | 错误地降低 7.5% 门槛 | 对门槛无影响 | 被否决的扣除项 + 利息 |
| 学生贷款 IDR | 虚假的资格认定 | 对还款无影响 | 不符合贷款条款 |
一次线上/线下扣除(above-the-line/below-the-line)的误归类,会连锁影响至少五项下游计算。这只是一个条款。IRC 有数千个。
LLM 并不对税法进行推理。它们基于训练数据中的模式预测下一个 token。当博客圈对某一特定条款有 90% 的内容是错误的(这在技术性立法变更中很常见)时,无论提示词如何,模型的权重都会收敛到错误的答案。
RAG 有所帮助,但并不能解决这个问题。Blue J 会检索出法条原文,但 LLM 仍须对其进行解读。修订性条文语言("第 163(h) 条经修订加入……")要求从碎片中重建法典的当前状态。如果模型的内部权重被数以百万计的错误博客文章所扭曲,它就会成为一个有偏见的读者,即便检索到的文本正确也会误读。
提示工程同样无法解决这一问题。你无法指示一个概率引擎变成一个逻辑求解器。对于要求确定性正确的条款,架构本身必须改变。
下面的每一个类别都解决了一个真实的问题。但它们都没有解决对 AI 生成的税务立场的验证。本表旨在评估税务技术投资时,能够在内部会议上调出来使用。
| 类别 | 主要参与者 | 他们实际做什么 | 诚实的差距 |
|---|---|---|---|
| 平台老牌厂商 | Thomson Reuters ONESOURCE+、Wolters Kluwer CCH Axcess Expert AI、Intuit ProConnect | 端到端合规:数据导入、报税表准备、申报、工作流自动化。ONESOURCE 宣称将常规报表减少 65%。CCH Axcess 已嵌入 10,000 家事务所。 | 对照自己的规则验证自己的输出。没有跨平台验证。Agentic AI 是工作流自动化,而非立场验证。上游的数据质量问题会一路传播下去。 |
| AI 税务研究 | Blue J(1.22 亿美元 D 轮)、TaxGPT(460 万美元)、Bizora | 在精选的权威数据库上进行自然语言税务研究。Blue J:基于 GPT-4.1 的 RAG,不一致率 <1/700。Bizora:覆盖全部 50 州 SALT,30-120 美元/月。 | 概率性答案。七百分之一的不一致率衡量的是用户的不一致,而非客观真值的准确性。不知道正确答案的用户无法对一个错误答案表示不一致。不适合作为高罚款立场的唯一依据。 |
| 确定性税务引擎 | Vertex(3 亿+税率)、Avalara(84 亿美元 + 贝莱德 5 亿美元)、Sovos(Sovi AI) | 间接税计算:在 12,000+ 个税收管辖区进行税率、免税、申报。对于所覆盖的场景 100% 确定。完整的审计追踪。 | 无法处理自然语言。无法对模糊条款(事实与情境测试)进行推理。新增规则需要人工编码。仅限于间接税;所得税验证是另一个独立的问题。 |
| 四大 / 大型系统集成商 | EY+IBM(watsonx)、KPMG(Tax AI Accelerator)、Deloitte、PwC | 供内部使用的专有 AI 工具。EY 目标是将外国税务合规自动化 80%。KPMG 于 2026 年 2 月推出 Tax AI Accelerator。PwC 宣称开发者生产力提升 20-50%。 | 为他们自己的业务委托而构建的专有工具,并不向你的税务部门开放。委托项目费用在 50 万至 500 万美元以上。他们部署平台,而非构建定制验证层。他们的 AI 工具验证的是他们自己的工作,而非你的。 |
| 神经符号 / 决策平台 | Rainbird AI(BDO 客户) | 带 AI 护栏的确定性图谱推理。BDO 将研发税务审查从 5 小时缩短到几秒。透明的推理链。 | 通用型平台,并非税务专用。每个用例都需要构建定制的知识图谱。BDO 的案例是研发抵免(狭窄领域),而非一般税务合规。聚焦英国。 |
| 学术 / 研究 | Catala(INRIA)、PROLEG(日本 NII)、Sarah Lawsky(西北大学) | 用于将税法形式化的领域专用语言。Catala 擅长默认/例外逻辑。被法国政府用于住房福利。Lawsky 在 IRC 第 121、132 条上做了演示。 | 尚未达到生产就绪状态。Catala 编译器被描述为"仍不稳定"。完整的 IRC 有 400 万+词。仅有少数美国条款被形式化。PROLEG 是为日本《民法典》设计的。距离企业部署还有数年之遥。Veriprajna 也无法解决这一点;我们改用 OPA/Rego 来进行生产环境的规则编码。 |
本表中缺失的:一个供应商中立的验证层,它位于上述任一平台之上,并以确定性的方式捕获立场层面的错误。这正是我们填补的空白。
每个委托项目都是定制的。这些是我们为税务技术工作带来的能力,而不是你从货架上购买的产品。
我们用 OPA/Rego 对高错误率的 IRC 条款进行编码,创建一个确定性的验证层,针对法定逻辑来检验 AI 生成的税务立场。我们选择 OPA 而非 Catala,是因为 OPA 已从 CNCF 毕业、拥有庞大的社区、能生成全面的审计追踪,并能与现代 API 架构集成。Catala 优雅,但在美国税务领域没有生产部署,且编译器不稳定。
一次典型的初始构建覆盖 10-15 个条款:第 199A 条(QBI 扣除)、第 163(j) 条(企业利息限制)、第 1031 条(同类财产交换)、OBBBA QPVLI、第 280A 条(家庭办公室)和第 30D 条(电动车抵免)。这些条款是根据错误频率数据和罚款风险敞口选定的。
该引擎以结构化的税务立场作为输入,返回通过/不通过的结果以及具体的法定引证链。它通过 REST API 与 ONESOURCE、CCH Axcess、Blue J 或内部工具集成。
我们构建基于 Neo4j 的知识图谱,对 IRC 的交叉引用、修订链以及默认/例外层级进行编码。该图谱表示了向量检索会遗漏的关系:第 163(h)(4)(B) 条对第 163(h)(4)(A) 条中的例外设定了一个数额上限,而后者本身又是第 163(h)(1) 条一般禁止规定的一个例外。
每个图谱都按客户的税务立场范围进行定制界定。一家关注转让定价的跨国企业所获得的图谱,与一家面临销售与使用税复杂性的国内零售商不同。我们不试图对完整的 IRC 进行编码。那是一个耗时数年、耗资数百万美元的学术性工程。我们只对你的特定审计风险集中所在的那些条款进行编码。
该知识图谱支持 GraphRAG 检索:查询会遍历法定结构,而不仅仅是关键词相似度。当 LLM 询问 OBBBA 扣除时,图谱不仅会检索第 163(h)(4) 条,还会按顺序检索第 62/63 条的区别以及逐步淘汰公式。
在 Heppner 裁决(SDNY,2026 年 2 月)之后,使用公开 AI 工具进行税务研究会产生特免权放弃的风险。Rakoff 法官认定,与公开可用的 AI 平台的通讯不受律师-委托人特免权保护。Morgan Lewis 建议所有内部税务专业人员依赖封闭的内部 AI 系统。
我们设计并部署企业级 AI 架构,确保没有任何数据离开客户的边界。LLM 自托管运行,或运行在客户的 VPC 中。知识图谱是本地的。验证引擎在本地处理一切。对于需要由律师主导使用 AI(以在 Kovel 安排下强化特免权主张)的事务所,我们会相应地构建架构。
这不是要再构建一个聊天机器人。这是要确保:如果特免权问题在诉讼或检查中浮现,你现有的 AI 税务研究工作流是可以站得住脚的。
78% 的企业运行 4-7 个 ERP 系统(Phoenix Strategy Group)。税务数据存在于 SAP、Oracle、NetSuite,有时还在某位明年就要退休的人维护的 Excel 电子表格里。50% 的税务部门负责人将缺乏可持续的数据战略列为他们最大的障碍(EY)。
我们构建连接器。用 Apache Airflow 进行编排,用 dbt 进行 GAAP 到税基的转换,并在每个检查点设置 OPA 验证规则,在数据质量问题传播进报税表之前将其捕获。目标是让结构化、经过验证的税务数据从源系统持续流入你所使用的任何合规平台。
这是我们所做的最不光鲜的工作,却往往是最有价值的。一个验证引擎的好坏,取决于它所接收到的数据。
GloBE 计算是确定性的。OECD 2026 年 1 月的管理指南确认,支柱二已进入合规阶段。公式是已知的。难点在于为其提供你运营所在每一个司法管辖区准确的实体级财务数据。
我们构建定制数据管道,将本地法定账目连接到 GloBE 报告要求:按司法管辖区计算有效税率、合格境内最低补足税建模,以及基于实质的收入排除计算。该管道会自动处理 GAAP 差异、公司间抵销和货币换算。确定性计算引擎位于一条干净的数据管道的末端,而不是位于人工调节的电子表格之上。
每个委托项目都从范围界定阶段开始。我们不销售预先构建的解决方案,因为每个企业的税务环境都不同。
我们测绘你当前的税务技术栈:你使用哪些平台、数据如何在 ERP 与合规工具之间流动、人工介入发生在哪里,以及哪些条款承载着最高的罚款风险敞口。其产出是一份按风险排序的验证目标清单和一份详细的构建规范。如果范围界定揭示现成工具已经解决了你的问题,我们会如实相告。并非每个税务部门都需要定制验证层。
我们用 OPA/Rego 对优先条款进行编码,在 Neo4j 中构建相关的知识图谱片段,构建到你现有平台的 API 连接器,并在你的环境中部署验证引擎。每个被编码的条款都会与你的资深税务人员共同经历一个验证周期。规则编码是透明的:你的团队可以阅读 OPA 策略,并确认它们与他们对法条的理解相符。
验证引擎在真实的税务立场上与你现有的工作流并行运行。我们衡量捕获率(识别出的错误)、误报率(被标记的正确立场)以及集成稳定性。调整实时进行。试点期是知识图谱根据你实际的税务立场范围(而非假设场景)得到精炼的时候。
国会平均每年对税法做出 420 项修改(纳税人权益维护服务处)。IRS 持续发布大量通知、税收裁定和拟议法规。我们更新 OPA 规则、扩展知识图谱,并随着你风险状况的演变为新条款增加覆盖。维护性委托包括对验证性能指标的季度审查和优先级调整。
我们不准备报税表。我们不取代你的合规平台。我们不提供法律建议,也不充当你的税务顾问。我们构建的是让你现有工具和顾问更可靠的技术层。如果你需要一家事务所来准备报税表,Thomson Reuters 和 Wolters Kluwer 都有出色的平台。如果你需要有人来验证那些报税表中 AI 辅助生成的立场是否与法条一致,那就是我们的工作。
回答关于你当前税务技术环境的六个问题。该评估会识别出验证差距存在于何处,以及在构建验证层之前需要哪些基础性步骤。
第 1 题,共 6 题
你需要一个独立于产生答案的 AI 工具之外运作的验证层。验证 AI 税务研究的核心问题在于:产生错误答案的那些 LLM 偏差,同样会产生听上去令人信服的理由。让 AI 去"检查它自己的工作",走的还是当初产生错误的那些概率权重。
有效的验证需要一个具有确定性逻辑的独立系统。我们将其构建为 OPA/Rego 策略引擎,对特定的 IRC 条款进行编码。验证引擎接受 AI 的结论(例如"这项扣除减少 AGI"),并针对已编码的法条对其进行检验。如果法条另有规定,引擎会返回一个硬性拦截,并附上具体的条款引证。
这之所以有效,是因为验证层无法访问博客文章、训练数据或流行度信号。它只知道法条说了什么。对于企业部署,我们通常从 10-15 个高错误率条款入手(第 199A 条 QBI、第 163(j) 条企业利息限制、第 1031 条同类财产交换、OBBBA QPVLI),这些条款的罚款风险敞口最高。验证引擎通过 API 与你已经在使用的任何税务平台集成,无论那是 ONESOURCE、CCH Axcess、Blue J,还是内部工具。
CPA 或税务顾问承担责任。每一家主要的税务软件供应商都对 AI 输出免责。Thomson Reuters、Intuit 和 Wolters Kluwer 都包含明确的免责声明,称 AI 生成的内容并非税务建议,专业人员仍负有责任。
AICPA 修订后的《税务服务标准声明》(2024 年 1 月生效)要求成员在使用电子工具时尽到应有的专业谨慎,各州会计委员会正在起草针对 AI 的指南。IRS 不在乎一个错误立场是由人、由 AI,还是由一个魔法八号球生成的。IRC 第 6662 条下的准确性相关罚款,对因疏忽或重大少报而导致的少缴税款处以 20% 的罚款,无论所用工具为何。第 6663 条下的欺诈罚款高达 75%。
2026 年 2 月的 Heppner 裁决又增加了一层:如果税务专业人员使用公开 AI 工具并输入了受特免权保护的客户信息,那么该特免权可能被完全放弃。这正是我们构建封闭的、企业级验证系统的原因,它能把敏感数据保留在组织边界之内。我们生成的验证审计追踪也起到防御作用。当一项 AI 辅助生成的立场日后受到质疑时,一份展示法定逻辑链的确定性审计追踪,比"AI 是这么说的"是更有力的尽职调查证据。
有可能。Heppner 裁决(2026 年 2 月 10 日,SDNY,Rakoff 法官)确立:与公开可用的 AI 平台的通讯不受律师-委托人特免权或工作成果原则保护。被告将从其律师处获悉的信息输入了一个公开 AI 工具,法院认定这构成了向第三方的披露,从而摧毁了特免权。
对于税务部门而言,其影响是重大的。内部税务法律顾问经常研究涉及潜在风险敞口、激进规划或审计辩护策略的敏感立场。如果这类研究是通过公开 AI 工具进行的,那么分析、所提的问题以及所提供的数据,都可能变得可被取证调取。
Morgan Lewis 于 2026 年 3 月发布了详细指南,建议所有内部税务专业人员避免向公开 AI 系统输入机密或受特免权保护的信息,转而依赖只有组织内相关人员可访问的封闭内部 AI 系统。具备适当 Kovel 式安排(即 AI 的使用由律师主导)的企业级 AI 架构提供更强的保护。我们将其构建为自托管或私有云部署,确保没有任何数据离开客户的环境。LLM 在边界内运行,知识图谱是本地的,验证引擎在本地或在客户的 VPC 中处理一切。
Blue J 和 ONESOURCE 解决的是不同的问题。Blue J 是一款概率性的税务研究工具。它通过 RAG 检索相关权威依据,并生成以精选来源为依据的答案。它低于七百分之一的不一致率令人印象深刻,但该指标衡量的是用户的不一致,而非法定的客观真值。一个不知道正确答案的用户无法对一个错误答案表示不一致。
ONESOURCE 是一个合规平台。它的确定性引擎处理税务计算(税率、表格、申报),而 ONESOURCE+ 增加了用于工作流自动化的 agentic AI。它并非为验证新颖的税务立场或捕获 AI 生成研究中的误归类错误而设计。
确定性验证引擎做的是这两个工具都不做的事:它接受一项具体的税务立场,并针对已编码的法定逻辑对其进行检验。该引擎不生成答案,而是验证它们。可以把它想象成税务立场的编译器类型检查器。该立场要么满足法定条件,要么不满足。当它不满足时,引擎会返回具体的失败点(例如"扣除被归类为第 62 条,但法条将其置于第 63(b)(7) 条")。这与 Blue J 和 ONESOURCE 都是互补的。Blue J 生成研究。ONESOURCE 准备报税表。验证引擎则在报税表提交之前检查所采取的立场是否与法条一致。
这是一种混合方式。GloBE 计算本身是确定性的,非常适合自动化:计算每个司法管辖区的有效税率,与 15% 的最低标准比较,计算补足税。KPMG、EY 和 Deloitte 都提供支柱二计算引擎。难点不在于计算,而在于数据。
支柱二要求提供跨越跨国企业运营所在每一个司法管辖区的实体级财务数据。这些数据存在于不同的 ERP、不同的会计科目表结构、不同的当地 GAAP 标准之中。只有 15% 的东南亚组织报告称已为支柱二合规做好充分准备(EY,2026 年)。瓶颈在于将本地法定账目连接到 GloBE 报告要求,而非运行公式。
AI 在两个具体环节提供帮助:从各异的来源中提取并规范化数据,以及在当地 GAAP 处理与 GloBE 框架之间进行转换。我们使用 Apache Airflow 进行编排、dbt 进行转换来构建定制数据管道,并在每个检查点设置 OPA 验证规则,在数据质量问题传播进 GloBE 计算之前将其捕获。计算引擎本身是确定性的。为其供给数据的数据管道才是需要定制工作的地方。
一个聚焦的验证引擎覆盖 10-15 个高错误率 IRC 条款,初始构建通常需要 8-12 周,费用在 $150K-$300K,具体取决于条款的复杂度以及需要进行 API 集成的税务平台数量。这包括 OPA 策略编码、针对相关 IRC 交叉引用的知识图谱构建、到你现有税务平台的 API 连接器,以及一段使用真实税务立场的试点期。
作为参照,一份普通企业报税表仅准备费用就达 $9,090(Fortune,2026 年)。一家在 20 个州申报的中型市场企业,每年仅在准备人工上就花费 $180K+。验证引擎在那笔现有支出之上增加了一层质量保障。
持续维护费用为每月 $3K-$8K,涵盖年度税法更新(国会平均每年做出 420 项修改)、新 IRS 指南的纳入以及规则扩展。包含支柱二管道工作、ERP 数据集成或特免权安全架构设计的较大型委托另行界定范围,通常历时 4-6 个月。我们在一次为期 2 周的范围界定委托($15K-$25K)之后以固定费用方式定价,该委托会测绘你当前的税务技术栈、识别风险最高的立场,并产出一份详细的构建规范。
这份解决方案页面背后的研究,以交互式白皮书形式提供。
随机鹦鹉 vs. 法定法典:AI 税务合规中的共识性错误与神经符号疗法对 LLM 如何通过训练数据偏差系统性地产生错误税务建议进行的详细分析,并提出了一种用于确定性税务验证的神经符号架构。
随着企业审计率升至 22.6%、准确性罚款达到少缴税款的 20%,单一一个被误归类的条款所付出的代价就高于一个验证引擎。
从一次为期 2 周的范围界定委托开始。我们会测绘你的税务技术栈、识别你风险最高的条款,并产出一份你可以呈交给领导层的构建规范。