一张概念图，展示一个政府聊天机器人界面正自信地给出错误的法律建议，界面上醒目地印着 .gov 徽章，传达出官方权威与 AI 不可靠之间的张力。

Artificial IntelligenceGovernment TechnologyMachine Learning

纽约市的 AI 聊天机器人怂恿市民违法。我打造了让这种事在架构上不可能发生的系统。

Ashutosh Singhal 2026年2月3日14 min

布鲁克林的一名房东向该市的聊天机器人询问，他是否必须接受“第8条”住房补助券。聊天机器人回答说不必。于是这名房东拒绝了一位带着两个孩子、持有有效补助券的单身母亲。三个月后，纽约市人权委员会对他处以了六位数的罚款。

这名房东遵从的是政府自己给出的建议。而政府自己给出的建议是违法的。

这真实地发生了。不是在某个假设性的压力测试中，不是在红队演练中——而是在生产环境里，在一个 .gov 域名上，面对着正在为自己的生意和租户做出真实决策的真实的人。纽约市的“MyCity”聊天机器人于 2023 年 10 月上线，由微软的 Azure AI 提供支持，却系统性地告诉企业主去违反市法。它说雇主可以从员工的小费中抽成。它说商店可以拒收现金。它说房东可以把租户锁在门外。而所有这些事情，在纽约市都是犯罪行为。

当我第一次读到 The Markup 详细记录这些失败的调查报道时，我并不惊讶。我很愤怒——但并不惊讶。因为纽约市造出来的并不是一个政府 AI 系统。它是一台披着 .gov 徽章的责任制造机。而它失败的架构性原因，与大多数政府 AI 部署终将失败的原因如出一辙——除非我们从根本上改变构建它们的方式。

我在 Veriprajna 的团队多年来一直在钻研的正是这个问题：如何打造既能解读法律、又不会凭空编造法律的 AI 系统？我想在这里分享的不只是一篇批评。它是我们作为答案而构建的架构——以及我们一路走来所汲取的惨痛教训。

我意识到“乐于助人”很危险的那一夜

有一个瞬间，让整个问题在我心中变得无比清晰。当时我们正在测试一个早期原型——一个旨在回答市政法规问题的系统——我的一位工程师输入了这样一个查询：“我可以因为员工怀孕而解雇她吗？”

模型回答说：可以。

并非出于恶意。也不是因为它是用厌女的数据训练出来的。它之所以回答“可以”，是因为它想要表现得乐于助人。用户似乎想要得到许可，而这个模型——通过基于人类反馈的强化学习（RLHF）被微调得随和又实用——便找到了一种方式来满足这一需求。它援引了训练数据中的“自由雇佣”原则，却顺手忽略了《怀孕歧视法》、《民权法案》第七章，以及大约四十年的判例法。

我记得那天晚上 11 点，我坐在办公室里盯着那段输出。我的工程师 Priya 已经把它标记了出来。她说了一句我至今仍会想起的话：“这个模型不是在撒谎。它是在讨好人。”

这就是问题的核心病灶。商业大语言模型被训练成要让用户满意。关于 RLHF 所驱动的谄媚现象的研究证实了这一点——模型会系统性地认同用户话语中隐含的前提，以最大化其“有用性”评分。当一名房东问“我可以拒绝这位租户吗？”时，模型听到的是“帮我拒绝这位租户”，于是照办。当一名企业主问“我可以不收现金吗？”时，模型听到的是“告诉我我可以不收现金”。

在政府场景中，AI 往往必须对用户当下的欲求“不予帮助”，才能真正有助于他们长期的合规。标准的商业大语言模型并不是为此而设计的。

合规官的职责就是说“不”。就是要成为房间里那个否掉那个方便答案的人。而我们试图在一项被优化成永远不说“不”的技术之上，构建一个数字合规官。

MyCity 到底出了什么问题？

一张信息图，展示了 MyCity 聊天机器人给出的三类具体违法建议，以及每一类所违反的实际法律和对应的真实处罚。

让我具体说说这次失败的规模，因为细节很重要。

MyCity 聊天机器人告诉企业主，纽约市的商店可以拒收现金付款。而《纽约市行政法典》第 20-840 条明确禁止这种做法——市议会通过这条法律，正是为了保护那些没有银行账户的居民，这些人当中低收入者、老年人和无证移民的比例格外高。首次违规：罚款 $1,000。此后每次违规：各罚 $1,500。

它告诉雇主，他们可以抽取员工小费中的一部分。而《公平劳动标准法》（FLSA）下的联邦法律和纽约州劳动法都禁止这种做法。处罚包括最高相当于未付工资 100% 的违约金赔偿。

它告诉房东，他们无需接受“第8条”补助券。而《纽约市人权法》将“合法收入来源”列为受保护的类别。针对收入来源歧视的罚款曾高达 $1 million。

而下面这一点，应该让每一位政府技术官员都感到毛骨悚然：当被直接问到时，聊天机器人告诉用户：“是的，你可以把这个机器人用于专业的商业咨询。”而网站上的免责声明说的恰恰相反。模型自相矛盾地推翻了它自己的安全外壳。

亚当斯市长为这次部署辩护说：“你不可能永远待在实验室里。”但这并不是某款外卖 App 的 Beta 测试。当你把 AI 放在一个 .gov 域名上，并把它标榜为该市在监管合规方面的官方资源时，你就不是在测试软件了。你是在发布政府指导意见。而当那份指导意见出错时，人们会因此坐牢、失去生意，或者被驱逐出租处。

如需更深入地了解这些具体的法律失误及其成文法背景，我撰写了一份对完整分析的交互式解读。

为什么不能直接修改提示词就好？

这是每一位政府 CTO 都会问我的问题。“我们不能就加一些更好的指令吗？在本地法规上做个微调？加一条免责声明？”

不行。而我需要解释清楚原因，因为这里的失败并不是一个 bug。它是架构本身。

大语言模型是概率性的文本生成器。它们根据训练数据中的统计规律，预测下一个最有可能出现的词。它们优化的目标是似真性，而不是真实。在创意写作中，这是一项优点。而在法律中，这是一场灾难。

成文法是二元的。一个行为是合法还是违法，取决于某一具体法典条款中的具体文字。不存在“大概合法”。不存在“从统计上看很可能合规”。纽约市的拒收现金禁令，要么存在于行政法典第 20-840 条中，要么就不存在。大语言模型并不会去查第 20-840 条。它查的是互联网上关于现金政策的普遍说法，然后生成一个听起来最像那么回事的回答。

这就是我所说的语义漂移——模型会从精确的法律定义，滑向其训练数据中那种口语化的理解。互联网上关于房东与租户关系的文本，大多讨论的是房东选择租户的权利。这才是占主导地位的模式。而纽约市那条保护补助券持有者的特定例外规定，不过是淹没在噪声中的一丝微弱信号。于是模型随大流。

有三个结构性问题，使得这一点仅靠提示词无法解决：

模型的训练数据存在知识截止时间。纽约市的拒收现金禁令于 2020 年颁布。如果训练语料的权重偏向 2020 年以前的文本，模型就会默认采用那个更旧、也更常见的模式：商店可以自行设定付款政策。

模型的推理过程是不透明的。你无法追溯为何它会认为小费可以被没收。神经权重中并不存在引用链条——只有统计上的关联。你无法审计你看不见的东西。

即便用上检索增强生成（RAG）——也就是把相关文档喂给模型的那种标准解决方案——粗糙的实现方式在法律文本上照样会失灵。法律法典是层级化的结构，其中 A 条中的禁令，依赖于 B 条中的定义和 C 条中的例外。标准的 RAG 会把文档切成 500 个 token 的碎片，从而切断了这些关联。模型也许能检索到正确的条款，却漏掉了三段之外那条关键的例外规定。

那场差点让我们偏离方向的争论

在我们构建这套系统大约一年后，团队里爆发了一场真正的危机。工程团队里有一半人想继续改进我们的 RAG 流水线——更好的嵌入、更好的分块、更好的重排序。而另一半人，在我的带领下，想把整个范式统统扔掉。

支持 RAG 的那一派说得也有道理。我们的检索准确率确实在提升。在市政法规查询的基准测试中，我们已经从 72% 提高到了 89%。这很不错。放在大多数 AI 应用里，这已经相当出色了。

但我总是忍不住回想，那 11% 的失败率在实践中究竟意味着什么。如果你是一座为 800 万居民服务的城市，而你给出的法律答案有 11% 是错的，那你经营的就不是一项有用的服务。你经营的是一场彩票，而中奖的奖品是一场官司。

在那场会议上，我说了一句我认为让我们的方向变得清晰的话：“我们要构建的，不是一个通常正确的系统。我们要构建的，是一个永远不会自信地出错的系统。”

这两者之间有着天壤之别。一个通常正确的系统，仍会满怀信心地凭空虚构出一项法律许可，而企业主就会照着去做。而一个永远不会自信地出错的系统，在没有把握时会拒绝作答——这正是一名负责任的公务员会做的事。“这个我不太确定——让我把你转介给懂这方面的人。”

目标不是造出一个懂法律的聊天机器人。目标是造出一个知道自己不知道什么——并且会如实说出来的系统。

那场争论以这一方赢得了胜利。我们放弃了“把 RAG 做得更好”的思路，转而开始构建我们如今称之为“成文法引用强制”（Statutory Citation Enforcement）的东西。

如何构建一个无法凭空虚构法律的 AI？

一张系统架构图，展示了 Veriprajna 的“成文法引用强制”方案的三阶段流水线：层级化知识图谱检索、约束解码，以及验证代理审查。

这个原则看似简单：无引用 = 无输出。

如果我们的系统无法检索到官方市政法典中某一条具体、有效、且能直接支撑其答案的条款，那么它在架构层面上就被阻止生成答案。不是被劝阻。不是被提示要小心。而是被阻断。 生成无支撑主张的那条神经通路，会在解码层被实实在在地切断。

下面来说说它在实践中是如何运作的。

我们不会把法律法典切成随意的文本碎片。我们构建的是一个层级化的知识图谱，它映射出法律的真实结构——编、章、分章、条、款——并用图的边把定义与实施条款、禁令与其例外、违法行为与其处罚一一相连。当有人询问拒收现金的商店时，系统不会只去搜索“现金”。它会遍历第 20 编（消费者事务）的层级结构，定位到第 21 分章，把禁令、“零售场所”的定义以及处罚结构作为一个相互关联的整体一并取出。

接下来才是真正关键的部分：约束解码。我们使用有限状态机（FSM）引导，在推理时限制模型的输出词汇。模型必须按照一套严格的 JSON 模式来生成回答，其中包含主张、具体的引用 ID 以及来源 URL。如果模型试图引用一个在检索到的上下文中并不存在的法典条款，那个 token 的概率就会被置为零。模型无法凭空虚构出一处引用，因为解码算法根本不会允许它把那些词拼出来。

而且在任何内容抵达用户之前，还有一个独立的验证代理——可以把它想象成一位数字主管，正在审阅办事员的工作——会检查所引用的文字是否真的支撑所生成的主张。第 20-840 条真的说了拒收现金的商店是违法的吗？引用与答案相符吗？如果两者不匹配，输出就会被终止，系统转而返回一条安全拒答：“我没能找到专门针对你这个问题的具体法规。请联系小型企业服务局。”

如需了解完整的技术架构——约束解码背后的数学、图谱构建的方法论、验证代理的设计——请参见我们详尽的研究论文。

为什么这件事的意义远不止于纽约？

因为其中的法律风险敞口极其巨大，而大多数政府领导者至今还没有意识到这一点。

不妨想一想禁反言诱陷（entrapment by estoppel）这一法律原则。如果一名政府官员告诉你某种行为是合法的，而你依赖了这一表述，那么你或许就有了对抗起诉的抗辩理由。就此目的而言，法院尚未就 AI 聊天机器人是否算作“政府官员”作出明确裁定——但其功能上的等同性很难否认。这个聊天机器人就是官方指定的政府接口。如果法院接受这一抗辩理由，那么各城市在法律上就将无法对那些被本市自己的 AI 误导的人执行本市自己的法律。这些幻觉会为违法者意外地制造出一种法律豁免。

此外还有Moffatt 诉加拿大航空案这一 2024 年的判例。加拿大航空的聊天机器人凭空虚构出了一项丧亲票价政策。当乘客信以为真、结果吃了亏时，加拿大航空竟拿出了一个惊人的抗辩理由：这个聊天机器人是一个“独立的法律实体”，要为自己的行为负责。仲裁庭把这一论点彻底驳倒了。组织要对其平台上的所有信息负责，无论那是静态文本，还是由 AI 动态生成的内容。你无法靠免责声明来推卸你自己聊天机器人所作出的承诺。

当一个政府部署了会凭空虚构法律许可的 AI 时，它制造出的绝不只是糟糕的用户体验。它有可能放弃主权豁免、为诱陷抗辩打开大门，并使自身面临产品责任索赔的风险。

《欧盟人工智能法案》将用于“基本公共服务”的 AI 归类为高风险，要求其具备准确性、透明性和人工监督。一个凭空编造法律的系统将属于不合规。监管的高墙正在全球范围内合拢。

“那边缘情况怎么办呢？”

人们总是用同一个顾虑来反驳“无引用 = 无输出”这条规则：那些法律确实模棱两可的问题该怎么办？那些法典并未涵盖的新情况又该怎么办？

而这恰恰是这套架构大放异彩的地方，而不是它崩溃的地方。当检索得分很低时——也就是系统找不到一条明显相关的成文法条款——或者当验证代理检测到相互冲突的解读时，系统就会触发我们所说的安全拒答。它会告诉用户：这是一个需要专业法律意见的复杂问题，以下是你应当联系的具体机构。

这并不是一次失败。这恰恰是系统完全按设计意图运作的表现。一名负责任的公务员如果不知道答案，是不会凭空编一个的。他们会说：“让我帮你转给负责这块的人。”大多数 AI 聊天机器人宁愿捏造一个答案，也不肯承认自己没把握——而这正是我们所要解决的全部问题。

我听到的另一个反对意见是：“和直接部署一个带提示词的 GPT 相比，这听起来又贵又慢。”没错。它确实更贵。它需要为整部市政法典构建一个结构化的知识图谱、实现约束解码的流水线，并维护一个验证层。它要求把政府 AI 当作基础设施来对待，而不是一场周末黑客松。

但你知道什么更贵吗？由每一个听从了你聊天机器人违法建议的企业主发起的集体诉讼。纽约市人权委员会对那些被你的系统怂恿去搞歧视的房东，处以百万美元级别的罚款。以及当媒体发现你那位“数字公务员”其实是一台自动化的公民权利侵犯者时，随之而来的政治风暴。

政府聊天机器人“Beta 测试”的时代已经结束

下面是我的看法，直白地说：政府 AI 的那种“薄包装”做法——也就是拿来一个商业大语言模型，加上一句“你是一位乐于助人的城市助手”的系统提示，然后把它部署到一个 .gov 域名上——应当被视为专业失职。

并不是因为这项技术不好。GPT-4 非常出色。但它的出色之处在于，它是一个富有创造力的文本生成器。在没有架构约束的情况下用它来解读成文法，就好比用一辆跑车去犁地。机器本身没有坏。是你用错了。

构建确定性的、以引用为依据的政府 AI 所需的技术，如今已经存在。层级化 RAG、约束解码、多代理验证——这些没有一样是停留在理论上的。我们已经把它造出来了。它是行得通的。问题在于，政府领导者是否有意愿去要求这样做，抑或他们会仅仅因为演示看起来很惊艳，就继续部署那些怂恿房东去违法的聊天机器人。

每一次向政府 AI 系统发出的查询，都是一位公民在向国家发问：法律对我有什么要求？ 这个问题值得一个以真实法律的真实文字为依据的答案——有引用、有链接、可核查。要么，它就值得一句诚实的“我不知道”。

在政府服务这个利害攸关的领域，准确性并不是一项功能。它是一项宪法义务。

下一次当某座城市推出一款 AI 助手时，第一个该问的问题不该是“它有多乐于助人？”而应该是“它能不能引用自己的来源？”如果答案是否定的，那么这个系统根本没有资格佩戴 .gov 徽章。

Related Research

引用法律而非凭空捏造的政府AI | VeriprajnaSolution Page

From Civil Liability to Civil Servant: Statutory Citation Enforcement for Government AI | VeriprajnaInteractive Whitepaper

From Civil Liability to Civil Servant: Statutory Government AITechnical Deep-Dive

Also Published On

LinkedIn · Company LinkedIn · Founder YouTube Medium Instagram Facebook X