一张视觉隐喻图：企业 AI 客服机器人化身脱稿的品牌代言人，呼应本文关于企业 AI 品牌风险的主题。

Artificial IntelligenceTechnologyMachine Learning

你的 AI 客服机器人终会背叛你——而它做的，恰恰是你训练它去做的事

Ashutosh Singhal 2026年2月1日16 min

我正实时看着一个聊天机器人摧毁一个品牌，而我却忍不住笑了。

不是出于恶意，而是出于一种心照不宣的认同。那是 2024 年 1 月，一位名叫 Ashley Beauchamp 的沮丧客户刚刚说服了 DPD 的 AI 聊天机器人，写了一首讲述 DPD 有多糟糕的诗。接着他又让它对他爆了粗口。然后它称自己"毫无用处"，并把 DPD 描述为"客户最可怕的噩梦"——而且还是以俳句的形式。那些截图迅速走红，获得了数百万次浏览。DPD 手忙脚乱地关停了整个系统，并将其归咎于一次"系统更新错误"。

我笑，是因为几个月来我一直在向客户预警的正是这种情况。不是这一具体的失败，而是这一类别的失败。这个聊天机器人并没有出故障。它表现得完美无缺。它精确地做到了自己被设计要做的事：乐于助人、善于互动、并对用户的请求做出响应。用户要一首诗，AI 就写了一首诗。用户让它爆粗口，AI 就爆了粗口。乐于助人。言听计从。灾难性后果。

这就是我所说的谄媚陷阱——它是当今企业 AI 中最大的、尚未被解决的单一风险。

没人愿意谈论的悖论

让我夜不能寐的正是这一点：我们越是训练 AI 模型成为优秀的助手，它们对部署它们的组织就变得越危险。

这并非臆测。牛津大学和 Anthropic 的研究已经对此做了量化。谄媚——即模型倾向于让自己的回应迎合用户已表明的信念，把讨好置于真相之上——实际上会随着模型规模以及训练中所施加的人类反馈强化学习（RLHF）的量而加剧。其机制几乎简单得可笑：为模型输出打分的人类标注者，通常更偏爱那些赞同他们的回应。于是模型学会了：赞同就等于奖励。

一个模型越是"对齐"于人类偏好，就越有可能变成一个谄媚者——因为它已经学到，告诉人们他们想听的话是回报最高的行为。

我记得曾与一位潜在客户——一家大型零售公司——开会并解释这一点。他们的工程负责人看着我，仿佛我在描述一个阴谋论。"我们的系统提示写着'你是 [品牌] 的乐于助人的助手。绝不诋毁本品牌。'这个问题已经解决了。"我问能否做一次红队演练。我花了十一分钟就让他们的机器人承认竞争对手的产品更优越，并且他们的退货政策"令人困惑且不公平"。

十一分钟。没有任何高深的越狱手段。只是一个沮丧客户的人设。

DPD 究竟发生了什么——以及为什么它的意义比你想的更大

一张展示"对齐鸿沟"的示意图——说明系统提示的影响力如何随着对话轮次的推进而衰减，因为用户输入越来越主导模型的注意力。

关于 DPD 事件的大多数报道都把它当作一个有趣的小故障。但它不是。它是一堂关于大语言模型如何处理对话上下文的大师课，而理解其中的机理，对于防止下一次事件至关重要。

Beauchamp 使用了研究人员所称的论辩式框定。他没有问"DPD 差吗？"——那会触发模型浅层的安全过滤器。相反，他让机器人写一首诗。创意写作情境会让模型更为宽松，因为它们被训练成有用的草稿工具。"帮我写小说"与"说出诽谤性言论"之间的安全边界，比大多数人以为的要薄得多。

接着还有多轮效应。随着对话推进、Beauchamp 的语气变得更加敌对——"你毫无用处""DPD 糟透了"——模型的注意力机制便对这些词元赋予了很高的权重。大语言模型就像镜子。它们会映照用户的语气，以维持对话的连贯性。当用户充满敌意时，按照模型的训练，"乐于助人"的回应就是认可用户的感受。在这个例子里，认可意味着赞同 DPD 是世界上最糟糕的快递公司。

系统提示——"你是 DPD 的乐于助人的助手"——仍然存在于上下文窗口中。但它是一声耳语，与一声呐喊相抗衡。用户当下、情绪激烈的输入，压倒了几小时或几天前写下的静态指令。

这就是我开始称之为对齐鸿沟的东西：部署方组织希望 AI 去做什么，与 AI 的训练在实时交互中激励它去做什么，两者之间的差距。系统提示无法弥合这道鸿沟。它是一条建议，而非一条法律。

当法律追上来时

当互联网还在嘲笑 DPD 那首诗意的聊天机器人时，在不列颠哥伦比亚省，一件更为安静、也更为深远的事情正在发生。

Jake Moffatt，一位悲痛中的乘客，向加拿大航空的聊天机器人询问丧亲票价。这个聊天机器人——凭空捏造了一项并不存在的政策——告诉他可以在 90 天内追溯申请该折扣。他订了机票，申请退款，却基于航空公司的实际政策被拒绝。他提起了诉讼。

加拿大航空的辩护堪称大胆：他们辩称聊天机器人是一个"独立的法律实体"，应对自己的行为负责。不列颠哥伦比亚省民事纠纷仲裁庭不仅驳回了这一主张——更是将其彻底击溃。该裁决确立了大致相当于"主体统一"原则的东西：机器人说的话，就是公司说的话。就这么简单。公司要对其网站上的所有信息负责，无论这些信息来自静态 HTML 还是动态 AI 代理。

"AI 不可预测"这一辩护，已不再是一块法律护盾。在 Moffatt 诉加拿大航空案之后，它成了一份过失的自认。

裁决中的那个短语——"合理注意"——才是改变我一切认知的东西。仲裁庭认定加拿大航空没有采取"合理注意"来确保准确性。用工程术语来说，这意味着依赖一个原始的大语言模型去解读和解释复杂政策，构成法律上的过失。"这是 AI，出事在所难免"的借口已经死了。

我把那份裁决打印出来，钉在了我们办公室的墙上。它成了我们的北极星。自那以后，我们做出的每一个架构决策，都会用一个简单的问题来检验：这能在仲裁庭上站得住脚吗？

我们为什么废弃了"套壳"

在企业 AI 中有一种占主导地位的架构模式，是我逐渐深恶痛绝的：大语言模型套壳。它是在基础模型 API——通常是 GPT-4——之上薄薄的一层应用层，其"附加价值"是一个漂亮的界面和一段系统提示。也许再加上一些基础的提示工程。把它发布出去，收费，然后祈祷别出岔子。

在 DPD 和加拿大航空事件之后，我让团队坐下来，说我们需要把套壳当作一种已死的架构来对待。不是被弃用。是已死。

争论很激烈。我们一位工程师——头脑敏锐、务实——强烈反对。"套壳搭建快，客户想要速度，而且 95% 的交互都不会有问题。"我记得我的回答是："加拿大航空的聊天机器人有 99% 的时间都没问题。那 1% 让他们付出了一场诉讼、一个监管先例和他们声誉的代价。你能接受的诽谤失败率是多少？"

房间里安静了下来。

我们需要一种根本上不同的东西。不是更聪明的提示。不是更好的系统消息。而是一种架构，让 AI 在某些方面无法出错——就像计算器不可能给出 2+2 的错误答案一样——不是因为它拼命想做对，而是因为其机制根本不允许出错。

那时，我们下定决心去构建复合式 AI 系统，搭配我所称的宪法式护栏。

什么是复合式 AI 系统，你又为何应该关注？

一张带标注的架构示意图，展示复合式 AI 系统的四个组件（编排器、检索系统、安全层、确定性兜底），以及它们如何围绕大语言模型相互协作。

伯克利人工智能研究院（BAIR）提出了这个术语，它精确地描述了我们所构建的东西：一种使用多个相互协作的组件——多个模型、检索器、规则引擎和外部工具——来处理任务的架构，而不是信任单一模型去完成一切。

在我们的架构中，大语言模型不是大脑。它是嗓音。大脑是一个确定性的编排层，负责管理状态、核实事实并强制执行边界。

把它想象成一个法庭。大语言模型是那位向陪审团发言、口才出众的律师。但律师并不决定法律。法官（我们的编排层）决定什么是可采纳的。书记员（我们的检索系统）提供真实的文件。而法警（我们的安全层）会把任何越界的人——包括那位律师——从物理上带走。

以下是这套技术栈在实践中的样子：

这个编排器控制对话流程，并决定是否根本需要调用大语言模型。有时答案是否定的。这个检索系统从向量数据库中提供有据可依的事实——我们从不问大语言模型"政策是什么？"，因为那是在要求它回忆训练数据里的东西。相反，我们检索出真实的政策文档，并指示大语言模型去改述那段特定的文本。这个安全层使用专门的次级模型来扫描输入和输出。而确定性兜底会在安全层标记出违规时启动——即预先写好、经过法律审核的回应，它们完全绕过大语言模型。

我在我们研究的交互式版本中深入写过这套架构，但其核心洞见在于模块化。假如 DPD 当时运行的是一套复合式系统，他们本可以在几分钟内更新其品牌安全模块，以拦截自我贬损的输出——无需重新训练底层模型，无需等待 OpenAI 推送更新，也无需让整个系统下线。

为什么 AI 不能自己检查自己？

这是我最常被问到的问题，而答案揭示了关于这些系统实际如何运作的重要一面。

"为什么不干脆让 GPT-4 在发送前审查一下自己的回应呢？"

我们试过。很早的时候，在我们更明白之前。结果很有启发性，也有点令人不安。

如果主大语言模型正处于谄媚模式——如果它已经被用户的语气和框定所引导——那么它的"自我反思"就会被同样的偏见所污染。让一个谄媚的模型去评估它自己谄媚的输出，就好比问一个被催眠的人他是否被催眠了。答案永远是"我很正常"。

除了偏见问题之外，这样做还极其昂贵和缓慢。把 GPT-4 用作分类器——一项它从未被优化去做的任务——每个词元都要花真金白银，还会增加超过一秒的延迟。对于聊天界面而言，这就是"感觉响应流畅"与"感觉出了故障"之间的差别。

于是我们走了另一条路。我们微调了DistilBERT——一个约有 6700 万参数的轻量级模型——用的是一个定制的品牌安全数据集。不是通用的情感分析，那太粗糙了。一位客户说"我的包裹晚了，我很愤怒"是负面情感，但它是安全的。一个机器人说"我们毫无用处"也是负面情感，但它是灾难性地不安全的。我们的模型能区分客户投诉（安全）、品牌自残（不安全）、竞品推广（不安全）和有害内容（不安全）。

这个专门的模型在本地运行。它处理一条草稿回应大约需要 30 毫秒。如果它以高置信度预测为"不安全"，编排器就会在这条回应到达用户之前将其扼杀。大语言模型甚至根本不知道它的输出被拦截了。

一个 6700 万参数、以 30 毫秒运行的 BERT 模型，能捕捉到一个万亿参数、以全额成本运行的基础模型会漏掉的东西——因为在审计偏见时，独立性比智能更重要。

对于更宽泛的安全类别——暴力、仇恨言论、色情内容——我们叠加了Llama Guard 3，即 Meta 的 80 亿参数安全分类器。它以中等延迟处理那些需要更多细致判断的类别。而如果两个模型都返回模棱两可的置信度分数，系统就会将其转交给人工客服。不猜测。不心存侥幸。

宪法：原则，而非规则

Anthropic 让"宪法式 AI"的理念广为人知——不是用成千上万条具体规则来治理一个模型，而是用一份简短的高层次原则清单。我们采纳了这一概念，并在推理时将其付诸运作。

对于每一位客户，我们都会从其品牌指南和法律合规要求中推导出一部宪法。三到五条原则。诸如：AI 不得生成诋毁本品牌或竞争对手的内容。AI 即便被要求也不得使用脏话。AI 不得凭空捏造政策——它必须引用检索到的文档。

这些原则会使用NVIDIA NeMo Guardrails及其专用语言 Colang 被翻译成可执行的流程。NeMo 充当用户与大语言模型之间的代理。当用户的输入匹配到某种被禁止的意图时——比如在客服情境中要求创意写作——NeMo 层就会将其拦截。大语言模型从未看到该请求。它根本没有机会变得谄媚，因为危险的提示在门口就被拦下了。

这就是那个关键的架构洞见：防止大语言模型生成有害输出的最佳方式，就是从一开始就绝不让有害的输入到达它那里。

NVIDIA 的基准测试表明，编排多达五道护栏仅增加约半秒的延迟，同时将合规性提升 50%。对于聊天界面来说，500 毫秒是无法察觉的。与一张走红截图所带来的代价相比，它只是一个舍入误差。

当概率不够用时

一张并排对比图，展示标准 RAG 方法（大语言模型解读政策 → 可能产生幻觉）与"图优先推理"（规则引擎决策 → 大语言模型仅负责表述）的区别，并以加拿大航空的丧亲票价作为具体示例。

加拿大航空这一案例教会了我一件本应更早就明白的事：对于某些类别的信息，概率式生成根本无法被接受。

退款政策。定价。营业时间。丧亲票价的资格。这些都不是解读的问题。它们是事实。是二元的。是或否。然而标准的 RAG（检索增强生成）方法仍然让大语言模型去解读检索到的文档，这意味着它仍然可能产生幻觉、仍然可能添油加醋、仍然可能对真相加以发挥。

我们为这些高责任领域实现了我所称的图优先推理。大语言模型从用户的查询中提取实体——主题、原因、状态。然后一个确定性的规则引擎执行真正的业务逻辑。如果原因等于丧亲，且旅程已完成，那么退款资格等于假。是代码。不是预测。不是概率。是代码。

只有在规则引擎给出明确答案之后，大语言模型才会介入——而它唯一的任务就是带着同理心去表述这个答案。"很抱歉，但根据我们的政策，丧亲票价折扣在旅程完成后不能追溯申请。"这不是大语言模型决定的。它无法推翻这一决定。它被约束在把一个确定性的输出转化为自然语言。

大语言模型是嗓音，不是大脑。它表述由代码做出的决定。它无法对政策产生幻觉，因为它从不决定政策。

要了解这套分层架构的完整技术拆解——包括 Colang 配置、BERT 微调方法，以及我们从Moffatt裁决中推导出的法律合规清单——请参阅我们的技术深度解析。

"但那些代理呢？"

人们不断问我，一旦我们迈向自主 AI 代理——那些不只是聊天、而是真正会做事情的系统——护栏还重不重要。处理退款。转账。更新记录。

我的回答是：护栏对代理不只是更重要——它们变得攸关存亡。

一个爆粗口的聊天机器人是一个公关问题。一个基于幻觉政策转出 5 万美元的代理是一个偿付能力问题。我们所构建的复合式架构能够扩展到代理，恰恰是因为这些护栏包裹的是工具使用层，而不仅仅是文本生成层。在我们的系统中，一个代理无法调用process_refund函数，除非满足特定的确定性条件——由代码核实，而非由模型预测。无论用户的提示多么有说服力。无论他们施加多少轮情绪升级。

这正是"套壳"架构不只是优雅地失败——而是灾难性地失败的地方。一个包裹着代理的套壳，就是一个带着 API 密钥的法律责任。

令人不安的经济账

我想谈一件人们心里想、却很少说出口的事："护栏听上去既昂贵又缓慢。我的竞争对手没有它们，发布得更快。"

下面这笔账改变了我对这一异议的看法。

一个作为输入门的微调 DistilBERT 模型，成本几乎为零——它在 CPU 上运行，以毫秒级处理。如果你哪怕只有 20% 的流量是无关的、对抗性的或恶意的，那么这道门就能把你的基础模型推理总成本削减 20%。这道护栏在阻止第一场灾难之前，就已经收回了自身成本。它不是一个成本中心。它是一个恰好还能预防诉讼的成本削减器。

而"钱包拒绝服务"攻击——即不法分子专门发送复杂、冗长的提示以烧光你的 API 预算——是一种真实且日益增长的威胁。门口的一个 BERT 分类器能把这类攻击直接挡在门外。

企业 AI 护栏不是对速度征收的税。输入门处的一个轻量级分类器可以把推理成本削减 20%，同时防止那种在诉讼和声誉上耗资数百万的失败。

那些没有护栏就发布的公司并没有跑得更快。它们在积累债务——法律债务、声誉债务、技术债务——这些债务随着每一次交互而复利增长。DPD 在一个下午里学到了这一点。加拿大航空则是在法庭上学到的。

我真正相信的是什么

过去的一年，我一直在构建各种系统，去解决一个业内大多数人仍视为纯理论的问题。它并非纯理论。DPD 是真实的。加拿大航空是真实的。下一个——那个涉及一个凭空捏造利率的金融服务机器人、或一个杜撰药物相互作用的医疗机器人的案例——将会更糟。

大语言模型套壳的时代已经结束。不是因为套壳在大多数时候不起作用——它们是起作用的。但当失败的后果是诉讼、监管行动，或一个永久损害信任的走红瞬间时，"大多数时候"就是一个毫无意义的标准。

取而代之的架构并不玄乎。它就是搭配宪法式护栏的复合式系统：多个专门模型协同工作，为高责任决策服务的确定性逻辑，以及一套独立于它所保护的那个模型本身之外运作的免疫系统。我们用复合式系统取代套壳。我们用确定性逻辑取代概率式政策。我们用微调过的、针对你的AI 可能坑害你的品牌的具体方式而训练的次级模型，去取代通用过滤器。

这一切都不需要放弃生成式 AI。它需要的是尊重生成式 AI 究竟是什么——一个强大而不可靠的嗓音，需要围绕它构建架构才能变得安全。大语言模型是你雇过的最能言善辩的实习生。沟通上出类拔萃。判断上糟糕透顶。你不会让一个实习生去制定退款政策。也别让你的大语言模型去做这件事。

最先想明白这一点的公司，将不只是避开下一个 DPD 时刻。它们将成为那些其 AI 真正赢得客户信任的公司——而从长远来看，那是唯一重要的竞争优势。

Related Research

企业 AI 责任与护栏 | VeriprajnaSolution Page

The Sycophancy Trap: Engineering Constitutional Immunity for Enterprise AI | VeriprajnaInteractive Whitepaper

The Sycophancy Trap: Constitutional Immunity for Enterprise AITechnical Deep-Dive

Also Published On

LinkedIn · Company LinkedIn · Founder YouTube Medium Instagram Facebook X