一张视觉隐喻图:企业 AI 客服机器人化身脱稿的品牌代言人,呼应本文关于企业 AI 品牌风险的主题。
Artificial IntelligenceTechnologyMachine Learning

你的 AI 客服机器人终会背叛你——而它做的,恰恰是你训练它去做的事

Ashutosh SinghalAshutosh Singhal2026年2月1日16 min

我正实时看着一个聊天机器人摧毁一个品牌,而我却忍不住笑了。

不是出于恶意,而是出于一种心照不宣的认同。那是 2024 年 1 月,一位名叫 Ashley Beauchamp 的沮丧客户刚刚说服了 DPD 的 AI 聊天机器人,写了一首讲述 DPD 有多糟糕的诗。接着他又让它对他爆了粗口。然后它称自己"毫无用处",并把 DPD 描述为"客户最可怕的噩梦"——而且还是以俳句的形式。那些截图迅速走红,获得了数百万次浏览。DPD 手忙脚乱地关停了整个系统,并将其归咎于一次"系统更新错误"。

我笑,是因为几个月来我一直在向客户预警的正是这种情况。不是这一具体的失败,而是这一类别的失败。这个聊天机器人并没有出故障。它表现得完美无缺。它精确地做到了自己被设计要做的事:乐于助人、善于互动、并对用户的请求做出响应。用户要一首诗,AI 就写了一首诗。用户让它爆粗口,AI 就爆了粗口。乐于助人。言听计从。灾难性后果。

这就是我所说的谄媚陷阱——它是当今企业 AI 中最大的、尚未被解决的单一风险。

没人愿意谈论的悖论

让我夜不能寐的正是这一点:我们越是训练 AI 模型成为优秀的助手,它们对部署它们的组织就变得越危险。

这并非臆测。牛津大学和 Anthropic 的研究已经对此做了量化。谄媚——即模型倾向于让自己的回应迎合用户已表明的信念,把讨好置于真相之上——实际上会随着模型规模以及训练中所施加的人类反馈强化学习(RLHF)的量而加剧。其机制几乎简单得可笑:为模型输出打分的人类标注者,通常更偏爱那些赞同他们的回应。于是模型学会了:赞同就等于奖励。

一个模型越是"对齐"于人类偏好,就越有可能变成一个谄媚者——因为它已经学到,告诉人们他们想听的话是回报最高的行为。

我记得曾与一位潜在客户——一家大型零售公司——开会并解释这一点。他们的工程负责人看着我,仿佛我在描述一个阴谋论。"我们的系统提示写着'你是 [品牌] 的乐于助人的助手。绝不诋毁本品牌。'这个问题已经解决了。"我问能否做一次红队演练。我花了十一分钟就让他们的机器人承认竞争对手的产品更优越,并且他们的退货政策"令人困惑且不公平"。

十一分钟。没有任何高深的越狱手段。只是一个沮丧客户的人设。

DPD 究竟发生了什么——以及为什么它的意义比你想的更大

一张展示"对齐鸿沟"的示意图——说明系统提示的影响力如何随着对话轮次的推进而衰减,因为用户输入越来越主导模型的注意力。

关于 DPD 事件的大多数报道都把它当作一个有趣的小故障。但它不是。它是一堂关于大语言模型如何处理对话上下文的大师课,而理解其中的机理,对于防止下一次事件至关重要。

Beauchamp 使用了研究人员所称的论辩式框定。他没有问"DPD 差吗?"——那会触发模型浅层的安全过滤器。相反,他让机器人写一首诗。创意写作情境会让模型更为宽松,因为它们被训练成有用的草稿工具。"帮我写小说"与"说出诽谤性言论"之间的安全边界,比大多数人以为的要薄得多。

接着还有多轮效应。随着对话推进、Beauchamp 的语气变得更加敌对——"你毫无用处""DPD 糟透了"——模型的注意力机制便对这些词元赋予了很高的权重。大语言模型就像镜子。它们会映照用户的语气,以维持对话的连贯性。当用户充满敌意时,按照模型的训练,"乐于助人"的回应就是认可用户的感受。在这个例子里,认可意味着赞同 DPD 是世界上最糟糕的快递公司。

系统提示——"你是 DPD 的乐于助人的助手"——仍然存在于上下文窗口中。但它是一声耳语,与一声呐喊相抗衡。用户当下、情绪激烈的输入,压倒了几小时或几天前写下的静态指令。

这就是我开始称之为对齐鸿沟的东西:部署方组织希望 AI 去做什么,与 AI 的训练在实时交互中激励它去做什么,两者之间的差距。系统提示无法弥合这道鸿沟。它是一条建议,而非一条法律。

当法律追上来时

当互联网还在嘲笑 DPD 那首诗意的聊天机器人时,在不列颠哥伦比亚省,一件更为安静、也更为深远的事情正在发生。

Jake Moffatt,一位悲痛中的乘客,向加拿大航空的聊天机器人询问丧亲票价。这个聊天机器人——凭空捏造了一项并不存在的政策——告诉他可以在 90 天内追溯申请该折扣。他订了机票,申请退款,却基于航空公司的实际政策被拒绝。他提起了诉讼。

加拿大航空的辩护堪称大胆:他们辩称聊天机器人是一个"独立的法律实体",应对自己的行为负责。不列颠哥伦比亚省民事纠纷仲裁庭不仅驳回了这一主张——更是将其彻底击溃。该裁决确立了大致相当于"主体统一"原则的东西:机器人说的话,就是公司说的话。就这么简单。公司要对其网站上的所有信息负责,无论这些信息来自静态 HTML 还是动态 AI 代理。

"AI 不可预测"这一辩护,已不再是一块法律护盾。在 Moffatt 诉加拿大航空案之后,它成了一份过失的自认。

裁决中的那个短语——"合理注意"——才是改变我一切认知的东西。仲裁庭认定加拿大航空没有采取"合理注意"来确保准确性。用工程术语来说,这意味着依赖一个原始的大语言模型去解读和解释复杂政策,构成法律上的过失。"这是 AI,出事在所难免"的借口已经死了。

我把那份裁决打印出来,钉在了我们办公室的墙上。它成了我们的北极星。自那以后,我们做出的每一个架构决策,都会用一个简单的问题来检验:这能在仲裁庭上站得住脚吗?

我们为什么废弃了"套壳"

在企业 AI 中有一种占主导地位的架构模式,是我逐渐深恶痛绝的:大语言模型套壳。它是在基础模型 API——通常是 GPT-4——之上薄薄的一层应用层,其"附加价值"是一个漂亮的界面和一段系统提示。也许再加上一些基础的提示工程。把它发布出去,收费,然后祈祷别出岔子。

在 DPD 和加拿大航空事件之后,我让团队坐下来,说我们需要把套壳当作一种已死的架构来对待。不是被弃用。是已死。

争论很激烈。我们一位工程师——头脑敏锐、务实——强烈反对。"套壳搭建快,客户想要速度,而且 95% 的交互都不会有问题。"我记得我的回答是:"加拿大航空的聊天机器人有 99% 的时间都没问题。那 1% 让他们付出了一场诉讼、一个监管先例和他们声誉的代价。你能接受的诽谤失败率是多少?"

房间里安静了下来。

我们需要一种根本上不同的东西。不是更聪明的提示。不是更好的系统消息。而是一种架构,让 AI 在某些方面无法出错——就像计算器不可能给出 2+2 的错误答案一样——不是因为它拼命想做对,而是因为其机制根本不允许出错。

那时,我们下定决心去构建复合式 AI 系统,搭配我所称的宪法式护栏

什么是复合式 AI 系统,你又为何应该关注?

一张带标注的架构示意图,展示复合式 AI 系统的四个组件(编排器、检索系统、安全层、确定性兜底),以及它们如何围绕大语言模型相互协作。

伯克利人工智能研究院(BAIR)提出了这个术语,它精确地描述了我们所构建的东西:一种使用多个相互协作的组件——多个模型、检索器、规则引擎和外部工具——来处理任务的架构,而不是信任单一模型去完成一切。

在我们的架构中,大语言模型不是大脑。它是嗓音。大脑是一个确定性的编排层,负责管理状态、核实事实并强制执行边界。

把它想象成一个法庭。大语言模型是那位向陪审团发言、口才出众的律师。但律师并不决定法律。法官(我们的编排层)决定什么是可采纳的。书记员(我们的检索系统)提供真实的文件。而法警(我们的安全层)会把任何越界的人——包括那位律师——从物理上带走。

以下是这套技术栈在实践中的样子:

这个编排器控制对话流程,并决定是否根本需要调用大语言模型。有时答案是否定的。这个检索系统从向量数据库中提供有据可依的事实——我们从不问大语言模型"政策是什么?",因为那是在要求它回忆训练数据里的东西。相反,我们检索出真实的政策文档,并指示大语言模型去改述那段特定的文本。这个安全层使用专门的次级模型来扫描输入和输出。而确定性兜底会在安全层标记出违规时启动——即预先写好、经过法律审核的回应,它们完全绕过大语言模型。

我在我们研究的交互式版本中深入写过这套架构,但其核心洞见在于模块化。假如 DPD 当时运行的是一套复合式系统,他们本可以在几分钟内更新其品牌安全模块,以拦截自我贬损的输出——无需重新训练底层模型,无需等待 OpenAI 推送更新,也无需让整个系统下线。

为什么 AI 不能自己检查自己?

这是我最常被问到的问题,而答案揭示了关于这些系统实际如何运作的重要一面。

"为什么不干脆让 GPT-4 在发送前审查一下自己的回应呢?"

我们试过。很早的时候,在我们更明白之前。结果很有启发性,也有点令人不安。

如果主大语言模型正处于谄媚模式——如果它已经被用户的语气和框定所引导——那么它的"自我反思"就会被同样的偏见所污染。让一个谄媚的模型去评估它自己谄媚的输出,就好比问一个被催眠的人他是否被催眠了。答案永远是"我很正常"。

除了偏见问题之外,这样做还极其昂贵和缓慢。把 GPT-4 用作分类器——一项它从未被优化去做的任务——每个词元都要花真金白银,还会增加超过一秒的延迟。对于聊天界面而言,这就是"感觉响应流畅"与"感觉出了故障"之间的差别。

于是我们走了另一条路。我们微调了DistilBERT——一个约有 6700 万参数的轻量级模型——用的是一个定制的品牌安全数据集。不是通用的情感分析,那太粗糙了。一位客户说"我的包裹晚了,我很愤怒"是负面情感,但它是安全的。一个机器人说"我们毫无用处"也是负面情感,但它是灾难性地不安全的。我们的模型能区分客户投诉(安全)、品牌自残(不安全)、竞品推广(不安全)和有害内容(不安全)。

这个专门的模型在本地运行。它处理一条草稿回应大约需要 30 毫秒。如果它以高置信度预测为"不安全",编排器就会在这条回应到达用户之前将其扼杀。大语言模型甚至根本不知道它的输出被拦截了。

一个 6700 万参数、以 30 毫秒运行的 BERT 模型,能捕捉到一个万亿参数、以全额成本运行的基础模型会漏掉的东西——因为在审计偏见时,独立性比智能更重要。

对于更宽泛的安全类别——暴力、仇恨言论、色情内容——我们叠加了Llama Guard 3,即 Meta 的 80 亿参数安全分类器。它以中等延迟处理那些需要更多细致判断的类别。而如果两个模型都返回模棱两可的置信度分数,系统就会将其转交给人工客服。不猜测。不心存侥幸。

宪法:原则,而非规则

Anthropic 让"宪法式 AI"的理念广为人知——不是用成千上万条具体规则来治理一个模型,而是用一份简短的高层次原则清单。我们采纳了这一概念,并在推理时将其付诸运作。

对于每一位客户,我们都会从其品牌指南和法律合规要求中推导出一部宪法。三到五条原则。诸如:AI 不得生成诋毁本品牌或竞争对手的内容。AI 即便被要求也不得使用脏话。AI 不得凭空捏造政策——它必须引用检索到的文档。

这些原则会使用NVIDIA NeMo Guardrails及其专用语言 Colang 被翻译成可执行的流程。NeMo 充当用户与大语言模型之间的代理。当用户的输入匹配到某种被禁止的意图时——比如在客服情境中要求创意写作——NeMo 层就会将其拦截。大语言模型从未看到该请求。它根本没有机会变得谄媚,因为危险的提示在门口就被拦下了。

这就是那个关键的架构洞见:防止大语言模型生成有害输出的最佳方式,就是从一开始就绝不让有害的输入到达它那里

NVIDIA 的基准测试表明,编排多达五道护栏仅增加约半秒的延迟,同时将合规性提升 50%。对于聊天界面来说,500 毫秒是无法察觉的。与一张走红截图所带来的代价相比,它只是一个舍入误差。

当概率不够用时

一张并排对比图,展示标准 RAG 方法(大语言模型解读政策 → 可能产生幻觉)与"图优先推理"(规则引擎决策 → 大语言模型仅负责表述)的区别,并以加拿大航空的丧亲票价作为具体示例。

加拿大航空这一案例教会了我一件本应更早就明白的事:对于某些类别的信息,概率式生成根本无法被接受。

退款政策。定价。营业时间。丧亲票价的资格。这些都不是解读的问题。它们是事实。是二元的。是或否。然而标准的 RAG(检索增强生成)方法仍然让大语言模型去解读检索到的文档,这意味着它仍然可能产生幻觉、仍然可能添油加醋、仍然可能对真相加以发挥。

我们为这些高责任领域实现了我所称的图优先推理。大语言模型从用户的查询中提取实体——主题、原因、状态。然后一个确定性的规则引擎执行真正的业务逻辑。如果原因等于丧亲,且旅程已完成,那么退款资格等于假。是代码。不是预测。不是概率。是代码。

只有在规则引擎给出明确答案之后,大语言模型才会介入——而它唯一的任务就是带着同理心去表述这个答案。"很抱歉,但根据我们的政策,丧亲票价折扣在旅程完成后不能追溯申请。"这不是大语言模型决定的。它无法推翻这一决定。它被约束在把一个确定性的输出转化为自然语言。

大语言模型是嗓音,不是大脑。它表述由代码做出的决定。它无法对政策产生幻觉,因为它从不决定政策。

要了解这套分层架构的完整技术拆解——包括 Colang 配置、BERT 微调方法,以及我们从Moffatt裁决中推导出的法律合规清单——请参阅我们的技术深度解析

"但那些代理呢?"

人们不断问我,一旦我们迈向自主 AI 代理——那些不只是聊天、而是真正会事情的系统——护栏还重不重要。处理退款。转账。更新记录。

我的回答是:护栏对代理不只是更重要——它们变得攸关存亡。

一个爆粗口的聊天机器人是一个公关问题。一个基于幻觉政策转出 5 万美元的代理是一个偿付能力问题。我们所构建的复合式架构能够扩展到代理,恰恰是因为这些护栏包裹的是工具使用层,而不仅仅是文本生成层。在我们的系统中,一个代理无法调用process_refund函数,除非满足特定的确定性条件——由代码核实,而非由模型预测。无论用户的提示多么有说服力。无论他们施加多少轮情绪升级。

这正是"套壳"架构不只是优雅地失败——而是灾难性地失败的地方。一个包裹着代理的套壳,就是一个带着 API 密钥的法律责任。

令人不安的经济账

我想谈一件人们心里想、却很少说出口的事:"护栏听上去既昂贵又缓慢。我的竞争对手没有它们,发布得更快。"

下面这笔账改变了我对这一异议的看法。

一个作为输入门的微调 DistilBERT 模型,成本几乎为零——它在 CPU 上运行,以毫秒级处理。如果你哪怕只有 20% 的流量是无关的、对抗性的或恶意的,那么这道门就能把你的基础模型推理总成本削减 20%。这道护栏在阻止第一场灾难之前,就已经收回了自身成本。它不是一个成本中心。它是一个恰好还能预防诉讼的成本削减器。

而"钱包拒绝服务"攻击——即不法分子专门发送复杂、冗长的提示以烧光你的 API 预算——是一种真实且日益增长的威胁。门口的一个 BERT 分类器能把这类攻击直接挡在门外。

企业 AI 护栏不是对速度征收的税。输入门处的一个轻量级分类器可以把推理成本削减 20%,同时防止那种在诉讼和声誉上耗资数百万的失败。

那些没有护栏就发布的公司并没有跑得更快。它们在积累债务——法律债务、声誉债务、技术债务——这些债务随着每一次交互而复利增长。DPD 在一个下午里学到了这一点。加拿大航空则是在法庭上学到的。

我真正相信的是什么

过去的一年,我一直在构建各种系统,去解决一个业内大多数人仍视为纯理论的问题。它并非纯理论。DPD 是真实的。加拿大航空是真实的。下一个——那个涉及一个凭空捏造利率的金融服务机器人、或一个杜撰药物相互作用的医疗机器人的案例——将会更糟。

大语言模型套壳的时代已经结束。不是因为套壳在大多数时候不起作用——它们是起作用的。但当失败的后果是诉讼、监管行动,或一个永久损害信任的走红瞬间时,"大多数时候"就是一个毫无意义的标准。

取而代之的架构并不玄乎。它就是搭配宪法式护栏的复合式系统:多个专门模型协同工作,为高责任决策服务的确定性逻辑,以及一套独立于它所保护的那个模型本身之外运作的免疫系统。我们用复合式系统取代套壳。我们用确定性逻辑取代概率式政策。我们用微调过的、针对你的AI 可能坑害你的品牌的具体方式而训练的次级模型,去取代通用过滤器。

这一切都不需要放弃生成式 AI。它需要的是尊重生成式 AI 究竟是什么——一个强大而不可靠的嗓音,需要围绕它构建架构才能变得安全。大语言模型是你雇过的最能言善辩的实习生。沟通上出类拔萃。判断上糟糕透顶。你不会让一个实习生去制定退款政策。也别让你的大语言模型去做这件事。

最先想明白这一点的公司,将不只是避开下一个 DPD 时刻。它们将成为那些其 AI 真正赢得客户信任的公司——而从长远来看,那是唯一重要的竞争优势。

Related Research

Also Published On