
你的 AI 销售代理正在对客户撒谎——而你还在花钱养着它
在与一家中端市场 SaaS 公司进行试点的第三个月,我的团队看着一个 AI 销售代理起草了一封看似完美无瑕的冷邮件。个性化。语气温暖。提到了潜在客户近期完成的 B 轮融资,并祝贺他们"拓展进入亚太市场"。
只有一个问题:这位潜在客户根本没有拓展进入亚太市场。他们在六周前刚刚关闭了新加坡办事处。AI 幻觉出了一个事实,用完美的语法把它包装起来,并且差点就把它发给了我们客户苦心追求了两年的那家公司的 CEO。
人工审核员抓到了这个错误。险之又险。当时是晚上 11 点,她正在睡前批准一批四十封邮件。她差一点就没有点进去核实。
那一晚改变了我对 AI 在销售中作用的看法。不是它能不能奏效——从经济上看,它显然奏效。而是大多数公司部署它的方式,是不是一场慢镜头般的品牌自杀,一场在为时已晚之前无人衡量的自杀。
我经营着 VeriPrajna,一家深度 AI 咨询公司,我们为企业构建自主智能体系统。这篇文章要谈的,是一个我相信将在未来两年里定义 B2B 销售的问题:AI 流畅度与 AI 真实性之间的鸿沟——以及我们为弥合它而设计的架构。
经济账极具诱惑力。而这正是问题所在。

我理解为什么公司争相部署 AI SDR(销售开发代表——负责发送冷触达并预约会议的人)。这笔账对他们极为有利。
一名人工 SDR 全成本计算每年要花费 75,000 到 125,000 美元。他们每年的流失率高达 30–40%。他们需要三到六个月才能上手。他们会疲惫、会气馁,在遭遇足够多的拒绝后还会产生"打电话的畏难情绪"。
一个 AI SDR 每年花费 7,000 到 45,000 美元。它每天处理超过 1,000 个联系人。它在五分钟内就能回复——这个时间阈值与转化率提升 900% 相关。它永不睡眠,永不闷闷不乐,永不辞职。
如果你是一位盯着这些数字的营收负责人,那么不去探索自动化反倒是一种失职。
但有一个数据应该让你彻夜难眠:AI SDR 产生的邮件回复率比人工高出多达 50%——然而它们从会议到合格商机的转化率却是15%,而人工为 25%。AI 确实让人们回复了,但它让人们回复的是那些并不真实的内容。它预约的会议在仔细推敲下土崩瓦解,因为那条勾住潜在客户的"个性化洞察"是编造的。
当每个人都能免费生成"完美"的文字时,文字本身就失去了它的信号价值。唯一剩下的信号就是准确性。
为什么你的 AI SDR 会产生幻觉?
在这一点上,大多数人会耸耸肩说"AI 还不完美"。但这种说法危险地错了。幻觉不是一个将在下一个模型版本中被修补的 bug。它是这些系统运作方式的一个数学层面的特性。
大语言模型是概率计算器。它们被训练来根据之前出现的所有内容,预测下一个最有可能的词。掌控这一过程的函数——称为 Softmax——迫使模型在其整个词汇表上分配概率,且这些概率的总和恰好为 1。它没有用于表示"我不知道"的内部状态。模型必须产生某种输出。
所以当你让它描述一家它毫无数据的公司的"2025 财务战略"时,它不会返回空白。它会生成听起来像财务战略的词元——"增长"、"利润率扩张"、"数字化转型"——因为这些词在统计上很可能跟在那类提示之后。它是在模拟事实陈述的质感,却没有任何底层的事实。
更糟的是,在训练过程中,这些模型因自信的预测而受到奖励,因不确定性而受到惩罚。它们真的是被训练成采取一种毫无根据的自信姿态。在销售情境中,"说服"与"虚假陈述"之间的界线受到法律监管,这一点令人不寒而栗。
我记得曾与一位潜在客户的 CTO 就此争论。他不停地说:"我们只要用自己的数据对它进行微调就行了。"我调出了他们的产品文档——47 页的边界情况、定价层级和合规注意事项。"这些当中,"我问道,"你能接受模型只做到大致正确的是哪些?"
他沉默了。
AI 在销售邮件中撒谎的四种方式

并非所有幻觉都一样,而理解这套分类法之所以重要,是因为每种类型都带来不同的风险:
事实冲突型幻觉是最明显的一种——AI 陈述了某些与现实相矛盾的内容。声称某位潜在客户使用 Salesforce,而他们的招聘启事中提到的却是 HubSpot。引用一次从未发生过的"近期亚太扩张"。
输入冲突型幻觉更为微妙,也更为可怕。你上传了一份定价 PDF,上面写着你的服务价格为 10,000 美元。而 AI 依据其预训练数据中的行业平均值,在邮件里报出了 5,000 美元。你现在可能已经制造了一份具有约束力的价格承诺。
上下文冲突型幻觉指的是 AI 在一次对话中自相矛盾。潜在客户已经拒绝了周二的会议。AI 却再次提议周二。这传递出没有人真正在关注的信号——因为确实没有人在关注。
逻辑型幻觉是最阴险的一种。"你最近完成了 B 轮融资,因此你一定在寻找替换你的 CFO。"看似合理的推理,却被当作事实陈述。潜在客户读到后会想:谁告诉他们我们要换掉 CFO 的?现在你已经凭空捏造制造了困惑,甚至可能引发一场泄密恐慌。
当 Gmail 反击时会发生什么?
这是 AI 幻觉的一个后果,销售自动化领域几乎没有人谈论它,而正是它最终说服了我那些最持怀疑态度的客户认真对待此事。
谷歌和微软正在部署它们自己的 AI 来保护收件箱。Gmail 的 2025 年垃圾邮件防御使用 TensorFlow 和一个名为 RETVec 的系统——弹性高效文本向量化器(Resilient & Efficient Text Vectorizer)——它能检测 AI 生成文本的统计特征。它不再只是寻找垃圾邮件关键词。它会分析发送模式和意图。
如果你的 AI SDR 群发数千封共享同一结构指纹的邮件——即使措辞略有不同——Gmail 也会识别出这种模式并限制你的域名。如果收件人不读就删除你的邮件,或将其标记为垃圾邮件,你的域名信誉分数就会一落千丈。而关键在于:一旦你的域名被烧毁,那就不只是你的营销邮件不再送达。你的发票、你的密码重置、你的客户支持回复——从该域名发出的一切,都会被过滤掉。
事实核查不是锦上添花。它是一种可送达性策略。我们核实声明不是为了礼貌——我们核实它们是为了让我们的邮件服务器保持在线。
这里存在一条直接的因果链:幻觉导致无关的邮件,无关邮件导致低参与度,低参与度触发垃圾邮件标记,标记导致域名被列入黑名单。你的 AI 智能体的架构,直接决定了你的公司在六个月后还能不能发出邮件。
我向一家 C 轮公司的销售副总裁摆明了这一点。他运行一个 AI 套壳产品已有四个月,对邮件数量欣喜若狂。我请他查看一下自己的域名信誉分数。他在手机上调了出来,脸色变了。他们的分数在无人察觉的情况下从"高"跌到了"低"。他们的续约确认邮件正落入垃圾邮件箱。
为什么标准的 RAG 解决不了这个问题?
业界对幻觉的默认答案是 RAG——检索增强生成。与其让模型凭空编造,不如检索相关文档并将其作为上下文喂给模型。这是一个实实在在的改进。但对于高风险的 B2B 销售来说,它还不够。
标准 RAG 使用向量数据库来存储文本块,并检索出在数学上与查询最接近的那些块。问题在于,"数学上最接近"往往是"实际相关"的一个糟糕代理指标。
搜索"苹果公司的风险",向量数据库可能会浮现出一篇 2015 年关于苹果"创新失败风险"的文章,因为"苹果"和"风险"这两个关键词匹配上了。与此同时,它却漏掉了一份 2024 年关于欧盟监管风险的分析,因为词汇没有重叠。把 2015 年的数据喂给大语言模型,它就会自信地告诉你的潜在客户,苹果如今最大的威胁是缺少 iPhone 的后继产品。过时的数据,被当作当前的洞察呈现出来。
向量数据库也无法处理实体。它们会把"John Smith,子公司 A 的 CEO"与"John Smith,母公司 B 的副总裁"混为一谈,因为这两个文本块包含同一个名字。大语言模型看到这两处引用,就会把它们合并成一个被幻觉出来的人。在销售中,当你试图证明你已经对某人的组织架构图做足了功课时,这是一个足以摧毁可信度的错误。
我曾撰文探讨过这个问题——以及向量数据库与知识图谱之间完整的技术对比——就在我们的交互式研究简报中。
我们实际构建的架构

在那次亚太事件以及十几次类似的险情之后,我的团队不再试图让单模型系统更可靠,而是从一个截然不同的前提出发:如果我们不按单个写手、而是按一个编辑团队来对 AI 工作流程建模,会怎样?
一家好的杂志社不会让同一个人去研究、撰写并核查同一篇报道。这些是各有其激励机制的独立角色。研究员搜寻信息。撰稿人打磨叙事。事实核查员在报道发表之前设法把它推翻。它们在设计上就是对抗性的。
我们用 AI 智能体构建了同样的东西。三名专才,而非一名通才:
研究员只做检索和引用,别无他事。它从 SEC 的 EDGAR 数据库拉取 10-K 备案文件,抓取近期新闻,查询我们的知识图谱。它被禁止进行创意写作。它的输出是一个结构化的 JSON 对象——附带来源 URL 和页码的原始事实。没有观点,没有综合。
撰稿人接过那些经过核实的事实,打磨出一封引人入胜的邮件。但它在一条硬约束下运作:只使用研究员提供的事实。别无其他。不加修饰,也不做"合理推断"。
事实核查员是那个对手。它将撰稿人草稿中的每一条声明,都与研究员的记录进行比对。"'你的营收增长了 20%' 这条声明,在源材料中出现过吗?没有?驳回。"它把草稿连同具体反馈退回去。撰稿人修订。事实核查员再次审阅。
这个循环——AI 研究界称之为"反思模式"——会一直运行,直到草稿通过,或达到最大重试次数上限,届时它就会被标记交由人工处理。
AI 在开口之前会"思考",在发送之前会"反思"。我们用计算成本的边际增加,换取可靠性的巨大提升。
开发早期的一个晚上,我们让系统针对一批 200 位潜在客户运行。事实核查员驳回了 34% 的初稿。百分之三十四。这些都是套壳系统会毫不犹豫地发出去的邮件。有些编造了营收数字。有一封祝贺某位 CEO 完成了一桩收购,而那其实是一次剥离资产。另一封报出了一个根本不存在的定价层级。
我的合作工程师看着驳回日志说:"我们刚刚让这个客户在单单一批里免于发出 68 封会摧毁信誉的邮件。"那一刻我就知道,这个架构是对的。
为什么我们选择 LangGraph 而非 CrewAI
简短说一句技术上的题外话,因为编排框架比大多数人意识到的更为重要。
许多构建多智能体系统的团队会选用 CrewAI,因为它很直观——你定义角色,框架负责处理交互。但那层抽象隐藏了对话的状态。你很难强制执行诸如"如果事实核查员两次失败,就升级给人工"这样的确定性规则。智能体之间的交互可能难以预测,而在销售中,不可预测性是不可接受的。
我们使用 LangGraph,它将工作流程建模为一个显式的状态机——一张由节点(智能体)和边(决策)构成的图。每一次转移都有定义。每一个条件都可审计。如果合规分数低于 0.95 且批评次数少于 3,草稿就退回修订。如果它达到 3 次失败,就路由给人工。没有任何模棱两可。
这不是一种偏好——而是一项治理要求。企业合规团队需要为每一个 AI 决策都留有审计追踪。LangGraph 给了我们这一点。CrewAI 没有。关于编排架构的完整技术拆解,请参阅我们详尽的研究论文。
10-K 秘密武器
B2B 销售触达的唯一最佳数据来源不是潜在客户的网站(那是营销的虚饰),也不是新闻(那是揣测)。而是向 SEC 提交的10-K 年度报告。
上市公司在法律上被要求在"第 1A 项:风险因素"中披露其最重大的业务风险。这些不是粉饰。它们是对脆弱性的法律层面的坦白,是在承受证券欺诈处罚的前提下写就的。
一家物流公司会明确列出"燃油价格的波动"或"对遗留软件基础设施的依赖"作为重大风险。一家医疗保健公司会披露监管方面的敞口。一家金融科技公司会详述网络安全方面的顾虑。
我们的研究员智能体会自动拉取这些备案文件,隔离出与我们客户价值主张相关的风险因素,并将每一项连同引用一起存储:"来源:微软 10-K 2024,第 1A 项,第 4 段。"
当撰稿人打磨这封邮件时,它会写道:"我注意到在你们最新的年度备案文件中,遗留基础设施的韧性被列为 2025 年的一项明确优先事项。我们的平台正是针对这一点。"
那不是幻觉。那是来自潜在客户自己法律备案文件的、经过核实的事实。潜在客户读到后会想:这个人是真的做了功课。因为 AI 是真的做了。
矛盾的是,把 AI 约束在 10-K 之内反而让它变得更好,而非更糟。大语言模型在有边界时更为准确。10-K 提供了一圈经过核实的事实的安全边界,让模型得以把它的能力集中在将这些事实与价值主张相连接上,而不是凭空发明事实。
"但这难道不会比套壳更慢吗?"
人们不断地问我这个问题,答案是:会——就单封邮件而言。而这正是关键所在。
一个套壳产品每月发送 10,000 封邮件。也许 200 封得到回复。也许 30 封变成会议。也许 4 封变成合格商机——因为当潜在客户意识到那条"个性化洞察"是编造的时候,其余的都会土崩瓦解。
我们的系统发送的邮件更少。每一封都要花费更多的计算。但参与率却高得多,因为内容是真实的。高参与度告诉 Gmail 的 AI,发件人是正当合法的,这就保护了域名,也就意味着邮件能持续送达,而这在数月之内会复利累积成一条可持续的销售管道。
套壳这套做法是一场糖分带来的亢奋。它在第一次季度复盘时看起来很棒,到第三次时就变成了一场存亡危机。
"这不就是一个优秀的人工 SDR 所做的事吗?"有人在一次会议上问我。是的——只不过一个人工 SDR 无法在九十秒内读完一份 10-K 备案文件、将其与知识图谱交叉比对、起草一封个性化邮件,并对照源文档进行事实核查。这套架构并不取代人对质量的本能。它把这种本能规模化。
套壳时代正在终结
对此我毫不含糊。当前这一代 AI 销售套壳产品——套在通用模型之上、没有任何验证层的单薄界面——将会以我们记住 2000 年代初第一波邮件垃圾信息的方式被人记住。那是一段短暂而混乱的时期,一项新技术被用来大规模地烧毁信任,之后生态系统才发展出抗体。
Gmail 的 AI 过滤器就是那些抗体。潜在客户的老练是另一种。自动化销售的"恐怖谷"——那些感觉几乎像真人、却缺乏真正针对性的邮件——已经在市场中触发了一种免疫反应。决策者们正在学会对 AI 触达进行模式匹配,而当他们识破它时,发件人失去的不只是这笔交易。他们会在情感上被贴上不可信的标签。以每月 10,000 封邮件计,那就是 10,000 座被烧毁的桥。
在下一个周期里将主导 B2B 销售的公司,不是那些发送最多邮件的公司。而是那些发送的邮件是可验证为真实的——扎根于潜在客户自己的披露、对照结构化知识进行核查、并且端到端可审计。
在人工智能的时代,终极的奢侈品是真相。
问题不在于你的 AI 能否写出一封令人信服的邮件。如今任何模型都能做到这一点。问题在于,你的 AI 能否写出一封在潜在客户核实事实的那一刻还能站得住脚的邮件。如果它做不到,那你并不是在规模化销售。你是在规模化你的品牌自我毁灭的速度。