
你最优秀的销售早已写过上千封邮件——如何让 AI 从每一封中学习
我曾坐在一家中端市场 SaaS 公司的销售副总裁对面,他掏出手机给我看他的收件箱。他慢慢地往下滑,像验尸官在出示证据。他说:“数一数有几封读起来像是真人写的。”
我数出三封。而他屏幕上大概有四十封陌生开发邮件。其余的都惊人地相似——同样的节奏、同样空洞的热情、同样的措辞。“解锁。”“转型。”“赋能。”他告诉我,他已经开始把它们叫做“GPT 合唱团”。四十个声音,一首歌,却没有人在听。
那次谈话改变了我们在 VeriPrajna 所做工作的方向。我们一直在开发由 AI 驱动的外联系统,而我们一直在问错误的问题。整个行业都在问:我们怎样才能让 AI 写出更多邮件?而真正的问题是:我们怎样才能让 AI 写出的邮件听起来像是来自你团队里那个真正能收到回复的人?
这个区别——是把机器人规模化,还是把人规模化——才是全部关键所在。而答案最终证明是一套架构,而不是一段提示词。
收件箱是 AI 平庸之作的坟场
数据讲述了一个残酷的故事。陌生开发邮件的打开率已跌至约 27.7%,而就在一年前还是 36%。对大多数营销活动而言,回复率介于 1% 到 5% 之间。这个媒介并没有走向消亡——是那些消息在消亡。
事情是这样发生的:生成一封邮件的成本降到了近乎为零,于是人人都开始生成邮件。市场被淹没了。而由于大多数工具都使用相同的基础模型,只做极少的定制,输出便趋于一致。每封邮件都开始听起来像其他每一封邮件。这不是因为 AI 不擅长写作,而是因为它太擅长写出它读过的一切的平均值了。
大语言模型是概率机器。若任其自行发挥,它们会生成统计上最可能出现的下一个词,这产生的文本流畅、称职,却又平庸到令人过目即忘。它是语言上的米黄色油漆。
当每一封 AI 邮件听起来都一样时,“个性化”只不过意味着你把收件人的名字写对了。
那些自称“个性化”的工具,大多只是在做变量注入——替换掉{{First_Name}}和{{Company_Name}},也许再加一句关于最近某轮融资的话。那是定制。个性化则完全是另一回事。个性化是指你表达某件事的方式让收件人感觉你理解他们是怎么思考的。
我意识到我们做错了东西的那个夜晚
有那么一个夜晚——很晚了,那种让你分不清自己是在高效工作还是只是在犯倔的深夜——我正在查看我们某个早期外联活动的 A/B 测试结果。我们有两个版本。版本 A 是我们 AI 生成的邮件,精雕细琢、结构良好、击中了所有价值主张。版本 B 是一位名叫 Priya 的销售代表写的、略显凌乱的邮件。更短。在本不该出现句子片段的地方有一个片段。一句几乎太过随意的落款。
版本 B 大获全胜。而且不是赢一点点。回复率高出近五倍。
我记得自己盯着数据,感到由衷的困惑。Priya 的邮件违反了规则。它太短了。开头很突兀。但它奏效了,因为它听起来像一个真实的人——忙碌、直接,没时间在这上面装样子。
就在那一刻,有某样东西在我心里豁然开朗。我们的 AI 的问题不在于它写得不好。问题在于它写得像个 AI。而解决办法不是更好的提示词——而是教会模型像 Priya 那样写。
为什么模仿某人的风格真的有效?
在深入讲架构之前,我需要解释为什么这件事在认知层面上重要,因为它绝不只是锦上添花。
有一批研究围绕着一个叫做“语言风格匹配”(LSM)的现象。核心发现是:如果某人的沟通风格与自己相近,人们会显著更倾向于信任他、与他互动并答应他的请求。这无关内容。它关乎功能词、句子节奏、正式程度,以及一个人把想法串联起来时那种无意识的质感。Ludwig 等人 2013 年的一项研究发现,在线环境中的转化率与一条消息和其收件人之间的语言契合程度直接相关。
这与某种更深层的东西相对应——镜像神经元。当你遇到反映你自身模式的沟通时,它会激活与自我表达相关的神经通路。它让人感觉熟悉。安全。属于同一群体。谈判研究表明,镜像能把成功达成一致的比率从 12% 提高到 67%。数十年来,销售代表们凭直觉就懂得这一点。最好的成交高手都是变色龙。
最好的销售邮件听起来不像一封销售邮件。它听起来像收件人在自言自语。
问题在于,镜像本质上是一种人类的、本质上手工的技能。它无法规模化。你不可能让你的顶尖销售代表亲自为一万个潜在客户逐一撰写邮件。但你可以捕捉到是什么让他们的写作奏效,并把它注入一套能够大规模生成的 AI 系统。
这就是核心论点。不是“取代人”。把人规模化。
什么是少样本风格注入,它为什么不同于更好的提示词?

少样本提示是给 LLM 提供少数几个示例的技术——“这里有三封奏效的邮件,现在照着这些写一封。”它自 GPT-3 起就已存在。让我们的方法与众不同的是这些示例来自哪里以及它们是如何被选出的。
大多数使用少样本提示的人都是手动挑选示例。他们粘贴进两三封自己喜欢的邮件,就此打住。如果你只面向一种类型的潜在客户写作,那样做没问题。可一旦你需要为 CTO 和市场副总裁调整不同的语气,或者为一位 FinTech 买家和一位制造业买家区别对待,它就崩溃了。
我们构建的是一套动态检索系统。我们把一个精心策划的、由真人撰写的高绩效邮件库——我们称之为“风格库”——存储在一个向量数据库中。当系统需要为某个特定潜在客户生成邮件时,它不使用静态示例。它会根据收件人是谁、他们处于什么情境中,实时检索出风格上最合适的示例。
我在我们研究的交互版本中写过完整的架构,但关键洞见是这样的:我们把内容检索与风格检索分离开来。两条并行的管线。一条回答“我们应该说什么?”另一条回答“我们应该怎么说?”
这种分离就是一切。标准的语义搜索把主题和语气混为一谈。如果你搜索“写给 CTO 的邮件”,你得到的是关于CTO 的邮件,而不是以 CTO 会回应的口吻为CTO 撰写的邮件。通过将二者解耦,我们可以用一种随意、直接的语气——或者一种正式、克制的语气——来发送一条关于企业安全的消息,只需切换风格检索路径即可。
构建风格库:魔法(与痛苦)之所在

在这里我必须诚实地谈谈那不光鲜的部分有多难。
风格库在理论上听起来很优雅。而在实践中,构建一个风格库需要翻查数月的 CRM 数据,把邮件与结果交叉比对,剥离掉个人身份信息,然后给每一封留存下来的邮件标注元数据——语气、结构、收件人画像、交易阶段。
我和我的团队为标注分类法争论了差不多一整周。“直接”和“生硬”应该算同一类吗?“有同理心”是一种语气还是一种结构?“挑战型”销售在哪里结束、“咄咄逼人”又从哪里开始?当你的检索质量取决于标签的精确度时,这些就不是学术问题了。
我们最终确定了一套模式,从四个维度给每封邮件打标签:语气(正式、随意、紧迫、有同理心)、结构(问题—激化—解决、直接请求、软性接触)、收件人画像(技术型、财务型、运营型),以及结果(已预约会议、已收到回复、无回应)。这个向量数据库——我们使用的是一套针对低延迟检索优化的配置——同时存储嵌入向量和这些元数据,从而支持混合搜索。“帮我找出与这位潜在客户的风格画像相近的向量,条件是行业等于 SaaS 且结果等于已预约会议。”
你的 AI 的水平,只取决于你训练集里最差的那封邮件。垃圾风格进去,垃圾输出出来。
我们是吃了苦头才学到这一点的。早期,我们纳入了一些技术上“成功了”的邮件——它们收到了回复——但那些回复是诸如“请把我从你的名单里删掉”之类的东西。按结果的质量而非仅仅按有无结果来筛选,是一个代价高昂的教训,在我们察觉之前它让我们白白经历了几周糟糕的结果。
系统究竟是如何为每个潜在客户挑选出正确风格的?
当一个新的潜在客户进入管线时——比如一家 FinTech 公司的 CTO——系统会运行一个多步骤流程。首先,它分析这位潜在客户的公开沟通。LinkedIn 帖子、他们的简介,任何能拿到的东西。这个人说话简短吗?他们用技术行话还是大白话?他们是正式的还是偏对话式的?
然后它生成一条风格查询:“检索三封成功发给 FinTech 行业 CTO、采用简短、直接且略带技术性语气的历史邮件。”向量数据库运行余弦相似度搜索,从风格库中返回最接近的匹配项。
那些检索到的邮件便成为提示词中的少样本示例。不是静态的。不是手工挑选的。而是为此时此刻这个特定的人动态选出的。
三到五个示例是最佳区间。少于三个,模型得不到足够的信号。多于五个,你就会开始消耗上下文窗口的 token,却没有相应的提升——而且你有让模型过拟合到最近那个示例、而非综合归纳出所有示例中共通模式的风险。
没人谈论的真相问题

在开发期间,有件事让我夜不能寐:风格注入会让 AI 更擅长撒谎。
当你把一个 LLM 用力推向某种特定风格——尤其是一种有说服力的或随意的风格——它有时会开始弯曲事实以迎合那种氛围。我们会看到这样的邮件:AI 在演绎某位格外热情的销售代表的风格时,会微妙地夸大产品能力。不是凭空幻觉,而是以在那种风格下显得自然、但事实上错误的方式来拉伸真相。
我们称之为“风格化诱发的真实性崩塌”,这是一个真实存在的风险,而我看到这个领域里谈论它的人还不够多。
我们的解决方案是架构性的,而不仅仅是指令性的。我们把内容语境(事实、价值主张、定价)和风格语境(语气示例)保留在提示词的不同部分。系统指令明确告诉模型:风格示例支配形式,内容语境支配实质。而且我们会运行一个二次验证步骤——一个“评审”模型,在邮件发出之前,对照事实来源材料检查生成的邮件。
关于这一切如何运作的完整技术剖析,包括双检索架构以及我们对对比式风格嵌入的处理方法,请参阅我们的研究论文。
它完美吗?不。但这是两者之间的区别:一个偶尔需要人来抓住某处夸大之词的系统,与一个惯常捏造断言的系统。我宁愿选前者。
“可是垃圾邮件过滤器难道不会照样拦下 AI 生成的邮件吗?”
这是我最常被问到的问题,而答案有悖直觉:风格注入实际上有助于送达率。
现代垃圾邮件过滤器——Gmail、Outlook——正越来越多地用 AI 来检测 AI。它们寻找低困惑度(过于可预测的文本)和高一致性(缺乏人类写作那种自然变化的文本)。标准的 LLM 输出几乎病态地流畅。每个句子都大致一样长。词汇取自同一个狭窄的范围。这是一枚尖叫着“机器”的统计指纹。
人类的写作是有爆发性的。一个短句。然后一个较长的句子,先绕上几绕,才抵达它的要点。接着来一个片段。这种变化——语言学家称之为“爆发性”——正是少样本风格注入所重新引入的东西。通过迫使模型去匹配那些包含句子片段、反问和突兀转折的真实人类示例,输出看起来就不那么像“AI 废料”,而更像真正的往来信函。
大批量的通用 AI 群发是通往垃圾邮件文件夹和域名黑名单的捷径。风格注入是为你的送达率所做的人类伪装。
域名声誉这个角度被低估了。发出一千封机械式的邮件不仅无法转化——它还会主动损害你的发件人声誉,让你未来的邮件更难抵达任何人的收件箱。这是一种会累积的惩罚。今天群发通用 AI 外联的公司,是在透支它们自己未来沟通的能力。
有人说“直接用 GPT 不就行了”的那一部分
曾有一位投资人对我这么说。不是这几个字原封不动,但很接近。“既然别人可以直接提示 ChatGPT 用某种风格来写,他们为什么还要为这个付费?”
我在笔记本电脑上调出了两封邮件。两封都是“以一位直接、务实的销售领导者的风格”写的。一封由一段普通的 GPT-4 提示词生成。另一封由我们的系统生成,使用了从风格库中检索出的、来自一位顶尖销售代表的三个真实示例。
GPT-4 那版还不错。专业。清晰。它读起来像一封称职的销售邮件,由一个读过一本关于如何直接的书的人写成。
风格库那版有一个奇怪的开头。它从半路开始,几乎像是发件人在延续一段尚未发生过的对话。第二句只有四个词。落款只是一个名字,没有职衔,没有公司。它感觉像一个真正忙碌而直接的人,而不是一个在表演忙碌与直接的人。
那位投资人读完两封,指向了第二封。“那封。那听起来像个真人。”
这就是那道鸿沟。提示一个 LLM“要直接”,得到的是模型对“直接”的统计学诠释。给它看三个某个特定真人直接的真实示例,得到的是那个人的直接。这个区别,就是角色描述与实际表演之间的区别。
这对销售团队意味着什么(不是你想的那样)
人们总是问我这是否会取代销售代表。它不会。它做的是更有意思的事:它让你的整个团队都听起来像你最好的那位代表。
想想当你招进一位新的 SDR 时会发生什么。他们要花上数周、有时数月的时间去找到自己的声音。学习什么行得通。培养对语气的直觉。有了一个用你顶尖高手最好的作品构建的风格库,一位新代表从第一天起就能开始发送承载着团队久经验证之声音的邮件。
数据显示,这在起草时间上每位销售每周大约能省下 12.7 小时。但真正的价值不在于节省时间——而在于一致性。不再有周一早上的质量下滑。不再有那些电话上很棒、书面表达却糟糕的代表。风格库成为一种被编码固化、可供检索的机构知识。
而且它会创造出一个飞轮。每一封获得正面回应的新邮件都会被向量化并加入到风格库中。系统会随时间变得越来越好,不是因为 AI 变强了,而是因为那座人类卓越表现的库在不断壮大。
那个令人不安的未来
接下来我要做一个也许会随时间证明大错特错的预测:两年之内,那些仍在使用通用 AI 外联的公司,将在功能上无法再通过电子邮件触达它们的潜在客户。不是因为电子邮件消亡了,而是因为它们的域名将受损严重、内容将被过滤到如此地步,以至于它们变得无形。
会胜出的公司,将是那些把它们最优秀销售者的沟通模式当作战略资产来对待的公司——一种要被捕捉、策划并规模化的东西。不是被 AI 取代。而是被 AI 放大。
使用高级个性化和风格匹配的营销活动,已经报告出 40—50% 的回复率,相比之下通用方式仅为 1—8.5%。那不是边际上的改进。那是一项完全不同的运动。
“你好 {{First_Name}},我注意到贵公司最近 {{trigger_event}}”的时代正在终结。接下来到来的是认知性个性化——一种 AI,它不只知道关于你潜在客户的事实,还会用那种让你的潜在客户感到被理解的特定语域来说话。
销售中最有价值的资产不是你的产品数据。而是你最优秀的人谈论它的方式。
我们创建 VeriPrajna 不是为了让销售自动化。我们创建它,是为了克隆那个让优秀销售员之所以优秀的东西——并把它交给团队里的每一个人。那不是把机器人规模化。那是把人规模化。而这是唯一一个有未来的销售 AI 版本。