一張醒目的編輯風格視覺圖,對比大量生產、千篇一律的郵件,與一封獨具個性、讀來像真人所寫、脫穎而出的訊息。
Artificial IntelligenceSalesMachine Learning

你最頂尖的業務早已寫過上千封開發信。以下是 AI 如何從每一封中學習。

Ashutosh SinghalAshutosh Singhal2026年2月17日14 min

當時我坐在一家中型市場 SaaS 公司的銷售副總對面,他掏出手機,把收件匣展示給我看。他慢慢地往下滑,像法醫在呈現證據一樣。「數數看有幾封讀起來像是真人寫的,」他說。

我數到三封。在他螢幕上大概四十封的開發信裡。其餘的都詭異地相似——同樣的節奏、同樣空洞的熱情、同樣的字眼。「Unlock(解鎖)。」「Transform(轉型)。」「Leverage(善用)。」他告訴我,他開始把這些叫做「GPT 合唱團」。四十個聲音,一首歌,而沒有人在聽。

那場對話改變了我們在 Veriprajna 所打造之物的方向。我們一直在開發 AI 驅動的外拓系統,而我們問錯了問題。整個產業都在問:我們該如何讓 AI 寫出更多的電子郵件?真正的問題是:我們該如何讓 AI 寫出的郵件,讀起來就像出自你團隊裡那個真正能收到回覆的人之手?

這個區別——擴大機器人的規模,還是擴大真人的規模——就是整場比賽的全部關鍵。而答案原來是一套架構,而不是一段提示詞。

收件匣是 AI 平庸之作的墳場

數據道出了一個殘酷的故事。開發信的開啟率已跌至約 27.7%,一年前還有 36%。對大多數行銷活動而言,回覆率介於 1% 到 5% 之間。這個媒介並沒有死——死的是訊息本身。

事情是這樣的:生成一封郵件的成本降到近乎於零,於是每個人都開始生成郵件。市場氾濫了。而由於大多數工具使用相同的基礎模型,只做最低限度的客製化,輸出便趨於一致。每封郵件都開始聽起來跟其他每封郵件一樣。不是因為 AI 寫得差,而是因為它太擅長寫出它所讀過一切內容的平均值

大型語言模型是機率機器。若任其自行運作,它們會生成統計上最可能出現的下一個字,產出的文字流暢、稱職,卻極其容易被遺忘。這在語言上等同於米色油漆。

當每一封 AI 郵件聽起來都一樣時,「個人化」不過意味著你把收件人的名字寫對了。

那些自稱「個人化」的工具,大多只是在做變數注入——換入{{First_Name}}{{Company_Name}},也許再加上一句關於近期募資輪的話。那叫客製化。個人化完全是另一回事。個人化是指你說某件事的方式讓收件人覺得你懂他們是怎麼思考的。

我意識到我們打造錯東西的那個夜晚

有一個夜晚——很晚了,那種你分不清自己是有生產力還是只是固執的深夜——我正在檢視我們早期某次外拓活動的 A/B 測試結果。我們有兩個版本。版本 A 是我們 AI 生成的郵件,精緻、結構良好,命中了所有的價值主張。版本 B 是一位名叫 Priya 的業務代表寫的、略顯凌亂的郵件。更短。在不該有的地方出現一個不完整的句子。一個近乎太過隨意的結尾署名。

版本 B 大獲全勝。而且不是贏一點點。回覆率幾乎高出了五倍。

我記得我盯著那些數據,感到真心的困惑。Priya 的郵件破壞了規則。它太短了。開頭很突兀。但它就是有效,因為它聽起來像一個真實的人,忙碌、直接,沒時間為此裝腔作勢。

就在那時,有個東西在我心裡豁然開朗。我們 AI 的問題不在於它不會寫。問題在於它寫得像個 AI。而解方不是更好的提示詞——而是教會這個模型像 Priya 一樣寫作。

為什麼模仿某人的風格真的有效?

在深入談架構之前,我得先解釋為什麼這件事在認知層面上很重要,因為它並不只是個錦上添花的功能。

有一整套研究圍繞著一種叫「語言風格匹配」(Linguistic Style Matching,LSM)的東西。核心發現是:當溝通風格與自己相仿時,人們明顯更傾向於信任對方、與對方互動,並順從對方的請求。這與內容無關。它關乎功能詞、句子節奏、正式程度,以及一個人串連思緒時那種無意識的質地。Ludwig 等人於 2013 年的一項研究發現,線上環境中的轉換率與一則訊息和其收件人之間的語言一致程度直接相關。

這對應到某種更深層的東西——鏡像神經元。當你遇到反映自身模式的溝通時,它會活化與自我表達相關的神經路徑。它讓人感到熟悉。安全。同一陣營。談判研究顯示,模仿能將成功達成協議的比率從 12% 提高到 67%。業務代表憑直覺已經知道這一點數十年了。最頂尖的成交者都是變色龍。

最好的銷售郵件聽起來不像一封銷售郵件。它聽起來像收件人在對自己說話。

問題在於,模仿本質上是一種屬於人、且本質上手工的技能。它無法規模化。你沒辦法讓你最頂尖的業務親自為一萬名潛在客戶撰寫郵件。但你可以捕捉使他們的文字奏效的關鍵,並把它注入一套能大規模生成的 AI 系統之中。

這就是論點。不是「取代真人」。而是擴大真人的規模。

什麼是少樣本風格注入(Few-Shot Style Injection),它為何有別於更好的提示?

一張系統架構圖,展示雙管線的做法——內容檢索與風格檢索並行運作,在進入 LLM 生成之前於提示詞組裝階段合流。

少樣本提示(Few-shot prompting)是給予 LLM 少數幾個範例的技巧——「這裡有三封奏效的郵件,現在照著這些寫一封。」它從 GPT-3 時代就存在了。讓我們的做法與眾不同的是這些範例從何而來以及它們是如何被選出的

大多數使用少樣本提示的人是手動挑選範例的。他們貼進兩三封自己喜歡的郵件就收工。如果你只寫給某一種類型的潛在客戶,那樣做沒問題。但一旦你需要針對技術長與行銷副總、或針對金融科技買家與製造業人士調整語氣,它就會崩潰。

我們所打造的是一套動態檢索系統。我們把一個精選的、由真人撰寫的高績效郵件庫——我們稱之為「風格庫」(Style Store)——存放在向量資料庫中。當系統需要為某位特定潛在客戶生成郵件時,它不使用靜態範例。它會檢索出在風格上最合適的範例,即時進行,依據收件人是誰、以及他們身處何種脈絡。

我在我們研究的互動版本中寫過完整的架構,但關鍵洞見是這樣的:我們把內容檢索與風格檢索分開。兩條並行的管線。一條回答「我們該說什麼?」另一條回答「我們該怎麼說?」

這種分離就是一切。標準的語意搜尋會把主題與語氣混為一談。如果你搜尋「寫給技術長的郵件」,你得到的是關於技術長的郵件,而不是以技術長會回應的聲音技術長所寫的郵件。藉由把兩者解耦,我們可以用一種隨意、直接的語氣——或一種正式、審慎的語氣——來寄送一則關於企業安全的訊息,只需切換風格檢索的路徑即可。

打造風格庫:魔法(與痛苦)所在之處

一張圖,展示用來為風格庫中每封郵件加標籤的四維度標註綱要,並附上各維度的範例值。

在這裡,我得誠實面對那不光鮮的部分有多困難。

風格庫在理論上聽起來很優雅。實務上,打造一個風格庫需要翻查數個月的 CRM 資料、把郵件與結果交叉比對、剝除個人可識別資訊,然後為每一封留存下來的郵件標註後設資料——語氣、結構、收件人角色、交易階段。

我和我的團隊為了標註分類法足足爭論了將近一週。「直接」與「直白」該不該算同一個類別?「有同理心」是一種語氣還是一種結構?「挑戰者式」銷售在哪裡結束、「咄咄逼人」又從哪裡開始?當你的檢索品質取決於標籤的精確度時,這些就不再是純學術問題了。

我們最終定案的綱要,會沿著四個維度為每封郵件加標籤:語氣(正式、隨意、緊急、有同理心)、結構(問題—激化—解決、直接請求、輕柔觸及)、收件人角色(技術型、財務型、營運型),以及結果(已預約會議、已收到回覆、無回應)。這個向量資料庫——我們採用一套為低延遲檢索最佳化的配置——同時儲存嵌入向量與這些後設資料,實現混合搜尋。「幫我找出接近這位潛在客戶風格輪廓的向量,其中產業等於 SaaS 且結果等於已預約會議。」

你的 AI,好不過你訓練集裡最差的那封郵件。垃圾風格進,垃圾輸出出。

我們是吃了苦頭才學到這一點。早期我們納入了一些技術上「成功」的郵件——它們收到了回覆——但那些回覆是像「請把我從你的名單裡移除」這樣的內容。針對結果的品質進行過濾,而非僅僅看結果是否存在,這是一堂在我們察覺之前先讓我們付出了幾週糟糕成效代價的課。

系統到底是如何為每位潛在客戶挑出正確的風格的?

當一位新的潛在客戶進入管線時——比方說,一家金融科技公司的技術長——系統會執行一套多步驟流程。首先,它會分析這位潛在客戶的公開溝通。LinkedIn 貼文、他們的個人簡介、任何可取得的資料。這個人說話簡短嗎?他們使用技術行話還是平白的語言?他們是正式的還是對話式的?

接著它會生成一段風格查詢:「檢索三封曾成功寄給金融科技技術長、且採用簡短、直接、略帶技術性語氣的歷史郵件。」向量資料庫會執行餘弦相似度搜尋,並從風格庫回傳最相近的匹配結果。

那些被檢索出的郵件,就成為提示詞中的少樣本範例。不是靜態的。不是手工挑選的。而是為此時此刻的這一位特定人物動態選出的。

三到五個範例是最佳甜蜜點。少於三個,模型得到的訊號不夠。多於五個,你就開始耗費脈絡視窗的 token,卻沒有相稱的改善——而且你有讓模型過度擬合最近一個範例、而非綜合所有範例中模式的風險。

沒有人談論的真相問題

一張圖,展示對抗「風格化誘發真實性崩潰」的架構性防護措施——風格與內容如何在提示詞中被分開,並附帶一個評判者模型的驗證步驟。

以下是開發期間讓我夜不能寐的一件事:風格注入能讓 AI 更會撒謊

當你把一個 LLM 大力推向某種特定風格時——尤其是有說服力的或隨意的風格——它有時會開始扭曲事實以配合那種氛圍。我們會看到這樣的郵件:AI 沿用某位特別熱情的業務代表的風格,會微妙地誇大產品能力。並非憑空幻覺,而是以在該風格內顯得自然、但事實上錯誤的方式來拉伸真相。

我們把這稱為「風格化誘發真實性崩潰」(Stylization-Induced Truthfulness Collapse),而這是一個真實的風險,我認為這個領域談論它的人還不夠多。

我們的解方是架構性的,而不只是指示性的。我們把內容脈絡(事實、價值主張、定價)與風格脈絡(語氣範例)放在提示詞中彼此分開的區塊。系統指示明確告訴模型:風格範例掌管形式,內容脈絡掌管實質。而我們還會執行一個次級的驗證步驟——一個「評判者」模型,在郵件寄出之前,對照事實來源素材檢查所生成的郵件。

關於這一切如何運作的完整技術剖析,包括雙檢索架構以及我們對對比式風格嵌入的做法,請參見我們的研究論文

它完美嗎?並不。但這是兩者之間的差別:一個偶爾需要真人來抓出一句誇大之詞的系統,與一個例行性地捏造聲稱的系統。前者我要定了。

「可是垃圾郵件過濾器不是本來就會攔下 AI 生成的郵件嗎?」

這是我最常被問到的問題,而答案違反直覺:風格注入其實有助於投遞成效。

現代的垃圾郵件過濾器——Gmail、Outlook——正日益使用 AI 來偵測 AI。它們會尋找低困惑度(perplexity,過於可預測的文字)與高一致性(缺乏人類寫作那種自然變化的文字)。標準的 LLM 輸出幾乎病態地平順。每個句子的長度大致相同。詞彙來自同一個狹窄的區間。這是一個大喊「機器」的統計指紋。

人類的寫作是有爆發性的。短句。接著是一個蜿蜒繞了一會兒才抵達重點的較長句子。然後是一個不完整的片段。這種變化——語言學家稱之為「爆發性」(burstiness)——正是少樣本風格注入所重新引入的東西。藉由迫使模型去匹配那些含有不完整句子、反問句與突兀轉折的真實人類範例,其輸出看起來就更不像「AI 廢料」,而更像真正的往來信件。

大量發送的通用 AI 轟炸,是通往垃圾郵件夾與網域黑名單的捷徑。風格注入是你投遞成效的人類偽裝。

網域信譽這個角度被低估了。寄出一千封機械式的郵件,不只是轉換失敗——它會主動損害你的寄件人信譽,讓你未來的郵件更難抵達任何人的收件匣。這是一種會複利累積的懲罰。今天那些用通用 AI 外拓進行轟炸的公司,正是在向自己未來的溝通能力借貸。

有人說「直接用 GPT 就好」的那一段

有位投資人跟我說過這句話。不是一字不差,但很接近。「當人們可以直接提示 ChatGPT 用某種風格來寫時,他們為什麼還要為這個付錢?」

我在筆電上調出了兩封郵件。兩封都是「以一位直接、務實的銷售主管的風格」寫成的。一封是由一段普通的 GPT-4 提示生成的。另一封是由我們的系統生成的,使用了三個從風格庫檢索出、來自一位頂尖業務代表的真實範例。

那個 GPT-4 版本還不錯。專業。清楚。它讀起來像一封稱職的銷售郵件,出自一個讀過一本關於「如何直接」的書的人之手。

風格庫版本有一個奇怪的開頭。它從一個思緒的中段起筆,幾乎像是寄件人在延續一場尚未發生過的對話。第二句只有四個字。結尾署名只有一個名字,沒有頭銜,沒有公司。它讓人感覺這是一個真的很忙、很直接的人,而不是一個在表演忙碌與直接的人。

那位投資人讀了兩封,指向了第二封。「就那封。那封聽起來像個人。」

那就是差距所在。提示一個 LLM 去「表現得直接」,給你的是模型對「直接」的統計詮釋。讓它看三個某個特定人物「表現直接」的真實範例,給你的是那個人的直接。這差別,就是角色描述與一場演出之間的差別。

這對銷售團隊意味著什麼(不是你所預期的那樣)

人們總是問我,這會不會取代業務代表。它不會。它做的是更有意思的事:它讓你整個團隊聽起來都像你最頂尖的那位業務。

想想看,當你雇用一位新的 SDR 時會發生什麼。他們花上數週、有時數月,去尋找自己的聲音。學習什麼有效。培養關於語氣的直覺。有了一個從你頂尖高手最出色作品所建構的風格庫,一位新業務從第一天起,就能開始寄出承載著團隊經證明有效之聲音的郵件。

數據顯示,這為每位業務每週省下約 12.7 小時的草擬時間。但真正的價值不在於省時間——而在於一致性。不再有週一早晨的品質下滑。不再有電話上很強、書寫上卻很糟的業務。風格庫成為一種被編碼、可檢索的機構知識。

而它創造了一個飛輪。每一封收到正面回應的新郵件,都會被向量化並加入風格庫。系統會隨時間變得更好,不是因為 AI 進步了,而是因為人類卓越表現的資料庫增長了。

令人不安的未來

接下來我要做一個可能會很難堪地過時的預測:兩年之內,那些仍在使用通用 AI 外拓的公司,將在功能上無法透過電子郵件觸及他們的潛在客戶。不是因為電子郵件消亡了,而是因為他們的網域將受損嚴重、內容被過濾殆盡,以致於他們形同隱形。

會勝出的公司,將是那些把自家最頂尖業務的溝通模式視為策略資產的公司——一種需要被捕捉、被精選、被規模化的東西。不是被 AI 取代。而是被 AI 放大。

採用進階個人化與風格匹配的行銷活動,回覆率已達到 40–50%,相較之下通用做法為 1–8.5%。那不是邊際上的改善。那是一項不同的運動。

「嗨 {{First_Name}},我注意到貴公司最近 {{trigger_event}}」的時代正在結束。接下來到來的是認知型個人化——一種 AI,它不只知道關於你潛在客戶的事實,更以那種讓你潛在客戶感到被理解的特定語域來說話。

銷售中最有價值的資產不是你的產品數據。而是你最頂尖的人談論它的方式。

我們打造 Veriprajna 不是為了自動化銷售。我們打造它,是為了複製那個讓頂尖業務之所以頂尖的東西——並把它交給團隊中的每一個人。那不是擴大機器人的規模。那是擴大真人的規模。而它是唯一擁有未來的那個版本的銷售 AI。

Related Research

Also Published On