一個對比 AI 生成流暢度與事實準確性的視覺隱喻——一封精美的電子郵件被放在一面驗證放大鏡下檢視，專為 B2B 銷售情境設計。

Artificial IntelligenceSalesB2B

你的 AI 銷售代表正在對客戶說謊——而你還付錢讓它這麼做

Ashutosh Singhal 2026年1月27日14 min

與一家中型市場 SaaS 公司合作進行試點的第三個月，我的團隊看著一個 AI 銷售代理草擬了一封看似完美無瑕的陌生開發電子郵件。個人化。語氣親切。提到了潛在客戶最近完成的 B 輪融資，並恭喜他們「進軍亞太市場」。

只有一個問題：這位潛在客戶並沒有進軍亞太市場。他們早在六週前就關閉了新加坡辦公室。這個 AI 憑空捏造了一個事實，用完美的文法包裝起來，差一點就把它寄給了我們客戶追求了兩年的一家公司的執行長。

人工審核員發現了它。險之又險。當時是晚上 11 點，她正在睡前批准一批四十封電子郵件。她差一點就沒有點進去核實。

那一晚改變了我對銷售中 AI 的看法。不是它是否有效——從經濟角度看，它顯然有效。而是大多數公司部署它的方式，是否是一場慢動作的品牌自殺，在為時已晚之前沒有人在衡量。

我經營 Veriprajna，一家深度 AI 顧問公司，我們為企業打造自主代理系統。這篇文章談的是一個我相信將在未來兩年定義 B2B 銷售的問題：AI 流暢度與 AI 真實性之間的落差——以及我們為彌合這一落差而設計的架構。

經濟效益極具誘惑力。這正是問題所在。

一張對比資訊圖，展示 AI SDR 相對於人類極具誘惑力的成本／數量數字，以及轉換率中隱藏的品質落差，讓核心的經濟悖論在視覺上一目了然。

我理解為什麼公司會急於部署 AI SDR（Sales Development Representatives 銷售開發代表——負責發送陌生開發並約定會議的人）。這筆帳對他們極為有利。

一名人類 SDR 的完全負擔成本為每年 75,000 至 125,000 美元。他們的年流失率為 30–40%。他們需要三到六個月才能上手。他們會疲憊、氣餒，在足夠多的拒絕之後產生「打電話恐懼」。

一個 AI SDR 每年成本為 7,000 至 45,000 美元。它每天處理超過 1,000 個聯絡人。它在五分鐘內回應——這個門檻與轉換率提升 900% 相關。它從不睡覺、從不鬧脾氣、從不辭職。

如果你是一位營收主管，盯著這些數字，那麼不去探索自動化就是失職。

但這裡有一個應該讓你夜不能寐的數據：AI SDR 產生的電子郵件回覆率比人類高出多達 50%——然而它們的「會議轉合格商機」轉換率卻是15%，而人類為 25%。AI 讓人們願意回覆，但它讓人們回覆的是不真實的事物。它約到的會議在細究之下崩解，因為吸引潛在客戶上鉤的那個「個人化洞見」是捏造的。

當每個人都能免費產生「完美」的文字時，文字本身便失去了它的訊號價值。唯一剩下的訊號就是準確性。

為什麼你的 AI SDR 會產生幻覺？

在這個環節，大多數人會聳聳肩說「AI 還不完美」。但這種說法是危險的錯誤。幻覺不是一個會在下個模型版本中修補的錯誤。它是這些系統運作方式的一個數學特徵。

大型語言模型是機率計算器。它們被訓練來根據前面出現的一切預測下一個最可能的字詞。掌管這一點的函數——稱為 Softmax——迫使模型在其整個詞彙表上分配總和恰好為 1 的機率。並不存在一個「我不知道」的內部狀態。模型必須產生某些東西。

所以當你要求它描述一家它毫無資料的公司的「2025 財務策略」時，它不會回傳空白。它會產生聽起來像財務策略的詞元——「成長」、「利潤率擴張」、「數位轉型」——因為這些字詞在統計上很可能接在那類提示之後。它是在模擬一則事實陳述的質感，卻沒有任何底層的事實。

更糟的是，在訓練過程中，這些模型因自信的預測而受到獎勵，因不確定性而受到懲罰。它們字面上被訓練成採取一種毫無根據的自信姿態。在銷售情境中，「說服」與「不實陳述」之間的界線受到法律規範，這令人不寒而慄。

我記得曾與一位潛在客戶的技術長為此爭論。他不斷地說：「我們只要用我們的資料微調它就好。」我調出了他們的產品文件——47 頁的邊緣案例、定價層級與合規注意事項。我問：「這些當中，你能接受模型把哪些做到大致正確？」

他沉默了。

AI 在銷售電子郵件中撒謊的四種方式

一張分類圖，展示 AI 在銷售電子郵件中四種不同類型的幻覺，每種都附有具體範例，讓讀者能快速區分並記住它們。

並非所有幻覺都是平等的，而理解這套分類很重要，因為每種類型帶有不同的風險：

事實衝突型幻覺是最明顯的——AI 陳述了某些與現實相矛盾的事。宣稱一位潛在客戶使用 Salesforce，而他們的招聘啟事卻提到 HubSpot。援引一個從未發生過的「近期亞太擴張」。

輸入衝突型幻覺則更微妙也更可怕。你上傳一份定價 PDF，上面說你的服務要價 10,000 美元。AI 卻根據其產業平均值的預訓練資料，在電子郵件中報價 5,000 美元。你現在可能已經製造了一項具約束力的價格承諾。

情境衝突型幻覺指的是 AI 在一次對話中自相矛盾。潛在客戶已經婉拒了週二的會議。AI 卻再次提議週二。這暗示著其實沒有人真正在注意——因為的確沒有人在注意。

邏輯型幻覺是最陰險的。「你最近完成了 B 輪融資，因此你一定在尋求替換你的財務長。」貌似合理的推理，卻被當作事實陳述。潛在客戶讀到後心想：誰跟他們說我們要替換財務長？現在你已經從純粹的捏造中製造了混亂，甚至可能是一場洩密恐慌。

當 Gmail 反擊時會發生什麼？

這是 AI 幻覺的一個後果，在銷售自動化領域幾乎沒有人談論，而它正是最終說服我最抱持懷疑態度的客戶認真看待此事的那個後果。

Google 與 Microsoft 正在部署它們自己的 AI 來保護收件匣。Gmail 的 2025 垃圾郵件防禦使用 TensorFlow 以及一個名為 RETVec 的系統——Resilient & Efficient Text Vectorizer（韌性高效文本向量化器）——它能偵測 AI 生成文本的統計特徵。它不再只是尋找垃圾郵件關鍵字。它會分析發送模式與意圖。

如果你的 AI SDR 猛發數千封共享相同結構指紋的電子郵件——即使字詞略有不同——Gmail 會辨識出這個模式並限制你的網域流量。如果收件人不讀就刪除你的電子郵件，或將它們標記為垃圾郵件，你的網域信譽分數就會直線下墜。而關鍵在於：一旦你的網域被燒毀，停止送達的就不只是你的行銷電子郵件。你的發票、你的密碼重設、你的客戶支援回覆——從那個網域寄出的一切都會被過濾掉。

事實查核並非錦上添花。它是一種送達率策略。我們核實聲明不是為了禮貌——我們核實它們是為了讓我們的電子郵件伺服器保持上線。

這裡有一條直接的因果鏈：幻覺導致無關的電子郵件，這導致低參與度，這觸發垃圾郵件標記，這導致網域被列入黑名單。你的 AI 代理的架構，直接決定了你的公司在六個月後是否還能發送電子郵件。

我向一家 C 輪公司的銷售副總說明了這一點。他運行一個 AI 包裝器已有四個月，並對其發送量感到欣喜。我請他查看他的網域信譽分數。他在手機上調出來，臉色變了。他們已從「高」跌到「低」，卻沒有任何人注意到。他們的續約確認電子郵件正落入垃圾郵件匣。

為什麼標準 RAG 無法解決這個問題？

業界對幻覺的預設答案是 RAG——Retrieval-Augmented Generation（檢索增強生成）。與其讓模型憑空捏造，你檢索相關文件並將它們作為上下文餵給模型。這是一項真正的進步。但對於高風險的 B2B 銷售，它還不夠。

標準 RAG 使用向量資料庫來儲存文本區塊，並檢索在數學上與查詢最接近的區塊。問題在於，「數學上最接近」往往是「真正相關」的一個糟糕替代指標。

搜尋「Apple Inc. 的風險」，向量資料庫可能會浮現一篇 2015 年關於 Apple「未能創新的風險」的文章，因為關鍵字「Apple」和「風險」相符。與此同時，它會錯過一份 2024 年關於歐盟監管風險的分析，因為詞彙不重疊。把 2015 年的資料餵給 LLM，它就會自信地告訴你的潛在客戶，Apple 今天最大的威脅是缺乏 iPhone 的後繼產品。過時的資料，卻被呈現為當前的洞見。

向量資料庫也無法處理實體。它們會把「John Smith，子公司 A 的執行長」與「John Smith，母公司 B 的副總」混淆，因為兩個區塊都含有相同的名字。LLM 看到這兩個引用，便把它們合併成一個被幻覺出來的單一人物。在銷售中，當你試圖證明你已對某人的組織架構做足功課時，這是一個摧毀可信度的錯誤。

我在我們的互動式研究簡報中寫過這個問題——以及向量資料庫與知識圖譜之間完整的技術比較。

我們實際打造的架構

一張流程圖，展示三代理編輯架構（Researcher → Writer → Fact-Checker），包含反思迴圈與人工升級路徑，讓這套多代理系統立即變得易於理解。

在亞太事件以及十幾次類似的僥倖脫險之後，我的團隊不再嘗試讓單一模型系統更可靠，而是從一個完全不同的前提出發：如果我們把 AI 工作流程仿照一個編輯團隊，而不是一位單獨的寫作者，會怎樣？

一家好的雜誌不會讓同一個人研究、撰寫並查核同一則報導。這些是各具獨立誘因的獨立角色。研究員搜尋資訊。寫作者打造敘事。事實查核員試圖在報導發表前將其擊破。它們在設計上就是對抗性的。

我們用 AI 代理打造了同樣的東西。三位專才，而非一位通才：

研究員只做檢索與引用，別無其他。它從 SEC 的 EDGAR 資料庫拉取 10-K 申報文件、爬取近期新聞、查詢我們的知識圖譜。它被禁止進行創意寫作。它的輸出是一個結構化的 JSON 物件——附有來源 URL 與頁碼的原始事實。沒有意見，沒有綜合。

寫作者接手那些經核實的事實並打造一封引人入勝的電子郵件。但它在一項硬性約束下運作：只使用研究員提供的事實。別無其他。沒有潤飾，沒有「合理推論」。

事實查核員是那個對手。它將寫作者草稿中的每一項聲明與研究員的筆記相比對。「『你的營收成長了 20%』這項聲明是否出現在來源材料中？沒有？駁回。」它把草稿連同具體回饋退回。寫作者修改。事實查核員再次審查。

這個迴圈——AI 研究社群稱之為「反思模式」（Reflection Pattern）——會一直運行，直到草稿通過或達到最大重試上限，屆時它會被標記交由人工處理。

AI 在說話前「思考」，在寄出前「反思」。我們以運算成本的邊際增加，換取可靠性的大幅提升。

在開發初期的某個晚上，我們針對一批 200 位潛在客戶運行了這套系統。事實查核員駁回了 34% 的初稿。百分之三十四。這些都是包裝器式系統會毫不猶豫就寄出的電子郵件。有些捏造了營收數字。有一封恭喜某位執行長完成一樁收購，而那實際上是一次資產剝離。另一封援引了一個根本不存在的定價層級。

我的協同工程師看著那份駁回日誌說：「我們剛剛在單單一批之中，就讓這位客戶免於 68 封摧毀信譽的電子郵件。」就在那時我知道，這個架構是對的。

為什麼我們選擇 LangGraph 而非 CrewAI

一個簡短的技術插話，因為協調框架比大多數人意識到的更重要。

許多打造多代理系統的團隊會選用 CrewAI，因為它很直覺——你定義角色，框架處理互動。但那種抽象隱藏了對話的狀態。你很難強制執行像「如果事實查核員失敗兩次，就升級交由人工」這樣的確定性規則。代理之間的互動可能無法預測，而在銷售中，無法預測是不可接受的。

我們使用 LangGraph，它把工作流程建模為一個明確的狀態機——一張由節點（代理）與邊（決策）構成的圖。每一次轉換都被定義。每一個條件都可稽核。如果合規分數低於 0.95 且批評次數低於 3，草稿就退回修改。如果它達到 3 次失敗，就轉交人工。毫無模糊之處。

這不是偏好——這是一項治理要求。企業合規團隊需要對每一個 AI 決策有一條稽核軌跡。LangGraph 給了我們這一點。CrewAI 沒有。關於協調架構的完整技術剖析，請見我們詳盡的研究論文。

10-K 這件祕密武器

B2B 銷售開發最好的單一資料來源，不是潛在客戶的網站（那是行銷的浮誇之詞），也不是新聞（那是揣測）。它是向 SEC 申報的10-K 年度報告。

上市公司在法律上被要求在「Item 1A: Risk Factors（第 1A 項：風險因素）」中揭露其最重大的業務風險。這些不是公關說辭。它們是脆弱性的法律自白，是在證券詐欺的刑責之下撰寫的。

一家物流公司會明確列出「燃料價格波動」或「對老舊軟體基礎設施的依賴」作為重大風險。一家醫療保健公司會揭露監管風險。一家金融科技公司會詳述資安顧慮。

我們的研究員代理自動拉取這些申報文件，隔離出與我們客戶價值主張相關的風險因素，並將每一項連同一則引用一起儲存：「來源：Microsoft 10-K 2024，Item 1A，第 4 段。」

當寫作者打造那封電子郵件時，它會說：「我注意到在你們最新的年度申報文件中，老舊基礎設施的韌性是 2025 年一項既定的優先事項。我們的平台正好解決了這一點。」

那不是幻覺。那是來自潛在客戶自己法律申報文件的一項經核實的事實。潛在客戶讀到後心想：這個人是真的做了功課。因為這個 AI 真的做了。

弔詭的是，把 AI 約束在 10-K 之內反而讓它更好，而非更糟。LLM 在有邊界時更準確。10-K 提供了一圈由經核實事實構成的安全周界，讓模型得以將其能力集中於把那些事實與價值主張連結起來，而不是從無到有地捏造事實。

「但這不會比包裝器更慢嗎？」

人們不斷問我這個問題，答案是會——就每封電子郵件而言。而這正是重點。

一個包裝器一個月發送 10,000 封電子郵件。也許 200 封得到回覆。也許 30 封變成會議。也許 4 封變成合格商機——因為其餘的都在潛在客戶意識到那個「個人化洞見」是捏造的那一刻崩解。

我們的系統發送較少的電子郵件。每一封都耗費更多運算。但參與率大幅提高，因為內容是真實的。高參與度告訴 Gmail 的 AI，這位寄件人是正當的，這保護了網域，這意味著電子郵件持續送達，這在數月間複利累積成一條可持續的銷售管道。

包裝器這套做法是一場糖分高潮。它在第一季度的檢討中看起來很棒，到了第三季度卻變成一場生存危機。

「這不就是一位優秀的人類 SDR 所做的事嗎？」在一場研討會上有人問我。是的——只不過一位人類 SDR 無法在九十秒內讀完一份 10-K 申報文件、對照一張知識圖譜交叉引用、草擬一封個人化的電子郵件、並根據來源文件對它進行事實查核。這個架構並不取代人類對品質的直覺。它將其規模化。

包裝器時代即將終結

我在這件事上並不含糊其辭。當前這一代的 AI 銷售包裝器——罩在通用模型之上、毫無驗證層的單薄介面——將會被人們以我們記得 2000 年代初第一波垃圾電子郵件的方式記住。那是一段短暫而混亂的時期，一項新技術被用來大規模地燒毀信任，直到整個生態系統長出了抗體。

Gmail 的 AI 過濾器就是那些抗體。潛在客戶的精明是另一種。自動化銷售的「恐怖谷」——那些感覺幾乎像真人、卻缺乏真正具體性的電子郵件——已經在市場中觸發了一種免疫反應。決策者正在學會對 AI 開發進行模式比對，而當他們認出它時，寄件人失去的不只是這筆交易。他們會在情感上被貼上不可信任的標籤。以一個月 10,000 封電子郵件計算，那就是 10,000 座被燒毀的橋樑。

在下一個週期中將主宰 B2B 銷售的公司，不是那些發送最多電子郵件的公司。而是那些發送的電子郵件是可被驗證為真的公司——立基於潛在客戶自己的揭露、對照結構化知識進行查核、且從頭到尾皆可稽核。

在人工智慧的時代，終極的奢侈品是真相。

問題不在於你的 AI 能否寫出一封有說服力的電子郵件。任何模型現在都能做到。問題在於你的 AI 能否寫出一封能在潛在客戶查核事實那一刻倖存下來的電子郵件。如果它做不到，你並不是在將銷售規模化。你是在將你的品牌自我毀滅的速率規模化。

Related Research

AI 銷售情報與已驗證的外展 | VeriprajnaSolution Page

The Veracity Imperative: Engineering Trust in AI Sales Agents | VeriprajnaInteractive Whitepaper

The Veracity Imperative: Engineering Trust in AI Sales AgentsTechnical Deep-Dive

Also Published On

LinkedIn · Company LinkedIn · Founder YouTube Medium Instagram Facebook X