大量生産された同一のコールドメールと、際立って人間らしく聞こえる一通のメッセージとの対比を描いた、印象的なエディトリアルビジュアル。
Artificial IntelligenceSalesMachine Learning

あなたのトップ営業は、すでに1000通のメールを書いている。AIがその一通一通から学ぶ方法

Ashutosh SinghalAshutosh Singhal2026年2月17日14 min

私は、中堅SaaS企業の営業担当VP(バイスプレジデント)と向かい合って座っていた。彼はおもむろに携帯電話を取り出し、自分の受信箱を見せてきた。検死官が証拠を提示するかのように、ゆっくりとスクロールしていく。「この中で、人間が書いたように聞こえるものを数えてみてくれ」と彼は言った。

私は3通数えた。画面上のおよそ40通のコールドメールのうち、たった3通だ。残りは不気味なほど似通っていた——同じリズム、同じ空虚な熱意、同じ言葉づかい。「解き放つ(Unlock)」。「変革する(Transform)」。「活用する(Leverage)」。彼はそれらを「GPT聖歌隊」と呼び始めたのだと言った。40の声、1つの歌、そして誰も聞いていない。

あの会話が、私たちがVeriprajnaで作っていたものの方向性を変えた。私たちはAIを活用したアウトリーチ・システムに取り組んでいたが、間違った問いを立てていた。業界が問うていたのは、こうだ——どうすればAIにもっと多くのメールを書かせられるか? 本当の問いは、こうだった——どうすればAIに、あなたのチームの中で実際に返信をもらえる、たった一人の人物が書いたように聞こえるメールを書かせられるか?

この区別——ロボットをスケールさせるのか、人間をスケールさせるのか——こそが、勝負のすべてだ。そして答えは、プロンプトではなく、アーキテクチャにあることが分かった。

受信箱は、凡庸なAIの墓場だ

数字が残酷な物語を語っている。コールドメールの開封率は、わずか1年前の36%から、約27.7%まで落ち込んだ。返信率は、ほとんどのキャンペーンで1%から5%の間だ。この媒体が死にかけているのではない——メッセージが死んでいるのだ。

何が起きたのか。メールを生成するコストがほぼゼロまで下がり、誰もがメールを生成し始めた。市場は氾濫した。そして、ほとんどのツールが最小限のカスタマイズで同じ基盤モデルを使っているため、出力は収束していった。どのメールも、ほかのあらゆるメールと同じように聞こえ始めた。AIが文章を書くのが下手だったからではなく、むしろ書くのがうますぎたからだ。AIが書き出していたのは、これまで読んできたあらゆるものの平均だった

LLMは確率マシンだ。放っておけば、統計的に最も可能性の高い次の単語を生成する。その結果、なめらかで、そつがなく、そして見事に忘れ去られる文章ができあがる。言語版のベージュのペンキだ。

どのAIメールも同じに聞こえるとき、「パーソナライズされた」とは、受信者の名前を正しく入れられた、という程度の意味しかない。

「パーソナライズされている」と自称するツールの多くは、実際には変数の差し込みをしているだけだ——{{First_Name}}{{Company_Name}}を差し込み、せいぜい直近の資金調達について一文添える程度だ。それはカスタマイズにすぎない。パーソナライゼーションはまったくの別物だ。パーソナライゼーションとは、あなたが何かを言うときの、その言い方こそが、相手に、あなたが相手自身の考え方を理解していると感じさせる、そのときに生まれるものだ。

私たちが間違ったものを作っていると気づいた夜

ある夜のことだった——生産的なのか、それともただ意地になっているだけなのか、自分でも分からなくなるような、そんな遅い時間だった——私は初期のアウトリーチ・キャンペーンの一つのA/Bテスト結果を見返していた。バリアントは2つあった。バリアントAは私たちのAIが生成したメールで、洗練され、よく構成され、価値提案をすべて突いていた。バリアントBは、プリヤという営業担当者が書いた、少し雑なメールだった。より短い。あってはならない場所に文の断片がある。締めくくりは、少しカジュアルすぎるくらいだった。

バリアントBは圧勝した。それも僅差ではない。返信率は、ほぼ5倍高かった。

私はそのデータを見つめながら、本気で戸惑ったのを覚えている。プリヤのメールはルールを破っていた。短すぎた。書き出しは唐突だった。それでも、それは効果を出した。なぜなら、忙しく、率直で、それをわざとらしく演じている暇などない、生身の人間が書いたように聞こえたからだ。

そのとき、私の中で何かが腑に落ちた。私たちのAIの問題は、うまく書けないことではなかった。問題は、それがAIのように書くことだった。そして解決策は、より優れたプロンプトではなかった——モデルにプリヤのように書くことを教えることだった。

なぜ、誰かのスタイルをミラーリングすることが実際に効くのか?

アーキテクチャの話に入る前に、なぜこれが認知レベルで重要なのかを説明しておく必要がある。単なる「あれば嬉しい」程度のものではないからだ。

言語的スタイルマッチング(Linguistic Style Matching——LSM)と呼ばれるものをめぐる、一連の研究がある。その核心的な発見はこうだ——人は、自分のコミュニケーションスタイルを映し出す相手の依頼を、著しく信頼し、関与し、応じやすくなる。これは内容の話ではない。機能語、文のリズム、フォーマルさの度合い、そして人が思考をつなぎ合わせるときの無意識の質感の話だ。Ludwigらによる2013年の研究は、オンライン環境におけるコンバージョン率が、メッセージとその受信者との言語的な一致度に直接結びついていることを見出した。

これは、さらに深いもの——ミラーニューロン——に対応している。自分自身のパターンを反映したコミュニケーションに出会うと、それは自己表現に関連する神経経路を活性化させる。馴染みがある。安全だ。仲間内だ、と感じる。交渉に関する研究は、ミラーリングが合意の成立率を12%から67%へと高めることを示している。営業担当者たちは、何十年も前からこれを直感的に知っていた。最高のクローザーはカメレオンなのだ。

最高の営業メールは、営業メールのようには聞こえない。それは、受信者が自分自身に語りかけているように聞こえる。

問題は、ミラーリングが本質的に人間的で、本質的に手作業のスキルだということだ。これはスケールしない。トップの営業担当者に、1万人の見込み客へのメールを一通ずつ手ずから書かせることはできない。だが、あなたにできることはある——彼らの文章を機能させているものを捉え、それを大規模に生成するAIシステムに注入することだ。

それがこの主張の核心だ。「人間を置き換える」のではない。人間をスケールさせるのだ。

Few-shotスタイル注入とは何か、そしてなぜそれは、より優れたプロンプトとは違うのか?

デュアルパイプライン方式を示すシステムアーキテクチャ図——コンテンツ検索とスタイル検索が並行して走り、LLM生成の前のプロンプト組み立て段階で統合される様子。

Few-shot(少数例)プロンプティングとは、LLMにいくつかの例を与える手法だ——「これがうまくいった3通のメールだ。さあ、こういう感じで一通書いてくれ」というわけだ。GPT-3の頃から存在している。私たちのアプローチを違うものにしているのは、それらの例がどこから来るのか、そしてどのように選ばれるのか、という点だ。

Few-shotプロンプティングを使う人のほとんどは、例を手作業で選ぶ。気に入ったメールを2、3通貼り付けて、それで終わりにする。一種類の見込み客に向けて書くのなら、それで十分だ。だが、CTO向けとマーケティング担当VP向け、あるいはFinTechの買い手向けと製造業の誰か向けとでトーンを調整しなければならなくなった瞬間、それは崩壊する。

私たちが構築したのは、動的な検索(リトリーバル)システムだ。成果の高い、人間が書いたメールを厳選したライブラリ——私たちが「スタイル・ストア」と呼ぶもの——を、ベクトルデータベースに保存する。システムが特定の見込み客向けにメールを生成する必要があるとき、静的な例は使わない。システムはむしろ、検索して取り出すのだ——受信者が誰で、どんな文脈にいるかに基づいて、スタイル的に最も適切な例を、リアルタイムで。

アーキテクチャの全体像については、私たちの研究のインタラクティブ版で書いたが、核心となる洞察はこうだ——私たちはコンテンツの検索とスタイルの検索を分離している。2本の並列パイプラインだ。一方は「何を言うべきか?」に答える。もう一方は「どう言うべきか?」に答える。

この分離こそがすべてだ。標準的なセマンティック検索は、トピックとトーンを混同する。「CTOに送るメール」で検索すると、得られるのはCTOについて書かれたメールであって、CTOに向けて、CTOが反応する声色で書かれたメールではない。この二つを切り離すことで、エンタープライズセキュリティに関するメッセージを、カジュアルで率直なトーンでも——あるいはフォーマルで抑制の効いたトーンでも——スタイル検索の経路を切り替えるだけで送れるようになる。

スタイル・ストアを構築する——魔法(と痛み)が宿る場所

スタイル・ストア内の各メールにタグ付けするために使われる、4次元のアノテーション・スキーマを示す図。各次元の値の例つき。

ここで、この地味な部分がどれほど大変かについて、正直に話さなければならない。

スタイル・ストアは、理論上はエレガントに聞こえる。だが実際に構築するには、何か月分ものCRMデータを掘り返し、メールを成果と突き合わせ、個人を特定できる情報を取り除き、そして生き残ったすべてのメールにメタデータ——トーン、構造、受信者のペルソナ、商談のステージ——を注釈として付けていく必要がある。

私とチームは、アノテーションの分類法をめぐって、一週間近くも議論した。「率直(direct)」と「ぶっきらぼう(blunt)」は同じカテゴリにすべきか? 「共感的(empathetic)」はトーンなのか、それとも構造なのか? 「チャレンジャー(challenger)」型の営業はどこで終わり、「攻撃的(aggressive)」はどこから始まるのか? 検索の質がラベルの精度に依存するとき、これらは机上の空論ではない。

私たちが落ち着いたのは、各メールを4つの次元でタグ付けするスキーマだった——トーン(フォーマル、カジュアル、緊急、共感的)、構造(問題提起・煽り・解決、直接的な依頼、ソフトなアプローチ)、受信者のペルソナ(技術系、財務系、実務系)、そして成果(ミーティング獲得、返信あり、反応なし)。ベクトルデータベース——低レイテンシの検索に最適化した構成を使っている——は、埋め込みとこのメタデータの両方を保存し、ハイブリッド検索を可能にする。「この見込み客のスタイルプロファイルに近く、かつ業界がSaaSで、成果がミーティング獲得であるベクトルを見つけてくれ」というふうに。

あなたのAIは、トレーニングセットの中で最悪のメールと同程度の質しか出せない。ゴミのようなスタイルを入れれば、ゴミのような出力が出てくる。

私たちはこれを痛い目に遭って学んだ。当初は、技術的には「成功した」——返信は来た——メールも含めていた。だが、その返信は「リストから私を削除してください」といったものだった。単に成果があったかどうかではなく、成果のでフィルタリングすること。これは、気づくまでに数週間ぶんの悪い結果を代償として払わされた教訓だった。

システムは、各見込み客に合った正しいスタイルを、実際にどうやって選ぶのか?

新しい見込み客がパイプラインに入ってくると——たとえばFinTech企業のCTOだとしよう——システムは複数のステップからなるプロセスを実行する。まず、その見込み客の公開コミュニケーションを分析する。LinkedInの投稿、プロフィール、手に入るものは何でも。この人物は簡潔か? 専門用語を使うのか、それとも平易な言葉か? フォーマルか、それとも会話調か?

次に、システムはスタイルクエリを生成する——「FinTechのCTOに送られ、簡潔で、直接的で、やや技術的なトーンを使った、成功した過去のメールを3通取り出せ」。ベクトルデータベースはコサイン類似度検索を実行し、スタイル・ストアから最も近い一致を返す。

検索して取り出されたこれらのメールが、プロンプト内のfew-shotの例になる。静的ではない。手で選んだものでもない。動的に選ばれる——まさにこの特定の人物に、この特定の瞬間に向けて

3通から5通が、ちょうど良い塩梅だ。3通より少ないと、モデルは十分なシグナルを得られない。5通より多いと、比例した改善もないままコンテキストウィンドウのトークンを消費し始める——そして、すべての例からパターンを統合するのではなく、最も直近の例に過学習してしまうリスクを負う。

誰も語らない、真実の問題

スタイル化によって引き起こされる真実性の崩壊に対する、アーキテクチャ上の安全策を示す図——プロンプト内でスタイルとコンテンツがどう分離され、批評家モデルによる検証ステップが加わるか。

開発中、私を夜も眠れなくさせたことがある——スタイル注入は、AIをより巧みに嘘をつけるようにしてしまう

LLMを特定のスタイルへ——とりわけ説得的、あるいはカジュアルなスタイルへ——強く押しやると、それはときに、その雰囲気に合わせて事実を捻じ曲げ始める。私たちが目にしたのは、AIが特に熱狂的な営業担当者のスタイルを憑依させ、製品の能力をさりげなく誇張してしまうメールだった。何もないところから幻覚を見ているわけではないが、そのスタイルの中では自然に感じられるものの、事実としては間違っているやり方で、真実を引き伸ばしていた。

私たちはこれを「スタイル化によって引き起こされる真実性の崩壊(Stylization-Induced Truthfulness Collapse)」と呼んでいる。これは現実のリスクであり、この分野で十分な数の人が語っているのを、私はあまり見かけない。

私たちの解決策は、単なる指示ではなく、アーキテクチャによるものだった。コンテンツのコンテキスト(事実、提供価値、価格)と、スタイルのコンテキスト(トーンの例)を、プロンプトの別々のセクションに保つ。システム指示はモデルに明示的にこう伝える——スタイルの例が支配するのは形式であり、コンテンツのコンテキストが支配するのは中身である、と。そして私たちは二次検証のステップを実行する——生成されたメールを、送信前に事実の出典と照合する「批評家(クリティック)」モデルだ。

これがどのように機能するかの完全な技術的解説——デュアル検索アーキテクチャや、対照的スタイル埋め込みへの私たちのアプローチを含む——については、私たちの研究論文を参照してほしい。

完璧か? いや。だがそれは、たまに人間が言い過ぎを捕まえる必要があるシステムと、日常的に主張をでっち上げるシステムとの違いだ。私は前者を選ぶ。

「でも、どうせスパムフィルターがAI生成メールを捕まえるんじゃないの?」

これは最もよく聞かれる質問だが、その答えは直感に反する——スタイル注入は、実は到達率(デリバラビリティ)に役立つのだ。

現代のスパムフィルター——GmailやOutlook——は、AIを検出するためにますますAIを使うようになっている。それらは、低いパープレキシティ(予測可能すぎるテキスト)と、高い均一性(人間の文章が持つ自然なばらつきを欠いたテキスト)を探す。標準的なLLMの出力は、ほとんど病的なまでになめらかだ。どの文もだいたい同じ長さ。語彙は同じ狭い帯域から引き出される。それは「機械だ」と叫ぶ統計的な指紋なのだ。

人間の文章は、むらがある(bursty)。短い文。そのあとに、要点にたどり着く前に少し蛇行する、より長い文。そしてまた断片。この変動——言語学者が「バースト性(burstiness)」と呼ぶもの——こそ、few-shotスタイル注入が再導入するものだ。文の断片、修辞的な問い、唐突な転換を含む本物の人間の例に合わせるようモデルを強制することで、出力は「AIのゴミ(AI slop)」らしさが薄れ、実際のやり取りらしくなる。

大量の、ありきたりなAIの一斉送信は、スパムフォルダ行きとドメインのブラックリスト入りへの近道だ。スタイル注入は、あなたの到達率のための、人間という迷彩なのだ。

ドメインの評判という観点は、過小評価されている。ロボットのようなメールを1000通送ることは、単にコンバージョンに失敗するだけではない——送信者としてのあなたの評判を能動的に傷つけ、あなたの将来のメールが誰かの受信箱に届くことを、いっそう難しくする。これは複利で効いてくるペナルティだ。今日、ありきたりなAIアウトリーチを乱発している企業は、自分たちの将来のコミュニケーション能力を担保に、借金をしているのだ。

誰かが「GPTを使えばいいだけだろ」と言う場面

ある投資家が、私にこう言った。正確にこの言葉ではないが、近い。「その特定のスタイルで書くようChatGPTにプロンプトを与えれば済むのに、なぜわざわざこれにお金を払う人がいるんだ?」

私はノートパソコンで2通のメールを開いてみせた。どちらも「率直で、無駄のない営業リーダーのスタイルで」書かれていた。一方は、素のGPT-4プロンプトで生成したもの。もう一方は、スタイル・ストアから取り出した、成果トップの営業担当者による3つの実例を使い、私たちのシステムで生成したものだ。

GPT-4版は悪くなかった。プロフェッショナルで、明快だ。率直さについての本を読んだ誰かが書いた、そつのない営業メールのように読めた。

スタイル・ストア版には、奇妙な書き出しがあった。思考の途中から始まっていて、まるで送信者が、まだ起きてもいない会話の続きを話しているかのようだった。2文目はわずか4語。署名は名前だけで、肩書きも会社名もなかった。それは、本当に忙しく率直な人物のように感じられた——忙しさと率直さを演じている人物ではなく。

投資家は両方を読み、2通目を指さした。「これだ。これは人間のように聞こえる」

そこにギャップがある。LLMに「率直であれ」とプロンプトを与えると、率直さについてのモデルの統計的な解釈が返ってくる。ある特定の人間が率直に振る舞っている実例を3つ見せれば、返ってくるのはその人間の率直さだ。この違いは、人物描写と実演との違いに等しい。

これが営業チームにとって意味すること(あなたの予想とは違うはずだ)

人々はいつも、これは営業担当者を置き換えるのか、と私に尋ねる。置き換えはしない。それはもっと興味深いことをする——あなたのチーム全体を、あなたの最高の営業担当者のように聞こえさせるのだ。

新しいSDR(内勤営業担当)を採用したときに何が起きるかを考えてみてほしい。彼らは何週間も、ときには何か月もかけて、自分の声を見つけていく。何が効くのかを学び、トーンについての勘を養っていく。あなたのトップパフォーマーの最良の仕事から構築されたスタイル・ストアがあれば、新人担当者は初日から、チームの実証済みの声を宿したメールを送り始められる。

データによれば、これは営業担当者一人あたり週に約12.7時間の起案時間を節約するという。だが、本当の価値は時間の節約ではない——一貫性だ。月曜の朝の品質の落ち込みは、もうない。電話は得意だが文章は苦手、という担当者も、もういない。スタイル・ストアは、体系化され、検索可能になった組織の知識となる。

そして、それははずみ車(フライホイール)を生み出す。好意的な反応を得たすべての新しいメールが、ベクトル化され、ストアに追加される。システムは時間とともに良くなっていく——AIが向上するからではなく、人間の卓越性のライブラリが育っていくからだ。

居心地の悪い未来

ここで、あとで大きく外れるかもしれない予測をしておこう——2年以内に、ありきたりなAIアウトリーチを使い続けている企業は、実質的にメールで見込み客に到達できなくなる。メールが死ぬからではない。彼らのドメインがあまりに損なわれ、彼らのコンテンツがあまりにフィルタリングされて、彼らは見えない存在になるからだ。

勝つのは、自社の最高の営業担当者のコミュニケーションパターンを、戦略的資産——捉え、厳選し、スケールさせるべきもの——として扱った企業だ。AIに置き換えられるのではない。AIによって増幅されるのだ。

高度なパーソナライゼーションとスタイルマッチングを使ったキャンペーンは、すでに40〜50%の返信率を報告している。ありきたりな手法の1〜8.5%と比べてだ。これは限界的な改善などではない。まったく別の競技だ。

「はじめまして{{First_Name}}さん、御社が最近{{trigger_event}}されたのを拝見しました」の時代は終わりつつある。次に来るのは、認知的パーソナライゼーションだ——見込み客に関する事実を知っているだけでなく、その見込み客に「理解されている」と感じさせる、その特定の言葉づかいで語るAIだ。

営業において最も価値のある資産は、あなたの製品データではない。それは、あなたの最も優れた人材が、その製品について語るときの語り口だ。

私たちはVeriprajnaを、営業を自動化するために作ったのではない。優れた営業パーソンを優れたものにしているもの——それを複製し、チームの全員に与えるために作ったのだ。それはロボットをスケールさせることではない。人間をスケールさせることだ。そしてそれこそが、未来を持つ唯一の営業AIのかたちなのだ。

Related Research

Also Published On