
당신의 최고 영업 담당자는 이미 이메일 천 통을 썼습니다. AI가 그 한 통 한 통에서 배우는 법.
미드마켓 SaaS 기업의 영업 담당 부사장(VP of Sales)과 마주 앉아 있을 때, 그는 휴대폰을 꺼내 자신의 받은편지함을 보여줬습니다. 마치 검시관이 증거를 제시하듯 천천히 스크롤을 내렸죠. "이 중에서 사람이 쓴 것 같은 걸 세어보세요." 그가 말했습니다.
저는 세 개를 셌습니다. 화면에 있던 마흔 통쯤 되는 콜드 이메일 중에서요. 나머지는 소름 끼칠 만큼 비슷했습니다 — 똑같은 리듬, 똑같이 공허한 열정, 똑같은 단어들. "Unlock(잠금 해제)." "Transform(혁신)." "Leverage(활용)." 그는 그것들을 "GPT 합창단"이라고 부르기 시작했다고 하더군요. 마흔 개의 목소리, 하나의 노래, 그리고 아무도 듣지 않았죠.
그 대화는 우리가 Veriprajna에서 만들고 있던 것의 방향을 바꿔놓았습니다. 우리는 AI 기반 아웃리치 시스템을 개발하고 있었는데, 잘못된 질문을 던지고 있었던 겁니다. 업계가 던지던 질문은 이랬습니다: AI가 어떻게 하면 더 많은 이메일을 쓰게 할까? 진짜 질문은 이것이었습니다: AI가 어떻게 하면, 실제로 답장을 받아내는 당신 팀의 그 단 한 사람이 쓴 것처럼 들리는 이메일을 쓰게 할까?
그 구분 — 로봇을 확장하는 것과 인간을 확장하는 것 사이의 구분 — 이 게임의 전부입니다. 그리고 그 답은 프롬프트가 아니라 아키텍처인 것으로 드러났습니다.
받은편지함은 AI 평범함의 무덤이다
숫자들이 참혹한 이야기를 들려줍니다. 콜드 이메일 오픈율은 불과 1년 전 36%에서 약 27.7%까지 떨어졌습니다. 답장률은 대부분의 캠페인에서 1%에서 5% 사이에 머물러 있습니다. 이 매체가 죽어가는 게 아닙니다 — 메시지가 죽어가는 것이죠.
이런 일이 벌어졌습니다: 이메일 한 통을 생성하는 비용이 거의 0에 가까워지자, 모두가 이메일을 생성하기 시작했습니다. 시장은 넘쳐났죠. 그리고 대부분의 도구가 최소한의 커스터마이징만 거친 동일한 파운데이션 모델을 사용하기 때문에, 결과물이 수렴했습니다. 모든 이메일이 다른 모든 이메일처럼 들리기 시작했죠. AI가 글을 못 써서가 아니라, 너무나도 잘 써냈기 때문입니다. 바로 지금껏 읽어온 모든 것의 평균을 말이죠.
LLM은 확률 기계입니다. 그대로 내버려 두면, 통계적으로 가장 그럴듯한 다음 단어를 생성하고, 그 결과 매끄럽고 유능하지만 완전히 잊혀지는 텍스트가 나옵니다. 언어판(版) 베이지색 페인트인 셈이죠.
모든 AI 이메일이 똑같이 들릴 때, "개인화됐다"는 말은 그저 수신자의 이름을 제대로 넣었다는 뜻일 뿐입니다.
스스로를 "개인화"라고 부르는 도구들은 대부분 변수 삽입을 하고 있을 뿐입니다 — {{First_Name}}과 {{Company_Name}}을 끼워 넣고, 어쩌면 최근 투자 유치 소식에 관한 한 줄을 넣는 정도죠. 그건 커스터마이징입니다. 개인화는 완전히 다른 것입니다. 개인화란, 당신이 무언가를 말하는 방식이 수신자로 하여금 당신이 얼마나 잘 이해하는지 느끼게 만들 때입니다. 즉 그들이 어떻게 생각하는지를 말이죠.
우리가 잘못된 것을 만들고 있다는 걸 깨달은 밤
어느 밤이었습니다 — 늦은 시각, 내가 생산적인 건지 아니면 그저 고집을 부리는 건지 알 수 없는 그런 늦은 밤이었죠 — 초기 아웃리치 캠페인 중 하나의 A/B 테스트 결과를 검토하고 있었습니다. 변형이 두 개 있었죠. 변형 A는 우리 AI가 생성한 이메일로, 세련되고 잘 구성됐으며 모든 가치 제안을 짚어냈습니다. 변형 B는 프리야(Priya)라는 영업 담당자가 쓴 다소 정돈되지 않은 이메일이었습니다. 더 짧았고요. 있으면 안 될 자리에 문장 조각이 하나 있었죠. 마무리 인사는 거의 지나치게 격의 없었습니다.
변형 B가 압승했습니다. 조금 앞선 게 아니었어요. 답장률이 거의 다섯 배나 높았습니다.
저는 그 데이터를 바라보며 정말로 혼란스러웠던 걸 기억합니다. 프리야의 이메일은 규칙을 어겼습니다. 너무 짧았죠. 도입부는 뜬금없었습니다. 그런데도 그건 먹혔습니다. 바빠서 직설적이고, 그럴싸하게 꾸밀 시간 따위 없는 진짜 사람처럼 들렸기 때문이죠.
그때 무언가가 딱 맞아떨어졌습니다. 우리 AI의 문제는 글을 잘 못 쓴다는 게 아니었습니다. 문제는 AI처럼 쓴다는 것이었죠. 그리고 해결책은 더 나은 프롬프팅이 아니라 — 모델에게 프리야처럼 쓰도록 가르치는 것이었습니다.
누군가의 스타일을 미러링하는 것이 왜 실제로 효과가 있을까?
아키텍처 이야기로 들어가기 전에, 저는 설명해야 합니다 — 도대체 왜 이것이 인지적 차원에서 중요한지를 말입니다. 그저 있으면 좋은 것에 그치지 않으니까요.
언어 스타일 매칭(Linguistic Style Matching) — LSM이라 불리는 것에 관한 일련의 연구가 있습니다. 핵심 발견은, 사람들은 자신의 커뮤니케이션 스타일을 미러링하는 상대의 요청을 훨씬 더 신뢰하고, 관여하고, 따를 가능성이 높다는 것입니다. 이건 내용에 관한 게 아닙니다. 기능어, 문장 리듬, 격식 수준, 누군가가 생각을 엮어내는 무의식적인 질감에 관한 것이죠. 2013년 루드비히(Ludwig) 등의 연구는 온라인 환경에서의 전환율이 메시지와 그 수신자 사이의 언어적 일치 정도와 직접적으로 연결되어 있음을 밝혀냈습니다.
이것은 훨씬 더 깊은 무언가와 연결됩니다 — 거울 뉴런(mirror neurons) 말이죠. 자신의 패턴을 반영하는 커뮤니케이션을 접하면, 자기표현과 연관된 신경 경로가 활성화됩니다. 익숙하게 느껴집니다. 안전하게. 내 편처럼요. 협상 연구들은 미러링이 성공적인 합의율을 12%에서 67%로 높인다는 것을 보여줬습니다. 영업 담당자들은 수십 년간 이를 직관적으로 알고 있었습니다. 최고의 클로저들은 카멜레온이죠.
최고의 영업 이메일은 영업 이메일처럼 들리지 않습니다. 수신자가 스스로에게 말하는 것처럼 들리죠.
문제는 미러링이 본질적으로 인간적이고 본질적으로 수작업인 기술이라는 점입니다. 확장되지 않죠. 최고의 담당자가 만 명의 잠재고객을 위해 일일이 이메일을 손수 만들 수는 없습니다. 하지만 당신은 이렇게 할 수는 있습니다 — 그들의 글을 효과적으로 만드는 요소를 포착해, 대규모로 생성하는 AI 시스템에 주입하는 것 말이죠.
그것이 바로 핵심 주장입니다. "인간을 대체한다"가 아닙니다. 인간을 확장한다.
퓨샷 스타일 주입(Few-Shot Style Injection)이란 무엇이며, 왜 더 나은 프롬프팅과 다른가?

퓨샷 프롬프팅은 LLM에 몇 개의 예시를 주는 기법입니다 — "여기 효과가 있었던 이메일 세 통이 있으니, 이것들과 비슷하게 하나 써봐." GPT-3 시절부터 있어온 기법이죠. 우리 접근 방식을 다르게 만드는 것은 그 예시들이 어디에서 오는가, 그리고 어떻게 선택되는가입니다.
퓨샷 프롬프팅을 사용하는 대부분의 사람들은 예시를 수동으로 고릅니다. 마음에 드는 이메일 두세 통을 붙여넣고 그걸로 끝내죠. 한 가지 유형의 잠재고객에게 쓴다면 그걸로 충분합니다. 하지만 CTO와 마케팅 담당 부사장을, 혹은 핀테크(FinTech) 구매자와 제조업 종사자를 놓고 톤을 조정해야 하는 순간 무너져 내립니다.
우리가 만든 것은 동적 검색 시스템입니다. 우리는 성과가 뛰어난, 사람이 쓴 이메일을 선별한 라이브러리 — 우리가 "스타일 스토어(Style Store)"라고 부르는 것 — 를 벡터 데이터베이스에 저장합니다. 시스템이 특정 잠재고객을 위한 이메일을 생성해야 할 때, 정적인 예시를 사용하지 않습니다. 시스템은 검색해냅니다 — 수신자가 누구이고 어떤 맥락에 있는지를 바탕으로, 스타일상 가장 적절한 예시를 실시간으로 말이죠.
저는 전체 아키텍처에 대해 우리 연구의 인터랙티브 버전에서 다뤘지만, 핵심 통찰은 이것입니다: 우리는 콘텐츠 검색과 스타일 검색을 분리합니다. 두 개의 병렬 파이프라인. 하나는 "무엇을 말해야 하는가?"에 답하고, 다른 하나는 "어떻게 말해야 하는가?"에 답합니다.
이 분리가 전부입니다. 표준 시맨틱 검색은 주제와 톤을 뒤섞어버립니다. "CTO에게 보내는 이메일"을 검색하면, CTO에 관한 이메일이 나오지, CTO가 반응하는 목소리로 CTO를 위해 쓴 이메일이 나오지는 않습니다. 이것들을 분리함으로써, 우리는 엔터프라이즈 보안에 관한 메시지를 격의 없고 직설적인 톤으로 — 혹은 격식 있고 절제된 톤으로 — 스타일 검색 경로를 바꾸는 것만으로 보낼 수 있습니다.
스타일 스토어 구축하기: 마법(과 고통)이 깃든 곳

여기서 저는 그 화려하지 않은 부분이 얼마나 힘든지에 대해 솔직해져야겠습니다.
스타일 스토어는 이론상 우아하게 들립니다. 실제로는, 하나를 구축하려면 몇 달치 CRM 데이터를 파헤치고, 이메일을 성과와 상호 대조하고, 개인 식별 정보를 걷어내고, 그런 다음 살아남은 모든 이메일에 메타데이터를 주석으로 달아야 합니다 — 톤, 구조, 수신자 페르소나, 거래 단계 말이죠.
저와 저희 팀은 주석 분류 체계를 두고 일주일 가까이 논쟁했습니다. "직설적(direct)"과 "퉁명스러운(blunt)"은 같은 범주여야 할까? "공감적(empathetic)"은 톤일까 구조일까? "챌린저(challenger)" 세일즈는 어디서 끝나고 "공격적(aggressive)"은 어디서 시작될까? 검색 품질이 라벨의 정밀도에 달려 있을 때, 이것들은 학술적인 질문이 아닙니다.
우리는 각 이메일을 네 가지 차원에 걸쳐 태그하는 스키마로 정착했습니다: 톤(격식 있는, 격의 없는, 긴급한, 공감적인), 구조(문제-자극-해결, 직접 요청, 부드러운 접근), 수신자 페르소나(기술적, 재무적, 운영적), 그리고 결과(미팅 성사, 답장 수신, 무응답). 벡터 데이터베이스는 — 저지연 검색에 최적화된 구성을 사용합니다 — 임베딩과 이 메타데이터를 함께 저장해, 하이브리드 검색을 가능하게 합니다. "이 잠재고객의 스타일 프로필에 가까우면서 industry가 SaaS이고 outcome이 미팅 성사인 벡터를 찾아줘."
당신의 AI는 학습 세트에서 최악의 이메일만큼만 좋습니다. 형편없는 스타일이 들어가면, 형편없는 결과물이 나옵니다.
우리는 이것을 뼈아프게 배웠습니다. 초기에는 기술적으로 "성공한" — 답장을 받은 — 이메일을 포함시켰는데, 그 답장이라는 게 "제발 목록에서 저를 빼주세요" 같은 것들이었죠. 단순히 결과의 존재 여부가 아니라 결과의 품질로 필터링하는 것은, 우리가 알아차리기 전까지 몇 주간의 나쁜 결과를 치른 뒤에야 얻은 교훈이었습니다.
시스템은 실제로 각 잠재고객에게 맞는 스타일을 어떻게 고르는가?
새로운 잠재고객이 파이프라인에 들어오면 — 예컨대 핀테크 기업의 CTO라고 하죠 — 시스템은 여러 단계의 프로세스를 실행합니다. 먼저, 그 잠재고객의 공개된 커뮤니케이션을 분석합니다. 링크드인(LinkedIn) 게시물, 프로필 소개, 구할 수 있는 모든 것을요. 이 사람은 간결한가? 기술 전문 용어를 쓰는가, 아니면 평이한 언어를 쓰는가? 격식을 차리는가, 대화체인가?
그런 다음 스타일 쿼리를 생성합니다: "핀테크 CTO에게 보내, 간결하고 직설적이며 약간 기술적인 톤을 사용한 성공적인 과거 이메일 세 통을 검색하라." 벡터 데이터베이스는 코사인 유사도 검색을 실행해 스타일 스토어에서 가장 가까운 매치들을 반환합니다.
검색된 그 이메일들이 프롬프트의 퓨샷 예시가 됩니다. 정적이지 않습니다. 손으로 고른 것도 아닙니다. 오직 이 특정 순간의 이 특정 인물을 위해 동적으로 선택된 것입니다.
예시는 세 개에서 다섯 개가 최적점입니다. 세 개보다 적으면 모델이 충분한 신호를 얻지 못합니다. 다섯 개보다 많으면 비례하는 개선 없이 컨텍스트 윈도우 토큰을 태우기 시작하고 — 모델이 모든 예시에 걸친 패턴을 종합하기보다 가장 최근 예시에 과적합할 위험이 생깁니다.
아무도 이야기하지 않는 진실성 문제

개발 중에 저를 밤잠 못 이루게 한 것이 하나 있습니다: 스타일 주입은 AI가 거짓말을 더 잘하게 만들 수 있다는 것입니다.
LLM을 특정 스타일 쪽으로 — 특히 설득적이거나 격의 없는 스타일로 — 세게 밀어붙이면, 때때로 그 분위기에 맞추려고 사실을 왜곡하기 시작합니다. 우리는 AI가 유난히 열정적인 담당자의 스타일을 흉내 내면서 제품 역량을 미묘하게 과장하는 이메일을 목격하곤 했습니다. 무(無)에서 환각을 지어내는 게 아니라, 그 스타일 안에서는 자연스럽게 느껴지지만 사실상으로는 틀린 방식으로 진실을 늘려버리는 것이었죠.
우리는 이것을 "스타일화로 인한 진실성 붕괴(Stylization-Induced Truthfulness Collapse)"라고 부르며, 이는 이 분야의 충분히 많은 사람들이 이야기하고 있지 않다고 제가 느끼는 실질적인 위험입니다.
우리의 해결책은 단지 지시적인 것이 아니라 아키텍처적인 것이었습니다. 우리는 콘텐츠 컨텍스트(사실, 가치 제안, 가격)와 스타일 컨텍스트(톤 예시)를 프롬프트의 별도 섹션에 둡니다. 시스템 지시문은 모델에게 명시적으로 말합니다: 스타일 예시는 형식을 관장하고, 콘텐츠 컨텍스트는 실질을 관장한다고요. 그리고 우리는 2차 검증 단계를 실행합니다 — 생성된 이메일이 나가기 전에 사실 출처 자료와 대조해 확인하는 "크리틱(critic)" 모델이죠.
이것이 어떻게 작동하는지에 대한 전체 기술적 분석은, 이중 검색 아키텍처와 대조적 스타일 임베딩에 대한 우리의 접근 방식을 포함해, 우리 연구 논문에서 확인하세요.
완벽할까요? 아닙니다. 하지만 그것은, 가끔 인간이 과장을 잡아내야 하는 시스템과, 일상적으로 주장을 조작해내는 시스템 사이의 차이입니다. 저라면 전자를 택하겠습니다.
"하지만 어차피 스팸 필터가 AI 생성 이메일을 걸러내지 않을까요?"
이건 제가 가장 자주 받는 질문인데, 그 답은 직관에 반합니다: 스타일 주입은 실제로 도움이 됩니다 — 바로 전달률에 말이죠.
현대의 스팸 필터 — Gmail, Outlook — 는 AI를 탐지하기 위해 점점 더 AI를 사용하고 있습니다. 이들은 낮은 퍼플렉서티(너무 예측 가능한 텍스트)와 높은 균일성(인간 글쓰기의 자연스러운 변주가 결여된 텍스트)을 찾습니다. 표준 LLM 출력은 거의 병적으로 매끄럽습니다. 모든 문장이 대략 같은 길이죠. 어휘는 똑같이 좁은 범위에서 끌어옵니다. "기계"라고 외치는 통계적 지문인 셈입니다.
인간의 글은 들쭉날쭉합니다(bursty). 짧은 문장. 그런 다음 요점에 도달하기 전에 조금 에두르며 흘러가는 더 긴 문장 하나. 그런 다음 문장 조각 하나. 이 변주 — 언어학자들이 "버스티니스(burstiness)"라고 부르는 것 — 야말로 퓨샷 스타일 주입이 다시 도입하는 바로 그것입니다. 문장 조각, 수사적 질문, 갑작스러운 전환을 담은 진짜 인간 예시에 모델이 맞추도록 강제함으로써, 출력물은 "AI 찌꺼기(AI slop)"보다는 실제 서신처럼 보이게 됩니다.
대량의 일반적인 AI 발송은 스팸 폴더와 도메인 블랙리스트로 가는 지름길입니다. 스타일 주입은 당신의 전달률을 위한 인간 위장술입니다.
도메인 평판이라는 측면은 과소평가되어 있습니다. 천 통의 로봇 같은 이메일을 보내는 것은 전환에 실패할 뿐만 아니라 — 발신자 평판을 능동적으로 손상시켜, 당신의 미래 이메일이 누군가의 받은편지함에 도달하기를 더 어렵게 만듭니다. 이것은 복리로 불어나는 벌점입니다. 오늘 일반적인 AI 아웃리치를 쏟아붓는 기업들은 자신의 미래 소통 능력을 담보로 빚을 내고 있는 셈입니다.
누군가가 "그냥 GPT 쓰면 되잖아"라고 말하는 대목
한 투자자가 저에게 이 말을 했습니다. 정확히 그 표현은 아니었지만, 비슷했죠. "누군가 그냥 ChatGPT에 특정 스타일로 써달라고 프롬프트를 넣으면 될 텐데, 왜 이걸 돈 주고 사겠어요?"
저는 노트북에 이메일 두 통을 띄웠습니다. 둘 다 "직설적이고 군더더기 없는 영업 리더의 스타일로" 쓰인 것이었죠. 하나는 평범한 GPT-4 프롬프트로 생성했습니다. 다른 하나는, 스타일 스토어에서 검색한 최고 성과 담당자의 실제 예시 세 개를 사용해 우리 시스템이 생성했고요.
GPT-4 버전은 괜찮았습니다. 전문적이었죠. 명료했고요. 직설적이 되는 법에 관한 책을 한 권 읽은 사람이 쓴 유능한 영업 이메일처럼 읽혔습니다.
스타일 스토어 버전은 이상한 도입부를 갖고 있었습니다. 생각의 중간에서 시작해, 마치 아직 일어나지도 않은 대화를 이어가는 것 같았죠. 두 번째 문장은 네 단어였습니다. 마무리 인사는 그냥 이름 하나, 직함도 회사명도 없었죠. 마치 실제로 바쁘고 직설적인 사람처럼 느껴졌습니다 — 바쁨과 직설을 연기하는 사람이 아니라요.
그 투자자는 둘 다 읽고 두 번째 것을 가리켰습니다. "이거요. 이건 사람처럼 들리네요."
그것이 바로 그 간극입니다. LLM에게 "직설적이 되라"고 프롬프트하면, 직설이라는 것에 대한 모델의 통계적 해석이 나옵니다. 특정한 인간이 직설적인 실제 예시 세 개를 보여주면, 그 인간의 직설이 나옵니다. 그 차이는 캐릭터 설명과 실제 연기 사이의 차이입니다.
이것이 영업팀에 의미하는 바(당신 예상과는 다릅니다)
사람들은 늘 저에게 이것이 영업 담당자를 대체하느냐고 묻습니다. 그렇지 않습니다. 이것은 더 흥미로운 일을 합니다: 당신의 팀 전체가 당신의 최고 담당자처럼 들리게 만드는 것이죠.
새 SDR을 채용하면 어떤 일이 벌어지는지 생각해 보세요. 그들은 몇 주, 때로는 몇 달을 자신의 목소리를 찾는 데 씁니다. 무엇이 효과가 있는지 배우면서요. 톤에 대한 직관을 발달시키면서요. 최고 성과자들의 최고의 작업물로 구축된 스타일 스토어가 있으면, 새 담당자는 첫날부터 팀의 검증된 목소리를 담은 이메일을 보내기 시작할 수 있습니다.
데이터에 따르면 이것은 판매자 한 명당 주당 약 12.7시간의 초안 작성 시간을 절약해 줍니다. 하지만 진짜 가치는 시간 절약이 아닙니다 — 일관성입니다. 더 이상 월요일 아침의 품질 저하는 없습니다. 전화는 훌륭하지만 글은 형편없는 담당자도 더는 없죠. 스타일 스토어는 성문화되고 검색 가능한 조직의 지식 자산이 됩니다.
그리고 이것은 플라이휠을 만들어냅니다. 긍정적인 반응을 얻는 모든 새 이메일은 벡터화되어 스토어에 추가됩니다. 시스템은 시간이 지나며 더 좋아집니다 — AI가 개선되기 때문이 아니라, 인간 탁월함의 라이브러리가 커지기 때문이죠.
불편한 미래
여기서 저는 나중에 크게 빗나갈지도 모를 예측을 하나 하겠습니다: 2년 안에, 여전히 일반적인 AI 아웃리치를 쓰는 기업들은 이메일로 잠재고객에게 사실상 도달할 수 없게 될 것입니다. 이메일이 죽어서가 아니라, 그들의 도메인이 너무나 손상되고 콘텐츠가 너무나 걸러져서 보이지 않는 존재가 될 것이기 때문입니다.
승리하는 기업들은, 자사 최고 판매자들의 커뮤니케이션 패턴을 전략적 자산 — 포착하고, 선별하고, 확장해야 할 무언가 — 으로 취급한 기업들일 것입니다. AI로 대체되는 게 아니라. AI로 증폭되는 것이죠.
고급 개인화와 스타일 매칭을 사용하는 캠페인은 이미 40~50%의 답장률을 보고하고 있습니다. 일반적인 접근법의 1~8.5%와 비교해서요. 그것은 미미한 개선이 아닙니다. 그것은 아예 다른 종목이죠.
"안녕하세요 {{First_Name}}님, 귀사가 최근 {{trigger_event}}한 것을 보았습니다"의 시대는 저물고 있습니다. 다음에 오는 것은 인지적 개인화입니다 — 잠재고객에 관한 사실을 알 뿐 아니라, 잠재고객으로 하여금 이해받고 있다고 느끼게 만드는 특정한 어조로 말하는 AI 말이죠.
영업에서 가장 가치 있는 자산은 당신의 제품 데이터가 아닙니다. 당신의 최고 인재들이 그것에 대해 말하는 방식입니다.
우리는 영업을 자동화하려고 Veriprajna를 만든 게 아닙니다. 우리는 훌륭한 영업 인재를 훌륭하게 만드는 그것을 복제해 — 팀의 모든 사람에게 주기 위해 만들었습니다. 그것은 로봇을 확장하는 게 아닙니다. 인간을 확장하는 것입니다. 그리고 그것이야말로 미래가 있는 유일한 버전의 영업 AI입니다.