
당신의 AI 영업 담당자가 고객에게 거짓말을 하고 있다 — 게다가 당신은 그 대가까지 지불하고 있다
중견 SaaS 기업과의 파일럿을 시작한 지 세 달째, 우리 팀은 AI 영업 에이전트가 흠잡을 데 없어 보이는 콜드 이메일 초안을 작성하는 것을 지켜봤습니다. 개인화되어 있었고, 어조는 따뜻했으며, 잠재 고객의 최근 시리즈 B 투자 유치를 언급하며 "APAC 시장으로의 확장"을 축하했습니다.
한 가지 문제가 있었습니다. 그 잠재 고객은 APAC로 확장하지 않았습니다. 오히려 6주 전에 싱가포르 사무소를 폐쇄한 상태였습니다. AI는 사실을 환각(hallucinate)해 놓고 완벽한 문법으로 포장했으며, 우리 고객사가 2년간 공들여 온 회사의 CEO에게 하마터면 그것을 보낼 뻔했습니다.
사람 검토자가 그것을 잡아냈습니다. 간신히요. 밤 11시였고, 그녀는 잠들기 전 40통의 이메일 배치를 승인하던 중이었습니다. 그녀는 하마터면 확인을 위해 클릭해 보지 않을 뻔했습니다.
그날 밤은 제가 영업에서의 AI를 바라보는 방식을 바꿔 놓았습니다. AI가 작동하느냐의 문제가 아니라 — 경제적으로 분명히 작동합니다 — 대부분의 기업이 AI를 배포하는 방식이, 너무 늦어질 때까지 아무도 측정하지 않는 슬로 모션 브랜드 자살은 아닌가 하는 문제였습니다.
저는 Deep AI 컨설팅 회사인 Veriprajna를 운영하며, 우리는 기업을 위한 자율 에이전트 시스템을 구축합니다. 이 글은 향후 2년간 B2B 영업을 규정하리라 제가 믿는 문제에 관한 것입니다: AI의 유창함과 AI의 진실성 사이의 간극 — 그리고 그 간극을 좁히기 위해 우리가 설계한 아키텍처에 관한 것입니다.
경제성이 유혹적입니다. 그것이 바로 문제입니다.

기업들이 AI SDR(영업 개발 담당자 — 콜드 아웃리치를 보내고 미팅을 잡는 사람들)을 서둘러 배포하는 이유를 저는 이해합니다. 계산은 그들에게 압도적으로 유리합니다.
사람 SDR은 부대 비용까지 포함하면 연간 75,000달러에서 125,000달러가 듭니다. 그들은 연간 30~40%의 비율로 이탈합니다. 업무에 익숙해지는 데 3개월에서 6개월이 걸립니다. 그들은 지치고, 낙담하며, 충분한 거절을 겪은 뒤에는 "콜 리럭턴스(call reluctance)"가 생깁니다.
AI SDR은 연간 7,000달러에서 45,000달러가 듭니다. 하루에 1,000명이 넘는 연락처를 처리합니다. 5분 이내에 응답하는데 — 이는 전환율 900% 증가와 상관관계가 있는 임계값입니다. AI는 잠들지 않고, 뿌루퉁하지 않으며, 그만두지 않습니다.
이런 수치를 바라보는 매출 책임자라면, 자동화를 검토하지 않는 것이 오히려 직무 태만일 것입니다.
하지만 밤잠을 설치게 할 통계가 여기 있습니다: AI SDR은 사람보다 최대 50% 높은 이메일 응답률을 만들어 냅니다 — 그러나 미팅 대비 검증된 기회로의 전환율은 사람의 25%에 비해 15%입니다. AI는 사람들이 응답하게 만들지만, 사실이 아닌 것에 응답하게 만들고 있습니다. AI가 잡은 미팅은 면밀히 들여다보면 무너집니다. 잠재 고객을 끌어들였던 그 "개인화된 통찰"이 조작된 것이었기 때문입니다.
누구나 "완벽한" 텍스트를 공짜로 생성할 수 있게 되면, 텍스트 그 자체는 신호로서의 가치를 잃습니다. 남는 유일한 신호는 정확성입니다.
당신의 AI SDR은 왜 환각을 일으키는가?
여기서 대부분의 사람들은 어깨를 으쓱하며 "AI가 아직 완벽하지 않다"고 말합니다. 하지만 그 프레임은 위험할 정도로 잘못됐습니다. 환각은 다음 모델 릴리스에서 패치될 버그가 아닙니다. 그것은 이 시스템들이 작동하는 방식의 수학적 특성입니다.
대규모 언어 모델은 확률 계산기입니다. 그것들은 앞선 모든 내용이 주어졌을 때 다음에 올 가장 확률 높은 단어를 예측하도록 훈련됩니다. 이를 지배하는 함수인 — 소프트맥스(Softmax)라 불리는 — 함수는 모델이 전체 어휘에 걸쳐 정확히 1로 합산되는 확률을 할당하도록 강제합니다. "모르겠다"를 위한 내부 상태는 존재하지 않습니다. 모델은 반드시 무언가를 만들어 내야만 합니다.
그래서 아무런 데이터도 없는 회사의 "2025년 재무 전략"을 설명하라고 요청하면, 모델은 빈칸을 반환하지 않습니다. 모델은 재무 전략처럼 들리는 토큰들을 생성합니다 — "성장", "마진 확대", "디지털 전환" — 왜냐하면 그런 단어들이 그런 종류의 프롬프트 뒤에 통계적으로 뒤따를 가능성이 높기 때문입니다. 그것은 아무런 근거 사실 없이 사실적 진술의 질감을 시뮬레이션하는 것입니다.
더 나쁜 것은, 훈련 과정에서 이 모델들이 자신 있는 예측에 대해 보상을 받고 불확실성에 대해 벌점을 받는다는 점입니다. 그것들은 문자 그대로 부당한 확신의 태도를 취하도록 훈련됩니다. "설득"과 "허위 표시"의 경계가 법적으로 규제되는 영업 맥락에서 이것은 두려운 일입니다.
이 문제를 두고 어느 잠재 고객사의 CTO와 논쟁했던 기억이 납니다. 그는 계속 "우리 데이터로 파인 튜닝하면 됩니다"라고 말했습니다. 저는 그들의 제품 문서를 펼쳤습니다 — 엣지 케이스, 가격 등급, 컴플라이언스 단서 조항이 담긴 47페이지짜리 문서였습니다. "이 중에서" 제가 물었습니다, "모델이 대략 맞히는 정도로 두어도 편안한 것은 무엇입니까?"
그는 말이 없어졌습니다.
AI가 영업 이메일에서 거짓말하는 네 가지 방식

모든 환각이 동등하게 만들어지는 것은 아니며, 그 분류를 이해하는 것이 중요합니다. 각 유형이 서로 다른 위험을 수반하기 때문입니다:
사실 충돌 환각은 가장 명백한 유형입니다 — AI가 현실과 모순되는 무언가를 진술하는 것입니다. 잠재 고객의 채용 공고에는 HubSpot이 언급되어 있는데 그들이 Salesforce를 쓴다고 주장하는 것. 결코 일어나지 않은 "최근 APAC 확장"을 언급하는 것.
입력 충돌 환각은 더 미묘하고 더 무섭습니다. 당신은 서비스 비용이 10,000달러라고 적힌 가격 PDF를 업로드합니다. AI는 업계 평균이라는 사전 훈련 데이터에 근거해, 이메일에서 5,000달러를 제시합니다. 이제 당신은 잠재적으로 구속력 있는 가격 약속을 만들어 낸 셈입니다.
맥락 충돌 환각은 AI가 하나의 대화 안에서 스스로 모순되는 것을 의미합니다. 잠재 고객은 이미 화요일 미팅을 거절했습니다. AI는 다시 화요일을 제안합니다. 이는 아무도 실제로 주의를 기울이지 않고 있음을 드러냅니다 — 실제로 아무도 그러지 않기 때문입니다.
논리적 환각은 가장 음흉합니다. "귀사는 최근 시리즈 B를 유치했으니, 분명 CFO를 교체하려 하겠군요." 그럴듯한 추론을 사실인 양 진술하는 것입니다. 잠재 고객은 이를 읽고 이렇게 생각합니다: 우리가 CFO를 교체한다고 누가 말했지? 이제 당신은 순전한 조작에서 비롯된 혼란을, 어쩌면 정보 유출에 대한 공포까지 만들어 낸 것입니다.
Gmail이 반격하면 무슨 일이 벌어지는가?
여기 영업 자동화 업계에서 거의 아무도 이야기하지 않는 AI 환각의 결과가 있습니다. 그리고 이것이야말로 가장 회의적이던 제 고객들을 마침내 이 문제를 진지하게 받아들이게 한 것입니다.
Google과 Microsoft는 받은편지함을 보호하기 위해 자체 AI를 배포하고 있습니다. Gmail의 2025 스팸 방어는 TensorFlow와 RETVec — Resilient & Efficient Text Vectorizer — 라 불리는 시스템을 사용하는데, 이는 AI가 생성한 텍스트의 통계적 서명을 탐지합니다. 이제 그것은 더 이상 스팸 키워드만 찾지 않습니다. 발신 패턴과 의도를 분석합니다.
당신의 AI SDR이 — 단어가 약간씩 다르더라도 — 동일한 구조적 지문을 공유하는 수천 통의 이메일을 쏟아 내면, Gmail은 그 패턴을 인식하고 당신의 도메인을 억제(throttle)합니다. 수신자들이 당신의 이메일을 읽지 않고 삭제하거나 스팸으로 신고하면, 당신의 도메인 평판 점수는 곤두박질칩니다. 그리고 결정적인 대목이 여기 있습니다: 일단 당신의 도메인이 타 버리면, 멈추는 것은 마케팅 이메일만이 아닙니다. 당신의 청구서, 비밀번호 재설정, 고객 지원 답장 — 그 도메인에서 발송되는 모든 것이 걸러집니다.
팩트 체크는 부가적 배려가 아닙니다. 그것은 전달률(deliverability) 전략입니다. 우리가 주장을 검증하는 것은 예의 때문이 아니라 — 우리의 이메일 서버를 계속 온라인 상태로 유지하기 위해서입니다.
직접적인 인과 사슬이 존재합니다: 환각은 부적절한 이메일로 이어지고, 이는 낮은 참여로 이어지며, 이는 스팸 신고를 촉발하고, 이는 도메인 블랙리스트 등재로 이어집니다. 당신의 AI 에이전트 아키텍처는 지금으로부터 6개월 후 당신의 회사가 이메일을 보낼 수 있을지 없을지를 직접적으로 결정합니다.
저는 이것을 어느 시리즈 C 기업의 영업 부사장에게 설명했습니다. 그는 넉 달간 AI 래퍼를 돌리며 그 물량에 매우 만족하고 있었습니다. 저는 그에게 도메인 평판 점수를 확인해 보라고 했습니다. 그가 휴대폰으로 그것을 열어 보자 얼굴빛이 달라졌습니다. 아무도 눈치채지 못하는 사이에 점수가 "높음"에서 "낮음"으로 떨어져 있었습니다. 그들의 갱신 확인 이메일이 스팸함에 도착하고 있었습니다.
표준 RAG는 왜 이것을 해결하지 못하는가?
환각에 대한 업계의 기본 답은 RAG — 검색 증강 생성(Retrieval-Augmented Generation)입니다. 모델이 없는 것을 지어내게 두는 대신, 관련 문서를 검색해 컨텍스트로 제공하는 것입니다. 이는 실질적인 개선입니다. 하지만 고위험 B2B 영업에서는 그것으로 충분하지 않습니다.
표준 RAG는 벡터 데이터베이스를 사용해 텍스트 청크를 저장하고, 쿼리와 수학적으로 가장 가까운 청크를 검색합니다. 문제는 "수학적으로 가장 가까운" 것이 흔히 "실제로 관련 있는" 것에 대한 형편없는 대리 지표라는 점입니다.
"Apple Inc.에 대한 리스크"를 검색하면, 벡터 데이터베이스는 "Apple"과 "risk"라는 키워드가 일치한다는 이유로 Apple의 "혁신 실패 위험"에 관한 2015년 기사를 끄집어낼 수 있습니다. 한편, 어휘가 겹치지 않는다는 이유로 EU 규제 리스크에 관한 2024년 분석은 놓칩니다. 2015년 데이터를 LLM에 넣으면, 그것은 당신의 잠재 고객에게 오늘날 Apple의 가장 큰 위협이 iPhone 후속 제품의 부재라고 자신 있게 말할 것입니다. 낡은 데이터를 최신 통찰인 양 제시하는 것입니다.
벡터 데이터베이스는 또한 개체(entity)를 다루지 못합니다. 두 청크가 같은 이름을 담고 있다는 이유로 "자회사 A의 CEO John Smith"와 "모회사 B의 부사장 John Smith"를 혼동합니다. LLM은 두 참조를 보고 이를 하나의 환각된 인물로 병합합니다. 상대방의 조직도를 제대로 조사했음을 입증하려는 영업에서, 이것은 신뢰를 파괴하는 실수입니다.
저는 이 문제를 — 그리고 벡터 데이터베이스와 지식 그래프의 전체 기술 비교를 — 우리의 인터랙티브 리서치 브리프에 썼습니다.
우리가 실제로 구축한 아키텍처

APAC 사건과 그와 비슷한 아슬아슬한 위기를 열두 차례 겪은 뒤, 우리 팀은 단일 모델 시스템을 더 신뢰할 수 있게 만들려는 시도를 멈추고 완전히 다른 전제에서 출발했습니다: AI 워크플로를 단일 작성자가 아니라 편집팀을 본떠 모델링하면 어떨까?
좋은 잡지는 같은 사람이 기사를 조사하고, 쓰고, 팩트 체크하게 두지 않습니다. 그것들은 별도의 인센티브를 가진 별도의 역할입니다. 조사자는 정보를 사냥합니다. 작성자는 서사를 만듭니다. 팩트 체커는 기사가 발행되기 전에 그것을 깨뜨리려 시도합니다. 그들은 설계상 적대적입니다.
우리는 AI 에이전트로 똑같은 것을 구축했습니다. 한 명의 만능형이 아니라 세 명의 전문가입니다:
Researcher는 오직 검색하고 인용하는 일만 합니다. SEC의 EDGAR 데이터베이스에서 10-K 신고서를 가져오고, 최신 뉴스를 스크래핑하며, 우리의 지식 그래프에 질의합니다. 창의적 글쓰기는 금지되어 있습니다. 그 출력물은 구조화된 JSON 객체입니다 — 출처 URL과 페이지 번호가 붙은 원시 사실들. 의견도, 종합도 없습니다.
Writer는 그 검증된 사실들을 받아 설득력 있는 이메일을 만듭니다. 하지만 그것은 엄격한 제약 아래서 작동합니다: Researcher가 제공한 사실만을 오직 사용할 것. 그 밖에는 아무것도. 윤색도, "합리적 추론"도 없습니다.
Fact-Checker는 적대자입니다. 그것은 Writer 초안의 모든 주장을 Researcher의 노트와 대조합니다. "'매출을 20% 성장시켰다'는 주장이 출처 자료에 나타납니까? 아니요? 기각." 그것은 구체적인 피드백과 함께 초안을 돌려보냅니다. Writer가 수정합니다. Fact-Checker가 다시 검토합니다.
이 루프는 — AI 연구 커뮤니티가 "리플렉션 패턴(Reflection Pattern)"이라 부르는 것 — 초안이 통과하거나 최대 재시도 한도에 도달할 때까지 실행되며, 후자의 경우 사람에게 검토를 위해 플래그가 지정됩니다.
AI는 말하기 전에 "생각"하고, 보내기 전에 "성찰"합니다. 우리는 연산 비용의 한계적 증가를 신뢰성의 막대한 증가와 맞바꿉니다.
개발 초기의 어느 밤, 우리는 200명의 잠재 고객 배치에 대해 시스템을 돌렸습니다. Fact-Checker는 첫 초안의 34%를 기각했습니다. 34퍼센트. 이것들은 래퍼 기반 시스템이라면 망설임 없이 보냈을 이메일이었습니다. 일부는 조작된 매출 수치를 담고 있었습니다. 하나는 실제로는 사업 매각이었던 인수에 대해 CEO를 축하하고 있었습니다. 또 다른 하나는 존재하지 않는 가격 등급을 인용했습니다.
제 동료 엔지니어는 기각 로그를 보고 말했습니다, "우리는 방금 이 고객을 단 한 번의 배치에서 평판을 파괴할 68통의 이메일로부터 구해 냈어요." 그때 저는 이 아키텍처가 옳다는 것을 알았습니다.
우리가 CrewAI 대신 LangGraph를 선택한 이유
간단한 기술적 여담입니다. 오케스트레이션 프레임워크가 대부분의 사람들이 깨닫는 것보다 더 중요하기 때문입니다.
다중 에이전트 시스템을 구축하는 많은 팀이 CrewAI에 손을 뻗습니다. 직관적이기 때문입니다 — 역할을 정의하면 프레임워크가 상호작용을 처리합니다. 하지만 그 추상화는 대화의 상태를 숨깁니다. "Fact-Checker가 두 번 실패하면 사람에게 에스컬레이션하라" 같은 결정론적 규칙을 강제하기가 어렵습니다. 에이전트 간의 상호작용은 예측 불가능할 수 있고, 영업에서 예측 불가능성은 용납되지 않습니다.
우리는 LangGraph를 사용하는데, 이는 워크플로를 명시적인 상태 기계 — 노드(에이전트)와 엣지(결정)의 그래프 — 로 모델링합니다. 모든 전이가 정의되어 있습니다. 모든 조건이 감사 가능합니다. 컴플라이언스 점수가 0.95 미만이고 비평 횟수가 3 미만이면, 초안은 수정을 위해 되돌아갑니다. 실패가 3에 도달하면, 사람에게 라우팅됩니다. 모호함이 없습니다.
이것은 선호가 아니라 — 거버넌스 요구사항입니다. 기업 컴플라이언스 팀은 모든 AI 결정에 대한 감사 추적이 필요합니다. LangGraph는 우리에게 그것을 제공합니다. CrewAI는 그러지 못합니다. 오케스트레이션 아키텍처에 대한 전체 기술적 분석은 우리의 상세 리서치 페이퍼를 참조하십시오.
10-K라는 비밀 무기
B2B 영업 아웃리치를 위한 단연 최고의 데이터 출처는 잠재 고객의 웹사이트(그것은 마케팅 미사여구입니다)도 아니고, 뉴스(그것은 추측입니다)도 아닙니다. 그것은 SEC에 제출되는 10-K 연차 보고서입니다.
상장 기업은 "Item 1A: Risk Factors(위험 요인)"에서 가장 중대한 사업 위험을 공시하도록 법적으로 요구받습니다. 이것들은 홍보성 미사여구가 아닙니다. 증권 사기에 대한 처벌을 전제로 작성된, 취약성에 대한 법적 고백입니다.
물류 회사는 "연료 가격의 변동성" 또는 "레거시 소프트웨어 인프라에 대한 의존"을 중대한 위험으로 명시적으로 나열할 것입니다. 의료 회사는 규제 노출을 공시할 것입니다. 핀테크는 사이버 보안 우려를 상세히 밝힐 것입니다.
우리의 Researcher 에이전트는 이 신고서들을 자동으로 가져와, 우리 고객의 가치 제안과 관련된 위험 요인을 분리해 내고, 각각을 인용과 함께 저장합니다: "출처: Microsoft 10-K 2024, Item 1A, 4번째 문단."
Writer가 이메일을 작성할 때, 그것은 이렇게 말합니다: "귀사의 최신 연차 신고서에서 레거시 인프라 회복력이 2025년의 명시된 우선순위임을 발견했습니다. 우리 플랫폼은 바로 이것을 해결합니다."
그것은 환각이 아닙니다. 그것은 잠재 고객 자신의 법적 신고서에서 나온 검증된 사실입니다. 잠재 고객은 이를 읽고 이렇게 생각합니다: 이 사람은 정말로 사전 조사를 했구나. 왜냐하면 AI가 실제로 그렇게 했기 때문입니다.
역설적이게도, AI를 10-K로 제약하는 것은 그것을 더 나쁘게 만드는 것이 아니라 더 낫게 만듭니다. LLM은 경계가 있을 때 더 정확합니다. 10-K는 검증된 사실의 안전한 경계를 제공하여, 모델이 아무것도 없는 데서 사실을 지어내는 대신 그 사실들을 가치 제안과 연결하는 데 역량을 집중하도록 해방시킵니다.
"하지만 이게 래퍼보다 느리지 않을까요?"
사람들은 저에게 끊임없이 이것을 묻는데, 답은 그렇습니다 — 이메일 한 통당으로는요. 그리고 바로 그것이 요점입니다.
래퍼는 한 달에 10,000통의 이메일을 보냅니다. 아마 200통이 응답을 받습니다. 아마 30통이 미팅이 됩니다. 아마 4통이 검증된 기회가 됩니다 — 나머지는 잠재 고객이 그 "개인화된 통찰"이 조작된 것임을 깨달으면 무너지기 때문입니다.
우리 시스템은 더 적은 이메일을 보냅니다. 각각은 더 많은 연산이 듭니다. 하지만 콘텐츠가 진실하기 때문에 참여율이 극적으로 더 높습니다. 높은 참여는 Gmail의 AI에게 발신자가 정당하다고 알려 주고, 이는 도메인을 보호하며, 이는 이메일이 계속 도착함을 의미하고, 이는 여러 달에 걸쳐 지속 가능한 파이프라인으로 복리처럼 쌓입니다.
래퍼 방식은 설탕에서 오는 흥분(sugar high)입니다. 첫 분기 리뷰에서는 근사해 보이지만, 세 번째 분기에는 실존적 위기가 됩니다.
"이건 그냥 유능한 사람 SDR이 하는 일 아닌가요?" 어느 컨퍼런스에서 누군가 저에게 물었습니다. 그렇습니다 — 다만 사람 SDR은 90초 이내에 10-K 신고서를 읽고, 그것을 지식 그래프와 교차 참조하고, 개인화된 이메일 초안을 작성하고, 그것을 출처 문서와 대조해 팩트 체크할 수 없습니다. 이 아키텍처는 품질에 대한 인간의 직관을 대체하지 않습니다. 그것을 확장(scale)합니다.
래퍼 시대가 저물고 있다
저는 이것에 대해 얼버무리지 않습니다. 현세대의 AI 영업 래퍼들 — 검증 계층이 없는 범용 모델 위에 얹힌 얄팍한 인터페이스들 — 은 우리가 2000년대 초 첫 번째 이메일 스팸의 물결을 기억하는 방식으로 기억될 것입니다. 새로운 기술이 생태계가 항체를 발달시키기 전에 대규모로 신뢰를 태워 버리는 데 쓰였던, 짧고 혼란스러운 시기로 말입니다.
Gmail의 AI 필터가 그 항체입니다. 잠재 고객의 정교함이 또 다른 항체입니다. 자동화된 영업의 "언캐니 밸리" — 거의 사람 같지만 진정한 구체성이 결여된 이메일 — 은 이미 시장에서 면역 반응을 촉발하고 있습니다. 의사 결정권자들은 AI 아웃리치를 패턴으로 알아차리는 법을 배우고 있으며, 그것을 포착하면 발신자는 단지 거래만 잃는 것이 아닙니다. 그들은 신뢰할 수 없는 존재로 감정적으로 낙인찍힙니다. 한 달에 10,000통의 이메일이라면, 그것은 10,000개의 끊어진 다리입니다.
다음 사이클에서 B2B 영업을 지배할 기업은 가장 많은 이메일을 보내는 곳이 아닙니다. 그들은 검증 가능하게 진실한 이메일을 보내는 곳입니다 — 잠재 고객 자신의 공시에 근거하고, 구조화된 지식에 대조해 확인되며, 처음부터 끝까지 감사 가능한 이메일 말입니다.
인공지능의 시대에 궁극의 사치는 진실입니다.
문제는 당신의 AI가 설득력 있는 이메일을 쓸 수 있느냐가 아닙니다. 이제 어떤 모델이든 그것을 할 수 있습니다. 문제는 당신의 AI가 잠재 고객이 사실을 확인하는 그 순간을 견뎌 내는 이메일을 쓸 수 있느냐입니다. 그럴 수 없다면, 당신은 영업을 확장하고 있는 것이 아닙니다. 당신의 브랜드가 스스로를 파괴하는 속도를 확장하고 있는 것입니다.