
신문 기사는 낡은 마차 채찍, 당신의 아카이브는 금광이다
나는 한 유서 깊은 신문사 — 당신도 분명 읽어본 적 있는 그 신문 — 의 디지털 디렉터와 마주 앉아 있었는데, 그가 노트북에 차트를 띄우더니 나를 향해 화면을 돌렸다. 지난 18개월간의 월별 오가닉 트래픽이었다. 마치 누군가 절벽 아래로 바위를 밀어버린 것 같은 모양새였다.
"우리는 모든 걸 제대로 하고 있어요." 그가 말했다. "기사도 더 많이 쓰고, SEO도 개선하고, 페이지 로딩도 빨라졌죠. 그런데도 지고 있어요."
실행에 관해서는 그의 말이 틀리지 않았다. 그가 틀린 것은 게임 자체에 대한 것이었다. 그가 옛 게임에 맞춰 최적화하고 있는 사이, 게임은 그의 발밑에서 이미 바뀌어 있었다. 그리고 그 대화 — 주차장 건물이 내다보이는 회의실에서 미지근한 커피를 앞에 두고 나눈 그 대화 — 는 내가 이후 여러 달을 들여, 미디어 기업이 어떻게 살아남을지를 재정의할 것이라 믿는 무언가를 만들게 된 이유다.
핵심 아이디어는 단순하다, 거의 아플 정도로 단순하다: 미디어 기업은 기사를 파는 것을 멈추고 답을 팔기 시작해야 한다. 뉴스 피드는 죽었다. 아카이브는 살아 있다. 그리고 그 간극을 잇는 기술 — 50년치 저널리즘을 대화형 인텔리전스 엔진으로 바꾸는 기술 — 은 이미 존재한다. 우리는 그저 그것을 제대로 만들기만 하면 된다.
나는 이 논지 전체를 다룬 인터랙티브 심층 분석을 작성해 두었으니, 전체 그림을 원한다면 참고하기 바란다. 하지만 우리가 어떻게 여기까지 왔는지 그 이야기를 들려주고 싶다. 숫자만으로는 한 산업의 토대가 갈라지는 것을 지켜보는 그 아찔함을 담아낼 수 없기 때문이다.
왜 이제 아무도 클릭하지 않는가?

미디어 경영진의 잠을 앗아가는 사실은 이것이다: 이제 구글 검색의 60%가 어떤 웹사이트로도 단 한 번의 클릭 없이 끝난다. 모바일에서는 그 비율이 77%다. 구글은 관문이 아니라 목적지가 되었다. 디지털 퍼블리싱 경제를 만들어낸 검색 엔진이 조용히 그 경제의 가장 큰 경쟁자가 된 것이다.
그리고 그 피해의 규모는 충격적이다. 2025년 상반기에 퍼블리셔 중앙값은 전년 대비 10%의 트래픽 감소를 겪었다. 하지만 "중앙값"은 그 참상을 가린다. CNN은 27%에서 38% 사이로 떨어졌다. 포브스와 비즈니스 인사이더는 거의 50% 하락했다. 현대 콘텐츠 마케팅을 사실상 발명한 기업인 허브스팟(HubSpot)은 오가닉 트래픽의 70~80%를 잃었다.
그 주범은 AI 개요(AI Overviews)다. 구글의 AI 요약이 검색 결과 상단에 나타날 때 — 현재 대략 13%의 쿼리에서 이런 일이 일어난다 — 오가닉 링크로의 클릭률은 약 47% 붕괴한다. 사용자가 기사를 읽을 필요가 없도록 AI가 대신 읽어주기 때문이다.
나는 우리 팀과 함께 늦은 저녁 작업 중에 이 숫자들을 바라보던 때를 기억한다. 누군가 이렇게 말했다. "그러니까 퍼블리셔가 콘텐츠를 만들고, 구글의 AI가 그걸 먹어치우고, 사용자는 사이트를 아예 방문하지 않는다는 거네요?" 정확히 그렇다. 그리고 상황은 더 나빠진다.
검색 엔진은 더 이상 트래픽을 보내주는 추천자가 아니다. 관심을 두고 다투는 경쟁자다.
생성형 AI 플랫폼 — ChatGPT, Perplexity, Claude — 로의 트래픽은 전통적 검색으로의 트래픽보다 165배 빠르게 성장하고 있다. 사용자들은 더 길고 더 복잡한 질문을 던진다. 다섯 단어 이상으로 된 검색은 짧은 키워드 쿼리보다 1.5배 빠르게 늘고 있다. 사람들은 파란색 링크 열 개를 원하지 않는다. 그들은 좋은 답 하나를 원한다.
기사는 유물이다 (그리고 나는 애정을 담아 그렇게 말한다)
여기서 나는 조심해야 한다. 나는 진심으로 롱폼 저널리즘을 사랑하기 때문이다. 나는 그것을 끊임없이 읽는다. 하지만 기사라는 형식이 실제로 무엇인지에 대해서도 솔직해야 한다: 그것은 인쇄 배포를 위해 설계된 그릇이다.
생각해 보라. 신문에 800단어짜리 기사를 인쇄한 이유는 800개의 개별 답을 인쇄할 수 없었기 때문이다. 물리적 배포는 비싸고 간헐적이었기에, 정보를 서사로 묶었다. 그것은 1975년에는 완벽하게 타당했다. 기사가 온라인으로 옮겨갔지만 읽는 행태는 대체로 그대로였던 2005년에도 그런대로 타당했다.
2025년에는 거의 아무런 타당성이 없다.
"주택 문제에 대한 시장의 입장은 무엇인가?"를 검색하는 사용자는 도시 용도지역제의 역사에 관한 1,000단어짜리 특집을 원하지 않는다. 그들은 주택 문제에 대한 시장의 입장을 원한다. 전통적 모델은 그들을 관문의 연속으로 몰아넣는다: 검색 → 클릭 → 스크롤 → 훑기 → 읽기 → 추출. 모든 단계가 마찰이다. 모든 단계가 그들을 잃을 기회다.
나는 이 문제를 두고 강하게 반박한 저널리스트 친구와 논쟁을 벌였다. "너는 저널리즘을 사실로 축소하고 있어." 그녀가 말했다. "이야기는 중요해. 맥락도 중요하고. 서사도 중요해." 그녀의 말은 전적으로 옳다 — 오피니언, 탐사보도, 인물 기사, 특집에 대해서는. 그런 것들은 예술 형식이다. 하지만 뉴스 피드를 채우는 것들의 대다수는 예술이 아니다. 그것은 비효율적인 형식 안에 갇힌 정보다. 그리고 사용자들은 자신의 행동으로 투표하고 있다: 그것을 헤쳐 나가느니 차라리 AI에게 묻겠다는 것이다.
아카이브가 무덤이 아니라면 어떨까?
바로 이 지점에서 그 디지털 디렉터와의 대화는 우울한 것에서 짜릿한 것으로 바뀌었다.
나는 그에게 아카이브에 기사가 몇 개나 있는지 물었다. 그는 잠시 멈췄다. "아마... 수백만 개? 70년대까지 거슬러 올라가서요?" 그는 그것을 마치 부채인 것처럼 — 서버 비용, 유지보수의 골칫거리인 것처럼 — 말했다.
나는 그에게 그것이 그의 회사가 가진 가장 값진 자산이라고 말했다. 브랜드보다 더 값지다. 구독자 명단보다 더 값지다. 왜냐하면 지방 정치, 비즈니스, 범죄, 문화의 50년을 아우르는 그 수백만 개의 기사는 — 지구상 어떤 AI 기업도 그의 허락 없이는 복제할 수 없는 데이터셋이기 때문이다.
문제는 데이터가 아니다. 문제는 그것이 서로 단절된, 구조화되지 않은 텍스트 덩어리 안에 갇혀 있다는 것이다. 기사 A는 인물 X가 회사 Y에서 일한다고 언급한다. 3년 뒤에 발행된 기사 B는 회사 Y가 스캔들 Z에 휘말려 있다고 언급한다. 어떤 단일 기사도 인물 X를 스캔들 Z에 연결하지 않는다. 하지만 그 연결은 존재한다 — 아카이브 곳곳에 묻힌 채, 어떤 검색창에도 보이지 않은 채, 누군가 그것을 꿰매어 이어주기를 기다리며.
자사 제품을 오로지 "기사"로만 보는 퍼블리셔는 자동차 시대에 마차 채찍을 만들고 있는 셈이다.
그 꿰매는 작업이 바로 우리가 Veriprajna에서 만드는 것이다. 챗봇이 아니다. GPT 래퍼도 아니다. 인텔리전스 엔진이다.
모든 것을 바꾼 시장 질문
이것을 구체적으로 만들어 보겠다. 한 사용자 — 지역 정책 연구자, 우려하는 시민, 경쟁 매체의 저널리스트 — 가 주택 문제에 대한 시장의 입장이 2010년 이후 어떻게 변해왔는지 이해하고 싶어 한다고 상상해 보라.
옛 모델에서는, 그들은 신문사 사이트에서 "시장 주택 입장"을 검색한다. 결과가 50개 나온다. 그들은 2010년 기사를 연다: "시장, 고층 개발에 반대." 그들은 2015년 기사를 연다: "시장, 주거 부담 위기 속에 입장 완화." 그들은 2022년 기사를 연다: "시장, Build Now 법안을 지지." 그들은 머릿속으로 그 변화를 종합한다. 빠른 사람이라도 45분이 걸린다.
우리가 만드는 모델에서는, 그들은 질문을 입력한다. 시스템은 그것을 시간적 하위 쿼리들로 분해한다. 그것은 지식 그래프를 순회한다 — 단순히 키워드를 검색하는 것이 아니라, 시간이 찍힌 엣지들을 가로질러 시장 엔티티와 주택 개발 엔티티 사이의 관계를 따라간다. 그것은 입장의 변화를 찾아낸다, 부정(2010)에서 중립(2015)을 거쳐 긍정(2022)으로. 그것은 원본 기사로 연결되는 인용과 함께 서사를 생성한다. 그것은 타임라인 시각화를 렌더링한다.
10초.
그것은 챗봇이 아니다. 그것은 인텔리전스 제품이다. 그리고 그것은 전문가들 — 로비스트, 애널리스트, 변호사, 기업 전략가 — 이 상당한 돈을 지불할 만한 종류의 것이다.
그냥 아카이브에 GPT를 던져 넣을 수는 없을까?
그럴 수 있으면 좋겠다. 그러면 내 일이 훨씬 쉬워질 것이다.
우리는 초기에 순진한 접근법을 시도했다. 기사를 가져와 500단어 청크로 쪼개고, 벡터로 임베딩하고, 유사도 검색을 하고, 그 결과를 LLM에 넣는 것이다. 이것이 대부분의 "AI 챗봇" 구현이 하는 방식이다. 그리고 정적인 문서에서의 단순하고 단일 사실 조회에 대해서는 잘 작동한다.
뉴스 아카이브에 대해서는, 미묘하고 위험한 방식으로 실패한다.
그것은 맥락의 흐름을 잃는다. 청킹은 서사의 궤적을 끊는다. 판결을 논하는 청크가 범죄를 서술하는 청크와 분리된다. 시스템은 여러 해에 걸쳐 여러 기사에 나뉘어 전개되는 이야기를 말 그대로 따라갈 수 없다.
그것은 시간에 눈이 멀어 있다. 벡터 유사도는 지금이 몇 년도인지 알지 못한다. "주택 시장이 붕괴하고 있다"고 말하는 2010년 기사는 같은 말을 하는 2024년 기사와 의미적으로 동일하다. 시스템은 과거의 현실을 현재의 현실과 뒤섞는다. 그것은 무엇이 참이었는지와 무엇이 참인지를 구별하지 못한다.
그것은 점들을 연결하지 못한다. 인물 X와 스캔들 Z가 같은 기사에 결코 함께 등장하지 않는다면, 회사 Y가 그 둘을 잇더라도 순진한 검색은 그 연결을 결코 찾아내지 못한다. 시스템에는 연구자들이 "멀티홉 추론"이라 부르는 능력이 없다.
그것은 빈틈을 메우기 위해 환각을 일으킨다. 검색이 관련 맥락을 놓치면, LLM은 "모르겠다"고 말하지 않는다. 그것은 지어낸다. 인용문을 날조한다. 일어난 적 없는 사건을 만들어낸다. 저널리즘에서 이것은 버그 리포트가 아니다. 소송이다.
우리는 이 모든 것을 어렵게 배웠다. 특정한 테스트가 있었는데 — 그 매체의 이름은 밝히지 않겠다 — 거기서 순진한 시스템은 어떤 정치인이 결코 조금도 비슷하게 말한 적 없는 인용문을 자신 있게 그 정치인에게 귀속시켰다. 그 인용문은 그럴듯하게 들렸다. 그것은 그 정치인의 말투와 문법적으로 일관됐다. 그것은 완전히 날조된 것이었다. 그때가 바로 우리가 근본적으로 다른 아키텍처가 필요하다는 것을 깨달은 순간이었다.
실제로 작동하는 인텔리전스 엔진은 어떻게 만드는가?

우리가 Veriprajna에서 개발한 아키텍처는 세 개의 계층으로 이루어져 있으며, 각 계층은 특정한 실패 모드를 해결한다. 여기서는 간략히 스케치하겠다 — 전체 기술적 상세는 우리의 연구 논문을 참고하기 바란다.
1계층: GraphRAG. 아카이브를 서로 단절된 텍스트 청크의 자루로 취급하는 대신, 우리는 지식 그래프를 추출한다 — 엔티티(사람, 조직, 장소, 사건)와 그 사이의 관계를 말이다. "일론 머스크" → 인수했다 → "트위터." 이것들은 모든 기사가 상호 연결된 그래프 데이터베이스에 저장된다. 사용자가 복잡한 질문을 던지면, 시스템은 단지 키워드를 검색하지 않는다. 그것은 그래프를 순회하며, 노드에서 노드로 건너뛰며, 수십 년과 수천 개의 기사에 걸친 연결을 찾아낸다.
그 결과는 극적이다. 멀티홉 추론 과제에서 GraphRAG는 벡터 전용 접근법 대비 포괄성에서 72~83%의 개선을 보여왔다. 그것은 "5년간의 기후 보도에서 주요 주제는 무엇인가?"에 답할 수 있다 — 순진한 RAG는 시도조차 할 수 없는 질문이다.
2계층: Temporal RAG. 모든 청크와 모든 그래프 엣지에는 유효 시간(valid-time) 메타데이터가 태깅된다. 관계는 버전 관리된다 — 스티브 잡스에 대한 "애플 CEO" 엣지는 팀 쿡에 대한 것과 다른 시간 범위를 갖는다. 사용자가 변화에 관한 질문을 던지면, 시스템은 그것을 시간적 하위 쿼리들로 분해하고 결과를 연대순으로 조립한다. 아카이브는 타임머신이 된다.
3계층: 에이전틱 워크플로우. LLM은 단지 검색하고 답하지 않는다. 그것은 계획을 세운다. 플래너(Planner) 에이전트는 복잡한 요청("회사 X에 대한 실사 보고서를 작성하라")을 하위 과제들로 분해한다. 리서처(Researcher) 에이전트는 표적화된 쿼리를 실행한다. 크리틱(Critic) 에이전트는 사용자가 무엇이든 보기 전에 결과에서 빈틈과 모순을 검토한다. 라이터(Writer) 에이전트는 인용과 함께 최종 결과물을 종합한다.
우리는 API를 감싸지 않는다. 우리는 지식 인프라의 토대를 다시 짓는다.
그 크리틱 에이전트는 결정적으로 중요하다. 그것은 본질적으로 내장된 팩트체커다 — 생성된 모든 주장을 원본 문서와 대조하고 뒷받침되지 않는 것은 무엇이든 걷어내는 두 번째 LLM 호출이다. 엄격한 그라운딩 지침 및 인용 강제와 결합되면, 그것이 바로 내가 날조에 대한 무관용 정책이라고 여기는 것을 우리가 유지하는 방식이다.
파이낸셜 타임스는 다른 모두가 모르는 무엇을 알고 있는가?
FT는 "Ask FT"를 출시했다 — 전문 구독자가 자사 아카이브를 심문할 수 있게 해주는 대화형 인터페이스다. 모든 답은 오직 FT 저널리즘에만 근거한다. 모든 주장에는 클릭 가능한 인용이 달려 있다. 그것은 특정한 전문 워크플로우를 위해 설계되었다: 회의 준비, 신속한 실사, 트렌드 분석.
블룸버그는 BloombergGPT로 한 걸음 더 나아갔다. 자연어를 Bloomberg Query Language로 번역하는 도메인 특화 LLM이다. 애널리스트는 "2024년 3분기 기술 기업의 매출 성장을 보여줘"라고 물어 서식이 갖춰진 표를 얻을 수 있다. 그들은 실적 발표 콜(earnings call) 녹취록을 심문할 수 있다 — 특정 리스크 요인에 대한 CEO의 어조를 물으며 — 수백 페이지를 선형적으로 읽는 대신 말이다.
이것들은 실험이 아니다. 비즈니스 모델이다. 그리고 그것들은 돈이 실제로 어디에 있는지를 가리킨다.
돈은 어디에서 오는가?

사람들은 항상 나에게 이 "서비스로서의 인텔리전스" 모델이 정말로 광고 수익을 대체할 수 있는지 묻는다. 나의 솔직한 답은: 그것은 광고 수익 전부를 대체할 필요가 없다는 것이다. 그것은 사라지고 있는 부분을 대체하면 된다.
경제 구조는 세 개의 티어로 나뉜다.
첫째, 인텔리전스 티어 구독 — "뉴스를 읽는" 월 10달러가 아니라, 깊은 아카이브 접근, 에이전틱 워크플로우, 인용으로 뒷받침된 리서치가 필요한 전문가를 위한 연 1,000달러 이상이다. 금융 전문가, 기업 인텔리전스 팀, 규제 리서치를 하는 로펌. 이런 사용자는 존재한다. 그들은 잘 만들어진 시스템이 몇 초 만에 하는 일을 애널리스트에게 수작업으로 시키느라 현재 비용을 지불하고 있다.
둘째, API 라이선싱. robots.txt로 AI 크롤러와 싸우는 대신, 데이터 교환을 공식화하라. 정제되고 벡터화되고 그래프로 구조화된 아카이브 접근을 기업 검색 플랫폼, 금융 터미널, 서드파티 개발자에게 판매하라. 쿼리당 또는 토큰당 과금하라. 퍼블리셔의 인텔리전스는 클라이언트의 워크플로우 안에서 살아 숨 쉰다.
셋째, 그리고 이것이 대부분의 사람들이 놓치는 부분이다: 데이터 해자(data moat) 그 자체. 누구나 GPT-4에 접근할 수 있는 세상에서, 경쟁 우위는 모델이 아니다. 데이터다. 50년치 지역 뉴스 아카이브는 OpenAI가 복제할 수 없는 데이터셋이다. 그 아카이브에서 파생된 지식 그래프 — 지역 실세들의 그물망, 정책 변화의 타임라인, 기업 관계의 네트워크 — 는 시간이 지날수록 가치가 복리로 불어나는 독점적 지식재산이다.
AI 모델이 범용화된 세상에서, 해자는 알고리즘이 아니다. 아카이브다.
저널리스트는 어떻게 되는가?
나는 이 질문을 끊임없이 받는데, 회피가 아니라 직접적인 답을 받을 자격이 있다고 생각한다. 이 전환은 저널리즘을 없애지 않는다. 그것은 저널리즘이 사람들에게 도달하는 방식의 비효율을 없앤다. 부패 스캔들을 3개월간 조사하는 기자는 어떤 AI도 복제할 수 없는 일을 하고 있다. 우리가 만드는 시스템은 그 일을 더 발견하기 쉽고, 더 질의하기 쉽고, 시간이 지날수록 더 가치 있게 만든다. 그것은 일주일간 읽히고 나서 검색 결과 47페이지에 묻히는 기사를, 앞으로 50년 동안 누군가 관련된 질문을 던질 때마다 떠오르는, 지식 그래프 속의 영구적이고 검색 가능한 노드로 바꾼다.
저널리즘에 대한 위협은 대화형 AI가 아니다. 위협은 저널리즘을 지탱하는 추천 유입 경제의 붕괴다. 트래픽이 사라졌다면 — 그리고 실제로 사라졌다 — 광고에 의존하는 피드 모델에 매달리는 것은 그 업(craft)에 대한 충성이 아니다. 그것은 부정(否認)이다.
미디어 기업이 전환하지 않으면 어떤 일이 벌어지는가?
쇠퇴보다 더 나쁜 것: 무의미함이다. 그들의 아카이브는 AI 기업에 스크래핑되고, 학습 데이터로 종합되어, 출처 표기 없이, 대가 없이, 그리고 편집 기준이 제공하는 신뢰 계층 없이 사용자에게 다시 제공된다. 퍼블리셔는 다른 누군가의 인텔리전스 제품에 무보수로 콘텐츠를 공급하는 처지가 된다.
일부 퍼블리셔는 이미 OpenAI 등과 라이선싱 계약을 맺고 있다. 그것은 시작이지만, 저마진의 일회성 거래다. 정제된 인텔리전스를 팔 수 있는데 원자재를 팔고 있는 것이다. 그것은 원유를 수출하는 것과 정유소를 짓는 것의 차이다.
뉴스 소비의 미래는 피드가 아니다. 대화다. 우리는 내가 생성형 UI(Generative UI)라고 여기는 것 — 답에 맞춰 적응하는 인터페이스 — 을 향해 나아가고 있다. 타임라인을 요청하면 타임라인을 얻는다. 비교를 요청하면 표를 얻는다. 브리핑을 요청하면 PDF를 얻는다. 정적인 웹사이트는 인텔리전스를 위한 유동적이고 적응적인 캔버스로 녹아든다.
기저의 데이터 구조 — 벡터, 그래프, 시간적 논리 — 를 통달하는 미디어 기업이 이 미래를 정의할 것이다. 그들은 단지 뉴스 피드의 죽음에서 살아남는 데 그치지 않을 것이다. 그들은 피드가 결코 이르지 못했던 것보다 더 나은 무언가를 지을 것이다.
아카이브는 비용 센터가 아니다. 그것은 사업 그 자체다. 유일한 질문은 그것을 열어젖히는 사람이 당신이 될 것인지, 아니면 당신의 데이터로 다른 누군가가 그것을 해내는 것을 지켜볼 것인지다.
단어를 파는 것을 멈춰라. 답을 팔기 시작하라.