여러분의 아카이브가 곧 자산입니다. Google이 그것을 공짜로 빌려 쓰게 두지 마십시오.

저희는 퍼블리셔 아카이브 위에 대화형 AI 엔진을 구축합니다. 인용이 강제된 답변, 시간적 추론, GraphRAG 엔티티 해소, 그리고 여러분이 통제하지 못하는 AI 엔진으로부터 수익을 포착하는 병행 라이선싱 전략을 제공합니다. 6명의 ML 엔지니어 팀을 둘 여력은 없지만, 그렇다고 기다릴 여력도 없는 중견 퍼블리셔를 위한 솔루션입니다.

AI 개요(AI Overviews)에 검색 트래픽을 빼앗기고 있는 퍼블리셔를 위해

48%

의 Google 쿼리가 이제 AI 개요(AI Overviews)를 표시합니다

theStacc / Search Engine Land, 2026년 3월

-33%

퍼블리셔 검색 트래픽 전년 대비, 2025년 11월까지

Reuters Institute, 2026

-43%

뉴스 경영진이 2029년까지 예상하는 추가 하락폭

Reuters Institute Trends 2026 설문조사

리퍼럴 경제는 끝났습니다. 라이선싱 경제는 아직 구축되지 않았습니다.

추상적인 문제가 아니라 구체적인 시나리오입니다.

월간 순방문자 400만 명과 32년간의 아카이브를 보유한 한 지역 일간지가 2026년 2월 이사회 자료에서 수치를 따져봅니다. 자연 검색 리퍼럴은 전년 대비 41% 감소했습니다. 프로그래매틱 CPM은 추가로 18% 하락했습니다. 2023년에 비즈니스 모델을 지탱했던 제휴 마케팅 수익은 정점 대비 3분의 1 수준으로 붕괴했습니다. Penske Media가 2025년 9월 Google을 상대로 한 반독점 제소에서 언급한 것과 동일한 궤적입니다. CFO가 명백한 질문을 던집니다: Google이 정확히 우리에게 무엇을 빚지고 있으며, 어떻게 그것을 지불하게 만들 것인가?

그 답은 불편합니다. Google은 계약상 그들에게 아무것도 빚지고 있지 않습니다. 명문화되지 않은 거래(여러분이 우리를 크롤링하면, 우리가 여러분에게 트래픽을 보낸다)는 AI 개요(AI Overviews)가 쿼리의 48%에 등장하기 시작하면서 일방적으로 다시 쓰였습니다. AI 개요가 자연 검색 링크 위에 노출될 때, Daily Mail은 데스크톱 클릭률이 89% 하락한 것을 측정했습니다. Pew의 2025년 3월 패널 조사에 따르면, AI 개요를 접한 사용자가 전통적인 링크로 클릭해 들어간 경우는 전체 방문의 단 8%에 불과했습니다. 퍼블리셔의 콘텐츠는 여전히 읽히고 있습니다. 다만 퍼블리셔는 더 이상 그 대가를 받지 못합니다.

한편, 명백한 대응책인 "우리만의 AI를 구축하자"에도 그 나름의 상처가 있습니다. The Washington Post는 2024년 11월 Ask The Post AI를 출시했습니다. 2025년 12월, 표준 담당 에디터의 내부 Slack 메시지가 유출되었습니다: 그들의 AI 생성 팟캐스트가 인용문을 지어내고, 출처를 잘못 귀속시키며, 마치 신문사의 편집 입장인 것처럼 논평을 삽입하고 있었습니다. "이것이 애초에 진행되도록 허용되었다는 사실이 정말 충격적이다," 한 에디터는 이렇게 썼습니다, "Washington Post가 자사의 저널리즘을 의도적으로 왜곡한 뒤 이러한 오류를 대규모로 우리 독자에게 내보내리라고는 결코 상상하지 못했을 것이다." 기술적 실패는 인용 검증 단계가 누락된 것이었습니다. 평판 피해는 전 세계적이었습니다.

이것이 문제의 진짜 모습입니다. 중견 퍼블리셔는 아무것도 하지 않을 여력이 없습니다. 그들의 유통망을 구축해 준 검색 엔진이 이제 그들의 가장 큰 경쟁자가 되었습니다. 또한 그들은 자사 마스트헤드 아래에서 환각을 일으키는 챗봇을 출시할 여력도 없습니다. 그리고 FT, Bloomberg, New York Times가 이 절벽 이전에 구축했던 사내 ML 팀을 복제할 수도 없습니다. 그들에게는 눈에 띄지 않는 작업을 해낸 구축 파트너가 필요합니다: 아카이브 인제스션, 엔티티 해소, 인용 강제, 편집 검토 큐, 그리고 결코 소유하지 못할 AI 엔진으로부터 수익을 포착하는 병행 라이선싱 전략입니다.

퍼블리셔 AI 지형, 처음부터 끝까지

다음 전략 회의에서 이 자료를 띄워 보십시오. 저희는 각 옵션이 무엇을 하고 무엇을 하지 못하는지에 대해 정직하려고 노력했습니다.

옵션 실제로 하는 일 한계가 드러나는 지점
SaaS 챗봇 벤더 (Tars, 기본적인 온사이트 검색 래퍼) 여러분의 사이트에 채팅 위젯을 붙입니다. 여러분 기사의 벡터 임베딩을 만듭니다. $60K-$120K로 견적되며, 수 주 내에 배포됩니다. 엔티티 해소 없음. 시간적 추론 없음. 인용 검증 없음. 중요한 쿼리(멀티홉, 종단적)에서 환각을 일으킵니다. 여러분의 아카이브는 그들의 클라우드에 있습니다.
빅 파이브 사내 구축 (FT, NYT, Bloomberg, WaPo, Guardian) 자체 아카이브에 대한 맞춤형 RAG. Ask FT는 필수 인용 기능과 함께 Anthropic Claude 위에서 작동합니다. Bloomberg에는 BloombergGPT와 BQL 번역이 있습니다. 6~20명의 ML 엔지니어 팀이 12~24개월에 걸쳐 구축한 것입니다. 비용은 7자릿수에 달합니다. 중견 퍼블리셔는 그 인력 규모를 복제할 수 없습니다. 그냥 불가능합니다.
빅4 / 대형 SI (Accenture, Deloitte, IBM iX) 구축해 줄 것입니다. 인접 산업에서 생성형 AI 작업을 해 왔습니다. 프로젝트 규모가 $1.5M-$5M+에 이르며, 여러분의 자금 여력보다 더 오래 지속되는 디스커버리 단계를 동반합니다. 그들은 저희와 동일한 Microsoft GraphRAG와 Neo4j 스택에 손을 뻗지만, 그 위에 파트너급 컨설팅 비용을 추가로 청구합니다. 그들은 퍼블리셔 아카이브를 다섯 번 연속으로 구축해 본 적이 없습니다.
Cloudflare Pay Per Crawl (2026년 1월) 전 세계 웹 트래픽의 약 20%에서 AI 크롤러를 기본 차단합니다. 도메인 전체에 적용되는 요청당 가격으로 크롤러별 허용 / 과금 / 차단을 설정할 수 있게 해 줍니다. AI 개요(AI Overviews)가 여러분의 콘텐츠를 요약하는 것은 막지 못합니다(그들은 쿼리 시점에 검색합니다). 리텐션을 생성하지 못합니다. 순수한 누수 포착일 뿐이며, 가격 발견은 여전히 미성숙합니다.
News/Media Alliance + ProRata (2026년 3월) 2,200개 소형/중형 퍼블리셔를 위한 공동 라이선싱 풀. Gist.ai를 통해 귀속 추적되는 AI 답변에 대해 50/50 수익 배분. NMA가 서류 작업을 처리합니다. 수익은 Gist.ai가 ChatGPT, Perplexity, Gemini를 상대로 채택을 확대하는 데 달려 있습니다. 아직 초기 단계입니다. NMA+Bria 병행 계약은 엔터프라이즈 RAG 전용입니다.
Tollbit / 직접 봇 통행료 Cloudflare와 유사한 메커니즘으로 크롤 요청당 과금하되, 봇별로 구성 가능합니다. Boston Globe, Vox, Future가 파일럿을 진행했습니다. Cloudflare와 동일한 구조적 한계: 쿼리 수익이 아니라 크롤러 수익을 포착합니다. 정직한 퍼블리셔라면 Tollbit과 쿼리 측 전략을 모두 운영해야 합니다.
Veriprajna (저희) 인용 강제, GraphRAG 엔티티 해소, 시간적 추론, 편집 거버넌스를 갖춘 대화형 엔진을 여러분의 스택 위에 맞춤 구축합니다. 여기에 더해 ProRata, Bria, Tollbit, Cloudflare를 단일 수익 전략으로 통합합니다. 저희는 컨설팅 회사이지 SaaS가 아닙니다. 저희는 플랫폼 권력의 비대칭을 해결하지 못합니다. 그것은 오직 여러분의 정부만이 할 수 있습니다. 저희는 ProRata나 Bria에서 나오는 라이선싱 수익이 잃어버린 검색 수익의 100%를 대체할 것이라고 가장하지 않을 것입니다. 2026년에 그것들은 그렇게 하지 못할 것입니다.

저희가 퍼블리셔를 위해 구축하는 것

각 프로젝트는 맞춤형입니다. 다음은 저희가 계속 조합해 달라는 요청을 받는 네 가지 역량 영역입니다.

1. 아카이브 인제스션과 엔티티 해소

모든 프로젝트에서 눈에 띄지 않는 60%입니다. 스캔된 마이크로필름과 2005년 이전 PDF를 위한 레이아웃 인식 OCR(깨끗한 문서에는 Tesseract, 단(column)이 많은 신문 지면에는 Azure Document Intelligence 또는 Google Document AI). 모든 500단어마다 잘라내는 대신 헤드라인, 부제, 바이라인을 존중하는 시맨틱 청킹. 발행일, 저자, 섹션을 통한 메타데이터 보강, 그리고 인물, 조직, 위치, 법안, 사건에 대한 개체명 인식(Named Entity Recognition).

그다음에는 엔티티 해소 단계: "Mr. Musk", "Elon Musk", "Tesla CEO"를 하나의 노드로 통합하고, 25년간의 바이라인 전반에 걸쳐 "시의원 John Smith"와 "교장 John Smith"를 구별합니다. 저희는 LLM 기반 추출을 여러분의 취재 분야에 맞춰 조정된 결정론적 규칙과 결합한 뒤, 기사 수 기준 상위 200개 엔티티에 대해 사람이 검토합니다. 알고리즘 측면은 Senzing 또는 Neo4j Graph Data Science가 처리합니다. 판단이 필요한 결정은 저희와 여러분이 공동으로 내립니다.

2. 시간적 추론을 갖춘 GraphRAG

벡터 검색만으로는 "2010년에서 2024년 사이에 시장(市長)의 주택 정책 입장이 어떻게 변화했는가"에 답할 수 없습니다. 그 답이 어느 단일 청크에도 들어 있지 않기 때문입니다. 저희는 아카이브를 타입이 지정된 엣지(HAS_STANCE, ENDORSED_BY, VOTED_ON)를 갖춘 Neo4j 또는 Amazon Neptune 지식 그래프로 처리한 다음, 발행일에서 도출한 valid_start와 valid_end 타임스탬프로 모든 엣지에 버전을 부여합니다.

쿼리 시점에 에이전트형 플래너가 질문을 시간적 하위 쿼리로 분해하고, 그래프를 순회하며, 인라인 인용이 포함된 시간순 내러티브를 구성합니다. 저희는 오픈소스 백본으로 Microsoft GraphRAG를 사용하고 엔티티 추출 프롬프트를 여러분의 특정 취재 분야에 맞춰 커스터마이징합니다. 더 긴 아카이브의 경우 시간 민감 검색을 위해 T-GRAG(arXiv 2510.13590)를 계층화합니다. 이것이 기사를 찾아내는 챗봇과, 그 기사들을 가로질러 이야기를 종합하는 챗봇의 차이입니다.

3. 인용 강제와 편집 검토

Washington Post 팟캐스트 사건이 경고적 사례입니다. 세 개의 계층, 지름길 없음. 첫째, 엄격한 그라운딩 시스템 프롬프트가 검색된 컨텍스트에 없는 어떠한 주장도 금지합니다. 둘째, 사후 검증기(별도의 LLM 호출)가 생성된 각 문장을 그 인용된 출처와 대조하고, 인용이 실제로 그 주장을 담고 있지 않은 문장은 모두 제거합니다. 셋째, 신뢰도 임계값이 신뢰도가 낮은 답변을 사용자에게 도달하기 전에 편집 검토 큐로 보내며, 심각도 등급은 구성 가능합니다.

저희는 답변 로그를 계측하여 여러분의 표준 담당 데스크가 한 시간 안에 어떤 세션이든 감사할 수 있도록 합니다. 또한 저희는 "킬 스위치", 즉 엔지니어링을 위해 백엔드는 계속 가동하면서 공개 위젯을 비활성화하는 단일 대시보드 컨트롤을 구축합니다. 따분하지만 필수적이며, SaaS 챗봇에는 결코 없는 기능입니다.

4. 이중 수익 전략: 리텐션 엔진 + 누수 포착

대부분의 컨설팅 회사는 여러분에게 하나의 전략을 팝니다. 정직한 답은 둘 다 필요하다는 것입니다. 리텐션 전략은 프리미엄 "인텔리전스" 구독 등급으로 패키징된 여러분만의 대화형 엔진입니다(Ask FT 모델: 전문 사용자당 연간 $1,000+로 무제한 에이전트형 쿼리 제공). 누수 포착 전략은 ProRata(Gist.ai를 통한 50/50 수익 배분), Bria(엔터프라이즈 내부 AI 사용), Tollbit(직접 봇 통행료)에 옵트인하고, 여기에 더해 GPTBot, ClaudeBot, CCBot, Google-Extended를 차단하면서 Perplexity와 Mistral에는 과금하는 Cloudflare Pay Per Crawl 포지셔닝을 갖추는 것입니다.

저희는 라이선싱 대시보드를 여러분의 기존 수익 분석과 통합하여, CFO가 다섯 개가 아니라 하나의 뷰를 보도록 합니다. 저희는 라이선싱 수익이 2026년에 잃어버린 검색 수익을 대체할 것이라고 약속하지 않을 것입니다. 다만 여러분이 그것을 테이블 위에 내버려두지 않도록 하겠다고 약속합니다.

저희의 작업 방식

한 분기를 잡아먹는 디스커버리 덱은 없습니다. 80페이지짜리 전략 문서도 없습니다. 저희는 8주 차에 여러분의 편집 팀 앞에 작동하는 채팅 위젯을 배포하고 거기서부터 반복 개선합니다.

0단계: 아카이브 감사 (2주, 고정 가격)

저희는 여러분 아카이브의 1%를 샘플링하고, 인제스션 난이도(깨끗한 Arc XP 익스포트 vs. 스캔된 마이크로필름 vs. 망가진 2003년 HTML)를 측정하며, 상위 200개 인물/조직/장소의 엔티티 인벤토리 초안을 작성하고, 방어 가능한 신뢰 구간과 함께 전체 구축 비용을 산정합니다. 인제스션만 놓고 봐도 최선과 최악의 경우 사이의 작업량 편차는 대략 8 대 1입니다. 저희는 여러분의 CFO에게 범위가 아니라 하나의 숫자를 제시합니다.

1단계: 인제스션과 하이브리드 인덱스 (3~8주 차)

인제스션 파이프라인(OCR, 시맨틱 청킹, 메타데이터 보강)을 구축합니다. 하이브리드 검색 계층을 구축합니다: 정확한 엔티티 매칭을 위한 BM25 희소 검색에 더해 시맨틱 유사성을 위한 밀집 벡터 임베딩, 그 위에 Cohere 또는 BGE 리랭커를 얹습니다. 여러분의 에디터들이 비공개로 망가뜨려 볼 수 있는 스테이징 환경에 채팅 위젯을 배포합니다.

2단계: 엔티티 그래프와 시간 계층 (9~18주 차)

전체 아카이브에 걸쳐 엔티티 추출과 해소를 실행합니다. 버전이 부여된 엣지를 갖춘 Neo4j를 구축합니다. 시간적 쿼리 분해기를 추가합니다. 2단계가 끝날 무렵 채팅 위젯은 "X가 Y년에 걸쳐 어떻게 진화했는가"에 시간순으로 정렬되고 인용으로 뒷받침된 답변을 제공할 수 있습니다.

3단계: 인용 강제, 편집 검토, 소프트 론칭 (19~24주 차)

사후 인용 검증기, 신뢰도 임계값 검토 큐, 표준 담당 데스크 감사 도구를 배포합니다. 피처 플래그 뒤에서 인증된 구독자 중 소수 비율에게 위젯을 공개합니다. 합성 벤치마크가 아니라 실제 쿼리 로그를 기준으로 답변 길이 정책과 거부 템플릿을 조정합니다.

4단계: 라이선싱 통합과 인텔리전스 등급 (25주 차 이상)

ProRata와 Bria 귀속을 여러분의 수익 대시보드에 연결합니다. 크롤러별로 Cloudflare Pay Per Crawl 규칙을 구성합니다. 제품 및 가격 책정 부서가 인텔리전스 등급과 그 체험 플로우를 설계하도록 지원합니다. 90일간의 협력 지원 기간과 함께 운영 소유권을 여러분의 팀에 인계합니다.

정직한 단서: 일정은 Arc XP, Brightspot, 또는 WordPress VIP 상의 10만~50만 기사 아카이브를 가정합니다. Atypon 상의 500만 기사 학술 아카이브, 또는 1990년대 스캔 마이크로필름 더미는 1단계에만 8~16주를 추가할 수 있습니다. 0단계 감사는 여러분이 숫자에 서명하기 전에 이를 잡아내기 위해 존재합니다.

아카이브 준비도 평가

여덟 개의 질문. 어느 단계가 여러분의 구축 비용을 좌우할지, 그리고 어떤 벤더에게 견적을 받기 전에 무엇을 고쳐야 할지 알려 줍니다.

퍼블리셔가 실제로 저희에게 묻는 질문들

우리 아카이브에 대한 퍼블리셔 RAG 챗봇을 구축하는 데 비용이 얼마나 드나요?

10만~50만 기사의 10~25년치 아카이브의 경우, 프로덕션급 대화형 엔진은 초기 구축에 대략 $180K-$450K가 들며, 여기에 더해 일반적인 중견 퍼블리셔 쿼리 볼륨에서 추론, 벡터 저장, 리랭커 호출에 월 $4K-$15K가 듭니다. 인제스션 파이프라인이 가장 큰 항목으로, 보통 구축 비용의 50~60%를 차지합니다. 편차는 세 가지에 달려 있습니다: 아카이브가 이미 얼마나 깨끗한지(최신 Arc XP 익스포트 vs. 1990년대 스캔 마이크로필름), 멀티홉 쿼리를 위한 지식 그래프 계층이 필요한지, 그리고 편집 검토 도구의 깊이입니다. 플랫폼 벤더가 판매하는 SaaS 챗봇 래퍼는 $60K를 견적하겠지만, 여러분의 특정 아카이브에 대한 엔티티가 해소된 뷰를 결코 구축하지 않았기 때문에 중요한 쿼리에서 환각을 일으킬 것입니다.

우리만의 대화형 AI를 구축하면, 그것이 우리 구독 페이지뷰를 잠식할까요?

FT Professional과 Bloomberg Terminal의 초기 데이터는 그 반대를 가리킵니다. Ask FT는 구독자들이 그렇지 않았다면 결코 찾지 못했을 시의성이 변치 않는 아카이브 콘텐츠를 노출시킴으로써, FT가 내부적으로 Actual Core Reader 참여도라 부르는 것을 증가시켰습니다. 잠식에 대한 우려는 의도(intent)의 정적인 풀을 가정합니다. 실제로는, 대화형 쿼리가 사용자를 한 번의 검색 결과 훑어보기 후에 포기했을 주제에 대한 더 깊은 세션으로 끌어들입니다. 챗봇이 단일 기사를 한 문단으로 요약할 수 있는 얇은 일반 뉴스 콘텐츠에서는 그 위험이 실재합니다. 채팅 경험이 TL;DR이 아니라 리서치 어시스턴트가 되는 분석적, 종단적, 탐사적 콘텐츠에서는 그 위험이 훨씬 낮습니다. 저희는 가격 등급과 답변 길이 정책을 다른 퍼블리셔의 템플릿을 복사하는 것이 아니라 여러분의 콘텐츠 깊이에 맞게 설계합니다.

Cloudflare Pay Per Crawl을 사용해 AI 크롤러를 차단해야 할까요? 그렇게 하면 Google이 우리를 색인에서 제외할까요?

2026년 1월에 전 세계 웹 트래픽의 약 20%에 걸쳐 출시된 Cloudflare Pay Per Crawl은 도메인 전체에 적용되는 가격으로 크롤러별 허용, 과금, 또는 차단을 설정할 수 있게 해 줍니다. 기술적으로 올바른 답은, Google이 Googlebot 크롤링과 Google-Extended(Gemini 학습 페처)를 공개적으로 분리하기 때문에, 여전히 Googlebot과 Bingbot은 허용하면서 GPTBot, ClaudeBot, CCBot, PerplexityBot은 차단할 수 있다는 것입니다. Google-Extended를 차단해도 검색 순위에는 영향을 미치지 않습니다. 정치적 우려는, Google AI 개요(AI Overviews)가 쿼리 시점에 검색하기 때문에 Google-Extended가 차단되어 있어도 여전히 색인된 페이지의 콘텐츠를 노출시킨다는 점입니다. 따라서 차단은 여러분의 콘텐츠가 AIO에서 요약되는 것을 막지 못하며, 단지 그것이 미래의 Gemini 버전을 학습시키는 데 사용되는 것만 막을 뿐입니다. 2026년 대부분의 중견 퍼블리셔에게 방어 가능한 포지셔닝은 다음과 같습니다: GPTBot, ClaudeBot, CCBot, Google-Extended는 차단. PerplexityBot과 Mistral에는 과금. Googlebot과 Bingbot은 허용. 그런 다음 ProRata, Bria, Tollbit을 통해 라이선싱 수익을 흘려보내 여러분이 통제하지 못하는 AI 엔진으로부터 수익을 포착하십시오.

우리 AI 어시스턴트가 인용문을 날조하거나 기사를 잘못 귀속시킬 때 책임은 누구에게 있나요?

여러분에게 있습니다. 2025년 12월의 Washington Post AI 팟캐스트 사건(허구의 인용문, 신문사의 편집 입장으로 논평 삽입)은 이를 가설에서 퍼블리셔에게 이사회급 문제로 바꾼 경고적 사례입니다. 여러분 자신의 시스템이 여러분 자신의 아카이브로부터 생성하는 콘텐츠에는 Section 230의 방패가 없습니다. AI 출력물은 여러분의 편집 저작물로 취급됩니다. 완화책은 계약적인 것이 아니라 아키텍처적인 것입니다. 저희는 세 개의 계층을 강제합니다: 검색된 청크 외부의 어떠한 지식도 사용하는 것을 금지하는 엄격한 그라운딩 시스템 프롬프트, 인용된 출처가 그 주장을 담고 있지 않은 문장을 모두 제거하는 사후 인용 검증, 그리고 신뢰도가 낮은 답변을 사용자에게 도달하기 전에 편집 검토 큐로 보내는 신뢰도 임계값입니다. 또한 저희는 답변 로그를 계측하여 여러분의 표준 담당 데스크가 어떤 세션이든 발생 후 한 시간 안에 감사할 수 있도록 합니다. 이 중 어느 것도 SaaS 챗봇 래퍼에는 존재하지 않습니다.

GraphRAG는 일반적인 벡터 RAG에 비해 뉴스 아카이브에서 실제로 어떻게 도움이 되나요?

벡터 RAG는 쿼리와 의미적으로 유사한 청크를 검색합니다. 그것은 사실 조회에는 잘 작동합니다. 하지만 뉴스 아카이브를 가치 있게 만드는 쿼리에서는 실패합니다: 시장(市長)의 주택 입장이 12년에 걸쳐 어떻게 진화했는가. 어떤 중간 조직들을 통해 인물 X가 스캔들 Z와 연결되는가. 교육위원회 논란 보도에서 반복적으로 인용된 출처는 무엇이었는가. 이것들은 멀티홉, 종단적, 엔티티 주도형 쿼리입니다. GraphRAG는 아카이브를 타입이 지정된 관계를 갖춘 엔티티 그래프(인물, 조직, 장소, 사건)로 전처리한 다음, 쿼리 시점에 그래프를 순회합니다. 어려운 부분은 그래프 데이터베이스가 아닙니다(Neo4j나 Amazon Neptune이 처리합니다). 어려운 부분은 엔티티 해소입니다: 'Mr. Musk', 'Elon Musk', 'Tesla CEO', 'X owner'를 하나의 노드로 통합하고, 25년간의 바이라인과 통신원 오타 전반에 걸쳐 '시의원 John Smith'와 '고등학교 교장 John Smith'를 구별하는 것입니다. 저희는 LLM 기반 추출, 여러분의 취재 분야에 맞춰 조정된 결정론적 엔티티 해소 규칙, 그리고 기사 수 기준 상위 200개 엔티티에 대한 사람의 검토를 조합해 사용합니다. 그것이 다른 누구도 여러분을 위해 해 주지 않을 부분입니다.

우리는 Arc XP / WordPress VIP / Brightspot을 사용합니다. 이것이 우리 CMS와 어떻게 통합되나요?

대화형 엔진은 여러분의 CMS로부터 피드를 소비하고 여러분의 사이트로 채팅 API를 노출하는 별도의 서비스입니다. 통합 패턴은 스택별로 다릅니다. Arc XP는 Content API와 웹훅을 노출하지만 임베딩 훅은 없으므로, 저희는 5분마다 새로 추가되고 업데이트된 기사를 가져와 재임베딩하는 동기화 작업을 실행합니다. WordPress VIP는 커스텀 REST 엔드포인트를 지원하며, 저희는 일반적으로 별도의 마이크로서비스에 더해 채팅 위젯을 위한 Gutenberg 블록으로 배포합니다. Brightspot은 그 콘텐츠 타입 모델 덕분에 가장 유연하며, 이는 구조화된 메타데이터 추출을 훨씬 깔끔하게 만들어 줍니다. Atypon 퍼블리셔(주로 학술)는 Literatum 검색을 대체하기보다는 그 옆에 자리합니다. 어느 경우든 채팅 위젯은 여러분의 에디터들이 어느 페이지에나 붙일 수 있는 JS 임베드이며, 백엔드는 저희가 아니라 여러분의 클라우드 계정에서 실행됩니다. 저희는 여러분을 호스팅 서비스에 가두지 않습니다.

우리는 News/Media Alliance ProRata나 Bria에 가입해야 할까요, 아니면 우리만의 엔진을 구축해야 할까요, 아니면 둘 다일까요?

둘 다입니다. 그리고 그것들은 서로 다른 문제를 해결합니다. 2026년 3월에 발표된 NMA + ProRata 계약은 공동 라이선싱 풀입니다: 2,200개 퍼블리셔가 옵트인하여 RAG 주도형 엔터프라이즈 수요를 50/50 수익 배분으로, 귀속 추적되어 수익화할 수 있습니다. Bria는 엔터프라이즈 내부 AI 사용을 겨냥한 병행 계약입니다. 이것들은 누수 포착입니다. 여러분이 소유하지 않은 AI 엔진이 여러분의 콘텐츠를 사용할 때 여러분에게 비용을 지불합니다. 여러분 자신의 대화형 엔진은 리텐션 전략입니다: 그것은 기존 독자와의 참여를 심화시키고 프리미엄 등급을 만들어 냅니다. ProRata는 쿼리당 극히 일부의 일부를 지불합니다. 여러분 자신의 인텔리전스 등급(Ask FT는 전문 사용자당 연간 $1K+를 청구)은 마진이 높고 여러분 아카이브의 가치와 함께 복리로 늘어납니다. 둘 다 운영하십시오. ProRata 참여 비용은 거의 0에 가깝고(NMA가 서류 작업을 처리), 수익은 여러분이 이미 하고 있는 엔지니어링 투자에 더해지는 증분입니다.

킥오프부터 우리 사이트의 채팅 위젯까지 구축에 얼마나 걸리나요?

10만~50만 기사의 깨끗한 Arc XP 또는 Brightspot 아카이브의 경우, 하이브리드 검색과 기본적인 시간 필터링을 갖춘 인용 그라운딩 채팅 위젯은 14~18주에 배포됩니다. 엔티티 해소를 갖춘 GraphRAG는 추가로 10~14주가 더해집니다. 에이전트형 리서치 어시스턴트 등급은 그 위에 8~12주가 더해집니다. 가장 긴 단일 항목은 언제나 아카이브 인제스션이며, 특히 망가진 HTML, 누락된 사진, 또는 마이크로필름 디지털화 프로젝트에서 나온 스캔 PDF가 있는 2005년 이전 콘텐츠가 있는 경우 그렇습니다. 저희는 고정 일정을 견적하기 전에 2주간의 아카이브 감사로 시작하는데, 'CMS에서 익스포트'와 '백만 페이지의 스캔본을 OCR'하는 것 사이의 작업량 편차가 8 대 1이기 때문입니다. 감사는 여러분이 CFO에게 가져갈 방어 가능한 숫자를 제공합니다.

기술 연구

이 솔루션 페이지를 뒷받침하는 인터랙티브 백서.

여러분의 아카이브는 광고 인벤토리보다 더 가치 있습니다. 그것을 증명해 봅시다.

2주간의 아카이브 감사로 시작하십시오. 고정 가격, 전체 구축에 대한 약정 없음.

저희는 여러분 콘텐츠의 1%를 샘플링하고, 인제스션 난이도를 측정하며, 여러분의 상위 200개 엔티티 초안을 작성하고, 전체 구축에 대한 방어 가능한 숫자를 여러분의 CFO에게 제공합니다. 감사 결과가 구축하지 말라고 하면, 저희는 여러분에게 그렇게 말합니다.

0단계: 아카이브 감사

  • ✓ 1% 샘플 인제스션 테스트 (실제 OCR, 실제 청킹)
  • ✓ 상위 200개 엔티티 인벤토리 및 중의성 해소 단계
  • ✓ CMS 통합 스파이크 (Arc XP, WordPress VIP, Brightspot, Atypon)
  • ✓ 전체 1~4단계 구축에 대한 고정 가격 견적

전체 구축 프로젝트

  • ✓ GraphRAG + 시간적 추론 + 인용 강제
  • ✓ 편집 검토 큐 및 표준 담당 데스크 감사 도구
  • ✓ ProRata, Bria, Tollbit, Cloudflare Pay Per Crawl 통합
  • ✓ 인텔리전스 등급 가격 책정 및 제품 설계 지원