在我們的典藏庫之上建構一個出版商 RAG 聊天機器人，要花多少錢？

對於一個收錄 10 萬至 50 萬篇文章、橫跨 10 至 25 年的典藏庫，一個達生產級的對話式引擎，初始建構大約花費 18 萬至 45 萬美元，再加上每月 4 千至 1 萬 5 千美元，用於在典型中型出版商查詢量下的推論、向量儲存與重排器呼叫。匯入管線是最大的單項支出，通常佔建構成本的 50 至 60%。其差異取決於三件事：典藏庫本身已經多乾淨（現代的 Arc XP 匯出檔 vs. 1990 年代掃描的微縮膠卷）、你是否需要一個用於多跳查詢的知識圖譜層，以及編輯審查工具的深度。由平台廠商兜售的 SaaS 聊天機器人包裝層會向你報價 6 萬美元，但它會在真正重要的查詢上產生幻覺，因為它從未針對你特定的典藏庫建立過經實體解析的視圖。

如果我們自建對話式 AI，它會不會蠶食我們訂閱頁的瀏覽量？

來自 FT Professional 與 Bloomberg Terminal 的早期數據指向相反的方向。Ask FT 透過浮現訂閱者原本永遠不會找到的常青典藏內容，提升了 FT 內部所稱的「Actual Core Reader」參與度。蠶食的擔憂預設了意圖是一個靜態的池子。實際上，對話式查詢會把使用者拉進針對某些主題的更深度互動——這些主題他們原本在瀏覽過一則搜尋結果後就會放棄。對於單薄的一般新聞內容（聊天機器人能把一篇文章摘要成一段話），這個風險確實存在。但對於分析性、縱貫時間與調查性的內容（聊天體驗扮演的是研究助理，而非 TL;DR 摘要）而言，風險就低得多。我們會依你的內容深度來設定定價層級與回答長度政策，而不是照搬另一家出版商的範本。

我們該不該用 Cloudflare Pay Per Crawl 封鎖 AI 爬蟲，而 Google 又會不會因此把我們從索引中移除？

於 2026 年 1 月在約佔全球網路流量 20% 的範圍內推出的 Cloudflare Pay Per Crawl，讓你以全網域定價的方式，為每個爬蟲設定允許、收費或封鎖。技術上正確的答案是：你可以封鎖 GPTBot、ClaudeBot、CCBot 與 PerplexityBot，同時仍允許 Googlebot 與 Bingbot，因為 Google 公開將 Googlebot 的抓取與 Google-Extended（Gemini 的訓練擷取器）區分開來。封鎖 Google-Extended 並不影響搜尋排名。政治面的疑慮在於，即使封鎖了 Google-Extended，Google AI 摘要 (AI Overviews) 仍會浮現已被索引頁面的內容，因為它們在查詢時即時擷取。所以封鎖無法阻止你的內容在 AIO 中被摘要，它只能阻止內容被用來訓練未來的 Gemini 版本。對於 2026 年大多數中型出版商而言，一個站得住腳的姿態是：封鎖 GPTBot、ClaudeBot、CCBot 與 Google-Extended。對 PerplexityBot 與 Mistral 收費。允許 Googlebot 與 Bingbot。然後透過 ProRata、Bria 與 Tollbit 引導授權收入，從你無法掌控的 AI 引擎中擷取營收。

當我們的 AI 助理捏造一段引述或錯誤標註一則報導時，由誰負責？

由你負責。2025 年 12 月《華盛頓郵報》的 AI podcast 事件（虛構的引述、把評論當作報社編輯立場插入）就是那個警世案例，它把這件事從假設性問題，變成了出版商董事會層級的議題。對於你自己的系統從你自己的典藏庫所生成的內容，並沒有第 230 條 (Section 230) 的保護傘；AI 的輸出會被視為你的編輯工作成果。緩解之道是架構性的，而非合約性的。我們強制三道防線：一個嚴格扎根的系統提示詞，禁止使用任何檢索文字塊以外的知識；事後引註驗證，剔除任何所引來源並未包含該論斷的句子；以及一個信心門檻，把低信心的回答導入編輯審查佇列，待其抵達使用者之前先行處理。我們也為回答日誌建置觀測機制，讓你的標準把關小組能在事件發生後一小時內稽核任何一段對話。這些在 SaaS 聊天機器人包裝層中一概不存在。

相較於一般的向量 RAG，GraphRAG 在新聞典藏庫上實際上有何幫助？

向量 RAG 檢索的是與查詢在語意上相似的文字塊。這對事實查找行得通，但對那些讓新聞典藏庫真正有價值的查詢卻會失敗：市長的住房立場在 12 年間如何演變。是誰、透過哪些中介組織，把人物 X 與醜聞 Z 連結起來。在校董會爭議的報導中，反覆被引用的來源有哪些。這些都是多跳、縱貫時間且以實體為驅動的查詢。GraphRAG 將典藏庫預先處理成一個實體圖譜（人物、組織、地點、事件），配以帶型別的關係，再於查詢時遍歷該圖譜。困難之處不在於圖資料庫（Neo4j 或 Amazon Neptune 都能應付）。困難之處在於實體解析：把「Mr. Musk」、「Elon Musk」、「Tesla CEO」與「X owner」收斂成單一節點，並在橫跨 25 年的署名與特約記者錯字中，區辨「身為市議員的 John Smith」與「身為高中校長的 John Smith」。我們採用以 LLM 為基礎的抽取、針對你報導路線調校的確定性實體解析規則，以及對文章篇數排名前 200 實體進行人工審查的組合。那正是別人不會替你做的部分。

我們用的是 Arc XP／WordPress VIP／Brightspot。這要如何與我們的 CMS 整合？

對話式引擎是一個獨立的服務，它消費來自你 CMS 的資料饋送，並對外把一個聊天 API 暴露回你的網站。整合模式因技術堆疊而異。Arc XP 暴露的是 Content API 與 webhook，但沒有嵌入掛鉤，所以我們會跑一個同步作業，每五分鐘拉取新增與更新的報導並重新做嵌入。WordPress VIP 支援自訂的 REST 端點，我們通常會部署成一個獨立的微服務，外加一個用於聊天小工具的 Gutenberg 區塊。Brightspot 因其內容型別模型而最具彈性，這讓結構化詮釋資料的抽取乾淨許多。Atypon 的出版商（多為學術型）會與 Literatum 搜尋並存，而非取而代之。在每一種情況下，聊天小工具都是一段你的編輯可放到任何頁面的 JS 嵌入碼，而後端運行於你的雲端帳戶，而非我們的。我們不會把你綁進一個託管服務裡。

我們該加入 News/Media Alliance 的 ProRata 或 Bria，還是自建引擎，抑或兩者兼具？

兩者兼具，而且它們解決的是不同的問題。2026 年 3 月宣布的 NMA + ProRata 交易是一個集體授權池：2,200 家出版商可選擇加入，將 RAG 驅動的企業需求變現，採可追溯歸因的 50/50 營收分潤。Bria 是針對企業內部 AI 使用的並行交易。這些都是滲漏擷取——當一個你並不擁有的 AI 引擎使用你的內容時，它們會付錢給你。你自己的對話式引擎則是留存的打法：它深化與既有受眾的互動，並創造出一個高階層級。ProRata 每次查詢付給你的是零頭中的零頭。你自己的 Intelligence 層級（Ask FT 向每位專業用戶每年收費 1 千美元以上）則是高毛利，並會隨你典藏庫的價值而複利成長。兩者都做。參與 ProRata 的成本近乎為零（NMA 負責處理文書作業），而其營收則是在你本已投入的工程投資之上的增量收益。

從啟動到一個聊天小工具上線到我們的網站，建構要花多久？

對於一個位於 Arc XP 或 Brightspot 上、收錄 10 萬至 50 萬篇文章的乾淨典藏庫，一個有引註扎根、具備混合搜尋與基本時序篩選的聊天小工具，會在 14 至 18 週內交付。加上具實體解析的 GraphRAG，再增加 10 至 14 週。在其上再加一個具代理能力的研究助理層級，則再增加 8 至 12 週。最長的單項支出永遠是典藏庫匯入，尤其當你有 2005 年以前、帶有損壞 HTML、缺失照片，或來自微縮膠卷數位化專案的掃描 PDF 的內容時。我們在報出固定時程之前，會先進行一次為期 2 週的典藏庫稽核，因為「從 CMS 匯出」與「OCR 一百萬張掃描頁面」之間的工作量差異是 8 比 1。這份稽核能給你一個站得住腳、足以呈給財務長的數字。

為出版商打造的對話式 AI：新聞典藏庫的 RAG 應用

一家擁有每月 400 萬不重複訪客、32 年典藏庫的區域性日報，在其 2026 年 2 月的董事會資料中盤點了數字。自然搜尋轉介流量年減 41%。程序化購買的 CPM 再跌 18%。在 2023 年支撐其商業模式的聯盟行銷營收，已崩跌至巔峰時期的三分之一。這與 Penske Media 在 2025 年 9 月對 Google 提起的反壟斷訴訟中所引述的軌跡如出一轍。財務長提出了那個顯而易見的問題： Google 究竟欠了我們什麼，我們又該如何讓它付錢？

答案令人不快。Google 在合約上並不虧欠他們任何東西。那項不成文的交易（你抓取我們的內容，你為我們導入流量）在 AI 摘要 (AI Overviews) 開始出現於 48% 的查詢時，已遭單方面改寫。當 AI 摘要顯示在自然連結之上時，《每日郵報》(Daily Mail) 測得桌面點擊率驟降 89%。皮尤研究中心 (Pew) 2025 年 3 月的小組研究發現，遇到 AI 摘要的使用者，僅在全部造訪中的 8% 會點進傳統連結。出版商的內容仍被閱讀，出版商卻不再獲得報酬。

與此同時，那個顯而易見的對策——「自建 AI」——本身也留下了傷疤。《華盛頓郵報》(The Washington Post) 於 2024 年 11 月推出 Ask The Post AI。到 2025 年 12 月，標準編輯的內部 Slack 訊息外流：他們由 AI 生成的 podcast 正在捏造引述、錯誤標註來源，並把評論當作報社的編輯立場插入其中。 「這件事竟然獲准推進，實在令人震驚，」 一位編輯寫道， 「我從未想像過《華盛頓郵報》會蓄意扭曲自己的新聞報導，再把這些錯誤大規模推送給我們的讀者。」 技術上的失敗在於缺少了一道引註驗證的步驟。聲譽上的損害卻是全球性的。

這才是問題的真實樣貌。中型出版商承受不起按兵不動。當初建立其發行通路的搜尋引擎，如今成了他們最大的競爭對手。他們同樣承受不起在自家報頭下推出一個會產生幻覺的聊天機器人。而他們也無法複製 FT、Bloomberg 與《紐約時報》在懸崖到來之前所建立的內部 ML 團隊。他們需要一個已經做過那些不光鮮工作的建構夥伴：典藏庫匯入、實體解析、引註強制、編輯審查佇列，以及一套並行的授權策略——從他們永遠不會擁有的 AI 引擎中擷取營收。

選項	它實際上做了什麼	它的不足之處
SaaS 聊天機器人廠商（Tars、基本的站內搜尋包裝層）	在你的網站上放一個聊天小工具。把你的文章做向量嵌入。報價 6 萬至 12 萬美元，數週內部署完成。	沒有實體解析。沒有時序推理。沒有引註驗證。在真正重要的查詢（多跳、縱貫時間）上會產生幻覺。你的典藏庫在他們的雲端裡。
五大巨頭的內部自建（FT、NYT、Bloomberg、WaPo、Guardian）	在專屬典藏庫之上的客製化 RAG。Ask FT 運行於 Anthropic Claude 之上並強制引註。Bloomberg 擁有 BloombergGPT 與 BQL 轉譯。	由 6 至 20 人的 ML 工程團隊歷時 12 至 24 個月打造。成本高達七位數。中型出版商根本無法複製這樣的人力編制，句點。
四大會計師事務所／大型系統整合商（Accenture、Deloitte、IBM iX）	他們會建。也曾為相鄰產業做過生成式 AI 的專案。	委託案金額落在 150 萬至 500 萬美元以上，光是探索階段就比你的現金跑道還長。他們動用的是與我們相同的 Microsoft GraphRAG 與 Neo4j 技術堆疊，卻在此之上額外收取合夥人等級的顧問費。他們並未一個接一個地建過五個出版商典藏庫。
Cloudflare Pay Per Crawl（2026 年 1 月）	在約佔全球網路流量 20% 的範圍內預設封鎖 AI 爬蟲。讓你以全網域、按請求計價的方式，為每個爬蟲設定允許／收費／封鎖。	無法阻止 AI 摘要 (AI Overviews) 摘要你的內容（它們在查詢時即時擷取）。無法創造留存。純粹是滲漏擷取，而且其價格發現機制仍不成熟。
News/Media Alliance + ProRata（2026 年 3 月）	為 2,200 家中小型出版商建立的集體授權池。透過 Gist.ai 對可追溯歸因的 AI 回答採 50/50 營收分潤。NMA 負責處理文書作業。	營收取決於 Gist.ai 能否在與 ChatGPT、Perplexity 和 Gemini 的競爭中獲得採用。仍處於早期階段。NMA+Bria 的並行交易則僅限於企業級 RAG。
Tollbit／直接的機器人通行費	按每次抓取請求收費，機制類似 Cloudflare，但可逐一針對每個機器人設定。《波士頓環球報》(Boston Globe)、Vox、Future 都已試行。	與 Cloudflare 有相同的結構性限制：它擷取的是爬蟲營收，而非查詢營收。誠實的出版商應該同時部署 Tollbit 與一套查詢端的策略。
Veriprajna（我們）	在你的技術堆疊上客製建構對話式引擎，具備引註強制、GraphRAG 實體解析、時序推理與編輯治理。再加上將 ProRata、Bria、Tollbit 與 Cloudflare 整合進單一營收策略。	我們是顧問公司，不是 SaaS。我們無法解決平台權力的不對等，只有你的政府能做到這件事。我們不會假裝來自 ProRata 或 Bria 的授權收入能取代 100% 流失的搜尋營收。在 2026 年，它們做不到。

選項

它實際上做了什麼

它的不足之處

SaaS 聊天機器人廠商（Tars、基本的站內搜尋包裝層）

在你的網站上放一個聊天小工具。把你的文章做向量嵌入。報價 6 萬至 12 萬美元，數週內部署完成。

沒有實體解析。沒有時序推理。沒有引註驗證。在真正重要的查詢（多跳、縱貫時間）上會產生幻覺。你的典藏庫在他們的雲端裡。

五大巨頭的內部自建（FT、NYT、Bloomberg、WaPo、Guardian）

在專屬典藏庫之上的客製化 RAG。Ask FT 運行於 Anthropic Claude 之上並強制引註。Bloomberg 擁有 BloombergGPT 與 BQL 轉譯。

由 6 至 20 人的 ML 工程團隊歷時 12 至 24 個月打造。成本高達七位數。中型出版商根本無法複製這樣的人力編制，句點。

四大會計師事務所／大型系統整合商（Accenture、Deloitte、IBM iX）

他們會建。也曾為相鄰產業做過生成式 AI 的專案。

委託案金額落在 150 萬至 500 萬美元以上，光是探索階段就比你的現金跑道還長。他們動用的是與我們相同的 Microsoft GraphRAG 與 Neo4j 技術堆疊，卻在此之上額外收取合夥人等級的顧問費。他們並未一個接一個地建過五個出版商典藏庫。

Cloudflare Pay Per Crawl（2026 年 1 月）

在約佔全球網路流量 20% 的範圍內預設封鎖 AI 爬蟲。讓你以全網域、按請求計價的方式，為每個爬蟲設定允許／收費／封鎖。

無法阻止 AI 摘要 (AI Overviews) 摘要你的內容（它們在查詢時即時擷取）。無法創造留存。純粹是滲漏擷取，而且其價格發現機制仍不成熟。

News/Media Alliance + ProRata（2026 年 3 月）

為 2,200 家中小型出版商建立的集體授權池。透過 Gist.ai 對可追溯歸因的 AI 回答採 50/50 營收分潤。NMA 負責處理文書作業。

營收取決於 Gist.ai 能否在與 ChatGPT、Perplexity 和 Gemini 的競爭中獲得採用。仍處於早期階段。NMA+Bria 的並行交易則僅限於企業級 RAG。

Tollbit／直接的機器人通行費

按每次抓取請求收費，機制類似 Cloudflare，但可逐一針對每個機器人設定。《波士頓環球報》(Boston Globe)、Vox、Future 都已試行。

與 Cloudflare 有相同的結構性限制：它擷取的是爬蟲營收，而非查詢營收。誠實的出版商應該同時部署 Tollbit 與一套查詢端的策略。

Veriprajna（我們）

在你的技術堆疊上客製建構對話式引擎，具備引註強制、GraphRAG 實體解析、時序推理與編輯治理。再加上將 ProRata、Bria、Tollbit 與 Cloudflare 整合進單一營收策略。

我們是顧問公司，不是 SaaS。我們無法解決平台權力的不對等，只有你的政府能做到這件事。我們不會假裝來自 ProRata 或 Bria 的授權收入能取代 100% 流失的搜尋營收。在 2026 年，它們做不到。

你的典藏庫比你的廣告庫存更有價值。讓我們證明這一點。

從為期 2 週的典藏庫稽核開始。固定價格，無需承諾進行完整建構。

我們抽樣你 1% 的內容，衡量匯入難度，起草你排名前 200 的實體，並給你的財務長一個站得住腳、足以用於完整建構的數字。如果稽核結論是「別建」，我們就會這麼告訴你。

階段 0：典藏庫稽核

✓ 1% 抽樣匯入測試（真實的 OCR、真實的分塊）
✓ 前 200 大實體清單與消歧環節
✓ CMS 整合探勘（Arc XP、WordPress VIP、Brightspot、Atypon）
✓ 完整階段 1 至 4 建構的固定價格報價

完整建構委託

✓ GraphRAG + 時序推理 + 引註強制
✓ 編輯審查佇列與標準把關小組稽核工具
✓ ProRata、Bria、Tollbit、Cloudflare Pay Per Crawl 整合
✓ Intelligence 層級定價與產品設計支援

典藏庫才是你的資產。別再讓 Google 免費租用它。

轉介流量的經濟模式已終結，授權營收的經濟模式尚未建立。

出版商 AI 的全貌，從頭到尾

我們為出版商建構什麼

1. 典藏庫匯入與實體解析

2. 具時序推理的 GraphRAG

3. 引註強制與編輯審查

4. 雙重營收策略：留存引擎 + 滲漏擷取

我們的工作方式

階段 0：典藏庫稽核（2 週，固定價格）

階段 1：匯入與混合索引（第 3 至 8 週）

階段 2：實體圖譜與時序層（第 9 至 18 週）

階段 3：引註強制、編輯審查、軟啟動（第 19 至 24 週）

階段 4：授權整合與 Intelligence 層級（第 25 週起）

典藏庫就緒度評估

無論選擇哪家廠商，這一季都該做的事

出版商實際上會問我們的問題