
新聞文章是馬鞭,你的檔案庫才是金礦
我坐在一份老牌報紙的數位總監對面——那是一份你肯定讀過的報紙——他在筆記型電腦上調出一張圖表,並轉向我。過去十八個月裡,逐月的自然流量。那看起來就像有人把一塊巨石推下了懸崖。
「我們每件事都做對了,」他說。「更多報導、更好的 SEO、更快的頁面載入。可我們卻在節節敗退。」
他對執行層面的判斷沒有錯。他錯在對這場遊戲的理解上。當他還在為舊遊戲進行優化時,遊戲的規則已在他腳下悄然改變。而那場對話——發生在一間能俯瞰停車場的會議室裡,配著一杯溫吞的咖啡——正是我接下來幾個月投入去打造某樣東西的原因,我相信它將重新定義媒體公司該如何存活。
核心理念很簡單,簡單到幾乎令人難堪:媒體公司必須停止販售文章,開始販售答案。新聞動態消息已死。檔案庫卻活著。而彌合這道鴻溝的技術——把五十年的新聞報導轉化為一具對話式智慧引擎——早已存在。我們只需把它建對。
我寫了一篇關於這整套論點的互動式深度剖析,如果你想看完整的全貌。但讓我告訴你我們是如何走到這一步的故事,因為單憑數字並不能捕捉那種眼看著整個產業的根基龜裂時的眩暈感。
為什麼再也沒人點擊了?

這裡有一項讓媒體高層徹夜難眠的事實:如今 60% 的 Google 搜尋在結束時,未點擊進入任何一個網站。在行動裝置上,這個比例是 77%。Google 已成為目的地,而非通往其他地方的門戶。這個一手打造了數位出版經濟的搜尋引擎,已悄然變成它最大的競爭對手。
而這場破壞的規模令人瞠目。2025 年上半年,中位數發行商的流量年減 10%。但「中位數」掩蓋了那場慘烈的殺戮。CNN 下滑了 27% 到 38%。Forbes 與 Business Insider 幾乎腰斬近 50%。HubSpot——一家基本上發明了現代內容行銷的公司——失去了 70-80% 的自然流量。
罪魁禍首是 AI Overviews。當 Google 的 AI 摘要出現在搜尋結果頂端時——如今約有 13% 的查詢會如此——通往自然連結的點擊率會崩跌約 47%。AI 替使用者讀完了文章,使用者便不必再讀。
我記得我和團隊在一次深夜的工作會議中盯著這些數字。有人說:「所以發行商創造內容,Google 的 AI 把它吃掉,而使用者從來不曾造訪那個網站?」一點也沒錯。而且情況只會更糟。
搜尋引擎不再是流量的引介者。它是爭奪注意力的競爭對手。
通往生成式 AI 平台——ChatGPT、Perplexity、Claude——的流量,成長速度是傳統搜尋流量的 165 倍。使用者提出的問題更長、更複雜。含五個或更多字詞的搜尋,成長速度是短關鍵字查詢的 1.5 倍。人們不想要十條藍色連結。他們想要一個好答案。
文章是一件遺物(而我這麼說時是帶著愛的)
我在這裡必須小心,因為我是真心熱愛長篇新聞報導的。我不斷地讀它。但我也必須誠實面對文章這種格式究竟是什麼:一種為印刷發行而設計的容器。
想想看。你在報紙上刊印一則 800 字的報導,是因為你無法刊印 800 條個別的答案。實體發行既昂貴又零星,所以你把資訊捆綁成敘事。這在 1975 年完全說得通。在 2005 年也還算合理,當時文章遷移到了線上,但閱讀行為大致維持不變。
到了 2025 年,這幾乎毫無道理可言。
一位搜尋「市長對住房的立場是什麼?」的使用者,並不想要一篇 1,000 字、講述城市分區歷史的專題報導。他們想要的是市長對住房的立場。傳統模式逼著他們穿越一道關卡:搜尋 → 點擊 → 捲動 → 掃視 → 閱讀 → 擷取。每一步都是阻力。每一步都是失去他們的一次機會。
我曾和一位當記者的朋友為此爭論,她強烈反駁。「你把新聞報導簡化成事實了,」她說。「故事很重要。脈絡很重要。敘事很重要。」她說得完全正確——就評論、調查報導、人物特寫、專題而言。那些是藝術形式。但填滿一則新聞動態消息的絕大部分內容並不是藝術。那是被困在一種低效格式裡的資訊。而使用者正用他們的行為投票:他們寧可問 AI,也不願費力涉水穿過那些內容。
萬一檔案庫並不是一座墳場呢?
正是在這裡,與那位數位總監的對話從令人沮喪轉為令人振奮。
我問他,他們的檔案庫裡有多少篇文章。他頓了頓。「大概……幾百萬篇?一路回溯到七〇年代?」他說這話的口氣,彷彿那是一項負債——一筆伺服器成本、一個維護上的頭痛難題。
我告訴他,那是他公司所擁有的最有價值的資產。比品牌更有價值。比訂閱者名單更有價值。因為那數百萬篇文章,橫跨五十年的地方政治、商業、犯罪、文化——那是地球上沒有任何一家 AI 公司能在未經他許可下複製的資料集。
問題不在於資料。問題在於它被鎖在彼此斷開連結的非結構化文字團塊裡。文章 A 提到某人 X 在公司 Y 工作。三年後刊出的文章 B 提到公司 Y 捲入了醜聞 Z。沒有任何一篇文章把某人 X 連到醜聞 Z。但那條連結是存在的——埋藏在整座檔案庫之中,對任何搜尋列都是隱形的,等著有人把它縫合起來。
把自家產品僅僅視為「文章」的發行商,就像在汽車時代裡製造馬鞭。
那種縫合,正是我們在 VeriPrajna 所打造的。不是聊天機器人。不是 GPT 外殼。是智慧引擎。
那個改變一切的市長問題
讓我把這件事講得具體些。想像一位使用者——一名地方政策研究員、一位憂心的市民、一位任職於競爭媒體的記者——他想了解市長對住房的立場自 2010 年以來是如何演變的。
在舊模式裡,他們在報紙的網站上搜尋「市長 住房 立場」。他們得到五十筆結果。他們打開 2010 年的文章:「市長反對高層開發案。」他們打開 2015 年的文章:「市長在可負擔性危機中軟化立場。」他們打開 2022 年的文章:「市長力挺《現在就蓋》法案。」他們在腦中綜合出這段演變。如果動作夠快,也得花上四十五分鐘。
在我們正在打造的模式裡,他們把問題打上去。系統將它拆解成一連串按時間切分的子查詢。它遍歷一張知識圖譜——不只是搜尋關鍵字,而是沿著市長這個實體與住房開發這個實體之間、帶有時間戳記的邊,去追蹤它們之間的關係。它找出立場從負面(2010)到中立(2015)再到正面(2022)的轉變。它生成一段附有引註的敘事,連結回原始文章。它渲染出一張時間軸視覺化圖表。
十秒鐘。
那不是聊天機器人。那是一項智慧產品。而這正是專業人士——遊說者、分析師、律師、企業策略顧問——願意掏出可觀金錢購買的那種東西。
為什麼你不能就直接把 GPT 丟到檔案庫上?
我真希望你可以。那會讓我的工作輕鬆許多。
我們早期試過那種天真的做法。把文章切成 500 字的區塊,將它們嵌入為向量,做相似度搜尋,把結果餵給一個 LLM。這正是大多數「AI 聊天機器人」的實作方式。而對於靜態文件中簡單的單一事實查找,它運作得還不錯。
但對於新聞檔案庫,它會以既微妙又危險的方式失效。
它會弄丟線索。切塊會打斷敘事弧線。討論判決的區塊,被和描述犯罪的區塊隔開了。系統根本無法追隨一則橫跨多篇文章、歷經多年展開的故事。
它對時間視而不見。向量相似度不知道現在是哪一年。一篇 2010 年說「房市正在崩盤」的文章,在語意上和一篇 2024 年說著同樣話的文章完全相同。系統把舊的現實與當前的現實混為一談。它無法區分什麼曾是真的,與什麼現在是真的。
它無法連點成線。如果某人 X 與醜聞 Z 從未出現在同一篇文章裡,天真的檢索永遠找不到那條連結——即使公司 Y 把兩者串了起來。系統缺乏研究人員所稱的「多跳推理」能力。
它會用幻覺去填補空白。當檢索遺漏了相關脈絡,LLM 不會說「我不知道」。它會憑空捏造。它會捏造引言。它會創造出從未發生過的事件。在新聞界,這不是一份錯誤報告。這是一場訴訟。
這一切我們都是用慘痛的方式學到的。曾有一次特定的測試——我不會點名那家出版物——那個天真的系統信心滿滿地把一段引言歸到一位政治人物身上,而那人從未說過任何與之稍微相似的話。那段引言聽起來頗為可信。它在文法上與那位政治人物的說話方式一致。它卻是徹頭徹尾的捏造。就在那一刻,我明白我們需要一套根本上不同的架構。
你要如何打造一具真正管用的智慧引擎?

我們在 VeriPrajna 開發的架構共有三層,每一層各自解決一種特定的失效模式。我在此僅簡略勾勒——完整的技術拆解,請參閱我們的研究論文。
第一層:GraphRAG。我們不把檔案庫當成一袋彼此斷開的文字區塊,而是萃取出一張知識圖譜——實體(人物、組織、地點、事件)以及它們之間的關係。「Elon Musk」→收購了→「Twitter」。這些被儲存在一個圖形資料庫裡,其中每一篇文章都相互連結。當使用者提出一個複雜問題時,系統不只是搜尋關鍵字。它遍歷這張圖譜,從節點跳到節點,找出橫跨數十年、貫穿數千篇文章的連結。
成效十分驚人。在多跳推理任務上,相較於純向量的做法,GraphRAG 在全面性上展現出 72-83% 的提升。它能回答「五年的氣候報導中有哪些主要主題?」——一個天真的 RAG 連嘗試都無從嘗試的問題。
第二層:Temporal RAG。每一個區塊、每一條圖譜的邊,都會被標註上有效時間的中繼資料。關係是有版本控管的——Steve Jobs 那條「Apple 執行長」的邊,其時間界限與 Tim Cook 那條並不相同。當使用者提出一個演變性的問題時,系統會將它拆解成按時間切分的子查詢,並依時序組裝結果。檔案庫於是化身為一台時光機。
第三層:Agentic 工作流程。LLM 不只是檢索並回答。它會規劃。一個規劃者代理程式把一項複雜的請求(「撰寫一份關於公司 X 的盡職調查報告」)拆解成子任務。一個研究者代理程式執行有針對性的查詢。一個評論者代理程式在使用者看到任何東西之前,先審查結果中的缺漏與矛盾。一個撰稿者代理程式綜合出附有引註的最終產出。
我們不包裝 API。我們重建知識基礎設施的地基。
那個評論者代理程式至關重要。它本質上是一個內建的事實查核員——第二次 LLM 呼叫,會把每一項生成的主張與來源文件逐一比對,並剔除任何無憑無據的內容。再結合嚴格的接地指令與引註強制執行,這就是我們如何維持一套我視之為對捏造零容忍的政策。
Financial Times 知道些什麼是其他人不知道的?
FT 推出了「Ask FT」——一個對話式介面,讓專業訂閱者能對他們的檔案庫進行提問。每一個答案都僅僅奠基於 FT 的新聞報導。每一項主張都附有可點擊的引註。它是為特定的專業工作流程而設計的:會議準備、快速的盡職調查、趨勢分析。
Bloomberg 走得更遠,推出了 BloombergGPT,一個特定領域的 LLM,能把自然語言翻譯成 Bloomberg Query Language。一位分析師可以問「顯示 2024 年第三季科技公司的營收成長」並得到一張格式化的表格。他們可以對財報電話會議的逐字稿進行提問——詢問某執行長在某項特定風險因子上的語氣——而不必逐行讀完數百頁。
這些都不是實驗。它們是商業模式。而它們指出了錢真正在哪裡。
錢從哪裡來?

人們總是問我,這套「智慧即服務」的模式是否真能取代廣告營收。我誠實的答案是:它不需要取代全部的廣告營收。它需要取代的,是正在消失的那一部分。
這套經濟模型可拆解為三個層級。
第一,一份智慧層訂閱——不是每月 10 美元的「讀新聞」,而是每年 1,000 美元以上,供那些需要深度檔案存取、代理式工作流程與有引註支撐之研究的專業人士使用。金融專業人士、企業情報團隊、從事法規研究的律師事務所。這些使用者是存在的。他們目前正付錢請分析師,用人工去做一套建置精良的系統在數秒內就能完成的事。
第二,API 授權。與其用 robots.txt 去對抗 AI 爬蟲,不如把資料交換正式化。把乾淨、向量化、以圖譜結構化的檔案存取,賣給企業搜尋平台、金融終端機,以及第三方開發者。按查詢或按 token 計費。發行商的智慧就活在客戶的工作流程之中。
第三,也是多數人忽略的部分:資料護城河本身。在一個人人都能取用 GPT-4 的世界裡,模型並不是競爭優勢。資料才是。一份橫跨五十年的地方新聞檔案庫,是一個 OpenAI 無法複製的資料集。從那份檔案庫衍生出的知識圖譜——地方權力人物的網絡、政策轉向的時間軸、企業關係的網絡——是一種隨時間複利增值的專有智慧財產。
在一個 AI 模型已然商品化的世界裡,護城河不是演算法。是檔案庫。
那記者們該怎麼辦?
我不斷被問到這個問題,而我認為它值得一個直接的回答,而非閃躲。這場轉向並不會消滅新聞報導。它消滅的是新聞報導觸及人們的方式中的那種低效。那位花三個月調查一樁貪腐醜聞的記者,正在做著沒有任何 AI 能複製的工作。我們打造的系統讓那份工作隨時間變得更易於被發現、更易於被查詢、更有價值。它把一則被讀了一週、隨後就被埋在搜尋結果第 47 頁的故事,轉化為知識圖譜中一個永久、可檢索的節點——每當有人在往後五十年裡提出相關問題時,它都會浮現出來。
對新聞報導的威脅並不是對話式 AI。威脅在於那個資助新聞報導、卻正在崩塌的引薦經濟。如果流量已經消失——而它確實消失了——那麼緊抱著廣告支撐的動態消息模式,並不是對這門手藝的忠誠。那是否認。
如果媒體公司不轉向,會發生什麼事?
比衰退更糟的事:淪為無關緊要。他們的檔案庫被 AI 公司抓取,綜合成訓練資料,再送回給使用者——不註明出處、不付費,也沒有編輯標準所提供的那層信任。發行商淪為別人智慧產品的無償內容供應商。
有些發行商已經開始與 OpenAI 及其他公司簽署授權協議。那是個起點,但它是一筆低利潤、一次性的交易。你在賣原物料,而你本可以賣的是精煉過的智慧。這就好比出口原油,和建造一座煉油廠之間的差別。
新聞消費的未來不是動態消息。是對話。我們正邁向一種我稱之為生成式 UI 的東西——會隨答案調適的介面。要求一條時間軸,就得到一條時間軸。要求一份比較,就得到一張表格。要求一份簡報,就得到一份 PDF。靜態網站消融為一張供智慧流動、可自適應的畫布。
那些精通底層資料結構——向量、圖譜、時間邏輯——的媒體公司,將定義這個未來。他們不只會在新聞動態消息的死亡中存活下來。他們將打造出比動態消息曾經的樣子更好的東西。
檔案庫不是一個成本中心。它就是整門生意。唯一的問題是,你會不會成為那個解鎖它的人,抑或你會眼睜睜看著別人用你的資料去做這件事。
別再販售文字。開始販售答案。