
新闻文章是过时的马鞭,你的档案库却是一座金矿
我坐在一家老牌报纸的数字总监对面——那份报纸你肯定读过——这时他在笔记本电脑上调出一张图表,转过来对着我。过去十八个月,自然流量的逐月走势。那看起来就像有人把一块巨石推下了悬崖。
"我们每件事都做对了,"他说。"更多的报道,更好的SEO,更快的页面加载。可我们还是在节节败退。"
他对执行层面的判断没有错。他错在对这场游戏的理解上。当他还在为旧游戏做优化时,游戏已经在他脚下悄然改变了。而那场对话——发生在一间能望见停车楼的会议室里,伴着温吞的咖啡——正是我此后几个月投入去打造某样东西的原因,我相信它将重新定义媒体公司的生存之道。
核心思路很简单,简单到几乎令人痛苦:媒体公司需要停止售卖文章,转而开始售卖答案。新闻信息流已死。档案库却活着。而弥合这道鸿沟的技术——把五十年的新闻业变成一台对话式智能引擎——早已存在。我们只需把它构建对。
我写了一篇关于这整套论点的交互式深度剖析,如果你想了解全貌的话。但让我给你讲讲我们是如何走到这一步的,因为单凭数字无法传达那种眼看整个行业根基崩裂的眩晕感。
为什么再也没人点击了?

有一个事实让媒体高管们夜不能寐:如今60%的谷歌搜索在结束时没有点击任何一个网站。在移动端,这一比例是77%。谷歌已经成为目的地,而不再是入口。这个曾一手缔造了数字出版经济的搜索引擎,已悄然变成它最大的竞争对手。
而损害的规模令人瞠目。2025年上半年,中位数出版商的流量同比下滑了10%。但"中位数"掩盖了这场浩劫。CNN下跌了27%到38%。福布斯和Business Insider跌了近50%。HubSpot——一家几乎发明了现代内容营销的公司——损失了70%到80%的自然流量。
罪魁祸首是AI概览。当谷歌的AI摘要出现在搜索结果顶部时——如今约13%的查询会出现这种情况——通往自然链接的点击率会崩跌约47%。AI替用户读了文章,用户就不必自己读了。
我记得我和我的团队在一次深夜工作会上盯着这些数字。有人说:"所以出版商创作内容,谷歌的AI吃掉它,而用户从不访问网站?"一点没错。而且情况还在变得更糟。
搜索引擎不再是流量的转介者。它是注意力的争夺者。
通往生成式AI平台——ChatGPT、Perplexity、Claude——的流量,增速是传统搜索的165倍。用户正在提出更长、更复杂的问题。五个词及以上的搜索,其增速是短关键词查询的1.5倍。人们不想要十条蓝色链接。他们想要一个好答案。
文章是一件遗物(我说这话是带着爱的)
在这里我得小心措辞,因为我是真心热爱长篇新闻报道的。我一直在读。但我也必须诚实面对文章这种格式究竟是什么:一个为印刷分发而设计的容器。
想想看。你在报纸上刊印一篇800字的报道,是因为你无法刊印800个独立的答案。实体分发既昂贵又零散,于是你把信息打包成叙事。这在1975年完全说得通。在2005年也还算说得通,那时文章迁移到了线上,但阅读行为大体保持不变。
而在2025年,这几乎完全说不通了。
一个搜索"市长对住房的立场是什么?"的用户,并不想要一篇1000字、讲述城市分区历史的特稿。他们想要的是市长对住房的立场。传统模式逼着他们穿过一道重重关卡:搜索 → 点击 → 滚动 → 扫读 → 阅读 → 提取。每一步都是摩擦。每一步都是失去他们的机会。
我曾和一位做记者的朋友争论过这个问题,她强烈反驳。"你在把新闻业简化为事实,"她说。"故事很重要。语境很重要。叙事很重要。"她说得完全没错——对于评论、调查、人物报道、特稿而言。那些是艺术形式。但充斥新闻信息流的绝大多数内容并不是艺术。那是被困在低效格式里的信息。而用户正在用行为投票:他们宁愿去问AI,也不愿在其中艰难跋涉。
如果档案库并不是坟场呢?
正是在这里,和那位数字总监的对话从压抑变得电光四射。
我问他,他们的档案库里有多少篇文章。他停顿了一下。"大概……几百万篇?一直追溯到七十年代?"他说这话的口气,仿佛那是一项负债——一笔服务器成本,一桩维护上的头疼事。
我告诉他,那是他公司拥有的最有价值的资产。比品牌更有价值。比订阅者名单更有价值。因为那数百万篇文章,横跨五十年的地方政治、商业、犯罪、文化——那是地球上任何一家AI公司未经他许可都无法复制的数据集。
问题不在数据。问题在于它被锁在彼此断连的非结构化文本块里。文章A提到某人X在某公司Y工作。三年后发表的文章B提到某公司Y卷入了某丑闻Z。没有任何一篇文章把某人X和某丑闻Z联系起来。但这个联系是存在的——它被埋藏在档案库各处,对任何搜索框都不可见,等着有人来把它缝合到一起。
那些仅仅把自己的产品视作"文章"的出版商,正是在汽车时代制造马鞭。
这种缝合,正是我们在Veriprajna所构建的。不是聊天机器人。不是GPT套壳。是智能引擎。
那个改变了一切的市长问题
让我把这一点讲得具体些。设想一个用户——一位地方政策研究者,一位忧心的市民,一位竞争媒体的记者——他想弄清楚市长对住房的立场自2010年以来是如何演变的。
在旧模式下,他们在报社网站上搜索"市长住房立场"。得到五十条结果。他们打开2010年的文章:"市长反对高层开发。"他们打开2015年的文章:"在可负担性危机中市长立场软化。"他们打开2022年的文章:"市长力挺'现在建'法案。"他们在脑中综合出这条演变脉络。如果手脚够快,这要花四十五分钟。
在我们正在构建的模式下,他们把问题打进去。系统把它分解成一系列按时间划分的子查询。它遍历一张知识图谱——不只是搜索关键词,而是沿着关系追溯市长实体与住房开发实体之间跨越带时间戳边的联系。它找到立场从负面(2010)转为中立(2015)再转为正面(2022)的变化。它生成一段带引用、链接回原始文章的叙述。它渲染出一张时间线可视化图。
十秒钟。
那不是聊天机器人。那是一款智能产品。而这正是那些专业人士——游说者、分析师、律师、企业战略家——愿意为之支付大价钱的东西。
为什么不能直接把GPT扔到档案库上?
我倒希望你能。那会让我的工作轻松许多。
早期我们尝试过那种朴素的做法。拿来文章,把它们切成500字的块,嵌入为向量,做相似度搜索,把结果喂给一个LLM。这正是大多数"AI聊天机器人"实现所做的。对于静态文档中简单的单一事实查找,它工作得挺好。
而对于新闻档案库,它会以微妙而危险的方式失败。
它会跟丢线索。分块打断了叙事的弧线。讨论判决的一块,被从描述罪行的那一块中分离出去。系统根本无法追随一个跨越多篇文章、跨越多年展开的故事。
它对时间视而不见。向量相似度并不知道现在是哪一年。一篇2010年说"房地产市场正在崩盘"的文章,与一篇2024年说同样话的文章,在语义上是完全相同的。系统把旧的现实与当下的现实混为一谈。它无法区分什么曾经是真的,和什么如今是真的。
它无法把点连成线。如果某人X和某丑闻Z从未出现在同一篇文章里,朴素检索就永远找不到这个联系——即便某公司Y把它们连了起来。系统缺乏研究者所称的"多跳推理"能力。
它靠幻觉来填补空白。当检索错过了相关语境时,LLM不会说"我不知道"。它会编造。它捏造引语。它虚构从未发生过的事件。在新闻业里,这不是一份缺陷报告。这是一场官司。
这一切我们都是吃了苦头才学会的。有过一次特定的测试——我就不点名是哪家刊物了——朴素系统信心满满地把一句引语归到一位政客名下,而那位政客从没说过任何哪怕沾点边的话。那句引语听起来很有道理。它在语法上与那位政客的说话方式一致。它是彻头彻尾的捏造。那一刻我明白,我们需要一套从根本上不同的架构。
如何构建一台真正管用的智能引擎?

我们在Veriprajna开发的架构有三层,每一层都解决一种特定的失效模式。我在这里简要勾勒一下——完整的技术拆解请参见我们的研究论文。
第一层:GraphRAG。我们不把档案库当作一袋彼此断连的文本块,而是从中提取一张知识图谱——实体(人、组织、地点、事件)以及它们之间的关系。"埃隆·马斯克" → 收购了 → "Twitter。"这些被存入一个图数据库,其中每一篇文章都彼此互连。当用户提出一个复杂问题时,系统不只是搜索关键词。它遍历这张图,从一个节点跳到另一个节点,发现横跨数十年、涉及数千篇文章的联系。
结果十分惊人。在多跳推理任务上,与仅用向量的方法相比,GraphRAG在全面性上展现出72%到83%的提升。它能回答"五年的气候报道中主要有哪些主题?"——这是一个朴素RAG甚至都无从下手的问题。
第二层:时序RAG。每一个文本块、每一条图的边,都被打上有效时间的元数据标签。关系是带版本的——史蒂夫·乔布斯这条"苹果CEO"的边,与蒂姆·库克那条边有着不同的时间边界。当用户提出一个演变性问题时,系统把它分解成一系列按时间划分的子查询,并按时间顺序把结果组装起来。档案库变成了一台时光机。
第三层:智能体工作流。LLM不只是检索然后回答。它会规划。一个规划者智能体把一项复杂请求("写一份关于某公司X的尽职调查报告")分解成子任务。一个研究者智能体执行有针对性的查询。一个评审者智能体在用户看到任何内容之前,审查结果中的缺口与矛盾。一个撰写者智能体综合出带引用的最终产出。
我们不做API套壳。我们重建知识基础设施的根基。
那个评审者智能体至关重要。它本质上是一个内建的事实核查员——第二次LLM调用,把每一条生成的论断与源文档比对,并剔除任何缺乏支撑的内容。再配合严格的接地指令和引用强制机制,这正是我们如何维持一种我视之为对捏造零容忍的政策。
《金融时报》知道些什么,而别人都不知道?
FT推出了"Ask FT"——一个对话式界面,让专业订阅者得以质询他们的档案库。每一个答案都仅以FT的新闻报道为依据。每一条论断都有一个可点击的引用。它是为特定的专业工作流设计的:会议准备、快速尽职调查、趋势分析。
彭博走得更远,推出了BloombergGPT,一个把自然语言翻译成彭博查询语言的领域专用LLM。分析师可以问"给我看2024年第三季度科技公司的营收增长",并得到一张格式化的表格。他们可以质询财报电话会议的记录稿——询问某位CEO对某个特定风险因素的语气——而不必线性地读上数百页。
这些不是实验。它们是商业模式。而且它们指明了钱究竟在哪里。
钱从哪里来?

人们总是问我,这种"智能即服务"的模式能否真正取代广告收入。我诚实的回答是:它并不需要取代其中的全部。它需要取代的,是正在消失的那一部分。
其经济逻辑可拆解为三个层级。
第一,一份智能层订阅——不是每月10美元"读新闻",而是每年1000美元以上,面向那些需要深度档案访问、智能体工作流和有引用支撑之研究的专业人士。金融专业人士、企业情报团队、做监管研究的律所。这些用户是存在的。他们目前正花钱雇分析师去手工完成一套构建良好的系统几秒钟就能做完的事。
第二,API授权。与其用robots.txt去和AI爬虫作战,不如把数据交换正式化。把干净的、向量化的、图结构化的档案访问,卖给企业级搜索平台、金融终端和第三方开发者。按查询或按token收费。出版商的智能存活在客户的工作流之内。
第三,而这是大多数人忽略的部分:数据护城河本身。在一个人人都能访问GPT-4的世界里,模型不是竞争优势。数据才是。一份五十年的地方新闻档案,是OpenAI无法复制的数据集。从那份档案中衍生出的知识图谱——地方权力玩家之网、政策变迁的时间线、企业关系的网络——是一种随时间不断增值的专有知识产权。
在一个AI模型被商品化的世界里,护城河不是算法。是那份档案。
那记者们怎么办?
这个问题我常被问到,而我认为它值得一个直接的回答,而不是一个搪塞。这次转型不会消灭新闻业。它消灭的是新闻抵达人们时的那种低效。那位花三个月调查一桩腐败丑闻的记者,做的是任何AI都无法复制的工作。我们所构建的系统,让那份工作随时间变得更易被发现、更易被查询、更有价值。它把一篇被读了一周、然后被埋在搜索结果第47页上的报道,变成一个永久的、可检索的知识图谱节点,在此后五十年里每当有人提出相关问题时都会浮现出来。
对新闻业的威胁不是对话式AI。威胁是那个为新闻业提供资金、正在崩溃的转介经济。如果流量没了——而它确实没了——那么死抱着广告支撑的信息流模式,并不是对这门手艺的忠诚。那是否认现实。
如果媒体公司不转型会怎样?
比衰落更糟的东西:无关紧要。他们的档案库被AI公司抓取,合成为训练数据,再回吐给用户,既不署名,也不付费,更没有编辑标准所提供的那层信任。出版商沦为别人智能产品的一个无偿内容供应者。
有些出版商已经在和OpenAI等公司签订授权协议。那是个开端,但那是一笔低利润的一次性交易。你本可以卖精炼的智能,却在卖原材料。这就是出口原油和建一座炼油厂之间的差别。
新闻消费的未来不是信息流。是对话。我们正走向我称之为生成式UI的东西——一种随答案而自适应的界面。要时间线,就给你一条时间线。要对比,就给你一张表格。要简报,就给你一份PDF。静态网站消融为一块流动的、自适应的智能画布。
那些精通底层数据结构——向量、图谱、时序逻辑——的媒体公司,将定义这个未来。他们不会只是在新闻信息流的死亡中幸存下来。他们将建造出比信息流曾经的样子更好的东西。
档案库不是一个成本中心。它就是整个业务。唯一的问题是:你会是那个解锁它的人,还是你会眼睁睁看着别人用你的数据去做这件事。
别再卖文字了。开始卖答案吧。