
ニュース記事はもう「馬車の鞭」だ——あなたのアーカイブこそが金鉱である
私はある老舗新聞社のデジタル部門ディレクターと向かい合って座っていた。あなたも間違いなく読んだことのある新聞社だ。彼はノートパソコンにあるグラフを表示し、私の方へ画面を向けた。過去18か月間の、月ごとのオーガニックトラフィックだ。まるで誰かが崖から巨大な岩を突き落としたかのようだった。
「私たちはすべて正しくやっている」と彼は言った。「記事も増やし、SEOも改善し、ページの読み込みも速くした。それなのに負けているんだ」
彼は実行面については間違っていなかった。間違っていたのは、勝負のルールそのものについての理解だった。彼が旧来のルールに最適化している間に、その足元でルールが変わってしまっていたのだ。そして、駐車場ビルを見渡す会議室でぬるいコーヒーを飲みながら交わしたその会話こそが、私がその後数か月をかけて、メディア企業の生き残り方を再定義すると信じるものを構築するに至った理由だった。
その核心となる考え方は、痛々しいほどにシンプルだ。すなわち、メディア企業は記事を売るのをやめ、答えを売り始める必要がある、ということだ。ニュースフィードは死んだ。アーカイブは生きている。そして、その隔たりを橋渡しする技術、つまり50年分のジャーナリズムを対話型インテリジェンスエンジンに変える技術は、すでに存在している。あとは、それを正しく構築するだけだ。
私はこのテーマ全体を掘り下げたインタラクティブな解説を書いた。全体像を知りたい方はぜひご覧いただきたい。しかしここでは、私たちがどうやってここまで来たのかという物語をお話ししたい。というのも、数字だけでは、一つの産業全体の土台が崩れていくのを目の当たりにするあの目まいのような感覚は伝わらないからだ。
なぜ、誰もクリックしなくなったのか?

メディア企業の経営者を眠れなくさせている事実がこれだ。現在、Google検索の60%が、いかなるウェブサイトへも一切クリックされずに終わっている。モバイルでは、その割合は77%に達する。Googleは入口ではなく、目的地そのものになったのだ。デジタルパブリッシングの経済を築き上げた検索エンジンが、いつの間にかその最大の競合となってしまった。
そして、その被害の規模は驚愕すべきものだ。2025年上半期、パブリッシャーの中央値は前年同期比で10%のトラフィック減少を記録した。しかし「中央値」はその惨状を覆い隠している。CNNは27%から38%減少した。ForbesとBusiness Insiderはほぼ50%落ち込んだ。現代のコンテンツマーケティングを事実上生み出した企業であるHubSpotは、オーガニックトラフィックの70〜80%を失った。
元凶はAI Overviewsだ。Googleの生成AIの要約が検索結果の最上部に現れると、これは現在およそ13%のクエリで発生しているが、オーガニックリンクへのクリック率は約47%崩壊する。AIが記事を読んでくれるので、ユーザーは読む必要がなくなるのだ。
私はチームとともに、ある夜遅くの作業中に、これらの数字をじっと見つめていたのを覚えている。誰かがこう言った。「つまり、パブリッシャーがコンテンツを作り、GoogleのAIがそれを食い、ユーザーはサイトを一度も訪れない、ということですか?」まさにその通りだ。そして、事態はさらに悪化する。
検索エンジンは、もはやトラフィックを送り込む紹介者ではない。注目をめぐる競合なのだ。
生成AIプラットフォーム、すなわちChatGPT、Perplexity、Claudeへのトラフィックは、従来型の検索へのトラフィックの165倍の速さで伸びている。ユーザーはより長く、より複雑な質問を投げかけるようになっている。5語以上の検索は、短いキーワードのクエリよりも1.5倍速く増加している。人々は10本の青いリンクを求めてはいない。彼らが求めているのは、一つの優れた答えなのだ。
記事は遺物である(そして、私は愛情を込めてそう言っている)
ここでは慎重にならなければならない。私は心の底から長編ジャーナリズムを愛しているからだ。私は絶えずそれを読んでいる。しかし同時に、記事という形式が実際には何なのかについて、正直にならなければならない。それは、印刷物での配布のために設計された「容れ物」なのだ。
考えてみてほしい。800語の記事を新聞に印刷したのは、800個の個別の答えを印刷することができなかったからだ。物理的な配布は高価で散発的だったため、情報を物語という形に束ねていた。それは1975年には完璧に理にかなっていた。2005年にも、それなりに理にかなっていた。記事がオンラインに移行しても、読む行動そのものはほぼ変わらなかったからだ。
しかし2025年には、それはほとんど意味をなさない。
「住宅問題に対する市長の立場は?」と検索するユーザーは、都市のゾーニング(用途地域)の歴史についての1,000語の特集記事を求めてはいない。彼らが求めているのは、住宅問題に対する市長の立場そのものだ。従来のモデルは、彼らを一連の関門にくぐらせる。検索 → クリック → スクロール → ざっと見る → 読む → 抜き出す。あらゆるステップが摩擦だ。あらゆるステップが、彼らを取り逃がす機会となる。
私はこの点をめぐって、あるジャーナリストの友人と激しく議論したことがある。彼女は強く反論した。「あなたはジャーナリズムを事実に矮小化している」と彼女は言った。「物語は重要よ。文脈も重要。ナラティブも重要なの」。彼女の言うことはまったく正しい。オピニオン記事、調査報道、人物紹介、特集記事については、そうだ。それらは芸術の形式だ。しかし、ニュースフィードを埋め尽くしているものの大半は芸術ではない。それは、非効率な形式の中に閉じ込められた情報だ。そしてユーザーは、自らの行動で意思表示している。彼らは、それをかき分けて読むよりも、AIに尋ねたいのだ。
もしアーカイブが墓場でないとしたら?
まさにこの点で、あのデジタルディレクターとの会話は、憂鬱なものから電撃的なものへと変わった。
私は彼に、アーカイブには何本の記事があるのかと尋ねた。彼は少し考え込んだ。「おそらく……数百万本? 70年代まで遡ると?」。彼はそれを、まるで負債であるかのように口にした。サーバーコストであり、保守の頭痛の種であるかのように。
私は彼に、それこそが彼の会社が所有する最も価値ある資産だと伝えた。ブランドよりも価値がある。購読者リストよりも価値がある。なぜなら、地域政治、ビジネス、犯罪、文化にわたる50年分に及ぶその数百万本の記事は、地球上のどのAI企業も彼の許可なしには複製できないデータセットだからだ。
問題はデータではない。問題は、そのデータが、互いに切り離された構造化されていないテキストの塊の中に閉じ込められていることだ。記事Aは、人物Xが会社Yで働いていると述べている。その3年後に公開された記事Bは、会社YがスキャンダルZに巻き込まれていると述べている。人物XをスキャンダルZに結びつける単一の記事は存在しない。しかし、そのつながりは存在している。アーカイブ中に埋もれ、どんな検索バーにも見えず、誰かがそれを縫い合わせてくれるのを待っているのだ。
自社の製品を「記事」だけだと見なすパブリッシャーは、自動車の時代に馬車用の鞭を製造しているようなものだ。
その縫い合わせこそが、私たちVeriPrajnaが構築しているものだ。チャットボットではない。GPTのラッパーでもない。インテリジェンスエンジンだ。
すべてを変えた「市長の問い」
具体的に話そう。あるユーザーを想像してほしい。地域政策の研究者、関心を持つ市民、あるいは競合媒体のジャーナリストでもいい。彼らは、住宅問題に対する市長の立場が2010年以降どのように変化してきたのかを理解したいと考えている。
旧来のモデルでは、彼らは新聞社のサイトで「市長 住宅 立場」と検索する。50件の結果が出てくる。2010年の記事を開く。「市長、高層開発に反対」。2015年の記事を開く。「市長、住宅価格の危機を受けて立場を軟化」。2022年の記事を開く。「市長、『今すぐ建てよう』法案を推進」。彼らは頭の中でその変遷を組み立てる。手際がよくても45分かかる。
私たちが構築しているモデルでは、彼らはその質問を入力する。システムはそれを時間軸に沿ったサブクエリへと分解する。ナレッジグラフをたどるのだが、単にキーワードを検索するのではなく、時刻付きのエッジをまたいで、「市長」というエンティティと「住宅開発」というエンティティとの間の関係性を追っていく。それは、立場がネガティブ(2010年)からニュートラル(2015年)、そしてポジティブ(2022年)へと変化したことを見つけ出す。元の記事へリンクした出典付きのナラティブを生成する。そして、タイムラインの可視化を描画する。
10秒だ。
それはチャットボットではない。インテリジェンス製品だ。そしてそれは、専門家、すなわちロビイスト、アナリスト、弁護士、企業戦略家たちが、真剣にお金を払うたぐいのものだ。
アーカイブにただGPTを放り込めばいいのではないのか?
そうできればいいのにと思う。そうすれば私の仕事はずっと楽になる。
私たちは初期の頃、素朴なアプローチを試した。記事を取り、500語の塊に切り刻み、ベクトルとして埋め込み、類似度検索を行い、その結果をLLMに与える。これは、ほとんどの「AIチャットボット」の実装がやっていることだ。そして、静的なドキュメントにおける単純な単一事実の参照であれば、これは問題なく機能する。
しかしニュースアーカイブに対しては、微妙で危険なかたちで失敗する。
それは文脈の糸を見失う。チャンク化はナラティブの弧を断ち切ってしまう。判決を論じているチャンクが、犯罪を描写しているチャンクから切り離されてしまう。システムは、複数の年月にわたって複数の記事に展開する物語を、文字通り追うことができないのだ。
それは時間に対して盲目だ。ベクトルの類似度は、それが何年のことなのかを知らない。「住宅市場は暴落している」と述べる2010年の記事は、同じことを述べる2024年の記事と意味的には同一だ。システムは、過去の現実と現在の現実を混同してしまう。何が真実であったのかと、何が現在真実であるのかを区別できないのだ。
それは点と点を結びつけられない。もし人物XとスキャンダルZが同じ記事に一度も一緒に登場しないなら、たとえ会社Yが両者を結びつけていたとしても、素朴な検索はそのつながりを決して見つけ出せない。システムには、研究者が「マルチホップ推論」と呼ぶものが欠けているのだ。
それは隙間を埋めるために幻覚を起こす。検索が関連する文脈を取りこぼしたとき、LLMは「わかりません」とは言わない。それはでっち上げる。引用をねつ造する。一度も起きていない出来事を作り出す。ジャーナリズムにおいて、これはバグ報告では済まされない。訴訟沙汰だ。
私たちはこのすべてを、痛い目にあって学んだ。ある特定のテストがあった。その媒体名は明かさないが、そこで素朴なシステムが、ある政治家が言ったことなど微塵もないような発言を、自信満々にその政治家に帰属させたのだ。その引用はもっともらしく聞こえた。その政治家の話し方と文法的にも一貫していた。だが、それは完全なねつ造だった。それこそが、私たちには根本的に異なるアーキテクチャが必要だと悟った瞬間だった。
実際に機能するインテリジェンスエンジンを、どう構築するのか?

私たちがVeriPrajnaで開発したアーキテクチャは三つのレイヤーからなり、それぞれが特定の障害モードを解決する。ここでは簡単にスケッチするにとどめる。技術的な内訳の全容については、私たちの研究論文をご覧いただきたい。
レイヤー1:GraphRAG。アーカイブを、互いに切り離されたテキストの塊の寄せ集めとして扱う代わりに、私たちはナレッジグラフ、すなわちエンティティ(人物、組織、場所、出来事)と、それらの間の関係性を抽出する。「イーロン・マスク」→買収した→「Twitter」。これらは、あらゆる記事が相互に接続されたグラフデータベースに格納される。ユーザーが複雑な質問をすると、システムは単にキーワードを検索するのではない。グラフをたどり、ノードからノードへとホップしながら、数十年と数千本の記事にまたがるつながりを見つけ出すのだ。
その結果は劇的だ。マルチホップ推論のタスクにおいて、GraphRAGはベクトルのみのアプローチと比較して、包括性で72〜83%の改善を示している。「5年分の気候変動報道における主要なテーマは何か?」といった、素朴なRAGでは試みることすらできない質問にも答えられる。
レイヤー2:Temporal RAG。あらゆるチャンクと、あらゆるグラフのエッジには、有効時間(valid-time)のメタデータがタグ付けされる。関係性はバージョン管理される。スティーブ・ジョブズの「AppleのCEO」というエッジは、ティム・クックのそれとは異なる時間の境界を持つ。ユーザーが変遷に関する質問をすると、システムはそれを時間軸に沿ったサブクエリへと分解し、その結果を時系列に沿って組み立てる。アーカイブがタイムマシンになるのだ。
レイヤー3:エージェンティックワークフロー。LLMは単に検索して答えるだけではない。それは計画を立てる。プランナー(Planner)エージェントが、複雑な要求(「会社Xに関するデューデリジェンス報告書を書け」)をサブタスクに分解する。リサーチャー(Researcher)エージェントが、的を絞ったクエリを実行する。クリティック(Critic)エージェントが、ユーザーが何かを目にする前に、その結果に抜け漏れや矛盾がないかをレビューする。ライター(Writer)エージェントが、出典付きで最終的な出力を統合する。
私たちはAPIをラッピングするのではない。私たちは知識インフラの土台そのものを作り直すのだ。
そのクリティックエージェントは極めて重要だ。それは本質的に組み込みのファクトチェッカーであり、生成されたあらゆる主張を出典文書と照合し、裏付けのないものはすべて取り除く、二度目のLLM呼び出しなのだ。厳格なグラウンディングの指示と出典の強制と組み合わさることで、それが、私が「ねつ造ゼロトレランス方針」と考えているものを維持する仕組みとなっている。
Financial Timesは、ほかの誰もが知らない何を知っているのか?
FTは「Ask FT」を立ち上げた。これは、プロフェッショナルの購読者が自社のアーカイブに問いを投げかけられる対話型インターフェースだ。あらゆる答えは、FTのジャーナリズムのみに根拠を置いている。あらゆる主張には、クリック可能な出典が付いている。それは、会議の準備、迅速なデューデリジェンス、トレンド分析といった、特定のプロフェッショナルのワークフローのために設計されている。
Bloombergはさらに踏み込み、BloombergGPTを開発した。これは自然言語をBloomberg Query Languageへと変換する、ドメイン特化型のLLMだ。アナリストは「2024年第3四半期のテクノロジー企業の収益成長を見せてくれ」と尋ねれば、整形された表を得られる。決算説明会の書き起こしに問いを投げかけ、特定のリスク要因に対するCEOの口調について尋ねることもできる。何百ページもの文書を頭から順に読む必要はないのだ。
これらは実験ではない。ビジネスモデルだ。そしてそれらは、お金が実際にどこにあるのかを指し示している。
お金はどこから生まれるのか?

この「インテリジェンス・アズ・ア・サービス」モデルが、本当に広告収入に取って代われるのか、と私はよく尋ねられる。私の正直な答えはこうだ。それは広告収入のすべてに取って代わる必要はない。それが取って代わる必要があるのは、消え去りつつある部分なのだ。
その経済性は、三つの階層に分解される。
第一に、インテリジェンス層のサブスクリプションだ。これは「ニュースを読む」ための月10ドルではなく、深いアーカイブアクセス、エージェンティックワークフロー、そして出典に裏付けられたリサーチを必要とするプロフェッショナル向けの、年間1,000ドル以上のものだ。金融のプロフェッショナル、企業インテリジェンスのチーム、規制関連の調査を行う法律事務所。こうしたユーザーは実在する。彼らは今、よく作り込まれたシステムなら数秒でこなすことを、アナリストに手作業でやらせるために報酬を払っているのだ。
第二に、APIライセンシングだ。robots.txtでAIクローラーと戦う代わりに、データのやり取りを正式なものにする。クリーンでベクトル化され、グラフ構造化されたアーカイブへのアクセスを、企業向け検索プラットフォーム、金融端末、そしてサードパーティの開発者に販売する。クエリ単位、あるいはトークン単位で課金する。パブリッシャーのインテリジェンスが、クライアントのワークフローの内側で生きるのだ。
第三に、そしてこれこそ、ほとんどの人が見落としている部分だが、データの堀そのものだ。誰もがGPT-4にアクセスできる世界では、モデルは競争優位ではない。データこそが優位なのだ。50年分の地域ニュースのアーカイブは、OpenAIには複製できないデータセットだ。そのアーカイブから導き出されたナレッジグラフ、すなわち地域の有力者たちの網の目、政策転換の時系列、企業間関係のネットワークは、時とともに価値を複利で増していく、独占的な知的財産なのだ。
AIモデルがコモディティ化した世界において、堀となるのはアルゴリズムではない。それはアーカイブなのだ。
ジャーナリストたちはどうなるのか?
私はこの質問を絶えず受ける。そしてこれは、はぐらかすのではなく、率直な答えに値すると考えている。この方向転換はジャーナリズムを消し去りはしない。それが消し去るのは、ジャーナリズムが人々に届くまでの非効率さだ。3か月かけて汚職スキャンダルを調査する記者は、どんなAIにも複製できない仕事をしている。私たちが構築するシステムは、その仕事を、時とともにより発見されやすく、より問い合わせやすく、より価値あるものにする。それは、1週間読まれたあと検索結果の47ページ目に埋もれてしまう記事を、今後50年にわたって誰かが関連する質問をするたびに浮かび上がってくる、ナレッジグラフの中の永続的で取り出し可能なノードへと変えるのだ。
ジャーナリズムへの脅威は対話型AIではない。脅威は、ジャーナリズムを支える崩壊しつつある紹介経済(リファラルエコノミー)だ。トラフィックが消え去ったなら、そして実際に消え去っているのだが、広告依存のフィードモデルにしがみつくことは、職人技への忠誠ではない。それは現実から目を背けているだけだ。
メディア企業が方向転換しなかったら、何が起こるのか?
衰退よりも悪いものだ。すなわち、無関係になることだ。彼らのアーカイブはAI企業によってスクレイピングされ、学習データへと合成され、帰属表示もなく、対価の支払いもなく、そして編集基準が提供する信頼の層もないまま、ユーザーに提供し返される。パブリッシャーは、他社のインテリジェンス製品への、対価を支払われないコンテンツ供給者と成り果てるのだ。
一部のパブリッシャーは、すでにOpenAIなどとライセンス契約を結び始めている。それは第一歩ではあるが、低マージンで一回限りの取引にすぎない。精製されたインテリジェンスを売れたはずなのに、原材料を売ってしまっているのだ。それは、原油を輸出することと、製油所を建設することの違いに等しい。
ニュース消費の未来はフィードではない。それは対話だ。私たちは、私が「ジェネレーティブUI」と考えているもの、すなわち答えに合わせて姿を変えるインターフェースへと向かっている。タイムラインを求めれば、タイムラインが返ってくる。比較を求めれば、表が返ってくる。ブリーフィングを求めれば、PDFが返ってくる。静的なウェブサイトは、インテリジェンスのための流動的で適応的なキャンバスへと溶け込んでいくのだ。
根底にあるデータ構造、すなわちベクトル、グラフ、そして時間的論理を使いこなすメディア企業が、この未来を定義することになる。彼らはニュースフィードの死をただ生き延びるだけではない。彼らは、フィードがかつてそうであった以上に優れた何かを築き上げるのだ。
アーカイブはコストセンターではない。それはビジネスそのものだ。唯一の問いは、あなたがそれを解き放つ者となるのか、それとも他の誰かがあなたのデータでそれをやってのけるのを傍観するのか、ということだけだ。
言葉を売るのをやめよ。答えを売り始めよ。