AI生成の偽の人物像によって崩壊する老舗メディア機関を想起させる編集用イメージ——雑誌の表紙が、でっち上げられた著者プロフィールへと溶けていく様子。
Artificial IntelligenceTechnologyMachine Learning

Sports IllustratedはAIで失敗したのではない。真実のアーキテクチャで失敗したのだ

Ashutosh SinghalAshutosh Singhal2026年2月7日14 min

私は、読むのをやめて歩き回り始めた、まさにその瞬間を覚えている。

2023年11月下旬のことだった。Futurismが、Sports Illustratedに関する調査記事を発表したばかりだった。その詳細は、現実とは思えないほど馬鹿げていた。70年の歴史を持つメディア機関が、実在しない人物によって書かれた製品レビューを掲載していたのだ。アウトドアを愛する人物として紹介された「Drew Ortiz」の顔写真は、AI生成の顔を販売するマーケットプレイスで購入されたものだった。フィットネスの達人とされた「Sora Tanaka」には、食べ物と飲み物への愛にまつわる、でっち上げの経歴があった。これらの幻の人物に帰せられたコンテンツには、「バレーボールは世界で最も人気のあるスポーツの一つであり、それには正当な理由がある」といった珠玉の一文が含まれていた——あまりに中身が空っぽで、ほとんど反響が聞こえてきそうな文だった。

私が歩き回っていたのは、衝撃を受けたからではない。まさにこの失敗様式について、何か月もの間、エンタープライズの顧客に警告し続けてきたからこそ、歩き回っていたのだ。AIが抽象的で『ターミネーター』的な意味で危険だからではなく——非常に具体的で、非常に予測可能なアーキテクチャの崩壊についてだ。Sports IllustratedはAIを使って露見したのではない。露見したのは、AIを使ったこと、その下に真実のシステムを持たないままだったからだ。そしてこの区別は、ほとんどの人が気づいているよりもはるかに重要である。

その余波は、迅速かつ苛烈だった。The Arena Groupの株価は、わずか1日で27%下落した。Authentic Brands GroupはSIの出版ライセンスを取り消した。SI労働組合は、おそらく全スタッフが解雇されたと報告した。モハメド・アリや氷上の奇跡、そして何十年にもわたるアメリカスポーツを取材してきた報道機関が空洞化した——AIがジャーナリストに取って代わったからではなく、経営陣が可能な限り最も安価なAIアーキテクチャを選び、それを戦略と呼んだからだ。

そのアーキテクチャには名前がある。私たちはそれを「LLMラッパー」と呼んでいる。そして、その代替案を何年もかけて構築してきた私は、それが今日のエンタープライズの信頼に対する単独で最大の脅威だと確信している。

「LLMラッパー」とは正確には何か——そしてなぜ破綻するのか?

技術に詳しくない経営幹部にこれを説明するとき、私はある例えを使う。世界で最も雄弁な話し手を雇ったと想像してほしい——どんな話題でも、どんなスタイルでも、どんな聴衆に対しても語ることができる人物だ。見事なものだろう?さて、その話し手には記憶がなく、ファクトチェック部門もなく、「わかりません」と言うことが病的にできない、と想像してほしい。その代わり、知識に穴があると、彼らはただ……何かをでっち上げる。自信を持って。流暢に。完璧な文章で。

それが、グラウンディングのない大規模言語モデルだ。それは確率的推論エンジンである——学習データ内のパターンに基づいて、次に来る最も可能性の高い単語を予測する。それは、Drew Ortizが実在しないことを「知っている」わけではない。製品レビューのパターンには通常、著者名と経歴が含まれることを知っているので、統計的にもっともらしい詳細でテンプレートを埋めるのだ。モデルにとって、「Drew Ortiz」は嘘ではない。それは成功したパターン補完なのだ。

LLMラッパーとは、企業がその雄弁で作話する話し手を、マイクとキーワードリストだけを持たせて舞台に立たせたときに得られるものだ。メモもない。舞台袖に編集者もいない。彼らの口から出てくる事柄が真実かどうかを確認する者もいない。モデルの周りのソフトウェア層は薄い——プロンプトを渡し、テキストを受け取り、それを公開する。それだけだ。

SIの偽コンテンツの背後にいたサードパーティのベンダー、AdVon Commerceは、まさにこの方式で運営されていた。彼らには「MEL」という社内ツールがあった——本質的には、製品キーワードを取り込み、それを基盤モデルに通し、構造化されたレビューを吐き出すラッパーだ。「人間のライター」は雀の涙ほどの報酬で、その出力をコンテンツ管理システムにコピー&ペーストしていた。彼らは編集していなかった。ファクトチェックもしていなかった。彼らは人間のミドルウェアだったのだ。

AIがエンジンで、人間が単なる潤滑油であるとき、品質の崩壊はリスクではない——それは予定表なのだ。

「十分に良い」AIが十分ではないと気づいた夜

ある夜——2024年初頭、SIの報道が明るみに出てから数週間後だったと思う——私とチームは、ある顧客のためのコンテンツ生成パイプラインをストレステストしていた。私たちは標準的な検索拡張生成(RAG)システムを構築していた。LLMを導入する「責任ある」方法とされているものだ。関連する文書を検索し、それをモデルのコンテキストウィンドウに注入し、それらの情報源のみを使うよう指示するのだ。

私たちは500件の製品説明のバッチを実行した。結果はきれいに見えた。流暢で。プロフェッショナルで。主任エンジニアは、その夜はもう終わりにしようとしていた。

私は言った、「もう一度ハルシネーションのチェックを走らせてくれ」と。

彼はため息をついた。だが、彼は走らせた。

500件の説明のうち18件に、どの情報源の文書にも存在しない主張が含まれていた。これはエラー率3.6%だ——最先端のモデルについて研究が示す範囲のちょうど中に収まる。それらのモデルは領域に応じて1.5%から6.4%の間でハルシネーションを起こす。法律のような専門分野では、それはさらに悪くなる。

18件は大したことに聞こえない。だが、それをスケールさせてみよう。もしあなたが年間1万本の記事を出す出版社なら——そしてコンテンツファームは間違いなくその規模で運営している——4%のハルシネーション率は、でっち上げの主張を含む記事が400本あることを意味する。400件もの潜在的な訴訟、評判の危機、あるいは信頼を破壊する瞬間だ。私たちはすでに、ChatGPTが創作した存在しない判例を引用したとして弁護士が制裁を受けたのを目にしている。数字はあなたの味方ではない。

その夜、私はチームに言った、「確率だけで動くものは何一つ出荷しない。私たちには、検証されていない主張を、データベースがヌル値を扱うのと同じように扱うシステムが必要だ——それを知識の欠如として扱い、即興を促すものとしてではなく」。

なぜ、より良いプロンプトでハルシネーションを直せないのか?

人々は絶えず私にこう尋ねる。「モデルにもっと慎重になるよう指示すればいいだけでは?『でっち上げるな』と言うシステムプロンプトを追加すれば?」

いや、できない。そして、その問いがなぜこの技術に対する根本的な誤解を露呈しているのか、その理由がここにある。

ハルシネーションは、指示でパッチを当てられるバグではない。それは、これらのモデルがどのように機能するかという構造的な性質だ。LLMは、学習データから導出された、トークン——単語やサブワード——間の統計的関係を保存している。事実の内部データベースは持っていない。「真」対「偽」という概念を持っていない。持っているのは「ありそう」対「ありそうにない」という概念だ。パターンのありそうな補完が、モデルの持たない事実を必要とするとき、モデルはそのパターンに合う事実を生成する。それに「ハルシネーションを起こすな」と告げるのは、水に「濡れるな」と告げるようなものだ。

コンテキストウィンドウの問題もある。巨大なコンテキストウィンドウを備えた現代のモデルでさえ、エンタープライズの知識ベース全体を食わせようとすると、壁にぶつかる。会社の完全な編集ガイドライン、製品データベース、著者名簿、ブランドポリシーを、すべてのプロンプトに貼り付けることはできない。モデルの内部知識——静的で、時代遅れで、制御不能なもの——がその隙間を埋めてしまう。

そして、「GPTを使えばいい」という一派のほとんど誰も語らないセキュリティの側面がある。プロンプトインジェクション攻撃は、入力を操作して安全フィルターを迂回できる。データポイズニングは、RAGシステムが検索するウェブ上の情報源を汚染しうる。「slopsquatting(スロップスクワッティング)」と呼ばれる新たな脅威は、LLMがソフトウェアパッケージ名をハルシネーションで生成するという事実を悪用する——攻撃者はその偽の名前を登録し、コードの提案をコピー&ペーストする開発者にマルウェアを届けるのだ。薄いラッパーの攻撃対象領域は膨大である。

私はこれらのアーキテクチャ上の失敗様式について、私たちの研究のインタラクティブ版で深く書いたが、核心となる点は単純だ。真実にたどり着くためのプロンプトエンジニアリングなど不可能だ。まったく異なるアーキテクチャが必要なのだ。

私たちの構築方法を変えた議論

Veriprajnaの内部で、私たちはこれについて本当に激しく衝突した。礼儀正しい意見の相違ではない——実際の口論だ。人々が声を荒らげ、やがて誰かが「ちょっと一歩下がって考えられないか?」と言うような類のものだ。

私のチームの一派——賢く、経験豊富なエンジニアたち——は、RAGをより良くすることに集中すべきだと主張した。より洗練された検索。より良いチャンク分割戦略。ファインチューニングされた埋め込みモデル。漸進的なアプローチだ。「RAGは96%のケースで十分にうまく機能する」と彼らは言った。「残りの4%を最適化しよう」と。

もう一方の一派——そして私は断固としてそこにいた——は、「十分にうまく」がエンタープライズの信頼にとって死刑宣告だと主張した。その4%は、無害な誤字にランダムに散らばっているわけではない。それは、最も重要な主張のちょうど周りに集中している。名前、数字、日付、因果関係だ。間違っていると信頼性を破壊する類のものだ。

転機が訪れたのは、チームの誰かがホワイトボードにSIの時系列を書き出したときだった。2023年11月、Futurismが調査記事を発表。The Arena Groupの株価が27%下落。偽のプロフィールがひそかに削除される——ジャーナリズム倫理の教授たちが「一種の嘘」と呼んだ動きだ。元AdVon従業員が「MEL」がコンテンツを生成したと認めたとき、「サードパーティによる弁明」は崩壊する。Authentic Brands Groupがライセンスを取り消す。スタッフが解雇される。70年の歴史を持つ機関が内側からえぐり取られる。

「あれが」と私はホワイトボードを指さして言った、「スケールしたときの4%の姿だ」と。

私たちはその日、漸進的なRAGの改善についての議論をやめた。私たちは根本的に異なる何かを構築し始めた。

嘘をつけないシステムとは、実際にはどのようなものか?

薄い「LLMラッパー」アーキテクチャ(プロンプト入力→テキスト出力、検証なし)と、ニューロシンボリックアーキテクチャ(LLM+ナレッジグラフ+検証層)を並べて比較し、その構造的な違いを一目でわかるようにしたアーキテクチャの対比図。

その答えは、AI研究コミュニティがニューロシンボリックAIと呼ぶものだ——2つのまったく異なる種類の知能を融合させたハイブリッドアーキテクチャである。

それを、協働する2つの脳システムと考えてほしい。ニューラルな構成要素——LLM——は言語を担う。乱雑なテキストを解析し、ニュアンスを理解し、流暢な文章を生成することに長けている。それはあなたの直感エンジンだ。だが、それは真実とは何の関係も持たない。

シンボリックな構成要素——ナレッジグラフ——は事実を担う。それは現実を構造化された関係として保存する。述語によって結ばれたエンティティだ。Wilson AVP → is_certified_by → FIVBJane Smith → is_author_of → Article_4521。これらは確率ではない。決定論的な言明だ。ナレッジグラフに問い合わせて、そこに答えがないとき、あなたが得るのはヌルだ。創造的な即興ではない。沈黙だ。

SIのケースでは、ニューロシンボリックシステムはレビューを書くのにLLMを使っただろう——それは本当に得意なことだ——が、著者を検証するのにはナレッジグラフに頼っただろう。もしグラフが「Drew Ortiz」の検証済みエンティティを含んでいなければ、システムはその署名をブロックする。それだけだ。オントロジー——グラフを支配する構造的なルール——は、製品レビューが検証済みの著者に結びついていなければならないことを強制するだろう。偽署名スキャンダルを、アーキテクチャ上、不可能にするのだ。

ナレッジグラフは、沈黙を埋めるために著者を「発明」したりはしない。それは、知識の欠如を知識の欠如として扱う。その単一の性質が、ハルシネーションに対するファイアウォールなのだ。

その性能の差は測定可能だ。研究によれば、ナレッジグラフを生成パイプラインに統合すると、従来のRAGと比較してハルシネーションを6%削減し、トークン使用量を80%削減する。医療分野では、ニューロシンボリックシステムは臨床データの抽出において100%の精度を達成しており、単体のGPT-4の63〜95%と比較される。モデルはノイズの多い文書をかき分ける必要がない——正確で検証済みのトリプルを消費するのだ。

人工的な報道機関を構築する

リサーチャー、ライター、クリティックの各エージェントを、それぞれ異なる権限とデータフローとともに示したマルチエージェント編集パイプラインのプロセス図。リフレクションのフィードバックループも含む。

ここからが面白くなるところであり——そして、Sports Illustratedの物語が、単なる教訓話ではなく、設計仕様書になるところだ。

SIに欠けていたのは、AIの能力ではなかった。編集のアーキテクチャだった。本物の報道機関には、事実を集めるリサーチャーがいて、物語を紡ぐライターがいて、主張を検証する編集者がいて、そしてワークフローを統括する編集長がいる。AdVonの「MEL」ツールは、それらすべての役割を単一のプロンプトに畳み込んでしまった。1つのモデルがすべてをやる。チェックもない。バランスもない。説明責任もない。

私たちはその編集の連鎖全体を、マルチエージェントシステムとして再構築した。1つのAIがすべてをやるのではなく、明確な役割と——ここが重要だが——明確な権限を持つ、専門化されたエージェントだ。

リサーチャーエージェントは、ナレッジグラフと信頼できる外部APIにアクセスできる。その唯一の仕事は、検証済みの事実を集めることだ。それは文章ではなく、構造化データを生み出す。ライターエージェントは、それらの事実を受け取り、物語を起草する。決定的に重要なのは、それが外部ツールやウェブへのアクセスを持たないことだ。リサーチャーが提供したもの以上に手を伸ばせないため、新たな「事実」をハルシネーションで作り出すことができない。クリティックエージェントは、そのドラフトを敵対的にレビューする——あらゆる主張をナレッジグラフに照らして確認し、裏付けのない言明にフラグを立て、トーンと論理を評価する。

そして、リフレクションのループがある。ほとんどのラッパーアーキテクチャは、AIが生成した最初のドラフトをそのまま採用する。私たちはそうしない。私たちのクリティックはライターを促す。「あなたの前の回答を見直してください。情報源を引用しましたか?論理的な飛躍はありませんか?何かをでっち上げませんでしたか?」ライターは自己批判を生成し、その批判を用いてより良いドラフトを作り出す。研究は、この「Self-Refine(自己精緻化)」アプローチが複雑なタスクでの性能を20%以上向上させ、ハルシネーションを大幅に削減することを裏付けている。

その結果は、最終出力のあらゆる文が、ナレッジグラフのノードや特定の情報源の文書までさかのぼれるシステムだ。主張をクリックすれば、そのデータの出所が見える。それは機能ではない——それこそが全体の要点なのだ。

GraphRAGパイプラインやクリティック・アクター検証モデルを含む、このアーキテクチャの完全な技術的内訳については、私たちの詳細な研究論文をご覧ください。

「でも、これはただAIを遅くしているだけでは?」

私は、スピードという物語を売り込まれてきた投資家やエンタープライズのリーダーから、この反論を受ける。AIは速いはずだ。検証は摩擦のように聞こえる。

私の答え。The Arena Groupの株価は、スキャンダルが展開した1年の間に、その価値の80%を失った。スタッフは解雇された。ブランドライセンスは取り消された。「速さ」がどうやって彼らのお金を節約したのか、もう一度言ってみてほしい。

検証のないスピードは効率ではない。それは先送りされた大惨事だ。問いは、真実のアーキテクチャのオーバーヘッドを負担できるかどうかではない。問いは、それを持たないことの責任を負担できるかどうかだ。

情報経済学には「レモン市場」と呼ばれる概念がある——買い手が品質とがらくたを区別できないとき、彼らはすべてがらくただと仮定し、割高な価格を払うのをやめる。それが今、デジタルコンテンツに起きていることだ。Sports Illustratedのような信頼されたブランドが人物をでっち上げて露見すると、それはオンラインコンテンツすべてが潜在的に偽物であるという皮肉な仮定を裏付けてしまう。エコシステム全体が価値を失う。高品質なジャーナリズムは、コンテンツファームのスロップと見分けがつかなくなる。

LLMラッパーの上に構築するなら、あなたは砂の上に構築しているのだ。今日得るスピードは、明日失う信頼である。

これを生き延びる企業は、コンテンツを最も速く生成する企業ではない。それは、コンテンツが検証可能な保管の連鎖を持つ企業だ——情報源のデータからナレッジグラフへ、生成されたテキストへ、そして人間による承認へと至る連鎖だ。その連鎖こそが、新たな競争上の堀である。

SIの崩壊が実際に証明したこと

私はSIのジャーナリストたちについてよく考える。彼らの組合が述べたように、「この由緒ある出版物の水準を守るために共に闘った」人々のことを。彼らはAIに置き換えられたのではない。彼らはアーキテクチャの決定によって犠牲にされたのだ——経営陣が、正しく導入されれば彼らの仕事を消し去るのではなく増幅しえた技術の、可能な限り最も安価な実装を選んだことによって。

それが、人々がこれを「AI対人間」と枠づけるときに見落とす悲劇だ。それは決してAI対人間ではなかった。それは、怠慢なAIアーキテクチャ対、制度への信頼だった。AIが失敗したのではない。アーキテクチャが失敗したのだ。ガバナンスが失敗したのだ。検証を任意のものとして扱うという決定が失敗したのだ。

Sports Illustratedのスキャンダルは、私が疑ってはいたが、それが展開するのを見るまで明快に言葉にできなかったことを証明した。AIの時代におけるエンタープライズの価値は、そのシステムが生み出すものを検証する能力に正比例する。量ではない。速さでもない。検証可能性なのだ。

これを読んでいるすべてのエンタープライズのリーダーは、今まさにAIを導入しているか、あるいは導入を計画している。問いは、それを使うかどうかではない——その船はもう出航した。問いは、あなたのアーキテクチャが真実を構造的な制約として扱うか、それとも後付けとして扱うかだ。あなたのシステムが、なぜそれが生成したものを生成したのか、その理由を説明できるかどうか。誰かが「これを誰が書いたのか、そしてそれは真実か?」と尋ねたとき、「まあ、モデルがそう言ったので」ではない答えを持っているかどうかだ。

Drew Ortizは実在しなかった。だが、彼が引き起こした損害は非常に現実的だった。次のDrew Ortizは今まさに、どこかで、それを止める仕組みを持たないラッパーアーキテクチャによって生成されている。唯一の問いは、それがあなたのプラットフォーム上で生成されているのかどうかだ。

Related Research

Also Published On