一幅編輯風格插圖,描繪一家老牌媒體機構因 AI 生成的假身分而崩解——一本雜誌封面正逐漸溶解成一個個捏造出來的作者檔案。
Artificial IntelligenceTechnologyMachine Learning

《Sports Illustrated》崩塌的真相:問題從來不是 AI,而是缺了一套真相架構

Ashutosh SinghalAshutosh Singhal2026年2月7日14 min

我還記得自己停止閱讀、開始來回踱步的那個確切時刻。

那是二〇二三年十一月下旬,Futurism 剛剛發表了它對《Sports Illustrated》(運動畫刊)的調查報導。細節荒謬到幾乎不像是真的:一家擁有七十年歷史的媒體機構,一直在刊登由根本不存在的人所撰寫的產品評測。「Drew Ortiz」——一個被描述為熱愛戶外活動的傢伙——他的大頭照是從一個販售 AI 生成臉孔的市集買來的。「Sora Tanaka」——一位所謂的健身大師——則有一段捏造的背景故事,講述她對美食美酒的熱愛。歸在這些幽靈名下的內容包含這樣的「金句」:「排球是世界上最受歡迎的運動之一,而這是有充分理由的」——一句空洞到幾乎能聽見回音的話。

我踱步並不是因為震驚。我踱步,是因為我已經連續好幾個月一直在向企業客戶示警,警告的正是這種失效模式。並不是那種抽象的、《魔鬼終結者》式的 AI 危險——而是一種非常具體、非常可預測的架構性崩潰。《Sports Illustrated》不是因為使用了 AI 而東窗事發。它東窗事發,是因為它使用 AI 時,底下沒有一套真相系統。而這個區別的重要性,遠超過大多數人所意識到的。

餘波來得又快又猛。The Arena Group 的股價在單日內下跌了 27%。Authentic Brands Group 撤銷了 SI 的出版授權。SI 工會通報,可能全體員工都遭到了裁員。一個曾報導過穆罕默德·阿里、冰上奇蹟以及數十年美國體育的新聞編輯室被掏空了——並不是因為 AI 取代了記者,而是因為管理層選擇了最廉價的 AI 架構,還把它稱為一種策略。

那種架構有個名字。我們稱之為「LLM 包裝殼」(LLM Wrapper)。而在花費數年打造替代方案之後,我深信它是當今對企業信任最大的單一威脅。

「LLM 包裝殼」究竟是什麼——它為什麼會崩壞?

當我向非技術背景的高階主管解釋這一點時,我會用一個比喻。想像你雇用了世界上最能言善道的演講者——一個能就任何主題、以任何風格、對任何聽眾侃侃而談的人。很了不起,對吧?現在,想像這位演講者沒有記憶、沒有事實查核部門,並且病態地無法說出「我不知道」。取而代之的是,當他遇到知識上的空缺時,他就只是……編造點什麼。信心滿滿。行雲流水。用完美的文筆。

那就是一個沒有事實根基(grounding)的大型語言模型。它是一具機率性的推理引擎——它根據訓練資料中的模式,來預測下一個最有可能出現的字詞。它並不「知道」Drew Ortiz 不存在。它知道的是,一篇產品評測的模式通常包含一個作者名字和簡介,於是它就用統計上看似合理的細節去填滿那個範本。對這個模型而言,「Drew Ortiz」並不是謊言。它是一次成功的模式補全。

所謂 LLM 包裝殼,就是當一家公司把那位能言善道、愛編故事的演講者拉上舞台,卻只給他一支麥克風和一份關鍵字清單時,你所得到的東西。沒有小抄。側幕裡沒有編輯。沒有人查核從他口中說出的東西是否屬實。模型周邊的軟體層很薄——它傳入一段提示(prompt),拿回一段文字,然後就發布出去。就這樣。

AdVon Commerce,也就是 SI 假內容背後的第三方廠商,運作方式正是如此。他們有一個名為「MEL」的內部工具——本質上就是一個包裝殼,它吸入產品關鍵字,將其送進一個基礎模型,然後吐出結構化的評測。那些「人類寫手」拿著微薄的報酬,把輸出的內容複製貼上到內容管理系統裡。他們沒有在編輯。他們沒有在查核事實。他們是人肉中介軟體。

當 AI 是引擎、而人類僅僅是潤滑劑時,品質崩壞就不是一種風險——而是一份時程表。

我意識到「夠好」的 AI 並不夠好的那一夜

有那麼一夜——我想大概是二〇二四年初,SI 事件爆發後的幾週——當時我和我的團隊正在對一個為客戶打造的內容生成流程進行壓力測試。我們架設了一套標準的檢索增強生成(RAG)系統,就是那種被認為是部署 LLM 的「負責任」做法的系統。你檢索相關文件,把它們注入模型的脈絡視窗,然後告訴它只能使用那些來源。

我們跑了一批 500 則產品描述。結果看起來很乾淨。流暢。專業。我的首席工程師已經準備要收工了。

我說:「再把幻覺檢查跑一次。」

他嘆了口氣。但他還是跑了。

500 則描述中,有十八則包含了任何來源文件裡都沒有的說法。那是 3.6% 的錯誤率——正好落在研究顯示的最先進模型的範圍內,這些模型視領域不同會產生 1.5% 到 6.4% 的幻覺。在像法律這樣的專業領域裡,情況甚至更糟。

十八則聽起來不算多。但把它放大來看。如果你是一家一年推出一萬篇文章的出版商——而內容農場絕對是以這種規模運作的——4% 的幻覺率就意味著有 400 篇文章包含捏造的說法。四百起潛在的訴訟、聲譽危機,或摧毀信任的時刻。我們已經看到有律師因為引用了 ChatGPT 憑空捏造、根本不存在的法院判例而遭到懲戒。這道數學題並不站在你這一邊。

那一夜,我告訴我的團隊:「我們不會出貨任何僅僅仰賴機率運作的東西。我們需要一套系統,它對待未經核實的說法,要像資料庫對待空值(null)那樣——把它視為知識的缺席,而不是即興發揮的邀請。」

為什麼你不能單靠更好的提示詞來修好幻覺問題?

人們不斷地這樣問我。「你不能就叫模型更謹慎一點嗎?加一段系統提示,寫上『不要瞎編東西』?」

不行。而原因就在於,那個問題暴露了對這項技術的一種根本性誤解。

幻覺不是一個你可以用指令去修補的臭蟲。它是這些模型運作方式的一種結構性性質。一個 LLM 儲存的是從訓練資料中推導出來的、詞元(token)——也就是字詞與子詞——之間的統計關係。它沒有一個內部的事實資料庫。它沒有「真」對「假」的概念。它有的是「可能」對「不可能」的概念。當一個模式的可能補全需要一個模型並不具備的事實時,它就會生成一個符合該模式的事實。叫它「不要產生幻覺」,就像叫水「不要濕」一樣。

還有脈絡視窗的問題。即使是擁有龐大脈絡視窗的現代模型,當你試圖把整個企業知識庫餵給它們時,也會撞上一堵磚牆。你無法把公司完整的編輯準則、產品資料庫、作者名錄和品牌政策全都貼進每一段提示裡。而模型的內部知識——靜態的、過時的、無法掌控的——會去填補那些空缺。

接著還有那個幾乎沒有人——那些「就用 GPT 就好」的擁護者——會談及的安全維度。提示注入(prompt injection)攻擊可以操縱輸入來繞過安全過濾器。資料投毒(data poisoning)可以汙染 RAG 系統所檢索的網路來源。一種名為「slopsquatting」的新型威脅利用了 LLM 會產生軟體套件名稱幻覺這一事實——攻擊者註冊那些假名稱,然後把惡意軟體投遞給那些複製貼上程式碼建議的開發者。一個薄薄包裝殼的攻擊面極其龐大。

我曾深入撰文探討過這些架構性的失效模式,收錄在我們研究的互動版本裡,但核心觀點很簡單:你無法靠提示工程一路抵達真相。你需要的是一套截然不同的架構。

那場改變了我們建構方式的爭論

關於這件事,我們在 Veriprajna 內部有過一場真正的爭執。不是那種禮貌性的意見分歧——而是一場貨真價實的爭吵,那種人們會提高嗓門、最後總會有人說「我們能不能退一步、暫停一下?」的爭吵。

我團隊裡的一個陣營——都是聰明人、經驗豐富的工程師——主張我們應該專注於把 RAG 做得更好。更精密的檢索。更好的分塊(chunking)策略。經過微調的嵌入(embedding)模型。走漸進式的路線。他們說:「RAG 在 96% 的情況下都運作得夠好。我們把最後那 4% 最佳化就好。」

另一個陣營——而我堅定地站在這一邊——則主張「夠好」對企業信任而言是一紙死刑判決。那 4% 並不是隨機地散落在無傷大雅的錯字上。它恰恰群聚在最要緊的那些說法周圍:名字、數字、日期、因果關係。就是那些一旦出錯,就會摧毀公信力的東西。

轉捩點出現在團隊裡有人把 SI 的時間軸畫到了白板上的時候。二〇二三年十一月:Futurism 發表調查報導。The Arena Group 的股價下跌 27%。假的個人檔案被悄悄刪除——這一舉動被新聞倫理學教授稱為「一種說謊的形式」。前 AdVon 員工證實內容是由「MEL」生成的之後,「第三方責任」的辯護就崩潰了。Authentic Brands Group 撤銷了授權。員工遭到裁員。一家七十年歷史的機構被掏空。

我指著白板說:「那個,就是 4% 在規模化之後的樣子。」

那一天,我們不再爭論漸進式的 RAG 改良。我們開始建構某種根本上不同的東西。

一套「無法說謊」的系統,實際上長什麼樣子?

一張並排的架構對比圖,展示了薄薄的「LLM 包裝殼」架構(提示進 → 文字出,沒有任何核實)對比神經符號(Neuro-Symbolic)架構(LLM + 知識圖譜 + 核實層),讓兩者的結構性差異一目了然。

答案就是 AI 研究界所稱的神經符號 AI(Neuro-Symbolic AI)——一種融合了兩種截然不同智慧型態的混合式架構。

把它想成兩套腦部系統協同運作。神經(neural)組件——也就是 LLM——負責處理語言。它極擅長剖析雜亂的文字、理解細微差異、生成流暢的文筆。它是你的直覺引擎。但它與真相毫無關係。

符號(symbolic)組件——一個知識圖譜(Knowledge Graph)——負責處理事實。它把現實儲存為結構化的關係:由謂詞(predicate)連接起來的實體。Wilson AVP → is_certified_by → FIVBJane Smith → is_author_of → Article_4521。這些都不是機率。它們是確定性的斷言。當你查詢一個知識圖譜、而答案不在其中時,你得到的是 null(空值)。不是一段創意的即興發揮。而是沉默。

在 SI 這個案例中,一套神經符號系統會用 LLM 來撰寫評測——它在這方面確實很在行——但仰賴知識圖譜來驗證作者。如果圖譜裡沒有一個對應「Drew Ortiz」的、經過驗證的實體,系統就會封鎖那條署名。就這麼簡單。本體論(ontology)——也就是管轄圖譜的那套結構性規則——會強制規定一篇產品評測必須連結到一位經過驗證的作者。從而讓假署名醜聞在架構上成為不可能。

一個知識圖譜不會為了填補沉默而「捏造」一位作者。它把知識的缺席視為知識的缺席。單單這一項性質,就是一道抵禦幻覺的防火牆。

這種效能上的差異是可以被量測的。研究顯示,將知識圖譜整合進生成流程,相較於傳統的 RAG,能將幻覺減少 6%,並將詞元用量削減 80%。在醫療領域,神經符號系統在擷取臨床資料方面已達到 100% 的精確率,相較於單獨使用 GPT-4 的 63–95%。模型不需要在雜訊繁多的文件裡涉水前行——它消化的是精確、經過驗證的三元組(triple)。

打造那間人造新聞編輯室

一張流程圖,展示了多代理(multi-agent)編輯流程——研究員(Researcher)、寫手(Writer)和評論者(Critic)代理,各自擁有不同的權限與資料流,其中還包含反思(Reflection)回饋迴路。

精彩的部分就在這裡——也就是《Sports Illustrated》這個故事不僅是一則警世寓言、更成為一份設計規格的地方。

SI 所欠缺的並不是 AI 能力。而是編輯架構。一間真正的新聞編輯室有蒐集事實的研究員、雕琢敘事的寫手、核實說法的編輯,以及監督整個工作流程的執行主編。AdVon 的「MEL」工具把所有這些角色全都塌縮進了單一一段提示裡。一個模型包辦一切。沒有檢查。沒有制衡。沒有問責。

我們把那整條編輯鏈重建成了一套多代理系統。不是一個 AI 包辦一切,而是各自擁有不同角色、以及——這一點至關重要——不同權限的專門化代理。

研究員代理(Researcher Agent)擁有存取知識圖譜與可信外部 API 的權限。它唯一的工作就是蒐集經過驗證的事實。它產出的是結構化資料,而非文章。寫手代理(Writer Agent)接手那些事實,然後草擬敘事。關鍵在於,它無權存取外部工具或網路。它無法產生新「事實」的幻覺,因為它無法觸及研究員所提供內容以外的東西。評論者代理(Critic Agent)以對抗性的方式審閱草稿——對照知識圖譜檢查每一項說法、標記出無憑無據的斷言、評估語氣與邏輯。

接著還有那個反思(Reflection)迴路。大多數包裝殼架構會直接採用 AI 產出的第一版草稿。我們不這麼做。我們的評論者會對寫手發出提示:「檢視你先前的答覆。你有引用來源嗎?有沒有邏輯上的漏洞?你有沒有捏造任何東西?」寫手會生成一份自我批判,然後運用那份批判去產出一份更好的草稿。研究證實,這種「自我精煉」(Self-Refine)的做法在複雜任務上能將效能提升逾 20%,並顯著減少幻覺。

其成果是一套系統,其中最終輸出的每一個句子,都能被追溯回知識圖譜中的一個節點,或某一份特定的來源文件。點一下某項說法,就能看到它的資料來源。那不是一個功能——那就是全部的重點。

關於這套架構的完整技術剖析,包括 GraphRAG 流程以及「評論者—行動者」(Critic-Actor)核實模型,請參閱我們詳盡的研究論文

「可是這不就只是在拖慢 AI 嗎?」

我常從那些被「速度」這套敘事說服了的投資人和企業領袖那裡聽到這種反對意見。AI 理應要快。核實聽起來就像是阻力。

我的回答是:在醜聞延燒的那一整年裡,The Arena Group 的股價蒸發了八成的市值。員工遭到解雇。品牌授權被撤銷。你再跟我說一次,「快」是怎麼幫他們省下錢的。

沒有核實的速度並不是效率。它是一場被延後的災難。問題不在於你是否負擔得起一套真相架構的額外開銷。問題在於,你是否負擔得起沒有這套架構所帶來的責任。

資訊經濟學裡有一個概念叫做「檸檬市場」(lemons market)——當買家無法區分優質品與劣質品時,他們就會假設一切都是劣質品,並停止支付高價。而那正是此刻數位內容正在發生的事。當一個像《Sports Illustrated》這樣受信任的品牌被抓到捏造人物時,它就印證了那個犬儒式的假設:所有線上內容都可能是假的。整個生態系都在貶值。高品質的新聞報導變得與內容農場的廢料難以區分。

如果你建構在 LLM 包裝殼之上,你就是在沙地上蓋房子。你今天所贏得的速度,就是你明天所失去的信任。

那些將在這場浪潮中存活下來的企業,並不是那些內容生成得最快的。而是那些其內容承載著一條可驗證的保管鏈(chain of custody)的企業——從來源資料,到知識圖譜,到生成的文字,再到人工核可。那條鏈,就是新的競爭護城河。

SI 的崩塌,究竟證明了什麼

我經常想起那些 SI 的記者。就如同他們的工會所言,那些「並肩奮鬥、只為維持這份傳奇刊物之標準」的人。他們並不是被 AI 取代的。他們是被一項架構決策所犧牲的——管理層選擇了對某項技術最廉價的一種實作方式,而那項技術若被正確地部署,本可以放大他們的工作,而不是抹除他們的飯碗。

當人們把這件事框架為「AI 對決人類」時,那正是他們所忽略的悲劇。這從來就不是 AI 對決人類。這是懶惰的 AI 架構對決機構的信任。並不是 AI 失敗了。是架構失敗了。是治理失敗了。是那個把核實當成可有可無的決策失敗了。

《Sports Illustrated》醜聞證明了某件我早有懷疑、卻直到親眼看著它上演才得以清晰言明的事:在 AI 時代,一家企業的價值,與它核實自身系統所產出之物的能力,成正比。不是產量。不是速度。而是可驗證性。

每一位讀到這篇文章的企業領袖,此刻都正在部署 AI,或正打算這麼做。問題不在於要不要用它——那艘船早已開走。問題在於,你的架構是把真相當成一項結構性的約束,還是一個事後才想到的補充。在於你的系統能否解釋它為什麼生成了它所生成的東西。在於當有人問「這是誰寫的,它是真的嗎?」時,你是否有一個不是「呃,模型是這麼說的」的答案。

Drew Ortiz 並不存在。但他所造成的傷害卻是千真萬確的。下一個 Drew Ortiz,此時此刻正在某個地方,被一個沒有任何機制能加以阻止的包裝殼架構所生成著。唯一的問題是,它是否正在你的平台上被生成。

Related Research

Also Published On