俯瞰一張陷入混亂的航空公司航線網路圖,串聯的航班取消沿著相連的美國城市擴散開來,傳達物流網路脆弱性的主題。
Artificial IntelligenceLogisticsReinforcement Learning

西南航空連自己的機師都追蹤不到——那一刻我明白,聊天機器人救不了物流

Ashutosh SinghalAshutosh Singhal2026年2月15日15 min

改變我思考 AI 方式的那通電話,不是來自客戶,也不是來自投資人。它來自一位朋友——一名飛行員——他在 2022 年聖誕節睡在丹佛國際機場的地板上。

他被困住並不是因為天氣。暴風雪已經過去了。他被困住,是因為西南航空(Southwest Airlines)根本搞不清楚他人在哪裡。這家航空公司的機組排班系統——一個名為 SkySolver 的老舊優化器——正根據已經過時數小時的機組位置來計算恢復方案。它為一家幽靈航空公司生成排班表。我朋友撥打排班熱線,等了八個小時。等到有人接聽時,他們剛算出來的排班表又已經錯了。

那一週,西南航空取消了超過 16,900 個航班。兩百萬名旅客被困。這家航空公司損失超過 10 億美元。而最令我揮之不去的是這一點:其他每一家美國主要航空公司都面臨同樣的暴風雪、同樣結冰的停機坪、同樣的人手短缺。聯合航空、達美航空、美國航空——它們全都在 48 小時內恢復了。而西南航空卻整整混亂了一週。

我不斷回到同一個問題:為什麼一家航空公司的軟體會徹底崩潰,而其他家卻能屈而不折、迅速恢復?我發現,答案與天氣毫無關係,而完全在於過去三十年來我們一直以何種方式打造複雜營運的運算大腦。正是這個領悟促使我創辦了 VeriPrajna——並撰寫了這篇研究論文,其中完整闡述了全部的技術論證。

但簡短的版本是這樣的:我們一直在為效率而優化物流,而這個世界已不再獎勵效率。我們一直在打造能為已知問題找到最便宜答案的系統,而我們真正需要的,是能為未知問題找到可存活答案的系統。

殺死聖誕節的拓撲結構

並列比較圖,展示輻軸式(hub-and-spoke)與點對點(point-to-point)網路拓撲,說明干擾在兩者之間如何以不同方式串聯擴散——在輻軸式中被控制住,在點對點中則無法控制。

要理解西南航空為何崩潰,你需要了解一個來自圖論的概念——而我保證它比聽起來有趣得多。

達美、聯合和美國航空經營的是輻軸式網路。航班從亞特蘭大或紐華克等中央樞紐向外放射。如果暴風雪襲擊東北部,輻軸式航空公司可以「築起防火牆」隔離損害——取消一個上午所有飛往紐華克的航班,重置該子圖,然後恢復。機組與飛機頻繁地循環回到樞紐,形成天然的恢復節點。

西南航空開創了一種不同的模式:點對點。一架飛機和它的機組飛一條線性鏈——巴爾的摩到丹佛到聖地牙哥到鳳凰城到沙加緬度。這在經濟上非常出色。你能從每一架飛機榨取更多的飛行時數。但在數學上呢?它是一座紙牌屋。第一段航程的延誤不僅影響回程——它會沿著整條鏈串聯往下擴散。原本要飛聖地牙哥到鳳凰城的機組被困在丹佛。在聖地牙哥等候他們的那架飛機也被擱置。

用圖論的術語來說,點對點網路中依賴關係圖的直徑遠遠大於輻軸式網路。單一干擾的波及範圍是無法控制的。

我還記得我第一次在辦公室的白板上把這一切畫出來的那個晚上。我和我的團隊一直在爭論,西南航空的失敗究竟是軟體問題還是網路設計問題。我的一位工程師對我堅持認為兩者皆是感到沮喪,於是調出了實際的航班資料,開始畫出依賴鏈。我們看著串聯效應在地圖上展開。巴爾的摩的一次延誤波及丹佛,這破壞了通往聖地牙哥的連接,這困住了一組原本應該飛鳳凰城的機組,這……

「這不是一條鏈,」他說。「這是一道斷裂。」

他說得對。而這道斷裂,對本應修復它的軟體來說是隱形的。

SkySolver 為何當機?

SkySolver 建立在與大多數物流優化相同的數學基礎之上:混合整數線性規劃(Mixed-Integer Linear Programming)與一種名為欄位生成(Column Generation)的技術。這些是作業研究(Operations Research)的主力工具,而作業研究這個領域自 1950 年代以來就主宰著我們如何在世界各地搬運原子。

以下用白話解釋它的運作方式:系統擷取一個世界的快照——每位機組成員在哪裡、每架飛機的狀態如何——凍結時間,然後計算出涵蓋所有航班在數學上最便宜的方式。對一家每日 4,000 個航班的大型航空公司而言,機組與航班的可能組合數量實際上是無限的。欄位生成透過反覆生成「有前景的」組合並縮小搜尋範圍來處理這一點。

它很優雅。它很強大。而它的 DNA 中埋著一個致命的假設:當它思考時,世界靜止不動。

在正常營運期間,30 到 60 分鐘的求解器週期是沒問題的。但在崩潰期間,西南航空網路的狀態每隔幾分鐘就在變化。機組無法回報他們的位置,因為電話線路被打爆了。餵給 SkySolver 的資料已經過時數小時。系統正在優化一個已不復存在的世界。

當干擾的速率超過資訊的速度時,優化不會優雅地退化。它會崩潰。

這就是我所稱的優化—執行落差——求解器計算速度與現實移動速度之間致命的錯配。而這並非航空業獨有。我在港口物流、鐵路調度和製造業供應鏈中看到過同樣的失敗模式。數學是一樣的。脆弱性也是一樣的。

我不再相信聊天機器人能處理物流的那一刻

在西南航空危機大約六個月後,我坐在一場會議中,一位投資人滿懷信心地對我說:「就用 GPT 吧。用排班資料微調它。問題解決。」

我試圖解釋為什麼那行不通。他打斷我:「但它會推理啊。我看過它解數學題。」

那場對話讓我一直難以言明的某件事清晰起來。整個產業都在犯一個範疇錯誤——把大型語言模型(Large Language Models)的語言流暢度,和管理複雜系統所需的營運推理混為一談。廠商把一堆「AI 副駕駛」湧入市場,在老舊求解器上套一個聊天介面。一位調度員問:「我們要怎麼恢復丹佛的排班?」而 LLM 把這句話翻譯成對底層那個一樣壞掉的優化器的一次 API 呼叫。

這是給一台卡死的引擎重新上了一層漆。

根本問題在於:LLM 是設計來預測序列中下一個 token 的機率引擎。它們模仿推理的形式,卻不具備世界模型。用認知科學的術語來說,它們是龐大的系統一(System 1)引擎——快速、直覺的模式比對。物流優化是一項系統二(System 2)任務——緩慢、審慎、逐步驗證各項約束。

而約束問題正是危險之所在。在創意寫作中,99% 的準確率非常出色。在機組排班中,99% 的準確率是違法的。如果 LLM 生成的排班表把一位只休息了 7 小時 59 分鐘的飛行員派去執行一趟需要休息 8 小時的航班,整份排班表就無效了。LLM 天生無法處理可行性約束那種嚴格的二元性質。它們把語言的連貫性置於邏輯的正確性之上。

一個能解釋排班表的聊天機器人,和一個能修復排班表的代理,並不是同一回事。

在旅行推銷員問題(Traveling Salesman Problem)等組合問題上的基準測試,在規模層面證實了這一點。隨著節點數量增加,LLM 會「造訪」某些城市兩次、完全跳過另一些,並在長序列中丟失狀態的追蹤。它們無法模擬分支的未來,也無法回溯。它們對蝴蝶效應視而不見——也就是現在一個小小的排班決定,可能在三天後釀成一場災難的現實。

真正有效的做法:教會 AI 用圖來思考

所以如果老舊求解器太慢,而 LLM 太不可靠,你該打造什麼?

這正是我和我的團隊花了數年時間回答的問題,而我們最終得出的架構建立在圖強化學習(Graph Reinforcement Learning)之上——它融合了圖神經網路(Graph Neural Networks,用來理解網路拓撲)與強化學習(Reinforcement Learning,用來學習動態決策策略)。我們從計算一份排班表,轉向學習如何排班。

解開這一切的洞見簡單得令人意外:物流網路不是試算表。它們是圖。機場是節點。航班是邊。倉庫是節點。卡車是邊。傳統的機器學習架構——那種為圖像或文字設計的架構——難以處理這種關係結構。圖神經網路正是為此而生的原生架構。

我們使用圖注意力網路(Graph Attention Networks)來編碼整個物流網路的狀態。每個實體——飛行員、飛機、機場——都成為一個節點,帶著一個高維嵌入,同時捕捉靜態屬性(機型、機組資格)與動態狀態(當前延誤、維修狀態、累積的疲勞)。它們之間的連接則承載著關於飛行時長、天氣風險與機組派遣的資訊。

神奇之處在於所謂的訊息傳遞(message passing)。當一場暴風雪封閉丹佛時,GNN 會更新丹佛的嵌入。那個更新沿著每一條相連的邊流動——每一趟入境航班、每一次機組派遣。一位在巴爾的摩準備飛往丹佛的飛行員,會在其嵌入中收到一個「風險訊號」,早在他們出發之前。系統看見了連接性。它理解波及範圍。這種拓撲層面的感知,在老舊系統所使用的扁平、表格式資料表示中是不可能實現的。

在這一層圖感知之上,我們運行強化學習代理。一個 RL 代理觀察狀態,採取一個行動(調換機組、取消航班、延後起飛、把一組機組空乘調機到新位置),並收到一個獎勵。歷經數百萬次訓練迭代,它學會一套能最大化長期成果的策略。

那個詞——長期——就是一切。啟發式規則可能會說:「別取消這個航班,它會損失營收。」而我們的 RL 代理學會的是:「如果我不取消這個航班,機組就會被困在丹佛,我明天就會損失十個航班。現在就取消它。」它學會了為系統的存活而進行的策略性犧牲

你要如何為尚未發生的災難訓練一個 AI?

你顯然不能在一家運營中的航空公司上訓練強化學習代理。在真實世界中的試錯要花費數百萬,還會製造安全風險。這就是數位孿生(Digital Twin)登場之處——而我指的並不是一個帶著機場 3D 渲染的儀表板。

我們的數位孿生是狀態轉移引擎。我們為每一架飛機建模,帶著各機尾號特定的維修週期、每一個登機門、每一位帶著各自疲勞計數器與合約狀態的機組成員。我們把規則手冊數位化——FAA Part 117、工會合約、維修手冊。每一次狀態轉移都會對照這些規則進行檢查。

然後我們注入混亂。

我們使用隨機生成器,在一週內模擬 10,000 年的營運。我們製造超級風暴、大規模的機械停飛、勞工罷工。我們讓代理從輕鬆的日子開始——晴朗的天氣、寬鬆的排班——並逐步加大難度,引入會讓西南航空崩潰看起來只像輕微不便的串聯故障。

我還記得我們第一次把 2022 年 12 月的西南航空危機跑進我們的模擬器時。我們打造了一個老舊求解器的代理版來作為基準比對。那個老舊求解器所做的正如 SkySolver 所做的——它被資料延遲卡住、為錯誤的狀態進行優化,並產生了同樣一團被困機組交纏成的亂麻。恢復時間:七個模擬天。

我們的 GRL 代理做了一件我們誰都沒料到的事。它偵測到點對點斷裂模式正在丹佛浮現,早在完整串聯崩潰的數小時之前。接著它執行了我們現在稱之為先發制人防火牆策略的做法——它提早取消了 20% 飛往丹佛的航班,把干擾困在當地,並把機組調機到鳳凰城,建立一個次要的營運基地。

東岸網路維持 95% 的運作。總取消量下降了 66%。這場崩潰被控制成一次區域性的干擾。

我的工程師——就是那位在白板上畫出斷裂的同一個人——只是盯著螢幕。「它犧牲了丹佛來拯救整個網路,」他說。「沒有任何人類調度員會有膽量在 12 月 22 日早上 6 點做出這種決定。」

他說得對。而這正是重點。這個代理在模擬中「經歷」過數千次危機。它探索過老舊求解器會崩潰的狀態空間邊緣,並學會了存活是什麼樣子。想了解這套架構的完整技術剖析——GAT 嵌入、PPO 訓練迴圈、行動遮罩(action masking)——我已經發表了完整的研究。

那黑箱問題怎麼辦?

架構圖,展示所謂的三層「三明治架構」,其中神經 GRL 代理提出行動、符號約束引擎遮罩掉非法的行動,只有經過驗證的行動才能抵達執行——說明安全保證是如何被強制執行的。

人們總是在這裡提出反駁,而他們理應如此。「你是在告訴我,要把一家航空公司營運的控制權交給一個神經網路?我怎麼知道它不會憑空捏造出一份非法的排班表?」

這是安全關鍵型 AI 中最重要的反對意見,任何對它嗤之以鼻的人都不夠嚴肅。以下是我們如何解決它的。

我們從不讓神經網路直接輸出最終決定。我們使用我們所稱的三明治架構——靈感來自用於強化學習引導整數規劃的 NICE 框架。神經層(我們的 GRL 代理)分析複雜、含噪的狀態,並提出一個涵蓋各項行動的機率分布。接著一個確定性的符號層——一個把營運中每一條硬性規則都編碼進去的約束引擎——套用一個遮罩。如果神經網路建議了一個違反法規的行動(飛行員超過執勤時數、飛機帶著未結案的維修項目起飛),符號層就把那個行動的機率設為零。

系統無法執行非法的行動。不是「大概不會」。是無法。

這給了我們某種了不起的東西:學習型 AI 策略的最優性,加上形式邏輯的安全保證。而它也從另一個方向解決了計算問題。老舊求解器不用去搜尋十億種可能性,神經網路把這棵樹修剪到最有前景的十根分支。求解器只需驗證並微調那寥寥幾個選項。運算時間從數小時降到數秒。

這不只關乎航空業

西南航空的崩潰是最戲劇性的例子,但它所暴露的脆弱性是普世的。我們正在把同一套 GRL + 數位孿生架構調整應用於海運港口與鐵路網路。

在港口,一艘延誤的船隻錯過它的泊位時段,起重機被重新指派,而排定要提領貨櫃的卡車則要排上數小時的隊。我們部署代理式 AI,讓一個「錨地代理」與一個「碼頭代理」即時協商,隨著干擾展開,平滑登機門壅塞的高峰與低谷。

在鐵路,單軌瓶頸意味著一個錯誤的「會讓」決定就能讓數百英里外的列車動彈不得,我們的 GRL 代理在延誤縮減方面比人類調度員與啟發式規則高出 15-20%。它們會做出反直覺的動作——提早扣住一列貨運列車,好為 50 英里上游的一列快車清出一條路——這是任何以規則為基礎的系統都不會考慮的。

模式永遠是一樣的:一個複雜的網路、硬性的約束、串聯的干擾,以及以分鐘計的決策視窗。老舊求解器跟不上。LLM 無法對它進行推理。圖強化學習可以。

真正的投資報酬率不在於效率——而在於存活

西南航空為期一週的崩潰花費了 12 億美元。這單一事件抹去了經營一個精實點對點網路多年來累積的效率收益。一條被堵塞的蘇伊士運河,每天讓全球經濟損失數十億。尾部風險——那種災難性的、「十年一遇」卻如今似乎年年發生的事件——已不再是風險登記簿裡的一個註腳。在十年的時間跨度上,它是主導性的成本驅動因素。

我們的代理在正常營運期間,透過更聰明的緩衝管理與減少的機組加班,帶來 2-5% 的營運成本節省。那只是入場門檻。真正的價值在於沒有發生的事:被控制成一次區域性干擾的崩潰、在抵達東岸之前就被築起防火牆隔離的串聯效應、那個從未成真的十億美元之週。

效率是一個屬於穩定世界的策略。我們已不再生活在一個穩定的世界裡。

靜態數學的時代結束了

我以一位睡在丹佛國際機場地板上的飛行員作為這篇文章的開場。他仍在為西南航空飛行。他們自那以後在升級系統上投入了大量資金。但更深層的問題——整個產業對那些為可預測干擾世界而打造的確定性求解器的依賴——在很大程度上仍未得到解決。

湧向生成式 AI(Generative AI)、把它當作物流救星的這股熱潮,比老舊系統更令我擔憂。至少那些操作 SkySolver 的人知道它的侷限。而那些在壞掉的優化器上部署 LLM 外殼的人往往並不知道。他們看到流暢的文字,就誤以為那是營運推理。他們看到一個能解釋排班表的聊天機器人,就假定它能修復排班表。

打造 VeriPrajna 教會了我,這項工作最困難的部分不是數學——而是論證。要說服一個產業,它們信賴了數十年的工具其實有一個結構性的天花板。要說服他們,那個閃亮的新東西(生成式 AI)瞄準的是錯誤的問題。要說服他們,真正的解方需要重新把物流構想為一張圖、把干擾構想為一個學習訊號、把韌性構想為某種你去訓練得來——而非某種你期盼獲得的東西。

物流的未來不屬於那些為已知世界找到最便宜方案的系統。它屬於那些為未知世界找到可存活方案的系統。這不是一個「或許」。這是我們正在打造的東西。

Related Research

Also Published On