一张俯瞰视角的航空网络地图,显示航班取消如何沿着相互连接的美国城市级联蔓延,传达物流网络脆弱性这一主题。
Artificial IntelligenceLogisticsReinforcement Learning

西南航空连自己飞行员在哪都弄丢了——那一刻我明白:聊天机器人救不了物流

Ashutosh SinghalAshutosh Singhal2026年2月15日15 min

那通改变我对AI看法的电话,不是来自客户,也不是来自投资人。它来自一位朋友——一名飞行员——他在2022年圣诞节睡在丹佛国际机场的地板上。

他被困住并不是因为天气。风暴早已过去。他被困住,是因为西南航空(Southwest Airlines)实实在在地弄丢了他所在的位置。这家航空公司的机组排班系统——一个名为SkySolver的老旧优化器——正在依据几小时前就已过时的机组位置来计算恢复方案。它为一家根本不存在的幽灵航空公司生成排班表。我的朋友拨打排班热线,等待接通花了八个小时。等有人接起电话时,他们刚刚算好的排班表又已经错了。

那一周,西南航空取消了超过16,900个航班。两百万名旅客滞留。这家航空公司损失超过10亿美元。而真正令我难以释怀的是这一点:其他每一家美国主要航空公司都遭遇了同样的风暴、同样冰封的停机坪、同样的人手短缺。联合航空、达美航空、美国航空——它们都在48小时内恢复了运营。而西南航空却整整失控了一周。

我反复回到同一个问题:为什么其他航空公司的软件在冲击下弯曲又恢复,唯独一家航空公司的软件彻底崩溃?我发现,答案与天气毫无关系,而完全在于过去三十年里我们一直在如何构建复杂运营的计算大脑。正是这一领悟促使我创建了VeriPrajna——并撰写了这篇研究论文,其中完整阐述了这套技术论证。

但简而言之就是:我们一直在为效率而优化物流,而这个世界已不再奖励效率。我们一直在构建那种为一个已知问题寻找最廉价答案的系统,而我们真正需要的,是为一个未知问题寻找可存活答案的系统。

那个葬送了圣诞节的拓扑结构

一张并排对比图,展示轮辐式(hub-and-spoke)网络拓扑与点对点(point-to-point)网络拓扑,说明扰动在两者中如何以不同方式级联传播——在轮辐式中被遏制,在点对点中不受遏制。

要理解西南航空为何崩溃,你需要理解图论中的一个概念——我保证它比听上去有趣得多。

达美、联合和美国航空运营的是轮辐式网络。航班从亚特兰大或纽瓦克这样的中心枢纽向外辐射。如果一场风暴袭击东北部,轮辐式航空公司可以为损害筑起“防火墙”——在一个上午取消所有飞往纽瓦克的航班,重置该子图,然后恢复。机组和飞机频繁地循环经过枢纽,自然形成一个个恢复点。

西南航空开创了一种不同的模式:点对点。一架飞机和它的机组飞行一条线性链条——巴尔的摩到丹佛到圣迭戈到凤凰城到萨克拉门托。这在经济上极为出色。你能从每架飞机身上榨取更多的飞行小时。但从数学上看呢?这是一座纸牌屋。第一段航程的延误不只影响返程——它会沿着整条链条级联而下。原本要飞圣迭戈到凤凰城的机组被困在丹佛。在圣迭戈等待他们的飞机也被搁置。

用图论的术语来说,点对点网络中依赖图的直径远远大于轮辐式网络。单次扰动的波及半径不受遏制。

我记得自己第一次在办公室的白板上把这一切画出来的那个夜晚。我和团队一直在争论,西南航空的失败究竟是一个软件问题,还是一个网络设计问题。我的一位工程师,被我坚持“两者都是”的说法弄得很沮丧,调出了真实的航班数据,开始绘制依赖链条。我们看着级联在地图上层层展开。巴尔的摩的一次延误波及到丹佛,丹佛断开了通往圣迭戈的连接,圣迭戈滞留了一组本该去飞凤凰城的机组,而凤凰城……

“这不是一条链条,”他说。“这是一道断裂。”

他说得没错。而那道断裂,对本该修复它的软件而言却是隐形的。

SkySolver为何窒息?

SkySolver构建在与大多数物流优化相同的数学基础之上:混合整数线性规划,以及一种名为列生成(Column Generation)的技术。这些是运筹学的主力工具,自20世纪50年代以来,这门学科一直主宰着我们如何在全球范围内搬运原子。

用大白话说说它是怎么运作的:系统对世界拍下一张快照——每一位机组成员在哪里,每一架飞机是什么状态——把时间冻结,然后计算出在数学上最廉价的方式来覆盖所有航班。对于一家日均4,000个航班的大型航空公司来说,机组与航班可能的组合数量实际上是无穷的。列生成通过迭代地生成“有希望的”组合并缩小搜索范围来应对这一点。

它很优雅。它很强大。而它的DNA里烙印着一个致命的假设:它思考的时候,世界会静止不动。

在正常运营中,一个30到60分钟的求解周期没有问题。但在这场崩溃期间,西南航空网络的状态每隔几分钟就在变化。机组无法报告自己的位置,因为电话线路被打爆了。喂给SkySolver的数据已经过时了几个小时。这个系统在优化一个已经不复存在的世界。

当扰动的速率超过信息的流速时,优化不会优雅地退化。它会崩溃。

这就是我所说的优化—执行鸿沟——求解器计算的速度与现实变动的速度之间那种致命的错配。而它并非航空公司独有。我在港口物流、铁路调度和制造业供应链中都见过同样的失败模式。数学是一样的。脆弱性是一样的。

我不再相信聊天机器人能搞定物流的那一刻

西南航空危机大约六个月后,我在一场会议上坐着,一位投资人满怀十足的信心对我说:“直接用GPT就行。拿排班数据微调一下。问题解决。”

我试图解释为什么那行不通。他打断了我:“但它会推理啊。我见过它解数学题。”

那次对话让某样我一直难以言说的东西结晶成形了。整个行业都在犯一个范畴错误——把大语言模型的语言流畅性,与管理复杂系统所需的运营推理混为一谈。厂商们向市场倾泻大量“AI副驾驶”,无非是在老旧求解器之上套了个聊天界面。一名调度员问:“我们怎么恢复丹佛的排班?”大语言模型就把这句话翻译成对底下那个同样已经坏掉的优化器的一次API调用。

这不过是在一台卡死的引擎上刷了一层新漆。

根本的问题在于:大语言模型是概率引擎,设计目的是预测序列中的下一个词元。它们在没有世界模型的情况下模仿推理的形式。用认知科学的术语说,它们是庞大的系统1引擎——快速、直觉式的模式匹配。而物流优化是一项系统2的任务——缓慢、审慎、逐步地对约束条件进行验证。

而约束问题正是危险所在。在创意写作中,99%的准确率非常出色。在机组排班中,99%的准确率是违法的。如果一个大语言模型生成的排班表,把一名只休息了7小时59分钟的飞行员安排去执飞一个要求休息8小时的航班,那么整份排班表都是无效的。大语言模型天生不擅长处理可行性约束那种严格的二元本质。它们把语言的连贯性置于逻辑的正确性之上。

一个能解释排班表的聊天机器人,和一个能修复排班表的智能体,完全不是一回事。

在诸如旅行商问题(Traveling Salesman Problem)这类组合问题上的基准测试,在大规模上证实了这一点。随着节点数量增加,大语言模型会“造访”某些城市两次,完全跳过另一些,并在长序列中丢失状态的追踪。它们无法模拟分叉的未来,也无法回溯。它们对蝴蝶效应视而不见——对这样一个现实视而不见:此刻一个微小的排班决定,可能在三天后酿成一场灾难。

真正管用的是什么:教会AI用图来思考

那么,如果老旧求解器太慢、大语言模型又太不可靠,你到底该构建什么?

这正是我和团队多年来一直在回答的问题,而我们最终抵达的架构,构建在图强化学习之上——它是图神经网络(用来理解网络拓扑)与强化学习(用来学习动态决策策略)的融合。我们从计算一份排班表,转向了学习如何排班。

那个解开一切的洞见简单得出人意料:物流网络不是电子表格。它们是图。机场是节点。航班是边。仓库是节点。卡车是边。传统的机器学习架构——那些为图像或文本设计的架构——在这种关系结构面前举步维艰。图神经网络正是为它而生的原生架构。

我们使用图注意力网络来编码整个物流网络的状态。每一个实体——飞行员、飞机、机场——都成为一个带有高维嵌入的节点,这个嵌入既捕捉静态属性(机型、机组资质),也捕捉动态状态(当前延误、维修状态、累积的疲劳)。它们之间的连接则承载着关于飞行时长、天气风险和机组指派的信息。

奥妙就在于所谓的消息传递。当一场暴雪封锁丹佛时,图神经网络会更新丹佛的嵌入。这一更新沿着每一条相连的边流动——每一个进港航班、每一次机组指派。一名在巴尔的摩准备飞往丹佛的飞行员,会在其嵌入中收到一个“风险信号”,甚至在他还没起飞之前。系统看得见这种连通性。它理解波及半径。这种拓扑感知,在老旧系统所使用的那种扁平的表格化数据表示中是不可能实现的。

在这个图感知层之上,我们运行强化学习智能体。一个强化学习智能体观察状态,采取一个动作(调换机组、取消航班、延迟起飞、把一组机组以摆渡方式调到新位置),并收到一份奖励。经过数以百万计的训练迭代,它学会了一套能使长期结果最大化的策略。

那个词——长期——才是一切。一条启发式规则也许会说:“别取消这个航班,它会损失收入。”而我们的强化学习智能体学到的是:“如果我不取消这个航班,机组就会被困在丹佛,我明天就会损失十个航班。现在就取消它。”它学会了战略性牺牲,为的是整个系统的存活。

如何为尚未发生的灾难训练一个AI?

你显然不能在一家真正运营的航空公司身上训练强化学习智能体。在真实世界里试错代价高达数百万美元,还会制造安全风险。这正是数字孪生登场的地方——而我指的并不是一块带着机场3D渲染的仪表盘。

我们的数字孪生是状态转移引擎。我们对每一架飞机建模,附带各架尾号特定的维修周期;对每一个登机口、每一位机组成员建模,附带各自的疲劳计数器和合同状态。我们把规则手册数字化——FAA第117部、工会合同、维修手册。每一次状态转移都会被拿来对照这些规则进行核查。

然后,我们注入混乱。

我们使用随机生成器,在一周之内模拟一万年的运营。我们制造超级风暴、大规模机械停飞、劳工罢工。我们让智能体从轻松的日子起步——晴朗的天气、稀疏的排班——然后逐步加大难度,引入级联式故障,其严重程度足以让西南航空那场崩溃看上去只是件轻微的小麻烦。

我记得我们第一次把2022年12月的西南航空危机放进模拟器里跑的情形。我们搭建了一个老旧求解器的代理版本来作为对照基准。这个老旧求解器所做的,和SkySolver如出一辙——它被数据延迟卡住,为错误的状态做优化,产出了同样一团纠缠不清、机组滞留的乱局。恢复时间:模拟中的七天。

我们的图强化学习智能体做出了一件我们谁都没料到的事。它侦测到丹佛正在浮现的点对点断裂模式,比完整级联爆发早了好几个小时。随后它执行了我们如今称之为先发制人的防火墙策略的操作——它提早取消了20%飞往丹佛的航班,把扰动就地困住,并将机组以摆渡方式调往凤凰城,建立起一个次级运营基地。

东海岸网络保持了95%的运营能力。总取消量下降了66%。这场崩溃被遏制在了一次区域性扰动之内。

我的那位工程师——就是在白板上画出那道断裂的同一个人——只是盯着屏幕。“它牺牲了丹佛,保住了整个网络,”他说。“没有哪个人类调度员,敢在12月22日凌晨6点做出这样的事。”

他说得没错。而这正是关键所在。这个智能体已在模拟中“亲历”了成千上万场危机。它探索过老旧求解器会崩溃的状态空间的边缘地带,并已学会了存活是什么模样。想要了解这套架构的完整技术拆解——GAT嵌入、PPO训练循环、动作掩码——我已发表了完整的研究。

那黑箱问题怎么办?

一张架构图,展示三层“三明治架构”:神经的图强化学习智能体提出动作,符号化的约束引擎屏蔽掉非法动作,只有经过验证的动作才能抵达执行环节——说明安全保证是如何被强制实施的。

人们总在这里提出质疑,他们也应该质疑。“你是在告诉我,要把一家航空公司的运营控制权交给一个神经网络?我怎么知道它不会幻觉出一份违法的排班表?”

这是安全攸关AI中最重要的一项质疑,任何对它嗤之以鼻的人都不是认真的。下面是我们的解决之道。

我们从不让神经网络直接输出最终决定。我们采用我们所称的三明治架构——其灵感来自用于强化学习引导整数规划的NICE框架。神经层(我们的图强化学习智能体)分析复杂而嘈杂的状态,并给出一个覆盖各个动作的概率分布。然后一个确定性的符号层——一个把运营中每一条硬性规则都编码进去的约束引擎——施加一道掩码。如果神经网络建议了一个违反法规的动作(飞行员超出执勤时限、飞机带着未闭合的维修项目起飞),符号层就会把那个动作的概率设为零。

这个系统无法执行违法动作。不是“很可能不会”。是无法。

这给了我们某种非凡的东西:既有习得的AI策略的最优性,又有形式逻辑的安全保证。而它还从另一个方向解决了计算难题。老旧求解器要在十亿种可能性中搜索,而神经网络则把这棵树修剪到最有希望的十个分支。求解器只需验证并微调那寥寥几个选项。计算时间从数小时降到了数秒。

这不只是关于航空公司

西南航空的崩溃是最戏剧性的例子,但它暴露出的脆弱性是普遍存在的。我们正把同一套图强化学习加数字孪生的架构,改造应用到海运港口和铁路网络上。

在港口,一艘延误的船只会错过它的泊位时段,起重机被重新调配,原定去取集装箱的卡车排上几个小时的队。我们部署智能体AI,让一个“锚地智能体”与一个“码头智能体”实时协商,在扰动一点点展开的过程中,抹平登机口拥堵的高峰与低谷。

在铁路领域,单线瓶颈意味着一个错误的“会让”决定,就能让数百英里之外的列车陷入僵局;在这里,我们的图强化学习智能体在减少延误上比人类调度员和启发式规则高出15—20%。它们会做出反直觉的动作——提早扣住一列货运列车,为50英里之外上游的一列特快列车清出通道——这是任何基于规则的系统都不会考虑去做的。

模式始终如一:一个复杂网络、若干硬性约束、级联式的扰动,以及一个以分钟计量的决策窗口。老旧求解器跟不上。大语言模型无法对它进行推理。而图强化学习可以。

真正的投资回报不在于效率——而在于存活

西南航空长达一周的崩溃,代价是12亿美元。这单一事件抹掉了多年来运营一张精简的点对点网络所积累的效率收益。一条被堵塞的苏伊士运河,每天要让全球经济付出数十亿美元的代价。那种尾部风险——那种灾难性的、“十年一遇”却如今似乎年年都在发生的事件——已不再是风险登记册上的一条脚注。在十年的时间跨度上,它才是最主要的成本驱动因素。

我们的智能体在正常运营中,通过更聪明的缓冲管理和减少机组加班,带来2—5%的运营成本节省。那只是入场的门槛。真正的价值在于那些没有发生的事:那场被遏制在区域性扰动之内的崩溃,那次在抵达东海岸之前就被筑墙隔断的级联,那个从未成真的、十亿美元的一周。

效率是一套面向稳定世界的策略。而我们已不再生活在一个稳定的世界里。

静态数学的时代已经终结

我以一名飞行员睡在丹佛国际机场地板上的画面,开始了这篇文章。他至今仍在为西南航空飞行。此后他们大力投资升级自己的系统。但更深层的问题——整个行业对那些为可预测扰动的世界而打造的确定性求解器的依赖——在很大程度上仍未被解决。

相比那些老旧系统,各方争相把生成式AI奉为物流救星的这股热潮更让我忧心。至少运行SkySolver的人还知道它的局限。而那些在坏掉的优化器之上部署大语言模型套壳的人,往往并不知道。他们看到流畅的文字,就误以为那是运营推理。他们看到一个能解释排班表的聊天机器人,就假定它能修复排班表。

打造VeriPrajna教会了我,这项工作最难的部分不是数学——而是那场论证。要说服一个行业相信:它们信赖了几十年的工具存在一道结构性的天花板。那个亮闪闪的新玩意(生成式AI)瞄准的是错误的问题。而真正的解决方案,需要重新把物流构想为一张图、把扰动构想为一个学习信号、把韧性构想为某种你去训练出来的东西——而不是某种你只能寄望的东西。

物流的未来,不属于那些为一个已知世界寻找最廉价方案的系统。它属于那些为一个未知世界寻找可存活方案的系统。这不是一个也许。这就是我们正在构建的东西。

Related Research

Also Published On