
サウスウエスト航空は自社のパイロットを見失った——その時、私はチャットボットではロジスティクスを救えないと悟った
私のAIに対する考え方を変えたその電話は、顧客からでも投資家からでもなかった。それは友人からだった——パイロットである彼は、2022年のクリスマスをデンバー国際空港の床で寝て過ごしたのだ。
彼が足止めされたのは天候のせいではなかった。嵐は過ぎ去っていた。彼が立ち往生したのは、サウスウエスト航空が文字どおり彼の居場所を見失っていたからだ。同航空のクルー・スケジューリングシステム——SkySolverと呼ばれるレガシーな最適化エンジン——は、何時間も前の古いクルーの位置情報に基づいて復旧計画を計算していた。それは幻の航空会社のためのスケジュールを生成していたのだ。私の友人はスケジューリングのホットラインに電話をかけ、8時間保留のまま待たされた。ようやく誰かが出た頃には、たった今計算されたそのスケジュールは、すでにまた間違ったものになっていた。
その週、サウスウエストは16,900便を超えるフライトを欠航させた。200万人の乗客が足止めされた。同航空の損失は10億ドルを超えた。そして、私を苦しめたのはこの部分だ——他のすべての米国大手航空会社も、同じ嵐、同じ凍りついた駐機場、同じ人員不足に直面していた。ユナイテッド、デルタ、アメリカン——彼らはみな48時間以内に復旧した。サウスウエストだけが丸一週間、混乱の渦に沈んでいったのだ。
私はある一つの問いに何度も立ち返っていた——なぜ一つの航空会社のソフトウェアは崩壊し、他社はしなって耐え、復旧できたのか?その答えは、私が突き止めたところ、天候とは何の関係もなく、過去30年間にわたって私たちが複雑なオペレーションの計算的頭脳をどう構築してきたか、そのすべてに関係していた。その気づきこそが、私をVeriPrajnaの立ち上げへと導いた——そして、その完全な技術的論証を展開したこの研究論文を執筆するに至らせたのだ。
だが要約すればこうだ——私たちはもはや効率が報われない世界で、効率のためにロジスティクスを最適化し続けてきた。既知の問いに対して最も安価な答えを見つけるシステムを構築してきたが、私たちが実際に必要としているのは、未知の問いに対して生き延びられる答えを見つけるシステムなのだ。
クリスマスを殺したトポロジー

なぜサウスウエストが破綻したのかを理解するには、グラフ理論のある概念を理解する必要がある——そしてそれは、聞こえよりずっと面白いと約束しよう。
デルタ、ユナイテッド、アメリカンはハブ・アンド・スポーク型のネットワークを運用している。フライトはアトランタやニューアークのような中心ハブから放射状に広がる。嵐が北東部を襲っても、ハブ・アンド・スポーク型の航空会社は被害を「ファイアウォール」で封じ込められる——朝の間ニューアーク行きの全便を欠航させ、サブグラフをリセットして再開するのだ。クルーと機材は頻繁にハブを経由して循環し、自然な復旧ポイントを生み出している。
サウスウエストは別のモデルを切り拓いた——ポイント・トゥ・ポイントだ。1機の機材とそのクルーは、直線的な連鎖を飛ぶ——ボルチモアからデンバー、サンディエゴ、フェニックス、サクラメントへ。経済的には見事だ。すべての機材からより多くの飛行時間を絞り出せる。しかし数学的には? それは砂上の楼閣だ。最初の区間の遅延は往路に影響するだけでなく——連鎖全体に沿って波及していく。サンディエゴからフェニックスへ飛ぶはずのクルーはデンバーで立ち往生する。サンディエゴで彼らを待つ機材も足止めされる。
グラフ理論の用語で言えば、ポイント・トゥ・ポイント型ネットワークにおける依存関係グラフの直径は、ハブ・アンド・スポーク型よりも桁違いに大きい。単一の混乱による爆発半径は封じ込められないのだ。
私はオフィスのホワイトボードにこれを初めて描き出した夜を覚えている。私のチームと私は、サウスウエストの失敗がソフトウェアの問題なのかネットワーク設計の問題なのかをめぐって議論していた。私のエンジニアの一人は、両方だという私の主張に苛立ち、実際のフライトデータを引き出して依存関係の連鎖を描き始めた。私たちは地図上で連鎖が広がっていくのを見ていた。ボルチモアの遅延がデンバーへ波及し、それがサンディエゴへの接続を断ち、それがフェニックスを飛ぶはずのクルーを足止めし、それが……
「これは連鎖じゃない」と彼は言った。「これは断裂だ」
彼は正しかった。そしてその断裂は、それを修復するはずだったソフトウェアには見えていなかったのだ。
なぜSkySolverは機能不全に陥ったのか?
SkySolverは、大半のロジスティクス最適化を支えるのと同じ数学的基盤の上に構築されている——混合整数線形計画法と、列生成法と呼ばれる手法だ。これらはオペレーションズ・リサーチの主力であり、1950年代以来、私たちが世界中で物質を動かす方法を統治してきた分野である。
平易に言えばこう動く——システムは世界のスナップショットを取り——すべてのクルーがどこにいるか、すべての機材の状態がどうか——時間を凍結し、すべてのフライトをカバーする数学的に最も安価な方法を計算する。1日4,000便を運航する大手航空会社にとって、クルーとフライトの組み合わせの可能性は事実上無限だ。列生成法は、「有望な」組み合わせを反復的に生成し、探索を絞り込むことでこれに対処する。
それは洗練されている。強力だ。しかし、そのDNAには致命的な前提が組み込まれている——それが考えている間、世界は静止したままだ、という前提だ。
平常運用時なら、30分から60分のソルバーサイクルで問題ない。しかしメルトダウンの最中、サウスウエストのネットワークの状態は数分ごとに変化していた。電話回線がパンクしていたため、クルーは自分の位置を報告できなかった。SkySolverに供給されるデータは何時間も古かった。システムはもはや存在しない世界を最適化していたのだ。
混乱の速度が情報の速度を上回るとき、最適化は緩やかに劣化するのではない。崩壊するのだ。
これが私の言う最適化・実行ギャップだ——ソルバーが計算できる速さと、現実が動く速さとの間の致命的なミスマッチである。そしてこれは航空会社に固有のものではない。私は港湾ロジスティクス、鉄道運行管理、製造業のサプライチェーンでも同じ失敗パターンを見てきた。数学は同じだ。脆弱性も同じなのだ。
ロジスティクスにチャットボットを信じるのをやめた瞬間
サウスウエストの危機からおよそ半年後、私はある投資家との会議に座っていた。彼は完全な自信をもって私にこう言った。「GPTを使えばいい。スケジューリングデータでファインチューニングすればいい。問題解決だ」
私はなぜそれがうまくいかないのかを説明しようとした。彼は私を遮った。「でもそれは推論できるじゃないか。数学の問題を解くのを見たことがある」
その会話は、私がずっと言葉にしようともがいていた何かを結晶化させた。業界全体がカテゴリーエラーを犯していた——大規模言語モデルの言語的な流暢さを、複雑なシステムを管理するのに必要な運用上の推論と混同していたのだ。ベンダーたちは、レガシーなソルバーの上にチャットインターフェースを載せた「AIコパイロット」で市場を溢れさせていた。ディスパッチャーが「デンバーのスケジュールをどう復旧させるか?」と尋ねると、LLMはそれを、下層にある同じ壊れた最適化エンジンへのAPI呼び出しに翻訳するのだ。
それは、焼き付いたエンジンに新しい塗装を施したようなものだ。
根本的な問題はこうだ——LLMはシーケンス内の次のトークンを予測するために設計された確率的エンジンである。それらは世界モデルを持たずに推論の形を模倣する。認知科学の用語で言えば、それらは巨大なシステム1エンジンだ——速く、直感的なパターンマッチングである。ロジスティクス最適化はシステム2の課題だ——遅く、熟慮的で、制約を段階的に検証していくものである。
そして危険になるのは制約の問題だ。創作においては99%の正確さは素晴らしい。クルー・スケジューリングにおいては99%の正確さは違法だ。もしLLMが、7時間59分の休息しかないパイロットを8時間の休息を必要とするフライトに割り当てるスケジュールを生成すれば、スケジュール全体が無効になる。LLMは実行可能性制約の厳格な二値的性質を本質的には扱えない。それらは論理的正確さよりも言語的一貫性を優先するのだ。
スケジュールを説明できるチャットボットは、スケジュールを修復できるエージェントと同じではない。
巡回セールスマン問題のような組合せ問題のベンチマークは、これを大規模に裏付けている。ノード数が増えるにつれ、LLMは都市を2度「訪問」したり、他の都市を完全に飛ばしたり、長いシーケンスにわたって状態を見失ったりする。それらは分岐する未来をシミュレートすることも、バックトラックすることもできない。それらはバタフライ効果に対して盲目だ——今の小さなスケジューリング上の決定が、3日後に大惨事を引き起こしうるという現実に対して。
実際に機能するもの——AIにグラフで考えることを教える
では、レガシーなソルバーが遅すぎ、LLMが信頼できなさすぎるとしたら、何を構築すればいいのか?
これは私のチームと私が何年もかけて答えてきた問いであり、私たちがたどり着いたアーキテクチャはグラフ強化学習の上に構築されている——グラフニューラルネットワーク(ネットワークトポロジーを理解するため)と強化学習(動的な意思決定ポリシーを学習するため)の融合だ。私たちはスケジュールを計算することから、どうスケジューリングするかを学習することへと移行したのだ。
すべての鍵を開けた洞察は、拍子抜けするほど単純だった——ロジスティクスネットワークはスプレッドシートではない。それらはグラフだ。空港はノードだ。フライトはエッジだ。倉庫はノードだ。トラックはエッジだ。従来の機械学習アーキテクチャ——画像やテキスト向けに設計されたもの——は、この関係的構造に苦戦する。グラフニューラルネットワークは、それに対するネイティブなアーキテクチャなのだ。
私たちはグラフアテンションネットワークを用いて、ロジスティクスネットワーク全体の状態をエンコードする。すべてのエンティティ——パイロット、機材、空港——は、静的な特性(機種、クルーの資格)と動的な状態(現在の遅延、整備状況、蓄積された疲労)の両方を捉える高次元の埋め込みを持つノードになる。それらの間のつながりは、飛行時間、天候リスク、クルーの割り当てに関する情報を運ぶ。
その魔法は、メッセージパッシングと呼ばれるものにある。吹雪がデンバーを閉鎖すると、GNNはデンバーの埋め込みを更新する。その更新は、接続されたすべてのエッジ——すべての到着便、すべてのクルーの割り当て——に沿って流れていく。デンバーへ飛ぶ準備をしているボルチモアのパイロットは、出発する前でさえその埋め込みに「リスク信号」を受け取る。システムは接続性を見ている。爆発半径を理解しているのだ。この種のトポロジー的な認識は、レガシーシステムが用いるフラットな表形式のデータ表現では不可能である。
このグラフ知覚層の上で、私たちは強化学習エージェントを走らせる。RLエージェントは状態を観測し、行動(クルーの入れ替え、フライトの欠航、出発の遅延、クルーを新しい位置へデッドヘッド輸送する)を取り、報酬を受け取る。数百万回の訓練反復を通じて、長期的な成果を最大化するポリシーを学習するのだ。
その言葉——長期的——こそがすべてだ。ヒューリスティックはこう言うかもしれない——「このフライトを欠航させるな、収益を失う」。私たちのRLエージェントはこう学習する——「もしこのフライトを欠航させなければ、クルーはデンバーで立ち往生し、明日10便を失う。今すぐ欠航させろ」。それはシステム全体の生存のための戦略的な犠牲を学習するのだ。
まだ起きていない災害に備えてAIをどう訓練するのか?
強化学習エージェントを稼働中の航空会社で訓練できないのは明らかだ。現実世界での試行錯誤は数百万ドルのコストがかかり、安全上のリスクを生む。ここでデジタルツインが登場する——そして私が言っているのは、空港の3Dレンダリングを備えたダッシュボードのことではない。
私たちのデジタルツインは、状態遷移エンジンだ。私たちはすべての機材を機体固有の整備サイクルとともにモデル化し、すべてのゲート、個別の疲労カウンターと契約状態を持つすべてのクルーをモデル化する。私たちはルールブックをデジタル化する——FAAパート117、労働組合契約、整備マニュアルを。すべての状態遷移は、これらのルールに照らしてチェックされる。
そして、私たちは混沌を注入する。
私たちは確率的ジェネレーターを用いて、1週間で1万年分の運用をシミュレートする。スーパーストーム、大規模な機材の運航停止、労働ストライキを作り出す。私たちはエージェントを易しい日から始めさせ——晴天、軽いスケジュール——そして徐々に難易度を上げ、サウスウエストのメルトダウンが軽い不便に見えるほどの連鎖的な障害を導入していく。
私は、2022年12月のサウスウエストの危機を初めて私たちのシミュレーターで走らせたときを覚えている。私たちは比較のベンチマーク用にレガシーソルバーの代替物を構築していた。そのレガシーソルバーは、SkySolverがしたのとまったく同じことをした——データの遅延で機能不全に陥り、誤った状態に対して最適化し、足止めされたクルーの同じ絡み合った混乱を生み出した。復旧時間——シミュレーション上で7日間だ。
私たちのGRLエージェントは、誰も予想しなかったことをした。それは、完全な連鎖が起きる数時間前にデンバーで生じつつあるポイント・トゥ・ポイントの断裂パターンを検知した。そして、私たちが今先制的ファイアウォール戦略と呼ぶものを実行した——デンバー行きのフライトの20%を早期に欠航させ、混乱を局所的に封じ込め、クルーをフェニックスへデッドヘッド輸送して二次的な運用拠点を作り出したのだ。
東海岸のネットワークは95%の運用を維持した。総欠航数は66%減少した。メルトダウンは地域的な混乱に封じ込められたのだ。
私のエンジニア——ホワイトボードに断裂を描いたのと同じ人物——は、ただ画面を見つめていた。「これはネットワークを救うためにデンバーを犠牲にしたんだ」と彼は言った。「人間のディスパッチャーなら誰も、12月22日の午前6時にそれをやる度胸はなかっただろう」
彼は正しかった。そしてそれこそが要点だ。そのエージェントはシミュレーションの中で何千もの危機を「生き抜いて」きた。それはレガシーソルバーがクラッシュする状態空間の縁を探索し、生存とはどのようなものかを学習したのだ。アーキテクチャの完全な技術的分解——GATの埋め込み、PPOの訓練ループ、行動マスキング——については、完全な研究を公開している。
ブラックボックス問題についてはどうか?

人々はいつもここで反論する、そして反論すべきだ。「航空会社の運用の制御をニューラルネットワークに委ねろと言うのか? それが違法なスケジュールを幻覚しないと、どうして分かるんだ?」
これは安全性が重要なAIにおいて最も重要な反論であり、それを一蹴する者は真剣ではない。私たちがそれをどう解決するかを説明しよう。
私たちは、ニューラルネットワークに最終的な決定を直接出力させることは決してない。私たちはサンドイッチアーキテクチャと呼ぶものを用いる——強化学習で誘導される整数計画法のためのNICEフレームワークに着想を得たものだ。ニューラル層(私たちのGRLエージェント)は、複雑でノイズの多い状態を分析し、行動に対する確率分布を提案する。次に、決定論的なシンボリック層——運用におけるすべての厳格なルールをエンコードする制約エンジン——がマスクを適用する。もしニューラルネットワークが規制に違反する行動(パイロットが乗務時間を超過する、機材が未解決の整備項目を抱えたまま飛行する)を提案すれば、シンボリック層はその行動の確率をゼロに設定する。
システムは違法な行動を実行できない。「おそらくしないだろう」ではない。できないのだ。
これは私たちに驚くべきものをもたらす——学習されたAIポリシーの最適性と、形式論理の安全保証との両立だ。そしてそれは、計算上の問題も別の方向から解決する。レガシーソルバーが10億もの可能性を探索する代わりに、ニューラルネットワークが木を最も有望な10の枝まで剪定する。ソルバーはそれらのわずかな選択肢を検証し、微調整するだけでよい。計算時間は数時間から数秒に短縮されるのだ。
これは航空会社だけの話ではない
サウスウエストのメルトダウンは最も劇的な例だが、それが露呈させた脆弱性は普遍的だ。私たちは同じGRL+デジタルツインのアーキテクチャを、海上港湾と鉄道ネットワーク向けに応用している。
港湾では、遅延した船舶がバース枠を逃し、クレーンが再割り当てされ、コンテナの引き取りを予定されたトラックが何時間も列をなす。私たちは、「投錨地エージェント」が「ターミナルエージェント」とリアルタイムで交渉し、混乱が展開するにつれてゲート混雑の山と谷をならしていくエージェント型AIを展開する。
鉄道では、単線のボトルネックが、一つの誤った「行き違い」の判断で数百マイル離れた列車を膠着させうるが、私たちのGRLエージェントは遅延削減において人間のディスパッチャーやヒューリスティックなルールを15〜20%上回る。それらは直感に反する動き——50マイル上流の急行列車のために進路を空けようと貨物列車を早めに待機させる——をする。これはルールベースのシステムなら決して検討しないものだ。
パターンは常に同じだ——複雑なネットワーク、厳格な制約、連鎖する混乱、そして分単位で計られる意思決定の時間枠。レガシーソルバーは追いつけない。LLMはそれについて推論できない。グラフ強化学習ならできる。
真のROIは効率ではない——生存だ
サウスウエストの1週間のメルトダウンは12億ドルのコストがかかった。その単一の出来事は、無駄のないポイント・トゥ・ポイント型ネットワークの運用による何年もの効率の獲得を帳消しにした。スエズ運河の封鎖は、世界経済に1日あたり数十億ドルのコストをもたらす。テールリスク——今や毎年起きるように見える、破滅的な「10年に一度」の出来事——は、もはやリスク台帳の脚注ではない。10年の時間軸で見れば、それは支配的なコスト要因なのだ。
私たちのエージェントは、平常運用時により賢いバッファ管理とクルーの残業削減を通じて、2〜5%の運用コスト削減をもたらす。それは最低限の条件にすぎない。真の価値は、起きないことの中にある——地域的な混乱に封じ込められるメルトダウン、東海岸に到達する前にファイアウォールで遮断される連鎖、決して現実化しない10億ドルの一週間だ。
効率は、安定した世界のための戦略だ。私たちはもはや安定した世界に生きていない。
静的な数学の時代は終わった
私はこのエッセイを、デンバー国際空港の床で寝るパイロットの話から始めた。彼は今もサウスウエストで飛んでいる。同社はその後、システムのアップグレードに多額の投資をした。しかし、より深い問題——予測可能な混乱の世界のために構築された決定論的ソルバーへの業界全体の依存——は、依然としてほとんど手つかずのままだ。
生成AIをロジスティクスの救世主とする流れは、レガシーシステム以上に私を心配させる。少なくともSkySolverを運用していた人々は、その限界を知っていた。壊れた最適化エンジンの上にLLMのラッパーを展開している人々は、多くの場合それを知らない。彼らは流暢なテキストを見て、それを運用上の推論と取り違える。彼らはスケジュールを説明できるチャットボットを見て、それがスケジュールを修復できると思い込むのだ。
VeriPrajnaを築いてきたことは、この仕事の最も難しい部分が数学ではないことを私に教えてくれた——それは論証だ。何十年も信頼してきたツールに構造的な天井があると、業界を説得すること。あの輝かしい新しいもの(生成AI)が間違った問題に向けられていること。そして、実際の解決策には、ロジスティクスをグラフとして、混乱を学習信号として、そしてレジリエンスを——望むものではなく——訓練して身につけるものとして、捉え直すことが求められること。
ロジスティクスの未来は、既知の世界に対して最も安価な計画を見つけるシステムのものではない。それは、未知の世界に対して生き延びられる計画を見つけるシステムのものだ。それは「かもしれない」ではない。それこそが、私たちが築いているものなのだ。