
工場のフロアからクラウドをクビにした——それは私たちが下した最高のエンジニアリング判断だった
不良品は、クラウドがそれを不良だと知らせてきた時には、すでに梱包されてしまっていた。
私はエンジニアリング責任者と一緒に工場のフロアに立ち、コンベアベルトがいつものペース——毎秒2メートル、何ら異常なし——で流れるのを眺めながら、数週間かけて統合してきたクラウドベースのビジョンAPIからの結果を待っていたのを覚えている。カメラがフレームを捉えた。画像は数百マイル離れたデータセンターへと飛んでいった。モデルが推論を実行した。結果が返ってきた——「欠陥を検出」。
正しい答え。まったく役に立たない。
その往復に要した800ミリ秒の間に、部品は1.6メートル進んでいた。空圧式の排出装置はカメラから1メートル下流にあった。部品はそれを60センチメートル通り過ぎていた。良品と一緒に箱に収まり、出荷を待つばかりだった。
エンジニアリング責任者が私を見た。私はコンベアを見た。そしてその瞬間、私はどんなアーキテクチャ図やクラウドプロバイダーの営業資料も明らかにしてこなかったことを理解した——光の速度は、アップグレードできる機能ではない。 インターネットは確率的である。コンベアベルトはそうではない。そして確率的なシステムに決定論的なプロセスを任せると、毎回必ず物理法則が勝つ。
それが、私たちが工場のフロアからクラウドをクビにした日だった。
800ミリ秒の教訓

800ミリ秒が実際に何を意味するのか、正確に述べておきたい。というのも、人間とコンピュータの相互作用の世界では、それは何でもないように聞こえるからだ。リンクをクリックし、800ミリ秒でページが読み込まれても、あなたは気づきすらしない。しかし製造ラインでは、800ミリ秒はセンチメートルで測られる永遠である。
これが、私にとってすべてを変えた計算だ。毎秒2メートルで動くコンベアで、カメラから排出装置までの距離が1メートルの場合、500ミリ秒という厳格な締め切りが与えられる。ゆるい締め切りではない。「ベストエフォート」の目標でもない。壁である。もし制御信号が501ミリ秒で届けば、部品は物理的に排出装置を通過してしまっている。再試行はない。バッファもない。原子はビットを待たない。
私たちの800ミリ秒の往復は、それに近づいてすらいなかった。そしてそのミリ秒がどこに費やされたのかを分解してみると——画像エンコード(20〜40ミリ秒)、工場のファイアウォールとISPを通じたアップロード(100〜300ミリ秒)、ネットワークのルーティングとジッター(50〜200ミリ秒)、クラウドのキューイング(50〜100ミリ秒)、実際の推論(50〜150ミリ秒)、そして戻りの往路(100〜200ミリ秒)——私たちが構築していたのは制御システムではなかったと気づいた。私たちが構築していたのは、問題がすでに誰か他人の問題になってしまった後にそれを知らせる、非常に高価な報告システムだった。
制御ループにおける遅延したデータは、単に役に立たないだけではない——危険である。システムの状態はすでに変化してしまっている。古い情報に基づいて行動することは、まったく行動しないことよりも悪い。
本当に痛烈だったのは何か? AIモデルそのものは優秀だった。欠陥を正しく特定した。知能はそこにあった。しかし私たちはその知能を間違った場所に置いてしまっていた——それが制御すべき対象から数百マイルも離れた場所に。
なぜクラウドAIは工場のフロアで失敗するのか?
リアルタイムの製造制御にクラウドは通用しないと私が言うと、人々は必ず反論する。「5Gはどうなんだ?」と彼らは尋ねる。「より高速な接続はどうなんだ?」
私は初期の頃、まさにこの議論をある潜在的な投資家と交わした。彼は大手通信会社のマーケティング資料を見ていた——1ミリ秒のエア・インターフェース遅延、あらゆるものがつながる未来。「5Gを使えばいい」と、まるで当然のことのように彼は言った。
そこで私は、無線周波数の観点から工場が実際にどのように見えるかを彼に順を追って説明した。至る所に鉄骨があり、信号の反射を生み出す。高電圧のモーターやアーク溶接機が電磁干渉を発生させ、無線信号を妨害する。フォークリフトがセンサーとアクセスポイントの間を走り、見通し線接続を断ち切る。工場は基本的に、無線技術者を憎む誰かが設計したRFの悪夢である。
そしてそのすべてを解決したとしても——たとえミリ波で完璧な5Gカバレッジを得たとしても——依然としてTCP/IPという根本的な問題が残る。インターネットのトランスポートプロトコルは、適時性ではなく信頼性のために設計されている。パケットが失われると、TCPは待機し、再送を要求し、また待機する。それはメールには最適だ。しかし、毎回、ばらつきゼロで500ミリ秒未満の応答が必要な制御ループにとっては毒である。
ばらつきこそが致命傷だ。単にクラウドの遅延が大きいというだけではない——それが予測不能だということだ。あるリクエストは400ミリ秒かかり、次は1,200ミリ秒かかる。答えが間に合って届くかどうかわからない通信チャネルの上に、安全システムを構築することはできない。私はこのことを私たちの研究のインタラクティブ版でより深く書いたが、要約すればこうだ——私たちは、ベストエフォート配信のために設計されたプロトコルの上に、安全上重要なシステムを構築することを拒否する。
12ミリ秒

その解決策は、いったん見えてしまえば、ほとんど恥ずかしくなるほど明白に感じられた。データを計算処理へ送るのをやめよ。計算処理をデータのもとへ持ってこい。
私たちはNVIDIA Jetsonデバイス——本質的にはクレジットカードほどの大きさの組み込み型スーパーコンピュータ——を手に取り、カメラから1メートルも離れていないコンベアフレームに直接取り付けた。私たちはビジョンモデルを32ビット浮動小数点から8ビット整数精度へと量子化し、NVIDIAのTensorRTオプティマイザでコンパイルした。
初めてそれを実行したとき、パイプライン全体の遅延——キャプチャ、前処理、推論、後処理——は12ミリ秒だった。
その瞬間を私は決して忘れないだろう。私のチームは量子化のステップに懐疑的だった。FP32からINT8へ落とすことがモデルの精度を破壊するかどうかについて、オフィスで白熱した議論があった。あるエンジニアは、有用であるには精度を失いすぎると確信していた。私たちはキャリブレーションを実行し、量子化したモデルをデプロイし、精度の低下は1%未満だった。傷があるかないかという二値の欠陥検出タスクにとって、99.5%の確信度と99.1%の確信度の差は無意味だ。どちらも棄却を引き起こす。
しかし速度の差は驚異的だった。12ミリ秒では、部品は処理中にわずか2.4センチメートルしか進まない。排出装置までに97.6センチメートルの安全マージンがあった。それはギリギリではない。ぜいたくなほどだ。私たちはあらゆる欠陥を見逃す状態から、各部品に対して複数回の検証パスを実行できるだけの時間を持つ状態へと移行した。
私たちは推論の遅延を800ミリ秒から12ミリ秒へと——98.5%の改善——削減した。AIをデータセンターから、手のひらに載せられるデバイスへと移すことによって。
ここで技術的な詳細が重要になる。そしてそれは、あなたがエンジニアでなくても理解する価値がある。Jetsonの統合メモリアーキテクチャは、CPUとGPUが同じ物理メモリを共有することを意味する。ディスクリートGPUを備えた従来型のPCでは、画像データをシステムRAMからGPUメモリへコピーするのにミリ秒を浪費する。Jetsonでは、GPUがカメラバッファを直接読み取る。TensorRTは複数のニューラルネットワーク層を単一の演算に融合し、冗長なメモリアクセスを排除する。これらは限界的な最適化ではない——標準的なYOLOv8モデルはJetson上のPyTorchでは約35ミリ秒で動作するが、TensorRTのINT8変換後には3.2ミリ秒で動作する。ソフトウェアの最適化だけで、同じハードウェア上で10倍の高速化を実現するのだ。
あなたの利益を食い荒らす隠れた工場
この仕事について私が最も驚いたのはこれだ——製造業者に最も多くの費用を負わせているのは、壊滅的な故障ではない。それはマイクロストップ(微小停止)である。
製造業に携わる者なら誰もが見出しの数字を知っている——自動車産業における計画外のダウンタイムは平均で1分あたり22,000ドルの損失をもたらす。Siemensはその数字を2024年に大規模工場向けに更新した——1時間あたり230万ドル。これらの数字は現実であり、恐ろしいものだ。7,000ドルのエッジAIシステムは、年間19秒のダウンタイムを防げば元が取れる。19秒である。
しかし、私を夜も眠れなくさせた数字は別のものだった。クラウドベースのAIシステムがネットワークジッターを経験すると——そして電磁干渉に満ちた工場では、それは必ず起きる——ラインは再同期のために一時停止する。おそらく30秒。あるいはそれ以下。誰も30秒の停止についてインシデントレポートを書かない。それはただ……起きる。1日に10回。5分の損失。
1年を通じて、それは30時間の生産損失になる。1分あたり22,000ドルで計算すると、それらの「軽微な」ネットワークの不具合は年間3,960万ドルの損失をもたらす。壊滅的な障害からではない。考えるためにインターネット接続に依存しているがゆえにしゃっくりを起こすシステムの、積み重なった重みからだ。
私たちはこれを「隠れた工場」と呼ぶようになった——逆回転する幽霊の生産ライン。個々のものがあまりに小さくて問題にならないように見えるため、誰も追跡しないマイクロストップを通じて金を消費していく。エッジネイティブAIはそれらを完全に排除する。JetsonはWiFiがダウンしていても気にしない。ISPの調子が悪くても気にしない。それはフレームを処理し、判断を下し、アクチュエータを作動させる——すべては、有界で予測可能かつ微小な遅延を持つローカルな電気的接続を通じてだ。
工場に聴くことを教えると何が起きるのか?
私たちのエッジビジョンの展開から約6ヶ月が経った頃、あるエンジニアが、私が当初は却下したアイデアを持って私のところにやってきた。「機械をただ見るのをやめて」と彼女は言った。「機械の音を聴き始めたらどうでしょう?」
彼女が粘り強くいてくれてよかった。というのも、音響AIは私たちが取ってきた中で最も重大な技術的方向性であることが判明したからだ。
カメラの問題はこうだ——それは目に見えるものしか見ることができない。そして製造業で最も高くつく故障——焼き付いたベアリング、亀裂の入ったスピンドル、ポンプのキャビテーション——は機械の内部で起こり、壊滅的な故障の瞬間までどんなカメラにも見えない。損傷が見えるようになる頃には、50,000ドルの修理代と2日間のダウンタイムを目の当たりにしている。
音は、実は先行指標であり、振動は遅行指標なのだ。従来の加速度計は、スポーリング(剥離)やピッチングといった物理的損傷がベアリングの軌道面ですでに発生した後に振動を検出する。しかしベアリングが潤滑を失い始めたり微視的な亀裂が生じたりすると、増大した摩擦が超音波帯域——20〜100kHz——の高周波ストレス波を発生させる。振動センサーが警報を発するよりも数週間も前にだ。
超音波は、振動センサーが何か異常に気づくよりも数週間前に潤滑不良を検出できる。それが、500ドルのベアリング交換と50,000ドルのスピンドル交換との違いである。
私たちは、私が5ミリ秒のキルスイッチと呼ぶものを構築した。96kHzまたは192kHzでサンプリングする高周波MEMSマイクロフォンが、TinyMLマイクロコントローラ——Jetsonですらなく、ほんの小さなARM Cortex-M7チップ——に信号を送り、それが健全なベアリングと故障しつつあるベアリングのスペクトル的特徴で訓練された軽量な1次元畳み込みニューラルネットワークを実行する。モデルが亀裂の入りつつあるベアリングや潤滑喪失の特定の周波数パターンを検出すると、GPIOピンを通じて機械の非常停止回路を作動させる。
十分な音声を取得するのに2ミリ秒。推論に1ミリ秒未満。電気信号に1ミリ秒未満。合計5ミリ秒で、金属を融着させるほど熱が蓄積される前に機械は停止する。
騒音の多い工場環境でビームフォーミングと信号分離をどのように扱うかについての完全な技術的解説は、私たちの研究論文をご覧いただきたい。要約すればこうだ——64個または124個のマイクロフォンのアレイを使用し、到達時間差を測定することで、私たちはシステムの聴取の焦点を3D空間内の特定の点——ベアリングハウジング——へと数学的に「操向」し、それ以外のすべてを、100デシベルの工業環境の中でさえミュートすることができる。
私の考えを変えたボールベアリング
私が音響AIの真の信奉者になった瞬間について語らせてほしい。というのも、私を納得させたのは理論ではなかったからだ。それが機能するのを目の当たりにしたことだった。
私たちの顧客の一つ、ある自動車部品メーカーは、繰り返し起こる悪夢を抱えていた——機械加工工程で生じる金属の削りかすが、CNCスピンドルに供給する冷却剤系統をときおり汚染してしまうのだ。汚染された冷却剤がスピンドルのベアリングに達すると、それらは急速に劣化した。作業員の診断方法は、機械の隣に立って文字通り「悪い音」に耳を澄ますというものだった。人間の耳が問題を検出できる頃には、スピンドルはすでに破壊されていた。各インシデントは交換部品で45,000ドル、プラス2日間のダウンタイムを要した。
私たちはスピンドルハウジングに向けた非接触型の音響センサーを設置し、汚染された冷却剤がベアリング内の摩擦を増大させ始めたときに起こる特定の周波数シフト——25kHz付近のエネルギーの広がり——でTinyMLモデルを訓練した。
最初の本物の検出は、ある火曜日の午後に起こった。システムは異常を検知し、5ミリ秒でキルスイッチを作動させた。機械は停止した。保守担当者が開けてみると、ベアリングは損傷していたが、スピンドルシャフトは完全に無傷だった。修理費——800ドル。センサーシステム全体が、その単一の出来事で元を取った——何ヶ月もの積み重なった節約によってではなく、5ミリ秒が800ドルの修理と45,000ドルの大惨事との違いになった、その一瞬においてだ。
その晩、工場長が私に電話をかけてきた。彼はROIや回収期間について語らなかった。彼はこう言った——「あれは、私の一番の作業員にも聴こえなかった何かを聴き取ったんだ」
なぜクラウド接続を直すだけではいけないのか?
人々は絶えず私にこれを尋ねる。そしてそれは正当な疑問だ。なぜすべてをエッジへ移す代わりに、より良いネットワークに投資しないのか?
理由は三つある。
第一に、物理法則は直せない。ファイバー中の光の速度は約200,000 km/秒だ。500マイル離れたデータセンターへの往復は、処理ゼロ、キューイングゼロ、ルーティングゼロを仮定しても、光が伝わるだけで最低8ミリ秒かかる——そのいずれも現実的ではない。現実世界のネットワークの挙動を加えれば、予測不能なばらつきを伴う数百ミリ秒に逆戻りだ。
第二に、帯域幅の経済性が過酷である。30 FPSで動作する4台の4Kカメラを備えた単一の品質管理ステーションは、約80 Mbpsの圧縮ビデオを生成する。工場には数百のステーションがある。24時間365日、8 Gbpsのビデオをクラウドへストリーミングするということは、大規模な専用ファイバーバックホール、月に数万ドルに達しうるクラウドのエグレス料金、そしてその上にストレージコストを意味する。エッジ処理を使えば、工場から出ていく必要のあるデータを99%以上削減できる——記録保持のためにアップロードされるのは異常フレームのみだ。
第三に——そしてこれが人々を驚かせるものだ——セキュリティ。クラウドベースのAIは、機密データが絶えず工場の敷地外へ流れ出ることを必要とする。試作品の画像。生産レート。独自の組立技術。ITAR規制下にある防衛製造業者は、このデータを共有パブリッククラウドサーバーに置くことは断じてできない。私たちのエッジアーキテクチャはエアギャップを復活させる。生の画像データはデバイスのRAMから決して外へ出ない。メタデータ——「部品 #1234: 合格」——だけがダッシュボードへ送られる。
ポストクラウドの工場は、切り離されているのではない。分散化されているのだ。知能は機械の上に宿り、そこで高速で、主権的で、ネットワーク障害に対して免疫を持つ。
インターネットがダウンしたとき——そして工場では、それは必ず起きる——私たちのシステムは気づきすらしない。カメラは検査を続け、マイクロフォンは聴取を続け、PLCは動作を続ける。ログはローカルにキャッシュされ、接続が回復したときに同期する。それは「あれば良い」機能ではない。1分あたり22,000ドルの生産ラインを運営する製造業者にとって、それは、実際には脆弱な「スマートファクトリー」と、真に堅牢なインテリジェントファクトリーとの違いなのだ。
インダストリー4.0についての不都合な真実
私は、産業AIコミュニティでは物議を醸すかもしれないが、私が深く信じていることで締めくくりたい。
インダストリー4.0の過去10年は、一つの嘘の上に築かれていた——悪意のある嘘ではないが、それでも嘘である。その嘘とは、集中化こそが製造インテリジェンスへの道だというものだった。すべてをクラウドに集約せよ。データレイクを構築せよ。巨大なデータセンターで巨大なデータセットに対して巨大なモデルを訓練せよ。クラウドプロバイダーはこのビジョンを猛烈に売り込み、製造業者はそれが進歩のように聞こえたからそれを買った。
それは進歩だった——監視にとっては。分析にとっては。長期的なトレンド分析にとっては。クラウドは「先四半期の欠陥率はどれくらいだったか?」や「どのサプライヤーの材料がより高いスクラップ率と相関しているか?」といった問いに答えることに秀でている。そうした問いは、数秒、数分、いや数時間の遅延さえ許容できる。
しかしどこかで、人々は監視と制御を混同してしまった。彼らはクラウドを通じてループを閉じようとした——パブリックインターネットを経由してデータをルーティングすることで、物理的なプロセスについてリアルタイムの判断を下そうとしたのだ。そしてそこでアーキテクチャは破綻した。なぜなら、コンベアベルトの物理法則と広域ネットワークの物理法則は、根本的に相容れないからだ。
産業インテリジェンスの未来はクラウドにはない。それはデバイスの上、行動の地点、コードが運動エネルギーと出会う場所にある。それは、毎秒275兆回の演算を実現する2,000ドルのJetsonモジュールであり、それが保護する機械の上に取り付けられ、誰の許可も求めることなく12ミリ秒で判断を下す。
私たちはクラウドをクビにしようと思って始めたわけではない。私たちはコンベアベルト上の不良品を捕らえようとして始めたのだ。しかしコンベアは、クラウドプロバイダーが決して教えてくれないことを私たちに教えてくれた——製造業において、重要な唯一の遅延はゼロである。それ以外はすべて、物理法則との妥協であり、物理法則は交渉しない。