一張特寫編輯照,一台小巧的 NVIDIA Jetson 運算模組實際安裝在工業輸送帶的框架上,攝影機對準帶上移動的零件——呼應本文核心主張:讓運算存在於行動發生的那一點。
Artificial IntelligenceManufacturingEdge Computing

我們把雲端趕出了工廠車間——這是我們做過最好的一項工程決定

Ashutosh SinghalAshutosh Singhal2026年1月29日14 min

當雲端告訴我們那個零件有瑕疵時,它早已被裝箱包好了。

我還記得當時站在工廠車間裡,和我的工程主管一起看著輸送帶以慣常的速度運轉——每秒兩公尺,沒什麼異常——同時等待我們花了數週整合的雲端視覺 API 傳回結果。攝影機擷取了畫面。影像飛向數百英里外的資料中心。模型執行推論。結果傳回來了:「偵測到瑕疵。」

答案正確。卻完全沒用。

在那趟來回花掉的 800 毫秒裡,零件已經移動了 1.6 公尺。氣動推料器位在攝影機下游 1 公尺處。零件早已越過它 60 公分。它正躺在裝著良品的箱子裡,準備出貨。

我的工程主管看著我。我看著輸送帶。就在那一刻,我明白了一件任何架構圖或雲端供應商的銷售簡報都從未講清楚的事:光速不是一項你能升級的功能。網際網路是機率性的。輸送帶不是。當你讓一個機率性系統去掌管一個確定性流程時,物理定律每一次都會獲勝。

那一天,我們把雲端從工廠車間解僱了。

那堂 800 毫秒的震撼教育

一張空間示意圖,呈現輸送帶的實體佈局——攝影機位置、推料器位置,以及雲端回應抵達時零件實際所在的位置——讓這個物理難題一目了然。

讓我精確說明 800 毫秒究竟意味著什麼,因為在人機互動的世界裡,這聽起來微不足道。你點一個連結,頁面在 800 毫秒內載入,你甚至不會察覺。但在生產線上,800 毫秒卻是以公分計量的漫長永恆。

這裡有一道改變了我一切的算式。一條以每秒 2 公尺運轉、攝影機到推料器距離為 1 公尺的輸送帶,會給你一個 500 毫秒的硬性期限。不是軟性期限。不是「盡力而為」的目標。是一堵牆。如果你的控制訊號在 501 毫秒才抵達,零件在物理上已經越過推料器。沒有重試。沒有緩衝。原子不會等位元。

我們那趟 800 毫秒的來回根本差得遠。當我拆解這些毫秒都花到哪裡去了——影像編碼(20–40 毫秒)、透過工廠防火牆與 ISP 的上傳(100–300 毫秒)、網路路由與抖動(50–200 毫秒)、雲端排隊(50–100 毫秒)、實際推論(50–150 毫秒),以及回程(100–200 毫秒)——我意識到我們建的根本不是控制系統。我們建了一套非常昂貴的通報系統,在問題已經變成別人的問題之後才告訴我們。

控制迴路中遲到的資料不只是沒用——它是危險的。系統狀態早已改變。根據過時的資訊採取行動,比完全不採取行動更糟。

真正讓我刺痛的是什麼?那個 AI 模型本身是出色的。它正確地辨識出了瑕疵。智慧是存在的。但我們把那份智慧放錯了地方——離它本該控制的東西數百英里之遙。

為什麼雲端 AI 在工廠車間會失敗?

每當我說雲端不適用於即時製造控制時,人們總會反駁。「那 5G 呢?」他們問。「那更快的連線呢?」

早期我和一位潛在投資人就有過一模一樣的爭論。他看過某大型電信商的行銷資料——1 毫秒的空中介面延遲,萬物互聯的未來。「用 5G 就好了,」他說,彷彿這是理所當然的。

於是我帶著他從射頻的角度看看工廠實際上長什麼樣子。到處都是鋼樑,造成訊號反射。高壓馬達與電弧焊機產生電磁干擾,擾亂無線訊號。堆高機在感測器與存取點之間穿梭,破壞了視線連線。工廠基本上就是一場由某個痛恨無線工程師的人所設計的射頻惡夢。

而且就算你解決了這一切——就算你用毫米波取得了完美的 5G 覆蓋——你仍然面對 TCP/IP 這個根本問題。網際網路的傳輸協定是為可靠性而設計的,不是為即時性。若封包遺失,TCP 會等待、要求重傳、再等待。這對電子郵件很棒。但對一個每一次都需要在 500 毫秒內、零變異回應的控制迴路而言,這是毒藥。

變異才是致命的。問題不只在於雲端延遲高——而在於它是無法預測的。一個請求花 400 毫秒,下一個花 1,200 毫秒。你無法把一套安全系統建立在一條你不知道答案是否會及時抵達的通訊通道上。我在我們研究的互動版本中更深入地寫過這件事,但簡短的版本是:我們拒絕把攸關安全的系統建立在一個為盡力而為交付而設計的協定上。

十二毫秒

一張並排比較的示意圖,呈現雲端管線(7 個階段合計 800 毫秒)對比邊緣管線(4 個階段合計 12 毫秒),讓這戲劇性的架構差異與延遲降幅在視覺上一目了然。

這個解法,一旦我們看見了,感覺幾乎令人尷尬地顯而易見。別再把資料送去運算端。把運算帶到資料端。

我們拿了一台 NVIDIA Jetson 裝置——本質上是一台大約信用卡尺寸的嵌入式超級電腦——直接安裝在輸送帶框架上,距離攝影機不到一公尺。我們把視覺模型從 32 位元浮點量化到 8 位元整數精度,並用 NVIDIA 的 TensorRT 最佳化工具進行編譯。

第一次執行時,整條管線的延遲——擷取、預處理、推論、後處理——是 12 毫秒。

我永遠不會忘記那一刻。我的團隊一直對量化這一步抱持懷疑。我們辦公室裡曾為了從 FP32 降到 INT8 是否會摧毀模型準確度而激烈爭論。我的其中一位工程師深信我們會損失太多精度而無法使用。我們跑了校準、部署了量化模型,準確度下降不到 1%。對於一個二元瑕疵偵測任務——有刮痕或沒刮痕——99.5% 信心度與 99.1% 信心度之間的差異毫無意義。兩者都會觸發剔除。

但速度上的差異是驚人的。在 12 毫秒下,零件在處理過程中只移動了 2.4 公分。在推料器之前我們有 97.6 公分的安全餘裕。那不叫緊繃。那叫奢侈。我們從漏掉每一個瑕疵,變成有足夠的時間對每個零件執行多次驗證。

我們把推論延遲從 800 毫秒降到 12 毫秒——改善了 98.5%——靠的是把 AI 從資料中心搬到一台你能握在手裡的裝置上。

這裡的技術細節很重要,即使你不是工程師也值得理解。Jetson 的統一記憶體架構意味著 CPU 與 GPU 共用同一塊實體記憶體。在配備獨立 GPU 的傳統 PC 中,你會浪費數毫秒把影像資料從系統 RAM 複製到 GPU 記憶體。而在 Jetson 上,GPU 直接讀取攝影機緩衝區。TensorRT 把多個神經網路層融合成單一運算,消除了多餘的記憶體存取。這些並非微不足道的最佳化——一個標準的 YOLOv8 模型在 Jetson 上用 PyTorch 執行約需 35 毫秒,但經過 TensorRT INT8 轉換後,只需 3.2 毫秒。光是軟體最佳化,就在同一套硬體上帶來了 10 倍的加速。

那座吞噬你利潤的隱形工廠

關於這項工作,最讓我意外的是:讓製造商付出最多金錢的並不是災難性故障。而是那些微停機。

製造業裡人人都知道那個頭條數字——汽車業的非計畫性停機平均每分鐘損失22,000 美元。西門子在 2024 年為大型廠房更新了這個數字:每小時 230 萬美元。這些數字是真實的,而且令人膽戰心驚。一套 7,000 美元的邊緣 AI 系統,只要每年能避免 19 秒的停機,就能回本。十九秒。

但真正讓我夜不能寐的是另一個數字。當一套雲端 AI 系統遭遇網路抖動時——而在一座充滿電磁干擾的工廠裡,它一定會——生產線就會暫停以重新同步。也許 30 秒。也許更短。沒有人會為了一次 30 秒的暫停寫事故報告。它就只是……發生了。一天十次。損失五分鐘。

一年下來,那就是 30 小時的生產損失。以每分鐘 22,000 美元計,那些「微小」的網路故障每年造成3,960 萬美元的損失。並非來自一次災難性的當機,而是來自一套系統因為要依賴網際網路連線才能思考而不斷打嗝,日積月累的重量。

我們開始把這稱為「隱形工廠」——那條反向運轉的幽靈生產線,透過無人追蹤的微停機吞噬金錢,因為每一次單獨看來都渺小到不值一提。邊緣原生 AI 徹底消除了它們。Jetson 不在乎 WiFi 是否斷線。它不在乎 ISP 今天是否狀況不佳。它處理畫面、做出決策、觸發致動器——全都透過具有有界、可預測、微觀延遲的本地電氣連線完成。

教工廠傾聽會發生什麼事?

在我們部署邊緣視覺約莫六個月後,我的一位工程師帶著一個我起初不以為意的點子來找我。「如果我們不再只是看著機器,」她說,「而是開始聽它們呢?」

我很慶幸她夠堅持,因為聲學 AI 最後成了我們踏上過最具影響力的技術方向。

攝影機的問題在於:它們只能看見可見的東西。而製造業裡最昂貴的故障——卡死的軸承、龜裂的主軸、泵浦裡的空蝕——都發生在機器內部,在災難性故障的那一刻之前,對任何攝影機都是不可見的。等到你能看見損害時,你面對的是 50,000 美元的維修帳單與兩天的停機。

事實證明,聲音是領先指標,而振動是落後指標。傳統的加速度計是在物理損害——剝落、點蝕——已經發生在軸承滾道之後才偵測到振動。但當軸承開始失去潤滑或出現微觀裂縫時,增加的摩擦會在超音波頻段產生高頻應力波,落在 20 到 100 kHz 之間,早了數週,遠在振動感測器觸發警報之前。

超音波能在振動感測器察覺任何異常之前數週,就偵測到潤滑失效。那正是 500 美元的軸承更換與 50,000 美元的主軸更換之間的差別。

我們打造了我所稱的 5 毫秒斷路開關。以 96kHz 或 192kHz 取樣的高頻 MEMS 麥克風,饋入一顆 TinyML 微控制器——甚至不是 Jetson,只是一顆微小的 ARM Cortex-M7 晶片——執行一個輕量的一維卷積神經網路,該網路是以健康與失效軸承的頻譜特徵訓練而成。當模型偵測到龜裂軸承或潤滑喪失的特定頻率模式時,它會透過一個 GPIO 接腳觸發機器的緊急停止電路。

兩毫秒取得足夠的音訊。推論不到一毫秒。電氣訊號不到一毫秒。總共五毫秒,機器就會在熱量累積到足以熔接金屬之前停下來。

關於我們如何在嘈雜的工廠環境中處理波束成形與訊號隔離,完整的技術剖析請見我們的研究論文。簡短的版本是:透過使用 64 或 124 支麥克風的陣列並測量到達時間差,我們能以數學方式「引導」系統的聆聽焦點對準三維空間中的特定一點——軸承外殼——同時靜音其餘一切,即便在 100 分貝的工業環境中也是如此。

那顆改變我想法的滾珠軸承

我得跟你說說我成為聲學 AI 真正信徒的那一刻,因為說服我的不是理論。而是親眼看著它運作。

我們的其中一位客戶,一家汽車零件製造商,有個反覆出現的惡夢:他們機械加工過程中產生的金屬碎屑,偶爾會污染供應其 CNC 主軸的冷卻液系統。當受污染的冷卻液碰到主軸軸承時,它們會快速劣化。操作員的診斷方法,字面上就是站在機器旁邊聽「壞聲音」。等到人耳能偵測到問題時,主軸早已毀了。每次事故的替換零件成本是 45,000 美元,外加兩天的停機。

我們安裝了一顆對準主軸外殼的非接觸式聲學感測器,並以特定的頻率偏移——約 25kHz 附近能量的展寬——訓練了一個 TinyML 模型,那正是受污染冷卻液開始增加軸承摩擦時所發生的現象。

第一次真正的偵測發生在一個週二下午。系統標記了異常,並在 5 毫秒內觸發了斷路開關。機器停了下來。維修人員打開它時,軸承受損了,但主軸軸桿完好無缺。維修成本:800 美元。整套感測系統在那單一事件中就回了本——不是靠數月累積的節省,而是在那一刻,5 毫秒正是 800 美元的修復與 45,000 美元的災難之間的差別。

那天傍晚廠長打電話給我。他沒有談投資報酬率或回本期。他說:「它聽見了我最好的操作員都聽不見的東西。」

為什麼不乾脆修好雲端連線就好?

人們不斷問我這個問題,而這是個合理的問題。為什麼不投資更好的網路,而要把一切搬到邊緣?

三個原因。

第一,你修不了物理定律。光在光纖中的速度約為每秒 200,000 公里。往返一個 500 英里外的資料中心,光是讓光傳播就至少要 8 毫秒,這還是假設零處理、零排隊、零路由——而這些沒有一項是現實的。加上真實世界的網路行為,你又回到了帶著不可預測變異的數百毫秒。

第二,頻寬的經濟帳很殘酷。一個配備四台以 30 FPS 運轉的 4K 攝影機的品管站,會產生約 80 Mbps 的壓縮影像。一座工廠有數百個站點。全天候把 8 Gbps 的影像串流到雲端,意味著龐大的專用光纖回程、每月可能高達數萬美元的雲端流出費用,再加上其上的儲存成本。透過邊緣處理,我們把需要離開工廠的資料量減少了超過 99%——只有異常畫面會被上傳以供留存記錄。

第三——而這是最讓人意外的——安全性。雲端 AI 需要一股持續的敏感資料串流離開工廠廠區。原型的影像。生產速率。專有的組裝技術。受 ITAR 法規約束的國防製造商,絕對不能把這些資料放在共用的公有雲伺服器上。我們的邊緣架構恢復了氣隙隔離。原始影像資料從不離開裝置的 RAM。只有中繼資料——「零件 #1234:通過」——才會送到儀表板。

後雲端時代的工廠並非斷線。它是去中心化的。智慧存在於機器之上,在那裡它是快速的、自主的,並且不受網路中斷的影響。

當網際網路斷線時——而在工廠裡,它一定會——我們的系統甚至不會察覺。攝影機持續檢測,麥克風持續聆聽,PLC 持續動作。日誌在本地快取,並在連線恢復時同步。那不是「有了更好」的東西。對一家運轉著每分鐘 22,000 美元生產線的製造商而言,那正是一座實際上脆弱的「智慧工廠」與一座真正穩健的智能工廠之間的差別。

關於工業 4.0 的那個令人不安的真相

我想以某件在工業 AI 社群裡也許具爭議性、但我深信不疑的事作結。

過去十年的工業 4.0 建立在一個謊言之上——不是惡意的謊言,但終究是個謊言。這個謊言就是:集中化是通往製造智慧的道路。把一切匯集到雲端。建立資料湖。在龐大的資料中心裡用龐大的資料集訓練龐大的模型。雲端供應商拚命兜售這個願景,而製造商買了單,因為它聽起來像是進步。

它確實是進步——對監控而言。對分析而言。對長期趨勢分析而言。雲端在回答諸如「我們上一季的瑕疵率是多少?」或「哪家供應商的材料與較高的廢料率相關?」這類問題上出色極了。這些問題能容忍數秒、數分鐘、甚至數小時的延遲。

但在某個環節,人們把監控與控制混為一談。他們試圖透過雲端閉合迴路——藉由把資料透過公共網際網路傳送,來對物理流程做出即時決策。而這正是架構崩壞之處,因為輸送帶的物理與廣域網路的物理從根本上就互不相容。

工業智慧的未來不在雲端。它在裝置上,在行動的發生點,在程式碼與動能相遇之處。它是一顆 2,000 美元的 Jetson 模組,能提供每秒 275 兆次運算,安裝在它所守護的機器上,在 12 毫秒內做出決策,無需徵求任何人的許可。

我們並非一開始就打算解僱雲端。我們一開始只是想抓出輸送帶上的瑕疵零件。但輸送帶教會了我們一件雲端供應商永遠不會教的事:在製造業裡,唯一重要的延遲是零。其餘的一切,都是與物理定律的妥協,而物理定律不會談判。

Related Research

Also Published On