通用電腦視覺在邊緣案例上會失靈:禿頭被誤判為足球、灰塵顆粒被標記為致命缺陷、陰影觸發幽靈煞車。我們打造物理約束視覺系統,在不可能的情況變得昂貴之前就予以排除。
無論您是在體育場運行自動攝影機、以 10nm 檢測晶圓,還是在生產線上分類缺陷,問題都是相同的:您的偵測器找到了模式,卻不理解物理。球無法瞬間移動。缺陷具有視差。陰影沒有深度。我們將這些物理約束直接嵌入您的視覺管線,弭平偵測與理解之間的落差。
2020 年 10 月,Pixellot 在 Inverness Caledonian Thistle 球場的自動攝影機系統,整場比賽都追蹤一名巡邊員的禿頭而非足球。該系統使用標準的 CNN 偵測器(很可能是 YOLO 系列),逐幀獨立處理。在體育場泛光燈下,巡邊員的頭部產生鏡面高光,其像素梯度在統計上與白色足球無法區分。偵測器對頭部上的「球」賦予 98% 信賴度,而實際的球(高速移動、在陰影中模糊)僅得 80%。系統跟隨了信賴度最高的訊號。它沒有任何機制可以檢查:一顆以每小時 3 英里、固定高度 1.7 公尺移動、附著於垂直圓柱物體上的「球」,違反了比賽中足球的每一項運動學約束。解方不是更好的訓練資料,而是物理。
KLA 以 63% 的市占率主導半導體檢測,其 2900 系列可偵測小至 10nm 的特徵。但偵測並非瓶頸,干擾性缺陷問題才是:在先進製程節點,寬頻掃描每片晶圓會捕捉到數千個異常。其中大多是不會影響良率的表面瑕疵、灰塵顆粒或圖案雜訊。每一個都需要分類。在先進節點,1% 的良率損失就意味著數百萬的營收損失,因為單片晶圓的成本可達數萬美元。業界標準是以歷史缺陷庫訓練的深度學習分類器,但這些分類器沒有任何模型可描述光如何在物理上與凹坑、污漬或製程殘留物產生作用。當晶圓廠轉換到新製程節點(譬如 2nm 的環繞閘極)時,分類器的訓練資料已過時,干擾率隨之飆升。能理解視差、材料反射率與形貌散射的物理式缺陷模型,無論製程節點為何,都能將真實缺陷與雜訊分離。
在採用 AI 品質管控的生產線上,您鮮少知道 CV 模型何時出錯。缺乏即時的真實標籤,漂移便在生產持續進行時悄悄累積。維護後燈光角度偏移。鏡頭歷經數週逐漸起霧。夾具磨損。誤拒上升(返工迴圈、產能摩擦)或誤收悄然滲入(漏出風險、保固曝險)。等到一次品質漏出浮現時,便會觸發大範圍圍堵、擴大隔離、重新檢測與人工複查。對一般製造商而言,劣質成本約占總銷售額的 20%。物理約束充當不變的錨點:正確製造零件的物理特性不會因燈光偏移而改變。物理式系統衡量的是觀測影像是否與已知的幾何與材料特性一致,而不僅是它與歷史訓練影像相比是否「看起來像」一個良品。
| 供應商 | 領域 | 他們交付什麼 | 物理整合 | 他們的不足之處 |
|---|---|---|---|---|
| Pixellot | 體育轉播 | AI 自動攝影機、自動追蹤、多角度。150 多個聯賽,與 GameChanger 合作。 | 用於軌跡平滑的基本卡爾曼濾波。V4 中的多假設追蹤大致修正了禿頭這類錯誤。 | 新的失效模式:運動模糊下的球衣 OCR、非平整球場上的越位投影。物理是事後平滑,而非約束層。 |
| Hawk-Eye(Sony) | 體育裁判 | 多攝影機三角測量、骨架追蹤(每名球員 29 個點)。NFL、MLB、ATP。 | 透過多攝影機校準達成強幾何約束。 | 昂貴(每個場館 100 萬美元以上)。專有且封閉。需要專屬基礎設施(每個場館 6-8 台 4K/8K 攝影機)。 |
| KLA Corporation | 半導體檢測 | 2900 系列寬頻檢測,10nm 靈敏度。製程控制領域 63% 市占率。 | 烘焙進特定製程節點的規則式缺陷物理模型。 | 模型針對特定製程節點。新節點轉換造成干擾率飆升。23 億美元的研發投資顯示他們知道落差存在。 |
| Cognex | 製造業 QA | VisionPro ViDi 深度學習、攝影機端邊緣學習(5-10 張訓練影像)。 | 推論時無物理。傳統機器視覺處理量測/計量。 | 純資料驅動。易受隱性漂移影響。設定時間減少 90%,但無物理基礎。 |
| NVIDIA | 平台/基礎設施 | Metropolis 生態系(1,000 多家公司)、用於數位孿生模擬的 Omniverse、用於合成資料的 Cosmos。 | 物理在訓練時(渲染),而非推論時。Omniverse 為合成資料生成模擬物理。 | 是平台,而非解決方案。物理止於訓練。部署的模型仍純屬資料驅動。 |
| Veo | 體育(草根) | D2C AI 攝影機,40,000 多個俱樂部、100 個國家、拍攝逾 400 萬場比賽。 | 極少。消費級追蹤。 | 非物理約束。消費級價位意味著可用於約束層的運算有限。 |
| 四大/大型系統整合商 | 跨產業 | 平台導入(NVIDIA、雲端 API)、整合服務、變革管理。 | 導入廠商的物理工具。不打造客製約束層。 | 他們部署平台。打造針對您特定物理調校的客製卡爾曼濾波管線不在他們的本領之內。專案規模 50 萬至 500 萬美元以上,耗時 6 至 18 個月。 |
| 雲端 API | 通用用途 | 預訓練偵測/分類、易於 API 整合、按次計費。 | 無。設計上即為逐幀獨立推論。 | 無時序一致性。無物理約束。「90% 陷阱」:快速達到 90% 準確率,但若無領域特定物理,便不可能補上最後的 10%。 |
這道落差在每個區隔中都一致:物理要嘛缺席、要嘛局限於訓練、要嘛鎖在專有系統內。沒有人提供客製物理約束層作為服務,整合進您現有的管線,針對您特定的領域物理調校。那正是我們打造的東西。
我們在您的偵測器與動作系統之間加入一個確定性的驗證層。每個偵測在被接受前都會通過三道閘:卡爾曼濾波運動學閘(在物體質量與時間差下,這個運動在物理上可能嗎?)、光流閘(邊界框內的像素運動是否符合預期速度剖面?),以及幾何閘(物體尺寸相對於攝影機位置是否滿足 3D 透視約束?)。我們將物理模型調校至您的領域。球追蹤用的拋體動力學。晶圓檢測用的視差幾何。自主導航用的路面約束。這些閘排除了單憑視覺信賴度無法捕捉的誤判。
對於半導體晶圓廠與精密製造,我們打造可模擬光如何在物理上與表面異常產生作用的缺陷分類器。真實的凹坑與灰塵顆粒散射光的方式不同。製程殘留物與短路的反射率不同。我們運用多視角幾何與物理式渲染模型,以每個異常的物理特性而非僅以其視覺外觀來加以刻畫。這意味著分類器能跨製程節點泛化,因為光與材料交互作用的物理不會因您從 FinFET 轉移到環繞閘極而改變。
模型漂移是生產 CV 的隱形殺手。我們打造以物理不變量作為穩定錨點的架構。正確製造零件的物理幾何不會因燈光角度偏移或鏡頭起霧而改變。我們將這些不變量編碼進系統,使環境變異影響原始訊號,卻不影響經物理驗證的輸出。這將緊急再訓練週期從每月降至每季或更少,並在漂移造成品質漏出之前予以捕捉。
當物理導引神經網路(PINN)適用於您的應用時,我們打造其訓練管線。PINN 在標準資料損失之外加入物理損失項:網路不僅因錯失目標而受罰,也因違反控制方程式(Navier-Stokes、拋體運動、能量守恆)而受罰。其結果是一個所需訓練資料更少、對未見過的條件泛化更佳、並產生物理上合理輸出的模型。我們處理那些棘手環節:lambda 調校(物理損失權重)、收斂穩定化,以及不連續處理(球撞擊球柱、晶圓邊緣效應)——這些是導致天真 PINN 實作失敗的原因。
以下精確說明當物理閘控系統逐幀處理 Inverness 比賽情境時會發生什麼。
偵測器在座標 (512, 380) 處以 92% 信賴度找到球。卡爾曼濾波器初始化:位置 (512, 380),依前幾幀估計速度為向東 18 m/s。狀態不確定度低。偵測區域的光流顯示強烈的向右運動,與被踢出的球一致。三道閘全部通過。系統接受該偵測並更新軌跡。
偵測器回傳兩個候選:
濾波器依其速度與重力預測球將位於 (531, 376) 附近。候選 A 的創新(殘差)為 1.4 像素。候選 B 的創新為 669 像素。B 的馬氏距離為 47 個標準差。任何超過 3 sigma 的皆被排除。 B 被淘汰 在它抵達下一道閘之前。
候選 A 顯示向右 450 像素/秒的流場,與 18 m/s 的球一致。即使 B 通過了閘 1,其流場顯示近乎零運動(靜止的頭部)。比賽中速度為零的「球」違反了預期剖面。 第二次排除。
候選 A 在此距離張出 22 像素,與距攝影機 12 公尺處的 22 公分球一致。候選 B 張出 45 像素。距 12 公尺處的 22 公分球不可能張出 45 像素。 第三次排除。
系統以 80% 視覺信賴度跟隨候選 A(實際的球),並排除候選 B,儘管其信賴度為 98%。 物理凌駕像素。
這套相同架構適用於任何物體遵循物理定律的領域。在半導體晶圓廠中,「卡爾曼閘」變成跨檢測角度的視差一致性檢查。在製造業 QA 中,「光流閘」變成表面反射率模型。框架相同;物理改變。
我們為您現有的 CV 管線加裝儀表,精確衡量它在何處失靈:依類別的誤判率、每個推論步驟的延遲、邊緣案例頻率。我們辨識哪些物理約束適用於您的領域,以及它們可預防哪些偵測失誤。交付物:一份約束規格文件,附帶預估的誤判降幅與一項 go/no-go 建議。若物理約束無法實質改善您的系統,我們會告訴您。
我們打造物理層並將其整合進您的管線。這不是一套獨立系統;它是一個座落於您現有偵測器與動作邏輯之間的驗證層。我們將卡爾曼濾波器的狀態模型調校至您的物體動力學、依您的攝影機設置校準光流閾值,並對照您的物理環境驗證幾何約束。時程取決於複雜度:單攝影機體育追蹤器為 8 週。配備客製物理模型的多視角半導體檢測系統為 16 週。
我們在搭配監控的情況下部署到生產。我們為每道閘加裝儀表以記錄排除原因、對照您的驗收標準衡量誤判與漏判率,並驗證物理約束不會為您的管線增加不可接受的延遲。我們依生產資料而非實驗室條件調校閾值。交付物:一套生產系統,附帶有文件記載的效能基準與一個漂移監控儀表板。
哪些耗時更久
在非標準佈局場館中的多攝影機校準。半導體的製程節點轉換(物理模型需要來自新節點的刻畫資料)。與不揭露即時資料饋送的傳統 PLC 或 SCADA 系統整合。
回答關於您當前 CV 部署的六個問題。獲得一份具體分析,了解哪些物理約束會有幫助,以及可預期的誤判降幅。
1. 您的視覺系統追蹤或檢測什麼?
2. 您目前的誤判率為何?
3. 您的系統是逐幀獨立處理,還是維持時序狀態?
4. 由於環境漂移,您多久重新訓練一次模型?
5. 您每幀的延遲預算為何?
6. 您的領域是否有物理模型(運動學方程式、材料特性、幾何約束)?
傳統的誤判降低方式是提高信賴度閾值:要求 95% 信賴度而非 80%。這會降低誤判,卻無可避免地增加漏判,因為信賴度較低的正當偵測也會被排除。物理約束以正交的方式運作。它們不觸碰信賴度閾值,而是驗證一個偵測在物理上是否可能,無論其視覺信賴度分數為何。一個 98% 信賴度的禿頭作為球在物理上仍然不可能,所以被排除。一個 75% 信賴度但符合運動學預測的球則被接受。誤判率下降,因為物理上不可能的偵測被消除。漏判率維持或改善,因為信賴度較低的正當偵測通過了物理檢查。在半導體檢測中,這意味著捕捉到高信賴度閾值會漏失的真實缺陷(微弱但物理上真實的凹坑),同時排除恰巧看似缺陷的干擾訊號(視覺高度相似但視差行為錯誤的表面顆粒)。
可以,而且這正是標準做法。物理層座落於您的偵測器與動作系統之間。您現有的偵測器(YOLO、EfficientDet、客製 CNN、雲端 API)持續生成候選偵測。物理層在將每個候選傳遞至下游之前,會對照運動學、光流與幾何約束加以評估。整合點取決於您的架構:若您在裝置端執行推論,物理層在相同硬體上執行(與 CNN 推論相比,卡爾曼濾波器更新在運算上很廉價)。若您使用雲端 API,物理層可在您的邊緣或處理管線中執行。典型整合為卡爾曼濾波器與光流閘每幀增加 1-3 毫秒。幾何閘延遲取決於您 3D 模型的複雜度,但鮮少超過 5 毫秒。增加的總延遲:2-8 毫秒。對於已在 25-60fps(每幀 16-40 毫秒)運行的系統而言,這落在預算之內。
重新訓練處理漂移,卻不處理根本問題:重新訓練的模型仍可能做出物理上不可能的預測,因為它沒有物理的概念。擴充訓練資料有助於涵蓋範圍,但在邊緣案例上報酬遞減(您無法靠訓練擺脫物理定律)。物理約束管線打造視複雜度而定,費用為 8 萬至 25 萬美元。單攝影機單物件追蹤(體育)位於低端。配備客製物理模型的多視角半導體檢測位於高端。將其與問題的持續成本相比:一座每片報廢晶圓成本達數萬美元、且干擾驅動的人工複查以每小時 150-200 美元燒掉工程師工時的半導體晶圓廠。一家自動攝影機錯失關鍵賽事的體育轉播商會流失訂閱者。一家將營收五分之一花在品質成本上的製造商,其中大部分是由物理約束本可預防的誤拒所驅動。物理層是一次性打造,維護成本低,因為物理不會漂移。拋體運動定律下一季不會改變。
Pixellot 的 V4 多假設追蹤大致修正了「禿頭」這類錯誤。Hawk-Eye 配備骨架追蹤的多攝影機三角測量,是受裁判執法之體育的黃金標準。但市場已超越頂層。FIFA 世界盃享有 Hawk-Eye 每場館 100 萬美元以上的設置。使用 Veo 消費級攝影機的 40,000 多個俱樂部則沒有。落差在於中階與草根體育:那些需要優於消費級準確度的自動轉播、卻負擔不起 Hawk-Eye 基礎設施的聯賽。單攝影機設置上的物理約束,能以一小部分的成本補上該準確度落差的可觀部分。具體而言:透過物理式預測的遮擋處理(當球員擋住球時維持軌跡)、多物件消歧(以運動學剖面而非僅以外觀來區分兩名重疊的球員),以及攝影機運動補償(運用慣性約束將攝影機平移與物體運動分離)。
這正是物理約束影響最大的情境。節點轉換會擊垮資料驅動的分類器,因為訓練資料來自舊節點。視覺特徵改變:新材料、新幾何、新蝕刻圖案。但缺陷成像的物理並不以相同速率改變。真實的凹坑仍依其深度與側壁角度散射光。顆粒仍依其在表面之上的高度,在檢測角度之間顯示視差。製程殘留物仍具有由其材料組成決定的反射率剖面。我們打造的缺陷分類器在視覺特徵之外運用這些物理式特徵。在節點轉換期間,即使視覺特徵失去預測力,物理特徵仍保有判別力。實際時程:領域物理稽核以刻畫新節點的成像物理需 2-3 週,分類器打造含對照您新節點缺陷庫的驗證需 12-16 週。
每個物理模型都是一種近似。卡爾曼濾波器假設牛頓動力學,這對具有複雜空氣動力學的物體會失效(蝴蝶球因紊流氣流分離而不可預測地飄移)。對極幾何模型假設剛性表面,這對柔性材料會失效。我們以三種方式處理此問題。第一,每道閘都有可配置的信賴度閾值。若馬氏距離處於邊緣(介於 3 到 5 sigma 之間),該偵測會被標記交付下游驗證,而非直接硬性排除。第二,對於非線性動力學,我們使用無跡卡爾曼濾波器(UKF)而非擴展卡爾曼濾波器(EKF)。UKF 透過實際的非線性函數傳播 sigma 點而非線性化,這能處理中度非線性(旋轉、阻力、不平整表面),而沒有 EKF 的泰勒級數近似誤差。第三,對於真正複雜的物理(紊流、新穎材料),我們使用 PINN 從資料中學習控制方程式,同時約束解空間。物理模型不是一個硬性牢籠。它是一道在邊緣處彎曲、卻能在中心防止災難性錯誤的護欄。
探索我們物理約束視覺方法論背後的技術基礎。
一場深入的技術探討,剖析為何通用電腦視覺在生產環境中失靈,以及物理約束架構(卡爾曼濾波器、光流、PINN)如何弭平偵測與理解之間的落差。
閱讀白皮書邊緣案例耗用 80% 的工程時間、90% 的支援成本,以及 100% 的責任曝險。
物理約束視覺系統不會消除邊緣案例。它消除物理上不可能的邊緣案例,而那是其中的絕大多數。您花在除錯誤判、為漂移重新訓練、複查干擾性缺陷上的工程時間,轉而投入打造功能。