物理约束计算机视觉

为什么通用计算机视觉在生产环境中失灵

纹理偏置与光头巡边员

2020 年 10 月，Pixellot 在 Inverness Caledonian Thistle 部署的自动摄像系统在整场比赛中追踪了一名巡边员的光头，而非足球。该系统使用了一个逐帧独立处理的标准 CNN 检测器（很可能是 YOLO 系列）。在体育场泛光灯下，巡边员的头部产生的镜面高光，其像素梯度在统计意义上与白色足球难以区分。检测器对头部上的“球”赋予 98% 的置信度，而真正的球（高速运动、在阴影中模糊）只得到 80%。系统跟随了置信度最高的信号。它没有任何机制去核查：一个以 3 英里/小时移动、保持 1.7 米恒定高度、附着在竖直圆柱形物体上的“球”，违背了比赛中足球的每一条运动学约束。解决之道不是更好的训练数据，而是物理。

半导体晶圆厂中的干扰缺陷陷阱

KLA 以 63% 的市场份额主导着半导体检测领域，其 2900 系列能够检测小至 10nm 的特征。但检测并非瓶颈。问题出在干扰缺陷上：在先进工艺节点下，一次宽带扫描会捕获每片晶圆数千个异常。其中大多数是表面伪影、灰尘颗粒或图案噪声，并不会影响良率。每一个都需要分类。在先进节点上，1% 的良率损失意味着数百万美元的收入损失，因为单片晶圆成本可达数万美元。行业标准做法是在历史缺陷库上训练深度学习分类器，但这些分类器没有任何模型来描述光在凹坑、污渍与工艺残留物上的物理交互方式。当晶圆厂过渡到新工艺节点（比如 2nm 的全环绕栅极）时，分类器的训练数据便已过时，干扰率随之飙升。基于物理的缺陷模型能够理解视差、材料反射率和形貌散射，从而无论工艺节点如何都能将真实缺陷与噪声区分开来。

生产线上的隐性漂移

在使用基于 AI 的质量控制的生产线上，您很少能知道 CV 模型何时出错。在没有实时真值标签的情况下，漂移会在生产持续进行的同时悄然累积。维护后照明角度发生偏移。镜头在数周内逐渐起雾。夹具磨损。误拒上升（返工循环、产能摩擦），或误收悄然蔓延（漏检风险、保修敞口）。等到质量漏检浮现时，它会触发大范围的遏制、扩大的隔离、重新检测和人工复核。对于普通制造商而言，劣质成本约占总销售额的 20%。物理约束充当不变锚点：正确制造的零件的物理属性不会因照明变化而改变。基于物理的系统衡量的是观测图像是否与已知的几何形状和材料属性一致，而不仅仅是它与历史训练图像相比是否“看起来像”一个合格零件。

当今计算机视觉领域谁在构建什么

供应商	领域	他们交付什么	物理集成	他们的不足之处
Pixellot	体育转播	AI 自动摄像机、自动追踪、多角度。覆盖 150+ 联赛，与 GameChanger 合作。	用于轨迹平滑的基础卡尔曼滤波。V4 中的多假设追踪基本修复了光头类错误。	出现新的失效模式：运动模糊下的球衣 OCR、非平整球场上的越位投影。物理只是事后平滑，而非约束层。
Hawk-Eye（索尼）	体育判罚	多摄像机三角测量、骨架追踪（每名球员 29 个点）。服务于 NFL、MLB、ATP。	通过多摄像机标定实现强几何约束。	昂贵（每个场馆 100 万美元以上）。专有且封闭。需要专用基础设施（每个场馆 6-8 台 4K/8K 摄像机）。
KLA Corporation	半导体检测	2900 系列宽带检测，10nm 灵敏度。在过程控制领域占据 63% 市场份额。	针对特定工艺节点定制的基于规则的缺陷物理模型。	模型针对特定工艺节点。新节点过渡会导致干扰率飙升。23 亿美元的研发投入表明他们清楚这一差距的存在。
Cognex	制造质检	VisionPro ViDi 深度学习、相机端边缘学习（5-10 张训练图像）。	推理时无物理约束。传统机器视觉负责测量/计量。	纯数据驱动。易受隐性漂移影响。设置时间减少 90%，但缺乏物理根基。
NVIDIA	平台/基础设施	Metropolis 生态系统（1,000+ 家公司）、用于数字孪生仿真的 Omniverse、用于合成数据的 Cosmos。	物理在训练时（渲染）发挥作用，而非推理时。Omniverse 为合成数据生成模拟物理。	是平台，而非解决方案。物理止步于训练。部署的模型仍然是纯数据驱动的。
Veo	体育（基层）	面向消费者的 AI 摄像机，覆盖 40,000+ 家俱乐部、100 个国家、拍摄 400 万+ 场比赛。	极少。消费级追踪。	并非物理约束。消费级价位意味着可用于约束层的算力有限。
四大/大型系统集成商	跨行业	平台实施（NVIDIA、云 API）、集成服务、变更管理。	实施供应商提供的物理工具。不构建定制约束层。	他们部署平台。构建针对您特定物理调优的定制卡尔曼滤波流水线不在他们的能力范围内。项目费用为 50 万至 500 万美元以上，耗时 6-18 个月。
云 API	通用用途	预训练检测/分类、便捷的 API 集成、按调用付费。	无。设计上即为逐帧独立推理。	无时序一致性。无物理约束。“90% 陷阱”：达到 90% 准确率很快，但若没有领域特定的物理，几乎不可能攻克最后 10%。

这一差距在每个细分领域都是一致的：物理要么缺失，要么局限于训练，要么被锁在专有系统内部。没有人以服务的形式提供定制的物理约束层，集成进您现有的流水线，并针对您特定领域的物理进行调优。而这正是我们所构建的。

为您的领域量身打造的物理约束视觉系统

物理门控追踪流水线

我们在您的检测器与执行系统之间加入一个确定性验证层。每一次检测在被接受前都要通过三道门：卡尔曼滤波运动学门（鉴于物体的质量和时间间隔，这一运动在物理上可能吗？）、光流门（边界框内的像素运动是否与预期速度剖面相符？），以及几何门（相对于相机位置，物体尺寸是否满足三维透视约束？）。我们将物理模型调优至您的领域：球追踪的抛体动力学、晶圆检测的视差几何、自主导航的路面约束。这些门拒绝那些仅凭视觉置信度无法捕捉的误报。

干扰缺陷分类

针对半导体晶圆厂和精密制造，我们构建能够建模光与表面异常物理交互方式的缺陷分类器。真实凹坑对光的散射方式不同于灰尘颗粒。工艺残留物的反射率与短路不同。我们使用多视图几何和基于物理的渲染模型，按物理属性而非仅凭视觉外观来表征每一处异常。这意味着分类器能够跨工艺节点泛化，因为当您从 FinFET 转向全环绕栅极时，光与材料交互的物理规律并不改变。

抗漂移架构

模型漂移是生产环境 CV 的隐形杀手。我们构建以物理不变量作为稳定锚点的架构。正确制造的零件的物理几何形状不会因照明角度偏移或镜头起雾而改变。我们将这些不变量编码进系统，使得环境变化影响原始信号，却不影响经物理验证的输出。这将紧急再训练周期从每月一次降至每季度一次或更低，并在漂移引发质量漏检之前就将其捕获。

物理信息训练流水线

当物理信息神经网络（PINN）适用于您的应用时，我们便构建相应的训练流水线。PINN 在标准的数据损失之上增加了一项物理损失：网络不仅因偏离目标而受到惩罚，也因违背支配方程（纳维-斯托克斯方程、抛体运动、能量守恒）而受到惩罚。其结果是一个所需训练数据更少、对未见条件泛化更好、并产生物理上合理输出的模型。我们处理那些棘手的部分：lambda 调优（物理损失权重）、收敛稳定化，以及不连续性处理（球击中门柱、晶圆边缘效应）——这些正是导致朴素 PINN 实现失败的原因。

物理门如何捕捉置信度分数所遗漏的情形

下面正是当物理门控系统逐帧处理 Inverness 比赛场景时所发生的情况。

第 t 帧：球在中场

检测器在坐标 (512, 380) 处以 92% 置信度找到了球。卡尔曼滤波器初始化：位置 (512, 380)，速度据前几帧估计为向东 18 m/s。状态不确定性较低。检测区域的光流显示出与被踢出的球相符的强烈向右运动。三道门全部通过。系统接受该检测并更新轨迹。

t+1

第 t+1 帧：关键帧（40 毫秒之后）

检测器返回两个候选：

候选 A

“球”位于 (530, 375)，置信度 80%。相比上一位置向东 18 像素、向上 5 像素。

候选 B

“球”位于 (1200, 340)，置信度 98%。是巡边员的光头，相距 688 像素。

门 1：卡尔曼运动学检查

滤波器根据球的速度和重力预测它应靠近 (531, 376)。候选 A 的新息（残差）为 1.4 像素。候选 B 的新息为 669 像素。B 的马氏距离为 47 个标准差。任何超过 3 西格玛的都会被拒绝。 B 被淘汰尚未到达下一道门便已出局。

门 2：光流验证

候选 A 显示出每秒 450 像素的向右流场，与 18 m/s 的球相符。即便 B 通过了门 1，其流场也显示近乎为零的运动（静止的头部）。比赛进行中速度为零的“球”违背了预期剖面。第二次拒绝。

门 3：几何约束

候选 A 在此距离上张成 22 像素，与一个距相机 12 米处的 22 厘米球相符。候选 B 张成 45 像素。距相机 12 米处的 22 厘米球不可能张成 45 像素。第三次拒绝。

结果

系统跟随视觉置信度为 80% 的候选 A（真正的球），并拒绝了置信度高达 98% 的候选 B。 物理凌驾于像素之上。

这一相同的架构适用于任何物体遵循物理定律的领域。在半导体晶圆厂中，“卡尔曼门”变为跨检测角度的视差一致性检查。在制造质检中，“光流门”变为表面反射率模型。框架是相同的；改变的只是物理。

从物理审计到生产部署

领域物理审计

2-3 周

我们对您现有的 CV 流水线进行测量埋点，精确定位其失灵之处：各类别的误报率、每个推理步骤的延迟、边缘场景的频率。我们确定哪些物理约束适用于您的领域，以及它们能够防止哪些检测失误。交付物：一份约束规格文档，附带预计的误报降低幅度和一项 go/no-go 建议。如果物理约束无法切实改善您的系统，我们会如实告知。

约束流水线构建

8-16 周

我们构建物理层并将其集成进您的流水线。这不是一个独立的系统；它是一个位于您现有检测器与执行逻辑之间的验证层。我们将卡尔曼滤波器的状态模型调优至您的物体动力学，将光流阈值标定至您的相机配置，并对照您的物理环境验证几何约束。时间线取决于复杂度：单摄像机体育追踪器需 8 周；带定制物理模型的多视图半导体检测系统则需 16 周。

生产强化

4-6 周

我们带监控地部署至生产环境。我们为每道门埋点以记录拒绝原因，对照您的验收标准衡量误报率和漏报率，并验证物理约束不会给您的流水线增加不可接受的延迟。我们基于生产数据而非实验室条件来调优阈值。交付物：一套带有书面性能基线和漂移监控仪表盘的生产系统。

哪些环节耗时更长

在布局非标准的场馆中进行多摄像机标定。半导体中的工艺节点过渡（物理模型需要来自新节点的表征数据）。与不暴露实时数据馈送的老旧 PLC 或 SCADA 系统的集成。

关于物理约束视觉的常见问题

物理约束如何在不增加漏报的情况下降低误报？

传统的误报降低做法是提高置信度阈值：要求 95% 置信度而非 80%。这会降低误报，但不可避免地增加漏报，因为置信度较低的合法检测也会被一并拒绝。物理约束的作用方式是正交的。它们不触及置信度阈值。相反，它们核查一个检测在物理上是否可能，而不论其视觉置信度分数如何。98% 置信度的光头作为球在物理上仍然不可能，因此被拒绝。75% 置信度但与运动学预测相符的球则被接受。误报率下降，因为物理上不可能的检测被排除了。漏报率保持不变或有所改善，因为置信度较低的合法检测通过了物理检查。在半导体检测中，这意味着能捕获高置信度阈值会遗漏的真实缺陷（微弱但物理上真实的凹坑），同时拒绝那些恰好看起来像缺陷的干扰信号（视觉相似度高但视差行为错误的表面颗粒）。

您能否在不替换我们检测器的情况下，将物理约束集成进我们现有的流水线？

可以，而且这正是标准做法。物理层位于您的检测器与执行系统之间。您现有的检测器（YOLO、EfficientDet、定制 CNN、云 API）继续生成候选检测。物理层在将每个候选向下游传递之前，依据运动学、光流和几何约束对其进行评估。集成点取决于您的架构：如果您在设备端运行推理，物理层就在同一硬件上运行（与 CNN 推理相比，卡尔曼滤波器的更新在计算上很廉价）。如果您使用云 API，物理层可以在您的边缘端或处理流水线中运行。典型的集成为卡尔曼滤波和光流门每帧增加 1-3ms。几何门的延迟取决于您三维模型的复杂度，但很少超过 5ms。总计增加的延迟为：2-8ms。对于已经以 25-60fps（每帧 16-40ms）运行的系统而言，这在预算之内。

与重新训练或扩充我们的训练数据集相比，物理约束系统的成本如何？

重新训练解决了漂移问题，却没有解决根本问题：重新训练的模型仍可能做出物理上不可能的预测，因为它没有物理的概念。扩充训练数据有助于覆盖范围，但在边缘场景上回报递减（你无法把物理定律训练掉）。一次物理约束流水线构建的费用为 8 万至 25 万美元，视复杂度而定。单摄像机单物体追踪（体育）处于低端。带定制物理模型的多视图半导体检测处于高端。将这与该问题的持续成本相比较：在一家半导体晶圆厂，每片报废晶圆成本数万美元，而干扰驱动的人工复核以每小时 150-200 美元的工程师工时被消耗。一家自动摄像机错过关键瞬间的体育转播商会流失订阅用户。一家将五分之一收入花在质量成本上的制造商，其中很大一部分正是由物理约束本可防止的误拒所驱动。物理层是一次性构建，维护成本低，因为物理不会漂移。抛体运动定律不会在下个季度发生变化。

既然 Pixellot 和 Hawk-Eye 已经有了显著改进，这对体育追踪而言如何行得通？

Pixellot 的 V4 多假设追踪基本修复了“光头”类错误。Hawk-Eye 带骨架追踪的多摄像机三角测量是有裁判判罚体育项目的黄金标准。但市场已超越了顶级层级。FIFA 世界杯用得起 Hawk-Eye 每个场馆 100 万美元以上的配置，使用 Veo 消费级摄像机的 40,000+ 家俱乐部则用不起。差距在于中端与基层体育：那些需要优于消费级精度的自动转播、却负担不起 Hawk-Eye 基础设施的联赛。在单摄像机配置上施加物理约束，能以一小部分成本弥合该精度差距中相当可观的一部分。具体而言：通过基于物理的预测进行遮挡处理（当球员挡住球时保持轨迹）、多物体消歧（依靠运动学剖面而非仅凭外观来区分两名重叠的球员），以及相机运动补偿（利用惯性约束将相机摇移与物体运动分离开来）。

我们正在过渡到一个新的半导体工艺节点，而我们的检测干扰率飙升了。物理约束能帮上忙吗？

这恰恰是物理约束影响最大的场景。节点过渡会破坏数据驱动的分类器，因为训练数据来自旧节点。视觉特征发生变化：新材料、新几何形状、新刻蚀图案。但缺陷成像的物理规律不会以同样的速率改变。真实凹坑仍会依据其深度和侧壁角度散射光。颗粒仍会依据其高出表面的高度，在检测角度之间呈现视差。工艺残留物仍具有由其材料组成所决定的反射率剖面。我们构建的缺陷分类器，会在视觉特征之外同时使用这些基于物理的特征。在节点过渡期间，即便视觉特征丧失了预测力，物理特征仍保持判别力。实际时间线：领域物理审计需 2-3 周，以表征新节点的成像物理；分类器构建需 12-16 周，包括对照来自新节点的缺陷库进行验证。

当物理模型有误或不完整时会发生什么？

每一个物理模型都是一种近似。卡尔曼滤波器假设牛顿动力学，而这对于具有复杂空气动力学特性的物体会失效（蝴蝶球因湍流气流分离而不可预测地飘移）。对极几何模型假设刚性表面，而这对柔性材料会失效。我们以三种方式处理这一点。其一，每道门都有一个可配置的置信度阈值。如果马氏距离处于边界（介于 3 至 5 西格玛之间），该检测会被标记以供下游验证，而非被硬性拒绝。其二，对于非线性动力学，我们使用无迹卡尔曼滤波器（UKF）而非扩展卡尔曼滤波器（EKF）。UKF 通过实际的非线性函数传播西格玛点，而非进行线性化，因而能处理中等程度的非线性（旋转、阻力、不平整表面），且没有 EKF 泰勒级数近似误差。其三，对于真正复杂的物理（湍流、新型材料），我们使用 PINN 从数据中学习支配方程，同时约束解空间。物理模型并非一个硬性牢笼。它是一道护栏，在边缘处有所弹性，却能防止中心处的灾难性错误。

你的 AI 只看到形状，它本应理解物理。

为什么通用计算机视觉在生产环境中失灵

纹理偏置与光头巡边员

半导体晶圆厂中的干扰缺陷陷阱

生产线上的隐性漂移

当今计算机视觉领域谁在构建什么

为您的领域量身打造的物理约束视觉系统

物理门控追踪流水线

干扰缺陷分类

抗漂移架构

物理信息训练流水线

物理门如何捕捉置信度分数所遗漏的情形

第 t 帧：球在中场

第 t+1 帧：关键帧（40 毫秒之后）

结果

从物理审计到生产部署

领域物理审计

约束流水线构建

生产强化

物理约束就绪度评估

关于物理约束视觉的常见问题

物理约束如何在不增加漏报的情况下降低误报？

您能否在不替换我们检测器的情况下，将物理约束集成进我们现有的流水线？

与重新训练或扩充我们的训练数据集相比，物理约束系统的成本如何？

既然 Pixellot 和 Hawk-Eye 已经有了显著改进，这对体育追踪而言如何行得通？

我们正在过渡到一个新的半导体工艺节点，而我们的检测干扰率飙升了。物理约束能帮上忙吗？

当物理模型有误或不完整时会发生什么？

技术研究

超越边界框：物理约束的企业级 AI

别再围着边缘场景做工程了

物理约束评估

约束流水线构建