面向制造的边缘 AI

您的检测系统能看见每一个缺陷。 但它也会剔除 12% 的合格零件。

无论您是首次评估基于 AI 的检测、从无法满足节拍时间的云试点中恢复,还是将可用原型扩展到 15 家工厂,问题都是相同的:将边缘 AI 投入生产是一项集成与运维挑战,而非一次硬件采购。

我们构建定制化的边缘视觉与声学 AI 系统,与您现有的 PLC、MES 和质量工作流集成。厂商中立的架构。真正的 OT/IT 融合。可扩展的车队化运维。

84%

的集成项目失败或部分失败

HiveMQ / 行业数据,2025

5-15%

现成 AOI 的误剔率

Edge AI Vision Alliance,2026

$22K/分钟

非计划停机的平均成本(汽车行业)

Siemens 真实停机成本,2024

硬件没问题,问题出在部署上。

边缘 AI 的卖点很有吸引力:在传送带上放一块 Jetson,以 12ms 完成推理,实时捕捉缺陷。NVIDIA 会向您出售硬件。Landing AI 会向您出售模型。但 84% 的系统集成项目失败或部分失败,而原因从来都不是推理速度。

真正出问题的地方:一条冲压线的例子

一家二级(Tier 2)汽车冲压厂在一台以每分钟 40 次行程运行的 200 吨级连续模冲床上安装了两台 GigE 相机。视觉模型在实验室中以 97% 的准确率捕捉毛刺、充填不足和滑块痕迹。在生产中,误剔率达到了 14%。

为什么?实验室图像是在受控的 LED 环形照明下拍摄的。在冲床上,钣金表面在每个行程角度对头顶车间灯光的反射各不相同。冲压润滑剂在热模和冷模上的积聚方式不同。一个班次的前 50 个零件看起来与处于热平衡状态时的零件不同。

解决之道不是更好的模型,而是采用偏振背光的结构化照明以消除镜面反射、用热成像相机将表面外观与模具温度相关联,以及一条包含冷启动、运行中段和运行末段工况图像的训练流水线。然后才开始集成工作:通过 EtherNet/IP 将检测结果映射到 Allen-Bradley ControlLogix,使剔除执行机构在 750ms 的行程窗口内动作;在 MES 中为每个零件标记其检测结果以实现可追溯;并将缺陷图像按缺陷类别和模具工位筛选后路由到质量工程师的仪表盘。

那部分集成工作占项目周期的 60%。模型训练占 15%。硬件不过是一张采购订单。

数据基础设施的缺口

只有 34% 的制造商拥有具备实时数据流的生产系统,其余 66% 仍处于试点或研究阶段。没有工厂级的实时数据基础设施,边缘 AI 就无法规模化运行。如果您的历史数据库每 5 秒采集一次数据,而您的检测决策却需要在 50ms 内完成,那就存在再多边缘算力也无法解决的架构不匹配。

运维的缺口

2025 年的一次物流边缘部署在上线六个月后崩溃。500 台边缘设备中有 30% 因电源问题离线,由于 IT 团队没有既定的现场排障流程,每台设备需要 48 小时才能修复。规模化的边缘 AI 需要运维框架:带回滚的 OTA 模型更新、设备健康监控,以及 OT 团队无需厂商随时待命就能执行的维护程序。

今天各家都在做什么

这一格局包括平台厂商、纯 AI 初创公司、工业自动化巨头和大型系统集成商。每一家都解决了问题的一部分,没有一家能为同时运行 Siemens 和 Allen-Bradley 的中型制造商解决从集成到运维的完整流水线。

厂商 他们销售什么 优势 缺口
Siemens Industrial Edge Siemens OT 生态系统内的边缘应用平台。符合 IEC 62443-4-2 的车队化管理。 深度 PLC 集成(S7-1500)、Xcelerator 市场、安全认证。 以 Siemens 为中心。如果您有一半产线运行 Allen-Bradley,Industrial Edge 无法弥合这一缺口。2026 年 1 月的 CISA 安全公告要求打补丁。
NVIDIA Metropolis 面向视觉 AI 的开发工具和工作流。50 多家工厂客户,包括 Foxconn 和 Wistron。 99.8% 的 AOI 准确率基准。GPU 生态、TensorRT 优化、DeepStream 流水线。 出售硬件和 SDK,而非已部署的解决方案。您仍然需要集成、OT 连接和运维框架。完全锁定于 NVIDIA。
Rockwell FactoryTalk VisionAI 与 Rockwell PLC 闭环集成的无代码 AI 检测。 工厂操作员无需 ML 专业知识即可训练模型。与 ControlLogix 紧密集成。 仅限 Rockwell 生态。无法与 Siemens、Mitsubishi 或多厂商混合的工厂集成。与定制架构相比,模型成熟度有限。
Landing AI(LandingLens) 以数据为中心的视觉检测平台。AI 开发成本最多降低 60%。 强大的数据标注工作流。Andrew Ng 的团队深谙训练数据瓶颈。 是平台,而非集成。无法在您特定的 OT 环境中处理 OPC-UA 连接、PLC 编程或车队化运维。
Cognex(In-Sight + Edge Learning) 基于 FPGA 的边缘学习(5-10 张训练图像)加用于复杂缺陷的深度学习。 行业标准的机器视觉。简单合格/不合格判定可快速设置。针对工厂环境加固。 基于规则的传统架构限制了灵活性。复杂的多类别缺陷检测或定制分割逻辑需要超越 Cognex 生态系统。
Augury 面向机器健康的声学与振动 AI。估值超 10 亿美元,客户包括 PepsiCo 和 Nestle。 在世界 500 强部署中得到验证的预测性维护。强大的从传感器到洞察的流水线。 采用 SaaS 模式,而非边缘优先。专注于连续过程工业,而非离散制造检测。无视觉检测能力。
本地 IPC + GPU 搭载 NVIDIA RTX A2000/A4000 或 Intel Arc 的加固型 x86 工业 PC。 OT 团队熟悉。标准 PCIe 扩展。维护更简便,可像更换其他部件一样更换 GPU 卡。 功耗更高(70W+ 对比 25W)。更大的外形尺寸需要机柜空间。规模化时单位成本更高(每模块 $3-5K 对比 Jetson 模块的 $500-900)。不适合高密度部署。
四大会计师事务所 / 大型 SI Accenture、Deloitte 以及大型工业 SI 提供“智能工厂”转型项目。 企业级公信力。能够支撑多年期项目的大型团队。与您高管层的既有关系。 他们实施平台,而非构建定制推理流水线。项目起价 $500K-$2M+,并以企业级速度推进。用 6 个月的发现阶段去决定买哪个平台,与在 3 号线上跑通一个检测工位完全不是一回事。

没有厂商能很好解决的缺口:AI 采用过程中的组织变革管理;当只有 5% 的制造商保留完整设备故障记录时的训练数据整理;以及单一工厂中运行来自两家厂商三代 PLC 的跨厂商 OT 集成。

我们构建什么

每个项目都是定制的。这些是我们带到车间的能力。

在线视觉检测

我们设计完整的检测流水线:相机选型(用于移动传送带的全局快门 GigE Vision,用于静态工位的配结构化照明的面阵扫描)、模型架构(用于实时多类别检测的 YOLOv8 变体,用于尺寸公差和表面分级的 U-Net 分割),以及量化策略。

当缺陷类别包含细微特征(如发丝裂纹或变色)时,我们会选用带 QAT(量化感知训练)的 INT8 量化。训练后量化适用于高对比度缺陷,如缺件或严重变形。选择取决于您特定的缺陷分类体系,我们按缺陷类别验证准确率,而不仅仅是聚合指标。

声学预测性维护

超声 MEMS 麦克风阵列(96-192 kHz 采样)搭配运行在 ARM Cortex-M7 微控制器上的轻量级 1D-CNN 分类器。模型小于 200KB,推理不到 1ms。我们使用 4-8 单元阵列进行空间滤波,可提供足够的指向性,在 85-100 dB 的工厂环境中隔离轴承座的发射信号,而无需 64 单元研究级阵列那 $10,000-50,000 的成本。

真正的工作是构建频谱库。每种轴承类型、每台机器、每种工况都有不同的基线声学特征。我们在 2-4 周的受监控运行中建立基线,然后在润滑损失和早期剥落在您的设备上显现的特定频段(通常为 25-50 kHz)上训练故障分类器。

OT/IT 集成架构

集成是项目失败的首要原因(见上文统计数据)。我们打通各种协议:用于老旧设备的 Modbus TCP、用于 Allen-Bradley ControlLogix 的 EtherNet/IP、用于 Siemens S7-1500 的 Profinet,以及作为统一层的 OPC-UA。我们处理标签映射、数据类型转换,以及决定您的剔除执行机构能否在行程窗口内动作的时序约束。

集成不止于 PLC。检测结果会接入您的 MES 以实现零件级可追溯、接入您的 ERP 以进行废品核算,并接入您的质量仪表盘以呈现实时 SPC 图表。我们使用边缘端的轻量级 MQTT 代理来构建这些数据流水线,而非将所有数据都路由到云端。

边缘车队化运维

在多家工厂管理 50-500 台边缘设备是一门运维学问,而非一项软件功能。我们构建车队化管理层:通过 K3s(轻量级 Kubernetes)进行容器化模型部署、带分批发布和自动回滚的 OTA 更新流水线、带告警的设备健康监控,以及带审计轨迹、可用于法规追溯的模型版本管理。

每台设备存储其当前模型和此前两个版本。如果某个新模型在其首个生产班次内将误剔率推高至可配置阈值以上,设备会自动回滚。这意味着一次糟糕的再训练周期只会付出一个班次误剔率升高的代价,而不会酿成生产危机。

法规与安全就绪

《欧盟 AI 法案》的义务将于 2026 年 8 月 2 日全面适用。用于安全攸关质量决策的制造 AI 需要进行符合性评估、数据血缘追踪、人在回路检查点,以及对每个已部署模型打风险分类标签。我们从第一天起就将这种可追溯性构建进部署流水线:每个模型工件都携带元数据,将其链接到训练运行、数据集哈希、验证指标和审批记录。在安全方面,我们遵循 IEC 62443 的区域与管道模型设计边缘设备网络分段,加固分布式边缘设备给您的 OT 网络带来的攻击面。

我们如何工作

四个阶段。务实的时间表。您需要据以规划的注意事项。

1

审计与架构 2-3 周

我们梳理您当前的检测流程、OT 网络拓扑、PLC 平台、MES 集成点和数据基础设施。我们测量您实际的节拍时间和延迟预算。我们盘点现有的缺陷数据(如果有的话)。

注意事项: 如果您的工厂没有已标注的缺陷图像,也没有系统化的缺陷分类,那么数据采集阶段(第 2 阶段)将比拥有历史数据时多花 3-5 周。我们在一开始就坦诚说明这一点,因为它是时间表中最大的单一变量。

2

构建与训练 4-8 周

硬件采购与安装。如有需要则采集训练数据:我们在您现有检测旁部署处于采集模式的相机 1-3 周,由操作员通过触摸屏界面标注缺陷。针对您特定缺陷分类体系进行模型训练、量化与验证。PLC 集成开发:标签映射、通信测试、剔除逻辑编程。

注意事项: 您产线上的模型准确率不会与实验室基准相符。光照变化、原料供应商变更和热效应等真实工况需要迭代调优。我们在此阶段预留 2-3 轮训练迭代。

3

影子生产 2-4 周

AI 系统在您现有检测旁运行,但不驱动剔除机构。每个决策都被记录:本应剔除、本应通过。我们与现有流程对比,以验证检出率、误剔率和节拍时间符合性。操作员在切换前建立起对系统的信心。

注意事项: 影子模式会暴露出训练数据遗漏的缺陷类别。这是预料之中的,而非失败。我们利用影子模式的发现在切换前进行再训练。为赶上线日期而草草跳过影子模式,是部署后问题最常见的单一原因。

4

生产与扩展 持续进行

切换至实际剔除动作。向您的团队进行运维交接:监控仪表盘、再训练程序、升级路径。对于多产线推广,使用既定的模型和集成模式,后续每条产线需要 3-5 周。多工厂推广每家工厂需额外增加 2-3 周用于网络配置和现场标定。

注意事项: 第一条产线最昂贵也最慢。第 2 至第 5 条产线则明显更快。但每家工厂都有需要本地标定的现场特定变量(光照、振动、网络拓扑)。不要假设 B 工厂是 A 工厂的复制粘贴。

单产线部署的总时间表: 8-14 周 从启动到生产验证。最大的变量是训练数据的可获得性,而非硬件采购。请预留 2-4 小时/周 的质量工程师时间,用于上线后持续的标签复核和模型性能监控。

边缘 AI 就绪度评估

回答关于您当前状态的六个问题。该评估将识别哪个部署阶段适用于您的工厂,以及在边缘 AI 能够交付成果之前需要哪些基础性工作。

1. 您当前的检测方法是什么?

2. 您是否拥有来自产线的已标注缺陷图像数据?

3. 您车间里有哪些 PLC/自动化平台?

4. 您的目标部署规模是多少?

5. 您的工厂是否有来自生产设备的实时数据流?

6. 您的生产 AI 是否有《欧盟 AI 法案》合规要求?

制造商向我们提出的问题

我们如何在不漏检真实缺陷的前提下,降低 AI 视觉检测的误剔?

传统的自动光学检测系统现成情况下会产生 5-15% 的误剔率。经过良好调优的 AI 视觉系统能将其降至 2% 以下,同时保持 99% 以上的真缺陷检出。从 15% 降到 2% 以下,是一个标定与数据问题,而非模型架构问题。

首先,要在可接受的产品变异上训练,而不仅仅是缺陷库。非密封面上的外观划痕与配合面上的划痕不是同一种缺陷,而像素级分割能让您编码这种区分:“若划痕长度超过 2mm 且位于密封面 5mm 范围内则剔除。”

其次,硬件维护比模型退化造成更多的误剔漂移。光照强度下降、相机光学元件积聚残留物、安装振动导致对位偏移。我们在每次部署中都内置定期硬件验证:照明的光谱输出检查、光学元件的 MTF 测量、安装座的位置漂移监控。

第三,用近期的误剔样本持续再训练。六个月前交付的模型从未见过新供应商略有不同的表面处理。我们建立反馈回路,让操作员在触摸屏上标记误剔,这些图像会自动进入下一个再训练周期。

阈值调优本身是按缺陷类别区分的:关键结构缺陷采用激进的灵敏度(接受更多误报),外观缺陷采用宽松的阈值(最小化误剔)。这不是单一的置信度滑块,而是围绕您的质量规范构建的逐类别决策矩阵。

我们应为边缘 AI 检测选用 NVIDIA Jetson 还是加固型工业 PC?

这是我们听到的最常见的技术问题,而诚实的答案是:取决于您的运维成熟度和规模。

Jetson Orin NX 在 15W-25W 的功耗范围内提供 100 TOPS。搭载 NVIDIA RTX A2000 的工业 PC 在 70W 下提供相近的推理吞吐量,但能给您一个熟悉的 x86 环境、标准 PCIe 扩展,以及您 OT 团队已经掌握的维护程序。

对于单工位部署或拥有强大 IT 支持的工厂,IPC 路线往往能更快投产。您的维护团队无需学习嵌入式 Linux 即可更换 GPU 卡。对于高密度部署(每条产线 10 个以上检测工位、多条产线),Jetson 的能效和外形尺寸胜出。将一个无风扇的 100x87mm 模块直接安装在传送带框架上,省去了单独机柜的需求。

对于需要 50-200+ 台设备的多工厂推广,Jetson 更低的单位成本(模块 $500-900 对比加固型 IPC 的 $3,000-5,000)会显著改变总拥有成本。

我们针对硬件灵活性进行设计。模型导出为 ONNX 格式,可在 Jetson 上编译为 TensorRT,或在 Intel/AMD 的 IPC 上通过 ONNX Runtime 运行。无论哪种方式,应用容器都是相同的。这意味着您可以在试点工厂以 IPC 起步,然后在规模化推广时迁移到 Jetson,而无需重建软件栈。

在产线上部署 AI 视觉检测需要多长时间?

配备一个检测工位的单产线部署通常从启动到生产验证需要 8-14 周。时间表的分布并不均匀,而这种拆分会让大多数团队感到意外。

硬件选型、采购和安装需要 2-3 周。如果您有已标注的训练数据,模型开发需要 2-3 周。如果您没有已标注的数据,则需为数据采集和标注增加 3-5 周。

OT 集成,即通过 OPC-UA 或 Modbus TCP 将检测结果从边缘设备送入 PLC 的剔除逻辑,需要 2-4 周。这正是我们看到进度延误最多的地方。AI 输出与 PLC 程序之间的标签映射需要 AI 团队与控制工程师之间的协调。

生产验证,即将系统以影子模式与现有检测并行运行 1-2 周,然后切换并进行另一周的并行核验。

首条产线之后的多产线推广更快:每条产线 3-5 周,因为模型、集成模式和运维程序均已确立。多工厂推广每家工厂需额外增加 2-3 周用于网络配置、OT 团队培训和现场特定标定。最大的变量是数据。如果您当前的流程生成已标注的缺陷图像,我们第一天就能开始训练。如果操作员目前在不拍摄缺陷的情况下报废零件,那么数据采集阶段将主导整个时间表。

当产品线变更、AI 模型需要再训练时会发生什么?

这是大多数边缘 AI 厂商回避的问题,而它正是决定您的投资是复利增长还是贬值的问题。每一次产品换型、新供应商材料或工装调整,都可能改变在视觉系统看来何为“正常”。一家新的阳极氧化供应商会产生略有不同的表面纹理。重新工装的模具会产生不同的分型线轮廓。在旧生产上训练的模型开始把合格零件标记为不良。

我们将再训练流水线作为核心交付物来构建,而非事后补救。边缘设备在生产期间持续采集并预标注图像。操作员在本地触摸屏界面上确认或修正标签。已标注的图像在交接班期间同步到本地训练服务器,而非实时同步,因此不影响生产带宽。当数据集超过阈值时(通常为每周)自动运行再训练。新的候选模型在部署前会针对一个保留测试集进行验证。

关键的架构选择是带即时回滚的版本化模型部署。每台边缘设备存储当前模型和此前两个版本。如果某个新模型在其首个生产班次内将误剔率推高至可配置阈值以上,设备会自动回滚并向运维团队报警。这意味着一次糟糕的再训练周期只会让您付出一个班次误剔率升高的代价,而不会酿成生产危机。

对于重大产品变更,例如全新的零件几何形状,我们会进行一次聚焦的数据采集冲刺:3-5 天的生产并增强采集、由质量工程师人工标注,以及一个专门的训练周期。这就是 AI 检测的维护成本。请预留每周 2-4 小时的质量工程师时间用于标签复核,外加在本地 GPU 服务器上每周再训练的算力成本。

我们如何处理 2026 年部署的制造 AI 系统的《欧盟 AI 法案》合规问题?

大多数《欧盟 AI 法案》义务将于 2026 年 8 月 2 日全面适用。用于安全攸关决策、影响产品安全的质量门控或员工监控的制造 AI 系统属于高风险分类,须在部署前进行符合性评估。

影响您边缘 AI 架构的实际要求是:从训练数据、经模型版本到生产决策的完整数据血缘追踪。每个检测决策都需要一条可追溯的路径,回溯到产生它的模型版本、训练数据集和标定状态。对影响安全的工作流设置人在回路检查点。如果您的 AI 系统判定某个制动部件是否通过检测,必须有一名合格的人员能够复核并推翻。在每个已部署模型上打风险分类标签,标明风险等级、使用场景和合规状态。

对于边缘部署,这意味着您的车队化管理系统必须追踪哪个模型版本运行在哪台设备上、它上次更新的时间,以及它是基于哪些训练数据构建的。我们将这种可追溯性构建进部署流水线:每个模型工件都携带元数据,将其链接到训练运行、数据集哈希、验证指标和审批记录。

处罚相当严重:对违禁 AI 违规行为,最高可处 3500 万欧元或全球年营业额的 7%。即便是未被禁止但不合规的高风险系统,罚款也可达 1500 万欧元或营业额的 3%。如果您计划在 8 月前让 AI 投入生产,现在就开始合规评估并非可选项。

声学 AI 真的能比振动传感器更早检测出轴承失效吗,部署又是什么样子?

能,而物理学解释了原因。振动是一个滞后指标。轴承只有在物理损伤已经发生后才会出现异常振动:内圈剥落、滚动体点蚀。等到加速度计在球通过频率上检测到振幅升高时,损伤已成结构性。

超声声发射是一个先行指标。当轴承失去润滑或出现微观裂纹时,金属对金属摩擦的加剧会在 20-100 kHz 范围内产生高频应力波。这些超声发射会比低频振动特征或可听噪声早数周出现。超声异常与振动报警之间的检测窗口,对于低速轴承(低于 1,000 RPM)通常为 4-8 周,对于高速主轴则为数天到数周。

部署采用以 96 kHz 或 192 kHz 采样的 MEMS 麦克风阵列,搭配运行在 ARM Cortex-M7 等微控制器上的轻量级 1D-CNN 分类器。模型很小,通常小于 200KB,推理不到 1ms。每个监测点的系统总成本为 $500-2,000,具体取决于传感器配置和安装要求。

实际挑战是环境噪声。85-100 dB 的车间充斥着叉车、气动工具和邻近机械。我们通过小型麦克风阵列(4-8 单元,而非某些论文提出的 64 单元阵列)进行空间滤波,以聚焦轴承座并抑制来自其他方向的环境噪声。在大多数安装几何条件下,四单元就能提供足够的指向性,成本仅为大型阵列的一小部分。

对于转速超过 10,000 RPM、干运转事件可在数秒内焊死轴承的关键主轴,我们通过一个安全等级继电器将分类器输出直接接入机器急停回路。从检测到动作的延迟不到 5ms。由声学检测发现的 $500 轴承更换与由振动监控发现的 $45,000 主轴更换之间的成本差异,使投资回报的论证简单明了。

技术研究

支撑本解决方案页面的技术基础,以交互式白皮书的形式提供。

延迟终止开关:构建后云时代的工业架构

对边缘推理延迟、INT8 量化基准、声学 TinyML 架构,以及将 AI 从云端迁移到车间的经济性论证进行深度技术分析。

您的废品成本高于您的检测系统

Knauf Insulation 凭借用于减少废品的边缘视觉 AI,在第一年实现了 511% 的投资回报率。

无论您需要的是用于证明商业价值的单产线试点,还是用于跨工厂扩展的车队化架构,我们都从对您当前产线的延迟与集成审计开始。

产线审计

  • ✓ 节拍时间与延迟预算分析
  • ✓ OT 网络拓扑与 PLC 集成映射
  • ✓ 训练数据就绪度评估
  • ✓ 硬件推荐(Jetson 对比 IPC 对比混合方案)

边缘 AI 构建与部署

  • ✓ 定制视觉或声学模型开发
  • ✓ 完整 OT 集成(PLC、MES、ERP 数据流)
  • ✓ 车队化管理与再训练流水线
  • ✓ 《欧盟 AI 法案》合规架构