一张特写编辑照片:一台小巧的 NVIDIA Jetson 计算模块被实际安装在工业传送带机架上,摄像头对准传送带上移动的零件——呼应文章核心主张:算力驻留在行动发生的那一点。
Artificial IntelligenceManufacturingEdge Computing

我们把云端从工厂车间"炒"了——这是我们做过最正确的工程决策

Ashutosh SinghalAshutosh Singhal2026年1月29日14 min

等到云端告诉我们这个零件有缺陷时,它早就已经被打包装箱了。

我记得当时我和工程主管一起站在工厂车间里,看着传送带以往常的速度运转——每秒两米,毫无异常——而我们正在等待那个花了好几周才集成好的云端视觉 API 返回结果。摄像头捕捉到了画面。图像飞向数百英里外的数据中心。模型进行推理。结果传回来了:"检测到缺陷。"

答案正确。却毫无用处。

在这一来一回耗费的 800 毫秒里,零件已经移动了 1.6 米。气动顶出装置位于摄像头下游 1 米处。零件从它旁边越过了整整 60 厘米。它此刻正躺在装满合格品的箱子里,准备发货。

我的工程主管看着我。我看着传送带。就在那一刻,我明白了一件任何架构图或云服务商销售材料都从未讲清楚的道理:光速不是一项你可以升级的功能。互联网是概率性的。传送带不是。当你让一个概率性系统去掌管一个确定性流程时,每一次都是物理定律获胜。

那一天,我们把云端从工厂车间里"炒"了。

那堂 800 毫秒的课

一张空间示意图,展示传送带的物理布局——摄像头位置、顶出装置位置,以及当云端响应抵达时零件实际所处的位置——让这个物理难题一目了然。

让我把 800 毫秒到底意味着什么讲清楚,因为在人机交互的世界里,它听起来什么都不是。你点一个链接,页面在 800 毫秒内加载出来,你根本察觉不到。但在生产线上,800 毫秒是以厘米来衡量的漫长永恒。

这是彻底改变我认知的那笔账。一条以 2 米/秒运行、摄像头到顶出装置距离为 1 米的传送带,给你的硬性截止时间是 500 毫秒。不是软性截止时间。不是"尽力而为"的目标。是一堵墙。如果你的控制信号在第 501 毫秒才到达,零件已经从物理上越过了顶出装置。没有重试。没有缓冲。原子不会等待比特。

我们的 800 毫秒往返根本就差得远。当我把这些毫秒的去向逐一拆解开——图像编码(20–40 毫秒)、经工厂防火墙和 ISP 的上传(100–300 毫秒)、网络路由与抖动(50–200 毫秒)、云端排队(50–100 毫秒)、实际推理(50–150 毫秒)、以及返程(100–200 毫秒)——我意识到我们建的根本不是一个控制系统。我们建的是一套极其昂贵的报告系统,它在问题早已变成别人的麻烦之后,才告诉我们发生了问题。

控制回路中迟到的数据不仅无用——它是危险的。系统状态早已改变。基于陈旧信息采取行动,比根本不行动更糟。

真正刺痛我的是什么?AI 模型本身非常出色。它正确地识别出了缺陷。智能是到位的。但我们把这份智能放错了地方——放在了距离它本该控制的对象数百英里之外。

为什么云端 AI 在工厂车间会失败?

每当我说云端不适用于实时制造控制时,人们总会反驳。"5G 呢?"他们问。"更快的网络连接呢?"

早年间我和一位潜在投资人正是就这个问题争论过。他看过某大型电信商的营销材料——1 毫秒的空口时延,万物互联的未来。"用 5G 就行了,"他说,仿佛这是显而易见的事。

于是我带他一起从射频的角度看看工厂究竟是什么样子。到处都是钢梁,制造出信号反射。高压电机和电弧焊机产生电磁干扰,扰乱无线信号。叉车在传感器和接入点之间来回穿行,阻断视距连接。工厂基本上就是一场由憎恨无线工程师的人所设计的射频噩梦。

即便你解决了所有这些问题——即便你用毫米波获得了完美的 5G 覆盖——你依然要面对 TCP/IP 的根本性难题。互联网的传输协议是为可靠性而设计的,而不是为及时性。如果丢了一个数据包,TCP 会等待、请求重传、再等待。这对电子邮件来说很棒。但对于一个每一次都需要在 500 毫秒内、零波动地得到响应的控制回路来说,这是毒药。

波动才是致命的。问题不仅在于云端时延高——而在于它是不可预测的。这一次请求耗时 400 毫秒,下一次就要 1200 毫秒。在一个你无法确定答案能否及时抵达的通信信道上,你根本无法构建安全系统。我在我们研究的交互版本中对此有更深入的阐述,但简而言之就是:我们拒绝在一个为"尽力而为"式交付而设计的协议上构建安全攸关的系统。

十二毫秒

一张并排对比示意图,展示云端流水线(7 个阶段共 800 毫秒)与边缘流水线(4 个阶段共 12 毫秒)的对照,让这种巨大的架构差异和时延降幅在视觉上即刻显现。

这个解决方案,一旦我们看清它,就显得几乎令人尴尬的显而易见。别再把数据送去算力那边。把算力搬到数据这边。

我们拿来一台 NVIDIA Jetson 设备——本质上是一台大约信用卡大小的嵌入式超级计算机——把它直接安装在传送带机架上,距离摄像头不到一米。我们把我们的视觉模型从 32 位浮点量化到 8 位整数精度,并用 NVIDIA 的 TensorRT 优化器进行编译。

我们第一次运行它时,整条流水线的时延——采集、预处理、推理、后处理——是 12 毫秒。

我永远不会忘记那一刻。我的团队一直对量化这一步心存疑虑。办公室里曾就从 FP32 降到 INT8 会不会毁掉模型精度爆发过一场激烈的争论。我的一位工程师坚信我们会损失太多精度,以至于变得毫无用处。我们跑了校准,部署了量化后的模型,精度下降不到 1%。对于一个二元缺陷检测任务——有划痕还是没划痕——99.5% 置信度和 99.1% 置信度之间的差别毫无意义。两者都会触发剔除。

但速度的差异是惊人的。在 12 毫秒里,零件在处理过程中只移动 2.4 厘米。在到达顶出装置之前,我们有 97.6 厘米的安全余量。这不算紧张。这简直是奢侈。我们从漏检每一个缺陷,变成了有足够时间对每个零件进行多次验证。

我们把推理时延从 800 毫秒降到了 12 毫秒——降幅达 98.5%——办法就是把 AI 从数据中心搬到一台你能握在手心里的设备上。

这里的技术细节很重要,即便你不是工程师也值得了解。Jetson 的统一内存架构意味着 CPU 和 GPU 共享同一块物理内存。在传统 PC 中,若配的是独立 GPU,你会浪费好几毫秒把图像数据从系统内存拷贝到 GPU 显存。而在 Jetson 上,GPU 直接读取摄像头缓冲区。TensorRT 把多个神经网络层融合成单次运算,消除冗余的内存访问。这些并非边际优化——一个标准的 YOLOv8 模型在 Jetson 上用 PyTorch 运行约需 35 毫秒,但经过 TensorRT INT8 转换后,只需 3.2 毫秒。仅软件优化就在同样的硬件上带来了 10 倍的提速。

正在蚕食你利润的隐形工厂

关于这项工作,最让我意外的是:让制造商损失最多金钱的并不是那些灾难性故障。而是微停机。

制造业里人人都知道那个头条数字——汽车行业的非计划停机平均每分钟损失22,000 美元。西门子在 2024 年针对大型工厂更新了这一数据:每小时 230 万美元。这些数字是真实的,而且触目惊心。一套 7,000 美元的边缘 AI 系统,只要每年能避免 19 秒的停机,就能收回成本。十九秒。

但真正让我夜不能寐的是另一个数字。当一套云端 AI 系统遭遇网络抖动时——而在一座充满电磁干扰的工厂里,它一定会——生产线会暂停以重新同步。也许 30 秒。也许更短。没人会为一次 30 秒的暂停写事故报告。它就那么……发生了。一天十次。损失五分钟。

一年下来,那就是 30 小时的生产损失。按每分钟 22,000 美元计算,这些"小小的"网络故障每年造成3960 万美元的损失。不是来自灾难性的宕机。而是来自一个因为要依赖互联网连接才能"思考"而不断打嗝的系统所累积起来的重量。

我们开始把这称为"隐形工厂"——一条倒着运转的幽灵生产线,通过无人追踪的微停机不断吞噬金钱,因为每一次单独看都显得太微不足道。边缘原生 AI 将它们彻底消除。Jetson 不在乎 WiFi 是否断了。它不在乎 ISP 今天是不是不顺。它处理画面、做出决策、触发执行机构——全都通过本地电气连接完成,这些连接具有有界、可预测、极微小的时延。

当你教会一座工厂去倾听时,会发生什么?

在我们部署边缘视觉大约半年后,我的一位工程师带着一个我起初不以为然的想法来找我。"如果我们不只是盯着这些机器看,"她说,"而是开始听它们说话呢?"

我很庆幸她坚持了下来,因为声学 AI 后来成了我们所走过的最具影响力的技术方向。

摄像头的问题就在于:它们只能看见可见的东西。而制造业中代价最高的故障——卡死的轴承、开裂的主轴、泵内的空化现象——都发生在机器内部,在灾难性故障那一刻到来之前,对任何摄像头都是不可见的。等到你能看见损坏时,你面对的是一张 50,000 美元的维修账单和两天的停机。

事实证明,声音是先行指标,而振动是滞后指标。传统的加速度计要在物理损伤——剥落、点蚀——已经在轴承滚道上发生之后才能检测到振动。但当一个轴承开始失去润滑或出现微小裂纹时,增大的摩擦会在超声频段(20 到 100 kHz)产生高频应力波,振动传感器触发警报要早好几周。

超声波能在振动传感器察觉到任何异常之前好几周就检测到润滑失效。这就是一次 500 美元的轴承更换和一次 50,000 美元的主轴更换之间的差别。

我们打造了我称之为 5 毫秒急停开关的东西。以 96kHz 或 192kHz 采样的高频 MEMS 麦克风,将数据送入一个 TinyML 微控制器——甚至不是 Jetson,只是一颗微小的 ARM Cortex-M7 芯片——上面运行着一个轻量级的一维卷积神经网络,该网络是基于健康轴承与失效轴承的频谱特征训练出来的。当模型检测到轴承开裂或润滑损失的特定频率模式时,它会通过一个 GPIO 引脚触发机器的紧急停车电路。

两毫秒采集足够的音频。不到一毫秒完成推理。不到一毫秒完成电信号传递。总共五毫秒,机器就在热量积聚到足以使金属熔合之前停下来。

关于我们如何在嘈杂的工厂环境中处理波束成形和信号隔离的完整技术剖析,请参阅我们的研究论文。简而言之:通过使用 64 个或 124 个麦克风组成的阵列并测量到达时间差,我们可以在数学上把系统的"听觉"焦点"引导"到三维空间中的某个特定点——轴承座——同时屏蔽掉其他一切,即便是在 100 分贝的工业环境中也能做到。

那颗改变我看法的滚珠轴承

我得跟你讲讲我成为声学 AI 真正信徒的那一刻,因为说服我的并不是理论。而是亲眼看着它奏效。

我们的一位客户,一家汽车零部件制造商,有一个反复出现的噩梦:他们机加工过程产生的金属屑偶尔会污染为其 CNC 主轴供液的冷却液系统。当受污染的冷却液接触到主轴轴承时,轴承会迅速劣化。操作员的诊断方法,就是站在机器旁边听有没有"异常噪音"。等到人耳能察觉到问题时,主轴早已报废。每次事故都要花费 45,000 美元的更换零件费用,外加两天的停机。

我们安装了一个对准主轴壳体的非接触式声学传感器,并针对一种特定的频率偏移——当受污染的冷却液开始加剧轴承摩擦时出现的、能量在 25kHz 附近的展宽——训练了一个 TinyML 模型。

第一次真正的检测发生在一个周二下午。系统标记出异常,并在 5 毫秒内触发了急停开关。机器停了下来。维护人员打开机器时,轴承已损坏,但主轴轴身完好无损。维修费用:800 美元。整套传感器系统就在这一次事件中收回了成本——不是靠数月累积的节省,而是靠那一个瞬间,在那里 5 毫秒就是一次 800 美元的修理与一场 45,000 美元的灾难之间的差别。

那天傍晚工厂经理给我打了电话。他没有谈投资回报率或回本周期。他说:"它听见了我最好的操作员都听不见的东西。"

为什么不干脆修好云端连接就行?

人们不停地问我这个问题,而这是个合理的问题。为什么不投资更好的网络,而非要把一切搬到边缘?

三个原因。

第一,你没法修改物理定律。光在光纤中的速度约为 200,000 千米/秒。往返一个 500 英里外的数据中心,仅仅是光传播就至少需要 8 毫秒,这还得假设零处理、零排队、零路由——而这些没有一样是现实的。加上真实世界的网络行为,你又回到了带着不可预测波动的数百毫秒。

第二,带宽的经济账极其残酷。一个配备四台以 30 FPS 运行的 4K 摄像头的质检工位,大约产生 80 Mbps 的压缩视频。一座工厂有数百个工位。全天候把 8 Gbps 的视频流传到云端,意味着需要庞大的专用光纤回传、每月可高达数万美元的云端出口流量费,以及在此之上的存储成本。有了边缘处理,我们把需要离开工厂的数据量削减了 99% 以上——只有异常画面才会被上传以供留档。

第三——而这一点会让人们大吃一惊——安全性。云端 AI 需要一股源源不断的敏感数据流离开工厂厂区。原型的图像。生产速率。专有的装配工艺。受 ITAR 法规约束的国防制造商,绝对不能把这些数据放在共享的公有云服务器上。我们的边缘架构恢复了物理隔离。原始图像数据永远不会离开设备的内存。只有元数据——"零件 #1234:合格"——才会传送到仪表盘上。

后云端时代的工厂并非与世隔绝。它是去中心化的。智能就驻留在机器之上,在那里它快速、自主,并且不受网络中断的影响。

当互联网中断时——而在工厂里,它一定会中断——我们的系统甚至不会察觉。摄像头照常检测,麦克风照常倾听,PLC 照常动作。日志在本地缓存,待连接恢复后再同步。这不是一个可有可无的功能。对于一家运营着每分钟 22,000 美元产线的制造商来说,这正是一座实则脆弱的"智慧工厂"与一座真正稳健的智能工厂之间的差别。

关于工业 4.0 的那个令人不安的真相

我想以一件在工业 AI 圈子里或许颇具争议、但我深信不疑的事情来收尾。

过去十年的工业 4.0 建立在一个谎言之上——不是恶意的谎言,但终究是个谎言。这个谎言就是:集中化是通往制造智能的道路。把一切都汇聚到云端。建数据湖。在庞大的数据中心里用庞大的数据集训练庞大的模型。云服务商大力兜售这一愿景,而制造商们买了单,因为它听起来像是进步。

它确实是进步——对于监控而言。对于分析而言。对于长期趋势分析而言。云端在回答诸如"我们上季度的缺陷率是多少?"或"哪家供应商的材料与更高的废品率相关?"这类问题上出类拔萃。这些问题能容忍数秒、数分钟、乃至数小时的时延。

但不知从何时起,人们把监控和控制混为一谈。他们试图通过云端来闭合回路——通过把数据经由公共互联网转发,来对物理流程做出实时决策。而架构正是在那里崩溃的,因为传送带的物理规律与广域网的物理规律根本上就是不兼容的。

工业智能的未来不在云端。它在设备之上,在行动发生的那一点,在代码与动能相遇之处。它是一块 2,000 美元的 Jetson 模块,提供每秒 275 万亿次运算,安装在它所保护的机器上,在 12 毫秒内做出决策,无需征得任何人的许可。

我们并非一开始就打算把云端"炒掉"。我们本来只是想抓住传送带上的缺陷零件。但传送带教会了我们一件云服务商永远不会教的事:在制造业里,唯一有意义的时延就是零。其余的一切都是与物理定律的妥协,而物理定律从不讲价。

Related Research

Also Published On