一张编辑风格的图片:一位电影导演的手正亲手引导、雕琢一个部分渲染的 AI 生成场景,象征人类意图对机器输出的驾驭。
Artificial IntelligenceMarketingBrand Strategy

我看着可口可乐花数百万教 AI 微笑,可 AI 学不会

Ashutosh SinghalAshutosh Singhal2026年2月2日14 min

十一月的一个傍晚,我在办公室里坐到很晚,一位同事给我发来一个链接。“你得看看这个。”那是可口可乐 2025 年的“假日来临”广告——完全由 AI 生成的那一支。我看了两遍。第一遍,我觉得哪里不对劲,却说不清是什么。第二遍,我看清了。

卡车是红色的。雪花闪着光。北极熊笨拙地穿过屏幕。可这一切都无关紧要,因为那支广告里的每一个微笑,眼神背后都是死气沉沉的。

那支广告成了我们 Veriprajna 工作中最重要的案例研究——不是因为它糟糕,而是因为它近乎优秀。而“近乎优秀”正是品牌走向消亡的地方。可口可乐的这支 AI 广告,是我见过的最清晰的信号,它表明我所称的“LLM 套壳”时代——在 Sora 或 Runway 这类基础模型上套一个漂亮的界面,就号称是一条生产流水线——对于任何在意自身声誉的品牌来说,都已经结束了。人们对完全由 AI 制作的广告的信任度仅为13%而与人类共同创作的广告呢?48%。这一差距不是四舍五入的误差,而是一道鸿沟。

这篇文章讲的是那道鸿沟另一侧的东西:混合式 AI 工作流,在其中,人类的意图驾驭着机器的速度。这正是我们在 Veriprajna 一直在构建的方法,也是我认为在合成媒体时代唯一能够保护品牌资产的架构。

打破魔咒的那支广告

关于可口可乐这场惨败,大多数人忽略了一点。它并不廉价,也并不敷衍。据报道,制作团队生成了超过 70,000 段视频片段,只为拼凑出一支 30 秒的广告。两家工作室——Secret Level 和 Silverside AI——参与其中。可口可乐的生成式 AI 负责人公开坚称,这次的工艺比他们上一次的 AI 尝试“好了十倍”。

而公众依然厌恶它。

评论极其尖刻。“毫无灵魂。”“反乌托邦。”我个人最喜欢的一条,浸透着只有被背叛的粉丝才会有的那种愤怒:“可口可乐之所以是红色的,是因为它是用失业艺术家的鲜血做成的。”

我记得当时和团队一起逐帧调出那支广告,试图准确说清到底是哪里出了问题。我们的一位设计师指着屏幕说:“这辆卡车在这个镜头里的车轮数量,和三秒前不一样了。”她说得没错。我们开始数。车头的形状在不同镜头之间发生了变化。底盘像气垫船一样悬浮在雪地上——没有悬挂,没有重量转移,没有摩擦。

但真正的问题不在卡车。问题出在人身上。或者更确切地说,是那些“非人”。

为什么 AI 不会微笑?

正是这个问题把我拖进了一个至今仍未爬出来的研究深洞。真正的人类微笑不只是嘴部的一个形状。它涉及眼轮匝肌——即眼睛周围那块肌肉——的一次不自主收缩,从而产生心理学家所说的“杜氏标记”。这正是“笑到眼睛里”的微笑与“止于嘴角”的微笑之间的区别。我们在生物学上就被设定去察觉这种差别,哪怕我们无法有意识地说清楚它。

扩散模型并不懂这一点。它们运行在像素级的概率分布之上,而不是解剖学规则之上。它们见过数百万张标注为“微笑”的图片,学会了再现微笑的几何构造。但它们无法再现微笑的物理特性

生成式模型产出的是视觉上看似合理、情感上却空洞的内容。我们称之为“美学幻觉”——图像看起来没错,但感觉上不对。

这个词——美学幻觉——是我们在 Veriprajna 创造出来的,用来描述这一特定的失败模式。我认为它是当下任何品牌领导者都必须理解的最重要的概念。它无关分辨率或渲染质量,而在于看上去真实与感觉上真实之间的差距。可口可乐那支广告有着精美的质感。闪光的雪花。在镀铬表面上反射的光线。以及让你起鸡皮疙瘩的微笑。

字节跳动研究院在 2025 年发表的一项研究,证实了我们在实践中所看到的:像 Sora 和 Gen-3 这样的视频生成模型并不会学习牛顿物理学。它们记住的只是视觉上的过渡。它们能够再现一辆卡车行驶的外观,因为它们看过数千段行驶视频,但它们并不理解悬挂、摩擦或重量。研究人员发现了这些模型能够正确处理的一个层级:颜色 > 尺寸 > 速度 > 形状。颜色几乎总是准确的——因此才有那种完美的可口可乐红。而形状则是崩塌之处。模型能确保卡车在每一帧里都是红色的,却会“忘记”它有几个车轮,因为它是在潜在空间中分块生成视频的,缺乏一个统一的三维表示。

这就是为什么 AI 生成的饮料广告里的液体看起来像水银。模型能精准还原焦糖色,却毫无体积守恒的概念。它不知道液体不可能在玻璃杯里凭空出现又凭空消失。

“提示并祈祷”究竟是什么样子?

一张并排对比图,将“提示并祈祷”工作流(可口可乐的做法)与“人在环中”工作流(Veriprajna 的做法)进行对照,展示为什么一种会失败、另一种会成功。

我想具体说说可口可乐的工作流到底是怎样的,因为理解了它,就能解释它为什么会失败。

团队把提示词输入生成式视频工具。工具产出片段。团队看了成千上万段这样的片段,希望从中找到几段看起来足够连贯、可以剪辑在一起的。这就是我所称的“提示并祈祷”方法论,也是我认为处于 AI 视频制作“套壳时代”的主流做法。你写下一段对自己想要什么的描述。你点击生成。然后你祈求好运。

七万段片段。只为三十秒。

这个数字让我久久不能释怀。它意味着创作过程已被降格为一项筛选工作——在一片幻觉的汪洋中淘洗,只为找出那寥寥几段看起来最不离谱的。导演不是在执导。导演是在过滤。这两者有天壤之别。

当 Silverside AI 的创作者被问及这场反弹时,他们把它比作当年人们对 CGI 的早期抵触,就像在电影《玩具总动员》中那样。我觉得这个类比错得近乎冒犯。《玩具总动员》运用技术讲述了一个无法以其他任何方式讲述的故事——玩具的内心世界。而可口可乐则是用技术去重讲一个三十年前用实体特效讲得更好的故事。AI 没有增添任何东西。它减去了人性。

叙事从“可口可乐很创新”转向了“可口可乐很廉价”。那是一场披着技术展示外衣的品牌资产灾难。

我在我们研究的交互式版本中对这一动态做了深入得多的探讨,包括 Toys 'R' Us 的案例——一个 AI 生成的儿童演员引发了如此本能的抵触,以至于品牌好感度一夜之间崩塌。

为什么耐克的 AI 广告能赢得戛纳大奖?

这是这个故事中让我看到希望的部分。

大约就在众多品牌因 AI 生成的“垃圾内容”而声名扫地的同时,耐克为其五十周年推出了“永不止步的进化”。其构想是:模拟 1999 年的塞雷娜·威廉姆斯与 2017 年的塞雷娜·威廉姆斯之间的一场网球比赛。它在戛纳赢得了大奖。广受赞誉。毫无反弹。

区别不在预算,而在架构。

耐克并没有要求 AI 去想象塞雷娜。他们向一个机器学习模型输入了她真实的比赛存档影像——积累了多年的影像——并用它来分析她在职业生涯不同阶段的速度、击球选择和反应能力。AI 是基于现实来计算各种可能性的。它是一台时光机,而不是一台捏造引擎。斯坦福的“vid2player”技术基于网球物理的领域知识,生成了行为上精准的球员精灵图。随后,人类合成师和剪辑师确保了视觉的保真度与叙事的节奏。

AI 生成了动作和比赛逻辑。人类则确保它看起来、感觉起来都像是一部耐克出品的作品。

这就是那个范式。这就是行之有效的做法。也正是我们在 Veriprajna 一直努力构建的方向。

如何在使用 AI 的同时,不丢掉品牌的灵魂?

一张三阶段流水线示意图,精确展示了 AI 在前期制作、制作和后期制作中分别扮演的不同角色,并在每个阶段标注了具体的工具与技术。

我经常被问到这个问题。通常是那些看过可口可乐相关头条、害怕自己成为下一个的首席营销官,但他们同时也清楚,自己不能完全无视 AI,因为竞争对手不会无视。

我的回答始终一样:不要让 AI 渲染最后那一个像素。

在 Veriprajna,我们构建了我们称之为“人在环中”的架构。它不是一种理念,而是一条实实在在的生产流水线,在每一层都设有人类把关的检查点。原则很简单:人类的意图必须驾驭机器的执行,而不是反过来。

在实践中,它可以拆分为三个阶段,AI 在每个阶段扮演的角色各不相同。

在前期制作阶段,AI 是那个造梦者。我们使用像 Krea AI 这样的工具进行实时可视化——设计师草绘出一个布局,就能在毫秒之间看到它被渲染成照片级的真实画面。这将分镜脚本的成本削减了 60–80%。但没有人会就最终效果拍板定案。在任何一台摄像机开拍之前,导演都是在虚拟地“拍摄”这支广告,即时地对灯光和构图进行迭代。

在制作阶段,由人类去捕捉真正重要的东西。对于任何需要情感共鸣的部分——一张脸、一次产品互动、一个真实人际连接的瞬间——我们都会拍摄真实的演员。我们采用我所称的“三明治方法”:在绿幕或 LED 虚拟制片棚里拍摄主体元素(演员、产品),然后用 AI 生成高保真的背景,投射到那些 LED 墙上。演员与来自合成场景的真实光线互动。情感是真实的,环境则是生成的。

在后期制作阶段,AI 则成了雕塑家。这正是深度 AI 大放异彩之处——不是文本到视频的生成,而是视频到视频的转换。我们把真实的演员合成进合成的环境中。我们使用定制训练的 LoRA(低秩自适应)模型来施加一致的品牌美学——这些是针对某个品牌特定影像风格训练出来的轻量级文件。对于像耐克这样的客户,我们会用他们二十年的视觉语言来训练一个 LoRA。每一帧 AI 生成的画面都宛如一支耐克广告,因为模型已经内化了那些品牌密码。

而且我们用 ControlNet 来锁定几何结构。与其寄望于一段提示词能保住产品的精确形状,我们不如向网络输入真实产品的一张 Canny 边缘图或深度图。AI 会围绕精确的轮廓进行生成。光照和背景可以是生成的,但产品本身在数学上保持完美——94.2% 的结构完整性,相比之下,仅凭提示词就如同掷骰子听天由命。

究竟是什么导致了“闪烁卡车”问题?

其专业术语叫做“时间不一致性”,它是企业级 AI 视频面临的最大单一障碍。这就是可口可乐那辆卡车在镜头切换之间改变形状的原因。这也是 AI 生成的角色在转头时会发生形变的原因。模型无法在各帧之间维持对同一个物体的统一表示——它每次都从零开始重新生成,而每一次重新生成都是一次全新的概率掷骰。

我们用一种名为“视频一致性距离”(VCD)的指标来解决这个问题,并把它整合进我们的微调流程中。VCD 衡量的是一张条件图像与生成帧之间在频域上的距离。通过在训练中惩罚较高的 VCD 值,我们迫使模型优先保证连贯性。以这种方式微调的模型能够达到95.22% 的主体一致性以及96.32% 的背景一致性(在标准基准测试上)。

至于物体恒存性——也就是一个人走到树后、模型就忘了他们存在的问题——我们通过整合 NeRF(神经辐射场),把 AI 的生成锚定到三维代理场景上。AI 为一个三维粗模“蒙皮”,将传统 CGI 的几何逻辑与生成式 AI 的美学灵活性结合起来。

若想了解这些流水线的完整技术拆解,包括我们应对模式崩溃和潜在空间操控的方法,请参阅我们的研究论文

我一再重复的那场争论

有一场对话,我在过去一年里大概进行过五十次。它通常以某人这样开场:“但模型会变得更好。再过两年,Sora 就能做到这一切了。”

也许吧。对于某些狭窄的任务,甚至很可能如此。但这种论调完全没抓住重点。

问题从来都不是“AI 能否生成一段技术上完美无瑕的视频?”问题是“你品牌的情感身份,是否应该成为一个概率分布的函数?”

就算闪烁的卡车被修好了,那些死气沉沉的眼睛也学会了在笑时眯起来,你仍然要面对信任问题。44% 的消费者对 AI 生成的内容明显感到反感。NielsenIQ 发现,即便是制作精良的 AI 广告,也会引发一种“负面光环效应”——哪怕视觉质量很高,观众依然把它们贴上“恼人”“无聊”“令人困惑”的标签。这种损害不止波及单场营销活动,还会殃及品牌本身。

多芬打造了一整场营销活动——“The Code”——其核心就是拒绝 AI 对人体的扭曲。这是一场巨大的品牌资产胜利。他们把威胁变成了差异化优势。对于美妆、食品、健康和奢侈品这类品类来说,“真实”不是一种限制,而是一种溢价。

那些靠 AI 制胜的品牌,并不是用它来取代人性。它们用它来放大那些过去无力讲述的故事。

亨氏出色地证明了这一点。他们让 AI 生成“番茄酱”的图像,结果显示每一个模型都默认画出一个亨氏瓶子。他们把 AI 的偏见变成了品牌统治力的证明。幻觉本身成了卖点。这个做法坦诚、有趣,而且之所以奏效,是因为品牌是在主动玩这个梗,而不是试图欺骗任何人。

在这一部分,我要坦白是什么让我夜不能寐

我要坦白一件事。真正让我担心的,不是 AI 视频会一直很糟糕。而是它会变得刚好够好,以至于懒惰的品牌会将就着用它,而市场将被那些技术上勉强过关、情感上却空洞无物的内容淹没。人们已经在用的一个词是“AI 垃圾”——那种量大、省事的合成内容,塞满了信息流,却什么也没说。

我害怕的是它被常态化。害怕消费者不再期待匠心。害怕一整代观众在成长中会以为,那种塑料般的光泽和死气沉沉的眼神,本来就是广告该有的样子。

几个月前,我们为此开过一次团队会议,结果演变成了一场真正的争论。我们的一位工程师提出,消费者会适应的——随着接触增多,那道“恐怖谷”会逐渐收窄。我们的创意总监则强烈反驳。“人们并没有因为快餐无处不在就适应了难吃的食物,”她说,“他们反而培养出了对品质的品味。这里也会发生同样的事。”

我认为她是对的。数据也支持她。针对可口可乐的反弹,并非出自一小撮 AI 怀疑论者,而是来自主流大众。消费者正在对合成内容形成一种第六感,而一旦被识破,所付出的代价要比偷工减料省下的成本高得多。

下一个前沿——研究人员所称的“世界模型”——终将让 AI 理解物理,而不只是像素。字节跳动估计,到 2026–2027 年会取得实质性进展。在那之前,混合式工作流是唯一安全的桥梁。它让你既能驾驭当今 AI 的渲染能力,又能借用只有人类创作者才具备的物理与情感智能。

真正重要的那个问题

我接触的每一位企业领导者都会问同一个问题:“AI 能帮我们在制作上省下多少钱?”

这是个错误的问题。它会直接把你引向恐怖谷——引向那 70,000 段生成的片段,以及一支让人毫无感觉的 30 秒广告。

正确的问题是:“AI 能帮我们讲出哪些过去我们无力讲述的故事?”

耐克并没有靠“永不止步的进化”省钱。他们花了不少钱。但他们创造出了没有 AI 就不可能实现的东西——同一位运动员相隔十八年的两个版本之间的一场对决。那不是成本优化,而是创造力的拓展。

别再问 AI 能如何让你的制作更便宜。开始问它能如何让你的叙事更勇敢。

新鲜感的阶段已经结束。“看看 AI 做了什么”再也打动不了任何人。新的标准——在 2026 年及以后唯一重要的标准——是“看看我们用 AI 做出了什么。”重点牢牢落在“我们”这个词上。

理解这一点的品牌将会缔造传奇。而不理解的品牌,则会花费数百万去教一个算法微笑,然后纳闷为什么没有人回以微笑。

Related Research

Also Published On