一張編輯風格的影像:一位電影導演的手正親手引導、雕塑一個由 AI 生成、尚未完全算圖的畫面,象徵人類意圖駕馭機器產出。
Artificial IntelligenceMarketingBrand Strategy

我看著可口可樂砸下數百萬教 AI 微笑,AI 卻做不到

Ashutosh SinghalAshutosh Singhal2026年2月2日14 min

十一月的一個傍晚,我正坐在辦公室裡加班,一位同事傳來一個連結給我。「你一定要看看這個。」那是可口可樂 2025 年的「假期即將到來」廣告——那支完全由 AI 生成的廣告。我看了兩遍。第一次,我覺得哪裡不對勁,卻說不上來。第二次,我終於明白了。

卡車是紅色的。白雪閃閃發亮。北極熊笨拙地走過畫面。而這一切都無關緊要,因為那支廣告裡的每一個笑容,眼神背後都是死寂的。

那支廣告成了我們在 VeriPrajna 工作中最重要的案例研究——不是因為它糟糕,而是因為它幾乎很好。而「幾乎很好」正是品牌走向死亡的地方。這支可口可樂 AI 廣告,是我所見過最清晰的訊號,宣告了我所稱的「LLM 外殼」時代——把漂亮的介面套在 Sora 或 Runway 這類基礎模型之上,然後稱其為量產流程——對任何在乎自身聲譽的品牌而言,都已經結束了。對完全由 AI 製作的廣告,信任度僅有13%。與人類共同創作的呢?48%。這個差距不是四捨五入的誤差。它是一道鴻溝。

這篇文章要談的,是這道鴻溝另一端的東西:混合式 AI 工作流程,讓人類意圖駕馭機器速度。這正是我們在 VeriPrajna 一直在打造的方法,也是我認為唯一能在合成媒體時代保護品牌資產的架構。

打破魔咒的那支廣告

以下是大多數人在可口可樂這場慘敗中忽略的地方。它並不便宜,也不偷懶。據報導,製作團隊生成了超過 70,000 段影片素材才拼湊出一支僅僅 30 秒的廣告。過程中有兩家工作室參與——Secret Level 與 Silverside AI。可口可樂的生成式 AI 主管還公開堅稱,這次的工藝比他們上一次的 AI 嘗試「好了十倍」。

而大眾依然厭惡它。

那些留言極其尖刻。「毫無靈魂。」「反烏托邦。」我個人最喜歡的一句,滿溢著只有被背叛的粉絲才能爆發出的憤怒:「可口可樂之所以是紅的,是因為它是用失業藝術家的血做的。」

我記得我和團隊一格一格地把那支廣告調出來看,試圖精確說出到底是哪裡出了問題。我們的一位設計師指著螢幕說:「這個鏡頭裡卡車的輪子數量,和三秒前不一樣。」她說得沒錯。我們開始數。車廂的形狀在剪接之間變了。底盤像氣墊船一樣漂浮在雪地上——沒有懸吊,沒有重量轉移,沒有摩擦力。

但真正的問題不在卡車,而在人。或者該說,在那些非人。

為什麼 AI 不會微笑?

這個問題把我拖進了一個至今仍在爬出來的研究兔子洞。一個真誠的人類笑容,不只是嘴巴的形狀。它牽涉到眼輪匝肌——眼睛周圍的肌肉——的不自主收縮,形成心理學家所稱的「杜鄉標記」。這正是「笑意抵達眼睛」與「笑容止於嘴唇」之間的差別。我們在生物本能上就被設定去偵測這種差異,即使我們無法有意識地說清楚。

擴散模型並不懂這一點。它們運作在像素層級的機率分布上,而非解剖學規則。它們看過數百萬張標記著「微笑」的圖片,學會了複製微笑的幾何形狀。但它們無法複製微笑的物理

生成式模型製造出視覺上看似合理、情感上卻空洞的內容。我們稱之為「美學幻覺」——影像看起來對,感覺卻不對。

這個詞——美學幻覺——是我們在 VeriPrajna 創造出來,用以描述這種特定失效模式的,而我認為它是眼下任何品牌領導者都必須理解的最重要概念。它與解析度或算圖品質無關。它關乎「看起來真實」與「感覺真實」之間的落差。那支可口可樂廣告有著漂亮的質感。閃閃發亮的雪。從鍍鉻表面反彈的光。以及讓你起雞皮疙瘩的笑容。

字節跳動研究團隊 2025 年發表的一項研究,證實了我們在實務中觀察到的現象:像 Sora 和 Gen-3 這樣的影片生成模型並不學習牛頓物理。它們只是記住視覺轉場。它們能複製卡車行駛的外觀,因為它們看過數千段行駛影片,但它們並不理解懸吊、摩擦或重量。研究人員發現這些模型正確掌握的能力有一套層級:顏色 > 大小 > 速度 > 形狀。顏色幾乎總是準確的——因此才有那完美的可口可樂紅。形狀則是崩壞之處。模型能確保卡車在每一格畫面都是紅的,卻「忘記」它有幾個輪子,因為它是在潛在空間中一塊一塊地生成影片,沒有統一的 3D 表徵。

這就是為什麼 AI 生成的飲料廣告裡,液體看起來像水銀。模型能精準抓住焦糖色,卻毫無體積守恆的概念。它不知道液體不可能在玻璃杯裡憑空出現又消失。

「下咒後祈禱」實際上長什麼樣子?

一張並排比較圖,將「下咒後祈禱」工作流程(可口可樂的做法)與「人類參與迴圈」工作流程(VeriPrajna 的做法)相對照,說明為何一者失敗、另一者成功。

我想具體說明可口可樂的工作流程究竟是什麼,因為理解它就能解釋它為何失敗。

團隊把提示詞輸入生成式影片工具。工具產出素材片段。團隊觀看數千段這樣的片段,希望找出足夠連貫、能剪接在一起的幾段。這就是我所稱的「下咒後祈禱」方法論,也是我認為 AI 影片製作「外殼時代」的主流做法。你寫下你想要的東西的描述。你按下生成。你祈禱。

七萬段素材。就為了三十秒。

那個數字一直縈繞在我心頭。它意味著創作過程已被簡化為一項策展任務——在幻覺的汪洋中篩選,找出那幾段看起來最不出錯的。導演並不是在執導。導演是在篩選。這兩者天差地別。

當 Silverside AI 的創作者被問及這波反彈時,他們把它比作早年對《玩具總動員》裡電腦動畫的抗拒。我覺得這個比較幾乎是冒犯性地錯誤。《玩具總動員》運用技術,講述了一個無法用其他任何方式講述的故事——玩具的內心世界。可口可樂則是運用技術,重述一個三十年前用實拍特效就已經講得更好的故事。AI 沒有增添任何東西。它只是減去了人性。

敘事從「可口可樂很創新」轉變成了「可口可樂很廉價」。那是一場被打扮成技術展示的品牌資產災難。

我在我們研究的互動版本中,對這個動態做了更深入得多的探討,包括玩具反斗城的案例——一位 AI 生成的兒童演員引發了如此本能的排斥,以致品牌好感度一夜之間暴跌。

為什麼 Nike 的 AI 廣告能贏得坎城全場大獎?

這是這個故事裡讓我抱有希望的部分。

大約在各品牌因 AI 生成的粗製濫造內容而慘遭撻伐的同時,Nike 為其五十週年推出了「永不止步的進化」。概念是:模擬一場 1999 年小威廉絲與 2017 年小威廉絲之間的網球賽。它贏得了坎城的全場大獎。一致好評。零反彈。

差別不在預算,而在架構。

Nike 並沒有要求 AI 去想像小威廉絲。他們餵給機器學習模型她比賽的真實檔案影片——累積多年的素材——並用它來分析她在職業生涯不同階段的速度、選球與反應力。AI 是基於現實去計算各種可能性。它是一台時光機,而非一台捏造引擎。史丹佛的「vid2player」技術,基於網球物理的領域知識,生成了行為上精準的球員動態影像。接著由人類合成師與剪接師確保視覺的擬真度與敘事的節奏。

AI 生成了動作與比賽邏輯。人類則確保它看起來、感覺起來都像是一支 Nike 的作品。

這就是那個模式。這就是行得通的做法。也是我們在 VeriPrajna 一直朝之努力的方向。

如何運用 AI,卻不失去品牌的靈魂?

一張三階段流程圖,精確展示 AI 在前製、製作與後製中如何扮演不同角色,並在每個階段標註出具體的工具與技術。

我不斷被問到這個問題。通常是那些看過可口可樂新聞頭條、害怕自己成為下一個,卻又深知不能完全忽視 AI(因為競爭對手不會忽視)的行銷長們問的。

我的答案始終如一:別讓 AI 算出最後一個像素。

在 VeriPrajna,我們打造了所謂的「人類參與迴圈」架構。它不是一套理念,而是一條實實在在、在每一層都設有人類檢查點的生產流程。原則很簡單:人類意圖必須駕馭機器執行,而不是反過來。

在實務上,它拆分成三個階段,而 AI 在每個階段扮演不同的角色。

在前製階段,AI 是造夢者。我們使用像 Krea AI 這樣的工具進行即時視覺化——設計師草繪出一個佈局,就能在數毫秒內看到它以照片級寫實的方式呈現。這將分鏡成本削減了 60–80%。但沒有人在此定案最終樣貌。導演是在虛擬地「拍攝」這支廣告,在任何一台攝影機開機之前,就即時反覆調整燈光與構圖。

在製作階段,人類捕捉真正重要的東西。對於任何需要情感共鳴的部分——一張臉、一次產品互動、一個真誠的人際連結時刻——我們拍攝真實的演員。我們採用我所稱的「三明治法」:在綠幕或 LED 攝影棚拍攝主體元素(演員、產品),再用 AI 生成高擬真度的背景投影到那些 LED 牆上。演員與來自合成場景的真實光線互動。情感是真的,環境是生成的。

在後製階段,AI 化身雕塑家。這正是深度 AI 大放異彩之處——不是文字轉影片的生成,而是影片轉影片的轉換。我們把真實演員合成進合成環境中。我們運用自行訓練的 LoRA(低秩自適應)模型,套上一致的品牌美學——這些是針對某品牌特定攝影風格訓練出的輕量檔案。對於像 Nike 這樣的客戶,我們會用他們二十年來的視覺語言去訓練一個 LoRA。每一格 AI 生成的畫面都感覺像 Nike 的廣告,因為模型已內化了那些品牌密碼。

而我們運用 ControlNet 來鎖定幾何形狀。我們不再寄望某句提示詞能保住產品的精確外形,而是餵給網路一張實際產品的 Canny 邊緣圖或深度圖。AI 是圍繞精確輪廓的周圍去生成。燈光與背景可以是生成的,但產品本身在數學上保持完美無瑕——相較於單靠提示詞的擲骰子式賭博,達到94.2% 的結構完整度

「閃爍的卡車」問題究竟是什麼造成的?

這個技術術語叫做時間一致性不足,它是企業級 AI 影片最大的單一障礙。這就是為什麼可口可樂的卡車在剪接之間變了形。這就是為什麼 AI 生成的角色一轉頭就會扭曲變形。模型無法在各格畫面間維持一個物件的統一表徵——它每次都從頭重新生成,而每一次重生都是一次全新的機率擲骰。

我們用一個稱為影片一致性距離(VCD)的度量來解決這個問題,並將它整合進我們的微調流程。VCD 測量的是一張條件影像與生成畫面之間的頻域距離。透過在訓練期間懲罰高 VCD 值,我們迫使模型優先追求連貫性。以這種方式微調的模型,在標準基準測試上達到95.22% 的主體一致性96.32% 的背景一致性

至於物件恆存性——一個人走到樹後、模型就忘了他存在的那個問題——我們透過整合 NeRF(神經輻射場),將 AI 生成錨定在 3D 代理場景上。AI 為一個 3D 粗模「上皮」,結合了傳統電腦動畫的幾何邏輯,與生成式 AI 的美學彈性。

關於這些流程的完整技術拆解,包括我們對模式崩潰與潛在空間操控的處理方法,請見我們的研究論文

我一再重複的那場爭論

在過去這一年裡,有一場對話我大概進行了五十次。它通常以某人這麼說開場:「但模型會變得更好。兩年之內,Sora 就能做到這一切。」

也許吧。甚至很可能,對某些狹隘的特定任務而言。但這個論點完全沒抓到重點。

問題從來不是「AI 能不能生成一支技術上完美無瑕的影片?」問題是「你品牌的情感認同,該不該是一個機率分布的函數?」

就算閃爍的卡車修好了,死寂的眼睛也學會了在笑時起皺,你依然要面對信任問題。44% 的消費者明確對 AI 生成的內容感到反感。 NielsenIQ 發現,即使是打磨得很精緻的 AI 廣告,也會造成一種「負面光環效應」——觀眾把它們貼上「惱人」、「無聊」、「令人困惑」的標籤,即便視覺品質很高。這種傷害會從單一檔廣告蔓延到品牌本身。

多芬圍繞著拒絕AI 對人體的扭曲,打造了一整檔廣告活動——「密碼」。這是一場巨大的品牌資產勝利。他們把威脅轉化為差異化的優勢。對於美妝、食品、健康與奢侈品這類品類而言,「真實」不是一種侷限。它是一種尊榮溢價。

那些靠 AI 取勝的品牌,不是用它來取代人性。他們是用它來放大那些過去負擔不起、講不出來的故事。

亨氏出色地證明了這一點。他們要求 AI 生成「番茄醬」的圖片,結果顯示每一個模型都預設畫出一個亨氏瓶子。他們把 AI 的偏見轉化為品牌主導地位的證明。這個幻覺本身就是賣點。它坦率、有趣,而且之所以奏效,是因為這個品牌是這個玩笑的參與者,而非試圖欺騙任何人。

承認什麼讓我夜不能寐的那一段

我要坦白一件事。真正讓我擔憂的,不是 AI 影片會一直很爛。而是它會變得剛好夠好,好到足以讓懶惰的品牌將就採用,於是市場將被那種技術上勉強過關、情感上卻空洞無物的內容淹沒。人們已經在用的那個詞是「AI 濫作」——高產量、低用心的合成內容,塞滿了各種動態消息,卻什麼也沒說。

我的恐懼是常態化。是消費者將不再期待工藝。是一整個世代的觀眾將在成長過程中,以為那塑膠般的光澤與死寂的眼神,就是廣告本來的樣子。

幾個月前,我們就這件事開了一次團隊會議,最後演變成一場真正的爭論。我們的一位工程師主張消費者會適應——隨著曝光增加,恐怖谷會縮小。我們的創意總監則強力反駁。「人們並沒有因為速食無所不在,就適應了難吃的食物,」她說。「他們反而培養出對品質的品味。這裡也會發生同樣的事。」

我認為她說得對。數據支持她。針對可口可樂的反彈,並非來自一小群 AI 懷疑論者。它是主流。消費者正在對合成內容發展出第六感,而被抓包的代價,遠比偷工減料省下的成本來得高昂。

下一個前沿——研究人員稱之為「世界模型」——終將賦予 AI 對物理的理解,而不只是對像素的理解。字節跳動估計,有意義的進展將在 2026–2027 年間出現。在那之前,混合式工作流程是唯一安全的橋樑。它讓你既能駕馭當今 AI 的算圖能力,又能借用唯有人類創作者才具備的物理與情感智慧。

真正重要的那個問題

我談過的每一位企業領導者,都問同一個問題:「AI 能幫我們在製作上省下多少錢?」

這是個錯誤的問題。它會直接把你帶進恐怖谷——帶到那 70,000 段生成的素材,以及一支讓人毫無感覺的 30 秒廣告。

正確的問題是:「AI 能幫我們講述哪些過去負擔不起、講不出來的故事?」

Nike 並沒有靠「永不止步的進化」省錢。他們花了不少。但他們創造出了一件沒有 AI 就不可能存在的作品——一場相隔十八年、同一位運動員兩個版本之間的對決。那不是成本優化,而是創意的擴張。

別再問 AI 能怎樣讓你的製作更便宜。開始問它能怎樣讓你的說故事更大膽。

新奇的階段已經過去。「看看 AI 做了什麼」再也打動不了任何人。新的標準——在 2026 年及往後唯一重要的標準——是「看看我們用 AI 做了什麼。」重點穩穩落在那個我們上。

理解這一點的品牌將打造傳奇。不理解的那些,則會花費數百萬,去教一套演算法微笑,然後納悶為什麼沒有人回以微笑。

Related Research

Also Published On