映画監督の手が、部分的にレンダリングされたAI 生成のシーンを物理的に導き、形づくっている編集的な画像。機械の出力を統べる人間の意図を表している。
Artificial IntelligenceMarketingBrand Strategy

コカ・コーラは何百万ドルもかけてAI に微笑み方を教えた。だが、AI にはできなかった。

Ashutosh SinghalAshutosh Singhal2026年2月2日14 min

11 月のある晩遅く、私がオフィスに座っていると、同僚がリンクを送ってきた。「これを見た方がいい」。それは、コカ・コーラの2025 年版「Holidays Are Coming」の広告——完全にAI によって生成されたものだった。私は二度観た。一度目は、何かがおかしいと感じたが、それが何なのか言い当てられなかった。二度目で、分かった。

トラックは赤かった。雪はきらめいていた。ホッキョクグマが画面を横切ってのっそりと歩いていた。だが、そのどれもが意味をなさなかった。なぜなら、そのCM のあらゆる笑顔は、目の奥が死んでいたからだ。

その広告は、私たちVeriPrajna の仕事における最も重要な事例研究となった——それが悪かったからではなく、それがほぼ良かったからだ。そして「ほぼ良い」というのは、ブランドが死にに行く場所である。このコカ・コーラのAI 広告は、私が「LLM ラッパー」と呼ぶ時代——Sora やRunway のような基盤モデルの上に見栄えのよいインターフェースをかぶせ、それを制作パイプラインと称する時代——が、評判を大切にするあらゆるブランドにとって終わったという、私が見てきた中で最も明確なシグナルだ。完全にAI によって作られた広告への信頼は、わずか13%だ。人間と共同制作した場合は?48%だ。その差は端数処理の誤差ではない。それは深い溝だ。

このエッセイは、その深い溝の反対側にあるものについてのものだ——人間の意図が機械の速度を統べる、ハイブリッドなAI ワークフローである。それは私たちがVeriPrajna で築いてきたアプローチであり、合成メディアの時代にブランド・エクイティを守れると私が信じる、唯一のアーキテクチャだ。

魔法を解いた広告

コカ・コーラの大失態について、ほとんどの人が見落としたことがある。それは安上がりではなかった。手抜きでもなかった。制作チームは、報じられるところによると、7 万本を超える動画クリップを生成して、たった30 秒のスポット1 本を組み立てたという。2 つのスタジオ——Secret Level とSilverside AI——が関わっていた。コカ・コーラの生成AI 責任者は、その職人技は前回のAI の試みより「10 倍優れている」と公然と主張した。

それでも世間はやはりそれを嫌った。

コメントは容赦なかった。「魂がない」。「ディストピア的だ」。私が個人的に気に入っているのは、裏切られたファンだけが振り絞れる類の怒りがにじみ出た一言だ——「コカ・コーラが赤いのは、失業したアーティストの血で作られているからだ」。

私はチームと一緒にその広告を1 コマずつ再生し、何が破綻しているのかを正確に言葉にしようとしたのを覚えている。うちのデザイナーの一人が画面を指さして言った。「このショットのトラックは、3 秒前と車輪の数が違う」。彼女は正しかった。私たちは数え始めた。キャビンの形はカットごとに変わっていた。シャシーは、ホバークラフトのように雪の上を浮いていた——サスペンションもなく、荷重移動もなく、摩擦もない。

だが本当の問題はトラックではなかった。それは人だった。いや、むしろ、人ならざるものだった。

なぜAI は微笑めないのか?

これは、私を今なお抜け出せずにいる研究の深い穴へと引きずり込んだ問いだ。本物の人間の微笑みは、単なる口の形ではない。それには、ある筋肉の不随意な収縮が伴う——眼輪筋——目の周りの筋肉であり、心理学者が「デュシェンヌ・マーカー」と呼ぶものを生み出す。それは、目にまで届く微笑みと、唇で止まる微笑みとの違いだ。私たちは、意識的に言葉にできなくても、その違いを見抜くよう生物学的に配線されている。

拡散モデルはこれを知らない。それらは解剖学的な規則ではなく、ピクセルレベルの確率分布に基づいて動作する。それらは「笑顔」とタグ付けされた何百万枚もの画像を見てきて、微笑みの幾何学を再現することを学んだ。だが、それらは微笑みの物理を再現することはできない。

生成モデルは、視覚的にはもっともらしいが、感情的には空虚なコンテンツを生み出す。私たちはこれを「美的ハルシネーション」と呼ぶ——画像は正しく見えるのに、間違っていると感じられるのだ。

その用語——美的ハルシネーション——は、この特定の失敗モードを言い表すために私たちがVeriPrajna で作った言葉であり、私は今、あらゆるブランドリーダーが理解すべき最も重要な概念だと考えている。それは解像度やレンダリング品質の話ではない。それは、本物に見えるものと、本物と感じられるものとの間のギャップの話だ。コカ・コーラの広告には美しいテクスチャがあった。きらめく雪。クロームに反射する光。そして、鳥肌が立つような笑顔だ。

2025 年に発表されたByteDance Research の研究は、私たちが実務で目にしていたことを裏付けた——Sora やGen-3 のような動画生成モデルは、ニュートン力学を学習しない。それらは視覚的な遷移を暗記している。それらは、トラックが走る見た目を再現できる。何千もの運転動画を見てきたからだ。だが、サスペンションも摩擦も重量も理解していない。研究者たちは、これらのモデルが正しく捉えるものの階層を発見した——色 > サイズ > 速度 > 形状。色はほぼ常に正確だ——だからこそ完璧なコカ・コーラの赤になる。形状は、破綻が起きるところだ。モデルは、すべてのフレームでトラックが赤であることは保証するが、車輪が何個あるかは「忘れる」。なぜなら、統一された3D 表現を持たずに、潜在的なかたまり単位で動画を生成するからだ。

これが、AI 生成の飲料広告における液体が水銀のように見える理由だ。モデルはキャラメル色は完璧に捉えるが、体積保存という概念を持たない。グラスの中で液体が現れたり消えたりできないことを、知らないのだ。

「プロンプトを打って祈る」とは、実際にはどのようなものか?

「プロンプトを打って祈る」ワークフロー(コカ・コーラのアプローチ)と「ヒューマン・イン・ザ・ループ」ワークフロー(VeriPrajna のアプローチ)を並べて対比し、なぜ一方が失敗し、もう一方が成功するのかを示した比較図。

コカ・コーラのワークフローが実際にはどのようなものだったのか、具体的に述べたい。それを理解することが、なぜ失敗したのかを説明してくれるからだ。

チームは生成動画ツールにプロンプトを打ち込んだ。ツールはクリップを吐き出した。チームは、つなぎ合わせられるほど一貫して見えるものを見つけようと願いながら、そのクリップを何千本も観た。これが、私が「プロンプトを打って祈る」手法と呼ぶものであり、私がAI 動画制作の「ラッパー時代」とみなすものにおいて支配的なアプローチだ。あなたは欲しいものの説明を書く。生成ボタンを押す。そして、指を組んで祈る。

7 万本のクリップ。30 秒のために。

その数字が頭から離れなかった。それは、クリエイティブなプロセスが、キュレーションの作業へと成り下がったことを意味していた——最も間違って見えないわずかなものを見つけるために、ハルシネーションの大海をふるいにかけるのだ。ディレクターは演出していなかった。ディレクターは選別していた。そこには天と地ほどの違いがある。

Silverside AI のクリエイターたちは、その反発について尋ねられたとき、それを『トイ・ストーリー』におけるCGI への初期の抵抗になぞらえた。私はこの比較を、ほとんど侮辱的なほど的外れだと感じた。『トイ・ストーリー』は、他のどんな方法でも語れない物語——おもちゃの内なる生——を語るために技術を使った。コカ・コーラは、30 年前に実写的な特殊効果でとうにもっと巧く語られていた物語を、語り直すために技術を使った。AI は何も足さなかった。それは人間性を差し引いた。

物語は「コカ・コーラは革新的だ」から「コカ・コーラは安っぽい」へと変わった。それは、技術のショーケースを装った、ブランド・エクイティの大惨事だ。

私はこの力学について、私たちの研究のインタラクティブ版で、はるかに深く書いた。そこにはトイザらスの事例も含まれる——AI 生成の子役が、あまりに本能的な拒絶を引き起こし、ブランドへの感情が一夜にして急落したのだ。

なぜナイキのAI 広告はカンヌのグランプリを獲得したのか?

これは、私に希望を与えてくれる物語の一部だ。

各ブランドがAI 生成の粗悪品で叩き潰されていたのとほぼ同じ頃、ナイキは50 周年を記念して「Never Done Evolving」を公開した。そのコンセプトは、1999 年のセリーナ・ウィリアムズと2017 年のセリーナ・ウィリアムズのテニスの試合をシミュレートするというものだった。それはカンヌでグランプリを獲得した。満場一致の称賛。反発は皆無だった。

違いは予算ではなかった。それはアーキテクチャだった。

ナイキはAI に、セリーナを想像するよう求めはしなかった。彼らは、機械学習モデルに、彼女のプレーの本物のアーカイブ映像——何年分もの——を与え、それを使って、キャリアのさまざまな時点における彼女のスピード、ショットの選択、反応性を分析した。AI は現実に基づいて可能性を計算した。それは捏造エンジンではなく、タイムマシンだった。スタンフォードの「vid2player」技術は、テニスの物理に関するドメイン知識に基づいて、行動的に正確な選手スプライトを生成した。その後、人間の合成担当者と編集者が、視覚的な忠実度と物語のテンポを担保した。

AI は動きとプレーのロジックを生成した。人間は、それがナイキの作品らしく見え、そう感じられることを担保した。

これがモデルだ。これがうまくいくやり方だ。そしてこれこそ、私たちがVeriPrajna で目指して築いてきたものだ。

ブランドの魂を失わずに、どうやってAI を使うのか?

AI がプリプロダクション、プロダクション、ポストプロダクションでそれぞれ異なる役割を果たす様子を正確に示し、各段階で用いる具体的なツールと技法を明示した、3 段階のパイプライン図。

私はこの質問を絶えず受ける。たいていは、コカ・コーラの見出しを目にして次は自分たちかと怯えつつも、競合が無視しない以上、自分たちもAI を完全には無視できないと分かっているCMO たちからだ。

私の答えはいつも同じだ——最後のピクセルをAI にレンダリングさせるな。

VeriPrajna では、私たちが「ヒューマン・イン・ザ・ループ」アーキテクチャと呼ぶものを築いてきた。それは哲学ではない。それは、あらゆる層に人間のチェックポイントを備えた、文字どおりの制作パイプラインだ。原則は単純だ——人間の意図が機械の実行を統べなければならない。その逆ではない。

実際には、それは3 つの段階に分かれ、AI はそれぞれで異なる役割を果たす。

プリプロダクションでは、AI は夢想家だ。私たちはリアルタイムの可視化のためにKrea AI のようなツールを使う——デザイナーがレイアウトをスケッチすると、それがミリ秒単位でフォトリアルにレンダリングされて見える。これによりストーリーボード制作のコストが60〜80% 削減される。だが、誰も最終的な見た目を確定させてはいない。ディレクターは、カメラが1 台も回る前に、仮想的にCM を「撮影」し、照明と構図を即座に反復調整しているのだ。

プロダクションでは、人間が肝心なものを捉える。感情的な共鳴を必要とするもの——顔、製品とのやり取り、本物の人間的なつながりの瞬間——には、私たちは本物の出演者を撮影する。私たちは、私が「サンドイッチ・メソッド」と呼ぶ手法を使う——主役の要素(俳優、製品)をグリーンスクリーンやLED ボリュームで撮影し、それからAI を使って、それらのLED ウォールに投影する高忠実度の背景を生成するのだ。俳優は、合成されたシーンからの本物の光とやり取りする。感情は本物だ。環境は生成されたものだ。

ポストプロダクションでは、AI は彫刻家になる。ここでこそ深いAI が輝く——テキストから動画への生成ではなく、動画から動画への変換だ。私たちは本物の俳優を合成環境に合成する。私たちは、カスタム訓練したLoRA(Low-Rank Adaptation)モデル——ブランド固有の映像撮影スタイルで訓練された軽量なファイル——を使って、一貫したブランドの美学を適用する。ナイキのようなクライアントなら、彼らの20 年分のビジュアル言語でLoRA を訓練するだろう。AI が生成するあらゆるフレームが感じられる——ナイキの広告のように。モデルがそうしたブランドのコードを内面化しているからだ。

そして私たちは、ジオメトリを固定するためにControlNet を使う。プロンプトが製品の正確な形状を保ってくれることを願う代わりに、私たちはネットワークに、実際の製品のCanny エッジマップやデプスマップを与える。AI は、正確なシルエットの周りを生成する。照明と背景は生成的であってよいが、製品は数学的に完璧なまま保たれる——94.2% の構造的整合性であり、プロンプトだけのサイコロ任せとは対照的だ。

「ちらつくトラック」問題を実際に引き起こしているのは何か?

専門用語では時間的非一貫性(temporal inconsistency)といい、それがエンタープライズのAI 動画にとって単独で最大の障壁だ。それが、コカ・コーラのトラックがカットの間で形を変えた理由だ。それが、AI 生成のキャラクターが頭を回すとぐにゃりと変形する理由だ。モデルは、フレームをまたいでオブジェクトの統一された表現を維持しない——毎回ゼロから再生成し、そのたびに新たな確率的なサイコロの一振りとなるのだ。

私たちはこれを、Video Consistency Distance(VCD)と呼ぶ指標で解決する。これは私たちのファインチューニングの工程に組み込まれている。VCD は、条件付け画像と生成されたフレームとの間の周波数領域での距離を測る。訓練中に高いVCD 値にペナルティを課すことで、私たちはモデルに一貫性を優先させる。このようにファインチューニングされたモデルは、標準的なベンチマークで、95.22% の被写体一貫性96.32% の背景一貫性を達成する。

オブジェクトの永続性——人が木の後ろを歩くとモデルがその存在を忘れてしまう問題——のために、私たちはNeRF(Neural Radiance Fields)の統合を用いて、AI 生成を3D の代理シーンに固定する。AI は3D のブロックアウトに「スキン」を貼り、従来のCGI の幾何学的なロジックと、生成AI の美的な柔軟性とを組み合わせるのだ。

モード崩壊や潜在空間の操作に対する私たちのアプローチを含む、これらのパイプラインの完全な技術的解説については、私たちの研究論文を参照してほしい。

私が繰り返している議論

この1 年で、おそらく50 回はした会話がある。たいていは、誰かがこう言うところから始まる。「でも、モデルは良くなっていくよ。2 年もすれば、Sora はこれ全部をこなせるようになる」。

そうかもしれない。特定の狭いタスクについては、おそらくそうだろう。だが、この議論は要点を完全に取り違えている。

問いは、決して「AI は技術的に完璧な動画を生成できるか?」ではなかった。問いは「あなたのブランドの感情的なアイデンティティは、確率分布の関数であるべきか?」だ。

たとえ、ちらつくトラックが直り、死んだ目が笑いじわを作れるようになったとしても、あなたには依然として信頼の問題が残る。消費者の44% が、AI 生成コンテンツに積極的に不快感を抱いている。NielsenIQ は、洗練されたAI 広告でさえ「ネガティブ・ハロー効果」を引き起こすことを見出した——視聴者は、視覚的な品質が高くても、それらを「うっとうしい」「退屈」「分かりにくい」と評した。その損害は、個々のキャンペーンを超えて、ブランドそのものにまで及ぶ。

ダヴは、キャンペーン全体——「The Code」——を、人間の身体のAI による歪曲を拒絶することを軸に構築した。それは、ブランド・エクイティ上の大きな勝利だった。彼らは脅威を差別化要因へと転じた。美容、食品、ウェルネス、ラグジュアリーのようなカテゴリーでは、「本物」は制約ではない。それはプレミアムだ。

AI で勝つブランドは、それを人間性の代替として使いはしない。彼らはそれを、これまで語る余裕のなかった物語を増幅するために使う。

ハインツはこれを見事に証明した。彼らはAI に「ケチャップ」の画像を生成するよう求め、どのモデルも初期設定でハインツのボトルになることを示した。彼らはAI のバイアスを、ブランドの支配力の証拠へと転じた。ハルシネーションこそが売りだった。それは透明で、面白く、そしてうまくいった。ブランドが誰かを欺こうとするのではなく、そのジョークに乗っていたからだ。

私が夜も眠れなくなることを打ち明ける部分

正直に言おう。私が心配しているのは、AI 動画が粗悪なままでいることではない。それがちょうど十分なくらい良くなり、怠惰なブランドがそれで妥協し、技術的には及第点だが感情的には空っぽのコンテンツが市場にあふれることだ。人々がすでに使っている言葉が「AI スロップ(AI slop)」だ——大量生産で手間をかけない合成コンテンツが、何も語らずにフィードを埋め尽くすのだ。

私が恐れているのは、常態化だ。消費者が職人技を期待しなくなること。ある世代の視聴者が、あのプラスチックのような光沢と死んだ目こそが、広告とはそういうものだと思って育つことだ。

数か月前、これについてのチーム会議が、本物の議論に発展した。うちのエンジニアの一人は、消費者は適応するだろう——接触が増えるにつれて不気味の谷は縮まるだろう——と主張した。うちのクリエイティブ・ディレクターは強く反論した。「ファストフードがどこにでも広がったからといって、人々が粗末な食べ物に適応したわけではない」と彼女は言った。「人々は質へのこだわりを育んだ。ここでも同じことが起きる」。

私は彼女が正しいと思う。データは彼女を裏付けている。コカ・コーラへの反発は、AI 懐疑派のニッチな集団からのものではなかった。それは主流だった。消費者は合成コンテンツを見抜く第六感を育みつつあり、露見したときの罰は、手を抜いて得られる節約よりも大きいのだ。

次のフロンティア——研究者が「ワールドモデル(World Models)」と呼ぶもの——は、いずれAI に、単なるピクセルではなく物理の理解を与えるだろう。ByteDance は、2026〜2027 年までに有意義な進展があると見積もっている。それまでは、ハイブリッド・ワークフローが唯一の安全な橋だ。それによって、今日のAI のレンダリング能力を活用しつつ、人間の作り手だけが持つ物理的・感情的な知性を借りることができる。

本当に大切な問い

私が話すあらゆるエンタープライズのリーダーは、同じ質問をする。「AI は制作費をどれだけ節約してくれるのか?」

それは間違った問いだ。それは、まっすぐに不気味の谷へと通じる——7 万本の生成クリップと、人々に何も感じさせない30 秒の広告へと。

正しい問いはこうだ——「AI は、私たちがこれまで語る余裕のなかったどんな物語を、語る手助けをしてくれるのか?」

ナイキは「Never Done Evolving」でお金を節約したわけではない。彼らはたっぷり使った。だが彼らは、AI なしでは不可能なもの——18 年の隔たりを持つ、同じ選手の2 つのバージョン同士の試合——を生み出した。それはコストの最適化ではない。それはクリエイティブの拡張だ。

AI がどうやって制作を安くできるかを問うのはやめよう。AI がどうやってあなたのストーリーテリングをより大胆にできるかを、問い始めよう。

目新しさの段階は終わった。「AI が作ったものを見て」は、もう誰も感心させない。新しい基準——2026 年以降に唯一意味を持つ基準——は、「見てくれ、私たちがAI を使って作ったものを」だ。強調が置かれるのは、まさに——私たち——だ。

これを理解するブランドは、伝説を築くだろう。理解しないブランドは、アルゴリズムに微笑み方を教えるために何百万ドルも費やし、なぜ誰も微笑み返してくれないのかと首をかしげることになる。

Related Research

Also Published On