Image éditoriale montrant la main d'un réalisateur guidant physiquement une scène générée par IA partiellement rendue, symbolisant l'intention humaine qui gouverne la production machine.
Artificial IntelligenceMarketingBrand Strategy

J'ai vu Coca-Cola dépenser des millions à apprendre à l'IA à sourire. L'IA n'y est pas arrivée.

Ashutosh SinghalAshutosh Singhal2 février 202614 min

J'étais assis dans mon bureau un soir de novembre, tard, quand un collègue m'a envoyé un lien. « Il faut que tu voies ça. » C'était la publicité « Holidays Are Coming » de Coca-Cola pour 2025 — celle entièrement générée par IA. Je l'ai regardée deux fois. La première fois, quelque chose clochait sans que je puisse le nommer. La deuxième fois, j'ai su.

Les camions étaient rouges. La neige scintillait. Les ours polaires traversaient lourdement l'écran. Et rien de tout cela n'avait d'importance, parce que chaque sourire dans cette publicité était mort au fond des yeux.

Cette publicité est devenue l'étude de cas la plus importante dans notre travail chez Veriprajna — non pas parce qu'elle était mauvaise, mais parce qu'elle était presque bonne. Et « presque bonne », c'est là où les marques vont mourir. La publicité IA de Coca-Cola est le signal le plus clair que j'aie vu que l'ère de ce que j'appelle le « LLM Wrapper » — coller une jolie interface par-dessus un modèle fondamental comme Sora ou Runway et appeler ça un pipeline de production — est révolue pour toute marque qui tient à sa réputation. La confiance dans les publicités entièrement réalisées par IA s'établit à 13 %. Co-créées avec des humains ? 48 %. Cet écart n'est pas une erreur d'arrondi. C'est un gouffre.

Cet essai porte sur ce qui se trouve de l'autre côté de ce gouffre : les workflows d'IA hybrides, où l'intention humaine gouverne la vélocité de la machine. C'est l'approche que nous développons chez Veriprajna, et c'est la seule architecture qui, à mon sens, peut protéger le capital de marque à l'ère des médias synthétiques.

La publicité qui a rompu le charme

Voici ce que la plupart des gens ont manqué à propos du fiasco de Coca-Cola. Ce n'était pas bon marché. Ce n'était pas de la paresse. L'équipe de production aurait généré plus de 70 000 clips vidéo pour assembler un seul spot de 30 secondes. Deux studios — Secret Level et Silverside AI — étaient impliqués. Le responsable de l'IA générative de Coca-Cola a publiquement affirmé que le travail était « dix fois meilleur » que leur précédente tentative IA.

Et le public l'a quand même détestée.

Les commentaires étaient brutaux. « Sans âme. » « Dystopique. » Mon préféré, dégoulinant de ce genre de colère que seul un fan trahi peut éprouver : « Coca-Cola est rouge parce que c'est fait du sang des artistes au chômage. »

Je me souviens d'avoir décortiqué la publicité image par image avec mon équipe, en essayant d'articuler exactement ce qui ne fonctionnait pas. L'un de nos designers a pointé l'écran et a dit : « Le camion a un nombre de roues différent dans ce plan par rapport à il y a trois secondes. » Elle avait raison. Nous avons commencé à compter. La forme de la cabine changeait d'un plan à l'autre. Le châssis flottait au-dessus de la neige comme un aéroglisseur — pas de suspension, pas de transfert de poids, pas de friction.

Mais le vrai problème, ce n'étaient pas les camions. C'étaient les gens. Ou plutôt, les non-gens.

Pourquoi l'IA ne sait-elle pas sourire ?

C'est la question qui m'a entraîné dans un terrier de recherche dont je ne suis toujours pas sorti. Un véritable sourire humain n'est pas qu'une forme de bouche. Il implique une contraction involontaire de l'orbicularis oculi — le muscle autour de l'œil — créant ce que les psychologues appellent le « marqueur de Duchenne ». C'est la différence entre un sourire qui atteint les yeux et un qui s'arrête aux lèvres. Nous sommes biologiquement câblés pour détecter la différence, même si nous ne pouvons pas l'articuler consciemment.

Les modèles de diffusion ne le savent pas. Ils opèrent sur des distributions de probabilité au niveau des pixels, non sur des règles anatomiques. Ils ont vu des millions d'images étiquetées « sourire » et ont appris à reproduire la géométrie d'un sourire. Mais ils ne peuvent pas reproduire la physique de celui-ci.

Les modèles génératifs produisent un contenu visuellement plausible mais émotionnellement creux. Nous appelons cela l'« hallucination esthétique » — l'image semble correcte, mais elle sonne faux.

Ce terme — hallucination esthétique — est quelque chose que nous avons forgé chez Veriprajna pour décrire ce mode d'échec spécifique, et je pense que c'est le concept le plus important à comprendre pour tout dirigeant de marque en ce moment. Il ne s'agit pas de résolution ou de qualité de rendu. Il s'agit de l'écart entre ce qui a l'air réel et ce qui semble réel. La publicité de Coca-Cola avait de belles textures. Une neige qui scintillait. Une lumière qui rebondissait sur le chrome. Et des sourires à vous donner la chair de poule.

Une étude de ByteDance Research publiée en 2025 a confirmé ce que nous constations en pratique : les modèles de génération vidéo comme Sora et Gen-3 n'apprennent pas la physique newtonienne. Ils mémorisent des transitions visuelles. Ils peuvent reproduire l'apparence d'un camion qui roule parce qu'ils ont vu des milliers de vidéos de conduite, mais ils ne comprennent ni la suspension, ni la friction, ni le poids. Les chercheurs ont trouvé une hiérarchie de ce que ces modèles réussissent : Couleur > Taille > Vitesse > Forme. La couleur est presque toujours exacte — d'où le parfait rouge Coca-Cola. La forme, c'est là que tout s'effondre. Le modèle garantit que le camion est rouge dans chaque image mais « oublie » combien de roues il a, parce qu'il génère la vidéo par blocs latents sans représentation 3D unifiée.

C'est pourquoi le liquide dans les publicités de boissons générées par IA ressemble à du mercure. Le modèle reproduit à la perfection la couleur caramel mais n'a aucune notion de conservation du volume. Il ne sait pas qu'un liquide ne peut pas apparaître et disparaître à l'intérieur d'un verre.

À quoi ressemble réellement le « Prompt and Pray » ?

Un diagramme comparatif côte à côte opposant le workflow « Prompt & Pray » (l'approche de Coca-Cola) au workflow « Human-in-the-Loop » (l'approche de Veriprajna), montrant pourquoi l'un échoue et l'autre réussit.

Je veux être concret quant à ce qu'était réellement le workflow de Coca-Cola, parce que le comprendre explique pourquoi il a échoué.

L'équipe tapait des prompts dans des outils de génération vidéo. Les outils produisaient des clips. L'équipe visionnait des milliers de ces clips, dans l'espoir d'en trouver qui paraissaient assez cohérents pour être montés ensemble. C'est ce que j'appelle la méthodologie « prompt and pray », et c'est l'approche dominante dans ce que je considère comme l'« ère du wrapper » de la production vidéo par IA. Vous écrivez une description de ce que vous voulez. Vous cliquez sur générer. Vous croisez les doigts.

Soixante-dix mille clips. Pour trente secondes.

Ce chiffre m'a hanté. Il signifiait que le processus créatif avait été réduit à une tâche de curation — passer au crible un océan d'hallucinations pour trouver les rares qui paraissaient les moins ratées. Le réalisateur ne réalisait pas. Le réalisateur filtrait. Il y a un monde de différence.

Lorsqu'on a interrogé les créateurs de Silverside AI au sujet de la levée de boucliers, ils l'ont comparée à la résistance initiale à l'image de synthèse dans Toy Story. J'ai trouvé cette comparaison presque insultante tant elle était fausse. Toy Story utilisait la technologie pour raconter une histoire qui ne pouvait être racontée d'aucune autre manière — la vie intérieure des jouets. Coca-Cola a utilisé la technologie pour re-raconter une histoire qui avait déjà été mieux racontée avec des effets pratiques il y a trente ans. L'IA n'a rien ajouté. Elle a soustrait de l'humanité.

Le récit est passé de « Coca-Cola est innovante » à « Coca-Cola est radine ». C'est une catastrophe de capital de marque déguisée en vitrine technologique.

J'ai écrit sur cette dynamique de manière bien plus approfondie dans la version interactive de notre recherche, y compris le cas Toys 'R' Us — où un enfant acteur généré par IA a déclenché un rejet si viscéral que le sentiment envers la marque s'est effondré du jour au lendemain.

Pourquoi la publicité IA de Nike a-t-elle remporté un Grand Prix à Cannes ?

C'est la partie de l'histoire qui me donne de l'espoir.

À peu près à la même époque où des marques se faisaient démolir pour de la bouillie générée par IA, Nike a sorti « Never Done Evolving » pour son 50e anniversaire. Le concept : simuler un match de tennis entre la Serena Williams de 1999 et celle de 2017. Il a remporté un Grand Prix à Cannes. Une acclamation universelle. Aucune levée de boucliers.

La différence, ce n'était pas le budget. C'était l'architecture.

Nike n'a pas demandé à une IA d'imaginer Serena. Ils ont alimenté un modèle d'apprentissage automatique avec de véritables images d'archives de son jeu — des années d'images — et s'en sont servis pour analyser sa vitesse, ses choix de coups et sa réactivité à différents moments de sa carrière. L'IA a calculé des possibilités à partir de la réalité. C'était une machine à remonter le temps, non un moteur de fabrication. La technique « vid2player » de Stanford a généré des sprites de joueuse fidèles à son comportement, à partir de connaissances de domaine sur la physique du tennis. Ensuite, des compositeurs et monteurs humains ont assuré la fidélité visuelle et le rythme narratif.

L'IA a généré les mouvements et la logique de jeu. Les humains ont veillé à ce que le résultat ait l'air et la sensation d'une production Nike.

C'est ça, le modèle. C'est ça qui fonctionne. Et c'est ce que nous construisons chez Veriprajna.

Comment utiliser l'IA sans perdre l'âme de votre marque ?

Un diagramme de pipeline en trois phases montrant exactement comment l'IA joue un rôle différent en pré-production, en production et en post-production, avec les outils et techniques spécifiques indiqués à chaque étape.

On me pose cette question sans arrêt. Généralement par des directeurs marketing qui ont vu les gros titres sur Coca-Cola et sont terrifiés à l'idée d'être les prochains, mais qui savent aussi qu'ils ne peuvent pas ignorer l'IA totalement, car leurs concurrents ne le feront pas.

Ma réponse est toujours la même : ne laissez pas l'IA rendre le pixel final.

Chez Veriprajna, nous avons bâti ce que nous appelons une architecture Human-in-the-Loop. Ce n'est pas une philosophie. C'est un pipeline de production littéral, avec des points de contrôle humains à chaque couche. Le principe est simple : l'intention humaine doit gouverner l'exécution machine. Pas l'inverse.

En pratique, cela se décompose en trois phases, et l'IA joue un rôle différent dans chacune.

En pré-production, l'IA est le rêveur. Nous utilisons des outils comme Krea AI pour la visualisation en temps réel — un designer esquisse une mise en page et la voit rendue de façon photoréaliste en quelques millisecondes. Cela réduit les coûts de storyboard de 60 à 80 %. Mais personne ne s'engage sur un rendu final. Le réalisateur « tourne » la publicité virtuellement, itérant instantanément sur l'éclairage et la composition, avant qu'une seule caméra ne tourne.

En production, les humains capturent ce qui compte. Pour tout ce qui exige une résonance émotionnelle — un visage, une interaction avec un produit, un moment de véritable connexion humaine — nous filmons de vrais talents. Nous utilisons ce que j'appelle la « méthode sandwich » : filmer les éléments héros (l'acteur, le produit) sur fond vert ou sur des volumes LED, puis utiliser l'IA pour générer des arrière-plans haute fidélité projetés sur ces murs LED. L'acteur interagit avec une lumière réelle issue d'une scène synthétique. L'émotion est réelle. L'environnement est généré.

En post-production, l'IA devient le sculpteur. C'est là que l'IA profonde brille — non pas la génération texte-vers-vidéo, mais la transformation vidéo-vers-vidéo. Nous incrustons de vrais acteurs dans des environnements synthétiques. Nous appliquons des esthétiques de marque cohérentes à l'aide de modèles LoRA (Low-Rank Adaptation) entraînés sur mesure — des fichiers légers entraînés sur le style cinématographique spécifique d'une marque. Pour un client comme Nike, nous entraînerions un LoRA sur vingt ans de leur langage visuel. Chaque image générée par IA semble être une publicité Nike parce que le modèle a intériorisé ces codes de marque.

Et nous utilisons ControlNet pour verrouiller la géométrie. Au lieu d'espérer qu'un prompt préserve la forme exacte d'un produit, nous alimentons le réseau avec une carte de contours Canny (Canny Edge Map) ou une carte de profondeur (Depth Map) du produit réel. L'IA génère autour de la silhouette exacte. L'éclairage et les arrière-plans peuvent être génératifs, mais le produit reste mathématiquement parfait — 94,2 % d'intégrité structurelle contre le coup de dés du prompting seul.

Qu'est-ce qui cause réellement le problème du « camion qui scintille » ?

Le terme technique est l'incohérence temporelle, et c'est le plus grand obstacle à la vidéo IA en entreprise. C'est pourquoi le camion de Coca-Cola changeait de forme d'un plan à l'autre. C'est pourquoi les personnages générés par IA se déforment quand ils tournent la tête. Le modèle ne maintient pas une représentation unifiée d'un objet à travers les images — il régénère à partir de zéro à chaque fois, et chaque régénération est un nouveau tirage probabiliste.

Nous résolvons cela avec une métrique appelée Video Consistency Distance (VCD), que nous intégrons à notre processus de fine-tuning. La VCD mesure la distance dans le domaine fréquentiel entre une image de conditionnement et les images générées. En pénalisant les valeurs élevées de VCD durant l'entraînement, nous forçons le modèle à prioriser la cohérence. Les modèles ainsi affinés atteignent 95,22 % de cohérence du sujet et 96,32 % de cohérence de l'arrière-plan sur les benchmarks standard.

Pour la permanence de l'objet — le problème où une personne passe derrière un arbre et le modèle oublie qu'elle existe — nous ancrons la génération IA à des scènes proxy 3D grâce à l'intégration de NeRF (Neural Radiance Fields). L'IA « habille » un blockout 3D, combinant la logique géométrique de l'image de synthèse traditionnelle avec la souplesse esthétique de l'IA générative.

Pour la ventilation technique complète de ces pipelines, y compris nos approches de l'effondrement de mode (mode collapse) et de la manipulation de l'espace latent, voir notre article de recherche.

La discussion que je ne cesse d'avoir

Il y a une conversation que j'ai eue probablement cinquante fois au cours de l'année écoulée. Elle commence généralement par quelqu'un qui dit : « Mais les modèles vont s'améliorer. Dans deux ans, Sora pourra faire tout ça. »

Peut-être. Probablement, même, pour certaines tâches précises. Mais cet argument passe complètement à côté de l'essentiel.

La question n'a jamais été : « L'IA peut-elle générer une vidéo techniquement irréprochable ? » La question est : « L'identité émotionnelle de votre marque devrait-elle être fonction d'une distribution de probabilité ? »

Même si les camions qui scintillent sont corrigés et que les yeux morts apprennent à se plisser, il vous reste le problème de la confiance. 44 % des consommateurs sont activement gênés par le contenu généré par IA. NielsenIQ a constaté que même les publicités IA soignées provoquent un « effet de halo négatif » — les spectateurs les qualifiaient d'« agaçantes », « ennuyeuses » et « déroutantes », même lorsque la qualité visuelle était élevée. Les dégâts s'étendent au-delà de la campagne individuelle jusqu'à la marque elle-même.

Dove a bâti toute une campagne — « The Code » — autour du rejet de la distorsion des corps humains par l'IA. Ce fut une immense victoire de capital de marque. Ils ont transformé la menace en facteur de différenciation. Pour des catégories comme la beauté, l'alimentation, le bien-être et le luxe, le « vrai » n'est pas une limite. C'est un premium.

Les marques qui gagnent avec l'IA ne s'en servent pas pour remplacer l'humanité. Elles s'en servent pour amplifier des histoires qu'elles n'auraient pas eu les moyens de raconter avant.

Heinz l'a prouvé brillamment. Ils ont demandé à l'IA de générer des images de « ketchup » et ont montré que chaque modèle se rabattait par défaut sur une bouteille Heinz. Ils ont transformé le biais de l'IA en preuve de domination de marque. L'hallucination était la fonctionnalité. C'était transparent, drôle, et ça a marché parce que la marque était complice de la blague plutôt que d'essayer de tromper qui que ce soit.

Le passage où j'avoue ce qui m'empêche de dormir la nuit

Je vais être honnête sur un point. Ce qui m'inquiète, ce n'est pas que la vidéo IA reste mauvaise. C'est qu'elle devienne juste assez bonne pour que des marques paresseuses s'en contentent, et que le marché soit inondé de contenu techniquement passable mais émotionnellement vide. Le terme que les gens emploient déjà est « AI slop » — du contenu synthétique produit en masse, à faible effort, qui remplit les fils d'actualité sans rien dire.

Ma crainte, c'est la normalisation. Que les consommateurs cessent d'attendre du savoir-faire. Qu'une génération de spectateurs grandisse en pensant que le vernis plastique et les yeux morts, c'est tout simplement à quoi ressemblent les publicités.

Nous avons eu une réunion d'équipe à ce sujet il y a quelques mois qui a tourné à une véritable dispute. L'un de nos ingénieurs a fait valoir que les consommateurs s'adapteraient — que la vallée de l'étrange (uncanny valley) se rétrécira à mesure que l'exposition augmente. Notre directrice de création a vivement contesté. « Les gens ne se sont pas adaptés à la mauvaise nourriture juste parce que la restauration rapide s'est répandue partout, a-t-elle dit. Ils ont développé un goût pour la qualité. La même chose se produira ici. »

Je pense qu'elle a raison. Les données lui donnent raison. La levée de boucliers contre Coca-Cola ne venait pas d'un groupe de niche de sceptiques de l'IA. Elle était grand public. Les consommateurs développent un sixième sens pour le contenu synthétique, et la sanction pour s'être fait prendre est plus lourde que les économies réalisées en rognant sur la qualité.

La prochaine frontière — ce que les chercheurs appellent les « World Models » (modèles du monde) — finira par donner à l'IA une compréhension de la physique, et non pas seulement des pixels. ByteDance estime que des progrès significatifs surviendront d'ici 2026-2027. D'ici là, le workflow hybride est le seul pont sûr. Il vous permet d'exploiter la puissance de rendu de l'IA d'aujourd'hui tout en empruntant l'intelligence physique et émotionnelle que seuls les créateurs humains possèdent.

La question qui compte vraiment

Chaque dirigeant d'entreprise à qui je parle pose la même question : « Combien d'argent l'IA peut-elle nous faire économiser sur la production ? »

C'est la mauvaise question. Elle mène tout droit à la vallée de l'étrange — à 70 000 clips générés et à une publicité de 30 secondes qui ne fait rien ressentir aux gens.

La bonne question est : « Quelles histoires l'IA peut-elle nous aider à raconter, que nous n'avions pas les moyens de raconter avant ? »

Nike n'a pas économisé d'argent avec « Never Done Evolving ». Ils ont dépensé sans compter. Mais ils ont créé quelque chose d'impossible sans l'IA — un match entre deux versions de la même athlète séparées par dix-huit ans. Ce n'est pas de l'optimisation des coûts. C'est de l'expansion créative.

Arrêtez de demander comment l'IA peut rendre votre production moins chère. Commencez à demander comment elle peut rendre votre narration plus audacieuse.

La phase de nouveauté est terminée. « Regardez ce que l'IA a fait » n'impressionne plus personne. Le nouveau standard — le seul standard qui comptera en 2026 et au-delà — est « Regardez ce que nous avons fait avec l'IA ». L'accent tombe carrément sur le nous.

Les marques qui comprennent cela bâtiront des légendes. Celles qui ne le comprennent pas dépenseront des millions à apprendre à un algorithme à sourire, en se demandant pourquoi personne ne leur sourit en retour.

Related Research

Also Published On