Een redactionele afbeelding van de hand van een filmregisseur die een deels gerenderde, door AI gegenereerde scène fysiek stuurt en boetseert, als symbool voor menselijke intentie die de machine-uitvoer aanstuurt.
Artificial IntelligenceMarketingBrand Strategy

Ik zag Coca-Cola miljoenen uitgeven om AI te leren glimlachen. Het lukte niet.

Ashutosh SinghalAshutosh Singhal2 februari 202614 min

Ik zat op een late avond in november in mijn kantoor toen een collega mij een link stuurde. "Dit moet je zien." Het was Coca-Cola's kerstreclame van 2025, "Holidays Are Coming" — die volledig door AI was gegenereerd. Ik keek er twee keer naar. De eerste keer voelde er iets verkeerd, maar ik kon het niet benoemen. De tweede keer wel.

De vrachtwagens waren rood. De sneeuw glinsterde. De ijsberen sjokten over het scherm. En niets ervan deed ertoe, want elke glimlach in die reclame was dood achter de ogen.

Die reclame werd de belangrijkste casestudy in ons werk bij Veriprajna — niet omdat hij slecht was, maar omdat hij bijna goed was. En "bijna goed" is waar merken sterven. De AI-reclame van Coca-Cola is het duidelijkste signaal dat ik heb gezien dat het tijdperk van wat ik de "LLM Wrapper" noem — een mooie interface bovenop een basismodel als Sora of Runway plakken en dat een productiepijplijn noemen — voorbij is voor elk merk dat om zijn reputatie geeft. Het vertrouwen in reclames die volledig door AI zijn gemaakt, ligt op 13%. Samen met mensen gecreëerd? 48%. Die kloof is geen afrondingsfout. Het is een afgrond.

Dit essay gaat over wat aan de andere kant van die afgrond ligt: hybride AI-workflows, waarin menselijke intentie de machinesnelheid stuurt. Het is de aanpak die we bij Veriprajna hebben opgebouwd, en het is de enige architectuur waarvan ik geloof dat ze merkwaarde kan beschermen in het tijdperk van synthetische media.

De reclame die de betovering verbrak

Dit is wat de meeste mensen misten aan het Coca-Cola-debacle. Het was niet goedkoop. Het was niet lui. Het productieteam genereerde naar verluidt meer dan 70.000 videoclips om één enkele spot van 30 seconden samen te stellen. Twee studio's — Secret Level en Silverside AI — waren erbij betrokken. Het hoofd generatieve AI van Coca-Cola beweerde publiekelijk dat het vakmanschap "tien keer beter" was dan hun vorige AI-poging.

En het publiek haatte hem nog steeds.

De reacties waren meedogenloos. "Zielloos." "Dystopisch." Mijn persoonlijke favoriet, druipend van het soort woede dat alleen een verraden fan kan opbrengen: "Coca-Cola is rood omdat het gemaakt is van het bloed van werkloze kunstenaars."

Ik herinner me dat ik de reclame frame voor frame met mijn team bekeek en probeerde precies te verwoorden wat er misging. Een van onze ontwerpers wees naar het scherm en zei: "De vrachtwagen heeft in dit shot een ander aantal wielen dan drie seconden geleden." Ze had gelijk. We begonnen te tellen. De vorm van de cabine veranderde tussen de cuts. Het chassis zweefde over de sneeuw als een hovercraft — geen vering, geen gewichtsoverdracht, geen wrijving.

Maar het echte probleem waren niet de vrachtwagens. Het waren de mensen. Of beter gezegd, de niet-mensen.

Waarom kan AI niet glimlachen?

Dit is de vraag die me een onderzoeksavontuur in stuurde waar ik nog steeds uit probeer te klimmen. Een oprechte menselijke glimlach is niet zomaar een mondvorm. Het gaat gepaard met een onwillekeurige samentrekking van de orbicularis oculi — de spier rond het oog — die zorgt voor wat psychologen de "Duchenne-marker" noemen. Het is het verschil tussen een glimlach die de ogen bereikt en een die bij de lippen ophoudt. We zijn biologisch geprogrammeerd om het verschil te detecteren, zelfs als we het niet bewust kunnen verwoorden.

Diffusiemodellen weten dit niet. Ze werken op waarschijnlijkheidsverdelingen op pixelniveau, niet op anatomische regels. Ze hebben miljoenen afbeeldingen gezien die met "glimlach" zijn getagd en hebben geleerd de geometrie van een glimlach te reproduceren. Maar ze kunnen de fysica ervan niet reproduceren.

Generatieve modellen produceren visueel plausibele maar emotioneel holle content. Wij noemen dit "Esthetische Hallucinatie" — de afbeelding ziet er goed uit, maar voelt verkeerd.

Die term — Esthetische Hallucinatie — is iets wat we bij Veriprajna hebben bedacht om deze specifieke faalmodus te beschrijven, en ik denk dat het het belangrijkste concept is dat elke merkleider op dit moment moet begrijpen. Het gaat niet om resolutie of renderkwaliteit. Het gaat om de kloof tussen wat er echt uitziet en wat echt aanvoelt. De Coca-Cola-reclame had prachtige texturen. Sneeuw die glinsterde. Licht dat weerkaatste op chroom. En glimlachen waar je kippenvel van kreeg.

Een in 2025 gepubliceerde studie van ByteDance Research bevestigde wat we in de praktijk zagen: videogeneratiemodellen als Sora en Gen-3 leren geen Newtoniaanse fysica. Ze memoriseren visuele overgangen. Ze kunnen de verschijning van een rijdende vrachtwagen reproduceren omdat ze duizenden rijdende video's hebben gezien, maar ze begrijpen vering, wrijving of gewicht niet. De onderzoekers vonden een hiërarchie in wat deze modellen goed doen: Kleur > Grootte > Snelheid > Vorm. Kleur klopt bijna altijd — vandaar het perfecte Coca-Cola-rood. Vorm is waar het misgaat. Het model zorgt ervoor dat de vrachtwagen in elk frame rood is, maar "vergeet" hoeveel wielen hij heeft, omdat het video genereert in latente brokken zonder een uniforme 3D-representatie.

Dit is waarom de vloeistof in door AI gegenereerde drankreclames op kwik lijkt. Het model treft de karamelkleur perfect, maar heeft geen begrip van volumebehoud. Het weet niet dat vloeistof niet in een glas kan verschijnen en verdwijnen.

Hoe ziet "Prompt and Pray" er eigenlijk uit?

Een vergelijkend schema naast elkaar dat de "Prompt & Pray"-workflow (de aanpak van Coca-Cola) contrasteert met de "Human-in-the-Loop"-workflow (de aanpak van Veriprajna), en dat laat zien waarom de ene faalt en de andere slaagt.

Ik wil concreet zijn over wat de Coca-Cola-workflow eigenlijk was, want begrijpen hoe die werkte, verklaart waarom hij faalde.

Het team typte prompts in generatieve videotools. De tools produceerden clips. Het team bekeek duizenden van die clips, in de hoop er een paar te vinden die coherent genoeg leken om aan elkaar te monteren. Dit is wat ik de "prompt and pray"-methodologie noem, en het is de dominante aanpak in wat ik het "wrapper-tijdperk" van AI-videoproductie noem. Je schrijft een beschrijving van wat je wilt. Je drukt op genereren. Je duimt.

Zeventigduizend clips. Voor dertig seconden.

Dat getal bleef me achtervolgen. Het betekende dat het creatieve proces was teruggebracht tot een curatietaak — het uitzeven van een oceaan aan hallucinaties om de weinige te vinden die het minst verkeerd leken. De regisseur regisseerde niet. De regisseur was aan het filteren. Dat is een wereld van verschil.

Toen de makers bij Silverside AI werd gevraagd naar de tegenreactie, vergeleken ze die met de vroege weerstand tegen CGI in Toy Story. Ik vond die vergelijking bijna beledigend fout. Toy Story gebruikte technologie om een verhaal te vertellen dat op geen enkele andere manier verteld kon worden — het innerlijke leven van speelgoed. Coca-Cola gebruikte technologie om een verhaal opnieuw te vertellen dat dertig jaar geleden al beter was verteld met praktische effecten. De AI voegde niets toe. Het trok menselijkheid af.

Het verhaal verschoof van "Coca-Cola is innovatief" naar "Coca-Cola is goedkoop." Dat is een merkwaardecatastrofe verpakt als een technologie-showcase.

Ik schreef over deze dynamiek veel uitgebreider in de interactieve versie van ons onderzoek, inclusief de Toys 'R' Us-casus — waarbij een door AI gegenereerd kindacteur zo'n viscerale afwijzing uitlokte dat het merksentiment van de ene op de andere dag kelderde.

Waarom won Nike's AI-reclame een Cannes Grand Prix?

Dit is het deel van het verhaal dat me hoop geeft.

Rond dezelfde tijd dat merken werden afgemaakt vanwege door AI gegenereerde rommel, bracht Nike "Never Done Evolving" uit voor hun 50-jarig jubileum. Het concept: een tenniswedstrijd simuleren tussen Serena Williams uit 1999 en Serena Williams uit 2017. Het won een Grand Prix in Cannes. Universele lof. Geen tegenreactie.

Het verschil zat niet in het budget. Het zat in de architectuur.

Nike vroeg een AI niet om Serena te verbeelden. Ze voedden een machine-learningmodel met echt archiefbeeldmateriaal van haar spel — jarenlang materiaal — en gebruikten dat om haar snelheid, slagkeuze en reactievermogen op verschillende momenten in haar carrière te analyseren. De AI berekende mogelijkheden op basis van de werkelijkheid. Het was een tijdmachine, geen fabricage-engine. Stanfords "vid2player"-techniek genereerde gedragsmatig accurate spelersprites op basis van domeinkennis van tennisfysica. Vervolgens zorgden menselijke compositors en editors voor de visuele getrouwheid en de narratieve pacing.

De AI genereerde de bewegingen en de spellogica. Mensen zorgden ervoor dat het eruitzag en aanvoelde als een Nike-productie.

Dit is het model. Dit is wat werkt. En dit is waar we bij Veriprajna naartoe hebben gewerkt.

Hoe gebruik je AI zonder de ziel van je merk te verliezen?

Een pijplijnschema met drie fasen dat precies laat zien hoe AI een andere rol speelt in pre-productie, productie en post-productie, met de specifieke tools en technieken bij elke fase gelabeld.

Deze vraag krijg ik voortdurend. Meestal van CMO's die de Coca-Cola-koppen hebben gezien en doodsbang zijn de volgende te zijn, maar die ook weten dat ze AI niet volledig kunnen negeren omdat hun concurrenten dat niet zullen doen.

Mijn antwoord is altijd hetzelfde: laat AI niet de laatste pixel renderen.

Bij Veriprajna hebben we gebouwd wat we een Human-in-the-Loop-architectuur noemen. Het is geen filosofie. Het is een letterlijke productiepijplijn met menselijke checkpoints op elke laag. Het principe is eenvoudig: menselijke intentie moet de machine-uitvoering sturen. Niet andersom.

In de praktijk valt het uiteen in drie fasen, en de AI speelt in elke fase een andere rol.

In de pre-productie is AI de dromer. We gebruiken tools als Krea AI voor realtime visualisatie — een ontwerper schetst een layout en ziet die in milliseconden fotorealistisch gerenderd. Dit verlaagt de storyboardkosten met 60–80%. Maar niemand legt zich vast op een definitieve look. De regisseur "filmt" de reclame virtueel en itereert direct op belichting en compositie, voordat er ook maar één camera draait.

In de productie leggen mensen vast wat ertoe doet. Voor alles wat emotionele resonantie vereist — een gezicht, een productinteractie, een moment van oprechte menselijke verbinding — filmen we echt talent. We gebruiken wat ik de "Sandwichmethode" noem: film de heldenelementen (de acteur, het product) op green screen of LED-volumes, en gebruik dan AI om hoogwaardige achtergronden te genereren die op die LED-wanden worden geprojecteerd. De acteur interageert met echt licht uit een synthetische scène. De emotie is echt. De omgeving is gegenereerd.

In de post-productie wordt AI de beeldhouwer. Dit is waar diepe AI schittert — niet tekst-naar-video-generatie, maar video-naar-video-transformatie. We componeren echte acteurs in synthetische omgevingen. We passen consistente merkesthetiek toe met behulp van speciaal getrainde LoRA-modellen (Low-Rank Adaptation) — lichtgewicht bestanden die getraind zijn op de specifieke cinematografiestijl van een merk. Voor een klant als Nike zouden we een LoRA trainen op twintig jaar van hun visuele taal. Elk door AI gegenereerd frame voelt als een Nike-reclame, omdat het model die merkcodes heeft geïnternaliseerd.

En we gebruiken ControlNet om de geometrie vast te zetten. In plaats van te hopen dat een prompt de exacte vorm van een product behoudt, voeden we het netwerk een Canny Edge Map of Depth Map van het daadwerkelijke product. De AI genereert rondom het exacte silhouet. Belichting en achtergronden kunnen generatief zijn, maar het product blijft wiskundig perfect — 94,2% structurele integriteit vergeleken met de gok van alleen prompten.

Wat veroorzaakt eigenlijk het "flikkerende vrachtwagen"-probleem?

De technische term is temporele inconsistentie, en het is de allergrootste barrière voor enterprise-AI-video. Het is waarom de Coca-Cola-vrachtwagen tussen de cuts van vorm veranderde. Het is waarom door AI gegenereerde personages vervormen als ze hun hoofd draaien. Het model houdt geen uniforme representatie van een object over de frames heen vast — het regenereert elke keer vanaf nul, en elke regeneratie is een nieuwe probabilistische worp.

We lossen dit op met een metriek genaamd Video Consistency Distance (VCD), die we integreren in ons fine-tuningproces. VCD meet de afstand in het frequentiedomein tussen een conditioneringsafbeelding en de gegenereerde frames. Door hoge VCD-waarden tijdens de training te bestraffen, dwingen we het model om coherentie prioriteit te geven. Op deze manier fijn afgestemde modellen behalen 95,22% subjectconsistentie en 96,32% achtergrondconsistentie op standaardbenchmarks.

Voor objectpermanentie — het probleem waarbij een persoon achter een boom loopt en het model vergeet dat die persoon bestaat — verankeren we AI-generatie aan 3D-proxyscènes met behulp van NeRF-integratie (Neural Radiance Fields). De AI "bekleedt" een 3D-blockout en combineert de geometrische logica van traditionele CGI met de esthetische flexibiliteit van generatieve AI.

Voor de volledige technische uiteenzetting van deze pijplijnen, inclusief onze aanpak van mode collapse en manipulatie van de latente ruimte, zie ons onderzoekspaper.

Het argument dat ik steeds weer heb

Er is een gesprek dat ik het afgelopen jaar waarschijnlijk vijftig keer heb gevoerd. Het begint meestal met iemand die zegt: "Maar de modellen worden beter. Over twee jaar kan Sora dit allemaal."

Misschien. Waarschijnlijk zelfs, voor bepaalde smalle taken. Maar dit argument mist het punt volledig.

De vraag was nooit "Kan AI een technisch foutloze video genereren?" De vraag is "Zou de emotionele identiteit van je merk een functie moeten zijn van een waarschijnlijkheidsverdeling?"

Zelfs als de flikkerende vrachtwagens worden opgelost en de dode ogen leren rimpelen, zit je nog steeds met het vertrouwensprobleem. 44% van de consumenten stoort zich actief aan door AI gegenereerde content. NielsenIQ ontdekte dat zelfs verzorgde AI-reclames een "negatief halo-effect" veroorzaken — kijkers bestempelden ze als "irritant," "saai" en "verwarrend," zelfs wanneer de visuele kwaliteit hoog was. De schade reikt verder dan de individuele campagne, tot aan het merk zelf.

Dove bouwde een hele campagne — "The Code" — rond het afwijzen van AI-vervorming van menselijke lichamen. Het was een enorme winst voor de merkwaarde. Ze veranderden de bedreiging in een onderscheidend kenmerk. Voor categorieën als schoonheid, voeding, welzijn en luxe is "echt" geen beperking. Het is een premium.

De merken die met AI winnen, gebruiken het niet om menselijkheid te vervangen. Ze gebruiken het om verhalen te versterken die ze zich voorheen niet konden veroorloven te vertellen.

Heinz bewees dit briljant. Ze vroegen AI om afbeeldingen van "ketchup" te genereren en toonden aan dat elk model standaard een Heinz-fles gaf. Ze veranderden de bias van de AI in bewijs van merkdominantie. De hallucinatie was de feature. Het was transparant, grappig, en het werkte omdat het merk in de grap zat in plaats van iemand te proberen te misleiden.

Het deel waar ik toegeef wat me 's nachts wakker houdt

Ik zal eerlijk zijn over iets. Wat me zorgen baart, is niet dat AI-video slecht zal blijven. Het is dat het net goed genoeg wordt dat luie merken er genoegen mee nemen, en dat de markt overspoeld raakt met content die technisch aanvaardbaar maar emotioneel leeg is. De term die mensen al gebruiken is "AI slop" — synthetische content in hoog volume en met weinig inspanning die feeds vult zonder iets te zeggen.

Mijn angst is normalisering. Dat consumenten geen vakmanschap meer zullen verwachten. Dat een generatie kijkers zal opgroeien in de veronderstelling dat de plastic glans en de dode ogen gewoon zijn hoe reclames eruitzien.

We hadden hier een paar maanden geleden een teamvergadering over die uitmondde in een echte ruzie. Een van onze engineers beargumenteerde dat consumenten zich zullen aanpassen — dat de uncanny valley zal krimpen naarmate de blootstelling toeneemt. Onze creatief directeur ging er hard tegenin. "Mensen pasten zich niet aan aan slecht eten alleen maar omdat fastfood overal opdook," zei ze. "Ze ontwikkelden een smaak voor kwaliteit. Hetzelfde zal hier gebeuren."

Ik denk dat ze gelijk heeft. De data ondersteunt haar. De tegenreactie tegen Coca-Cola kwam niet van een nichegroep AI-sceptici. Het was mainstream. Consumenten ontwikkelen een zesde zintuig voor synthetische content, en de straf voor betrapt worden is groter dan de besparing van het nemen van shortcuts.

De volgende grens — wat onderzoekers "World Models" noemen — zal AI uiteindelijk een begrip van fysica geven, niet alleen van pixels. ByteDance schat betekenisvolle vooruitgang tegen 2026–2027. Tot dan is de hybride workflow de enige veilige brug. Het stelt je in staat de renderkracht van de AI van vandaag te benutten terwijl je de fysieke en emotionele intelligentie leent die alleen menselijke makers bezitten.

De vraag die er echt toe doet

Elke enterprise-leider met wie ik praat, stelt dezelfde vraag: "Hoeveel geld kan AI ons besparen op productie?"

Het is de verkeerde vraag. Ze leidt rechtstreeks naar de uncanny valley — naar 70.000 gegenereerde clips en een reclame van 30 seconden waar mensen niets bij voelen.

De juiste vraag is: "Welke verhalen kan AI ons helpen vertellen die we ons voorheen niet konden veroorloven?"

Nike bespaarde geen geld met "Never Done Evolving." Ze gaven volop uit. Maar ze creëerden iets wat zonder AI onmogelijk was — een wedstrijd tussen twee versies van dezelfde atleet, gescheiden door achttien jaar. Dat is geen kostenoptimalisatie. Dat is creatieve expansie.

Stop met vragen hoe AI je productie goedkoper kan maken. Begin met vragen hoe het je verhalen vertellen dapperder kan maken.

De nieuwigheidsfase is voorbij. "Kijk wat de AI heeft gemaakt" maakt niemand meer indruk. De nieuwe standaard — de enige standaard die er in 2026 en daarna toe zal doen — is "Kijk wat wij met AI hebben gemaakt." De nadruk valt volledig op de wij.

De merken die dit begrijpen, zullen legendes bouwen. Degenen die dat niet doen, zullen miljoenen uitgeven om een algoritme te leren glimlachen en zich afvragen waarom niemand terug glimlacht.

Related Research

Also Published On