Ein redaktionelles Bild zeigt die Hand eines Filmregisseurs, die eine teilweise gerenderte, KI-generierte Szene physisch formt und lenkt – als Sinnbild dafür, wie menschliche Absicht die Maschinenausgabe steuert.
Artificial IntelligenceMarketingBrand Strategy

Ich sah zu, wie Coca-Cola Millionen ausgab, um einer KI das Lächeln beizubringen. Die KI konnte es nicht.

Ashutosh SinghalAshutosh Singhal2. Februar 202614 min

Ich saß an einem späten Abend im November in meinem Büro, als mir ein Kollege einen Link schickte. "Das musst du dir ansehen." Es war Coca-Colas 2025er Werbespot "Holidays Are Coming" – der, der komplett von KI generiert wurde. Ich sah ihn mir zweimal an. Beim ersten Mal fühlte sich etwas falsch an, aber ich konnte es nicht benennen. Beim zweiten Mal konnte ich es.

Die Trucks waren rot. Der Schnee glitzerte. Die Eisbären trotteten über den Bildschirm. Und nichts davon spielte eine Rolle, denn hinter jedem Lächeln in diesem Werbespot lag der Tod in den Augen.

Dieser Werbespot wurde zur wichtigsten Fallstudie unserer Arbeit bei Veriprajna – nicht weil er schlecht war, sondern weil er fast gut war. Und "fast gut" ist der Ort, an dem Marken sterben. Der Coca-Cola-KI-Werbespot ist das deutlichste Signal, das ich je gesehen habe, dass die Ära dessen, was ich den "LLM-Wrapper" nenne – einem Basismodell wie Sora oder Runway eine hübsche Oberfläche überzustülpen und es eine Produktionspipeline zu nennen – für jede Marke vorbei ist, die sich um ihren Ruf schert. Das Vertrauen in Werbung, die vollständig von KI erstellt wird, liegt bei 13 %. Gemeinsam mit Menschen erstellt? 48 %. Diese Lücke ist kein Rundungsfehler. Sie ist ein Abgrund.

In diesem Essay geht es um das, was auf der anderen Seite dieses Abgrunds liegt: hybride KI-Workflows, bei denen menschliche Absicht die Maschinengeschwindigkeit steuert. Es ist der Ansatz, den wir bei Veriprajna entwickelt haben, und es ist die einzige Architektur, von der ich glaube, dass sie den Markenwert im Zeitalter synthetischer Medien schützen kann.

Der Werbespot, der den Zauber brach

Hier ist, was den meisten Menschen am Coca-Cola-Debakel entging. Er war nicht billig. Er war nicht faul. Das Produktionsteam generierte Berichten zufolge über 70.000 Videoclips, um einen einzigen 30-Sekunden-Spot zusammenzusetzen. Zwei Studios – Secret Level und Silverside AI – waren beteiligt. Coca-Colas Leiter für generative KI beteuerte öffentlich, die handwerkliche Qualität sei "zehnmal besser" als bei ihrem vorherigen KI-Versuch.

Und die Öffentlichkeit hasste ihn trotzdem.

Die Kommentare waren brutal. "Seelenlos." "Dystopisch." Mein persönlicher Favorit, triefend vor der Art von Wut, die nur ein verratener Fan aufbringen kann: "Coca-Cola ist rot, weil es aus dem Blut arbeitsloser Künstler gemacht ist."

Ich erinnere mich, wie ich mit meinem Team den Werbespot Bild für Bild durchging und versuchte, genau zu artikulieren, was da schiefging. Einer unserer Designer zeigte auf den Bildschirm und sagte: "Der Truck hat in dieser Einstellung eine andere Anzahl von Rädern als noch vor drei Sekunden." Sie hatte recht. Wir begannen zu zählen. Die Form der Fahrerkabine veränderte sich zwischen den Schnitten. Das Chassis schwebte über dem Schnee wie ein Luftkissenfahrzeug – keine Federung, keine Gewichtsverlagerung, keine Reibung.

Aber das eigentliche Problem waren nicht die Trucks. Es waren die Menschen. Oder vielmehr die Nicht-Menschen.

Warum kann KI nicht lächeln?

Das ist die Frage, die mich in ein Forschungs-Kaninchenloch geschickt hat, aus dem ich mich noch immer herausarbeite. Ein echtes menschliches Lächeln ist nicht nur eine Mundform. Es beinhaltet eine unwillkürliche Kontraktion des Orbicularis oculi – des Muskels rund um das Auge –, wodurch das entsteht, was Psychologen den "Duchenne-Marker" nennen. Es ist der Unterschied zwischen einem Lächeln, das die Augen erreicht, und einem, das an den Lippen aufhört. Wir sind biologisch darauf ausgelegt, den Unterschied zu erkennen, selbst wenn wir ihn nicht bewusst benennen können.

Diffusionsmodelle wissen das nicht. Sie arbeiten mit Wahrscheinlichkeitsverteilungen auf Pixelebene, nicht mit anatomischen Regeln. Sie haben Millionen von Bildern gesehen, die mit "Lächeln" getaggt sind, und gelernt, die Geometrie eines Lächelns zu reproduzieren. Aber sie können nicht die Physik eines Lächelns reproduzieren.

Generative Modelle produzieren visuell plausible, aber emotional hohle Inhalte. Wir nennen das "ästhetische Halluzination" – das Bild sieht richtig aus, aber es fühlt sich falsch an.

Dieser Begriff – ästhetische Halluzination – ist etwas, das wir bei Veriprajna geprägt haben, um genau diese Fehlerart zu beschreiben, und ich halte ihn für das wichtigste Konzept, das jede Markenführungskraft gerade jetzt verstehen sollte. Es geht nicht um Auflösung oder Rendering-Qualität. Es geht um die Lücke zwischen dem, was echt aussieht, und dem, was sich echt anfühlt. Der Coca-Cola-Werbespot hatte wunderschöne Texturen. Schnee, der glitzerte. Licht, das von Chrom abprallte. Und ein Lächeln, das einem eine Gänsehaut über den Rücken jagte.

Eine 2025 veröffentlichte Studie von ByteDance Research bestätigte, was wir in der Praxis beobachteten: Videogenerierungsmodelle wie Sora und Gen-3 lernen keine Newtonsche Physik. Sie merken sich visuelle Übergänge. Sie können das Erscheinungsbild eines fahrenden Trucks reproduzieren, weil sie Tausende von Fahrvideos gesehen haben, aber sie verstehen weder Federung noch Reibung noch Gewicht. Die Forscher fanden eine Hierarchie dessen heraus, was diese Modelle richtig hinbekommen: Farbe > Größe > Geschwindigkeit > Form. Farbe ist fast immer korrekt – daher das perfekte Coca-Cola-Rot. Bei der Form fällt alles auseinander. Das Modell stellt sicher, dass der Truck in jedem Bild rot ist, "vergisst" aber, wie viele Räder er hat, weil es Video in latenten Blöcken generiert, ohne eine einheitliche 3D-Repräsentation.

Deshalb sieht die Flüssigkeit in KI-generierter Getränkewerbung aus wie Quecksilber. Das Modell trifft die Karamellfarbe perfekt, hat aber kein Konzept von Volumenerhaltung. Es weiß nicht, dass Flüssigkeit nicht in einem Glas auftauchen und wieder verschwinden kann.

Wie sieht "Prompt and Pray" tatsächlich aus?

Ein Vergleichsdiagramm nebeneinander, das den "Prompt & Pray"-Workflow (Coca-Colas Ansatz) dem "Human-in-the-Loop"-Workflow (Veriprajnas Ansatz) gegenüberstellt und zeigt, warum der eine scheitert und der andere gelingt.

Ich möchte konkret werden, was der Coca-Cola-Workflow tatsächlich war, denn ihn zu verstehen erklärt, warum er scheiterte.

Das Team tippte Prompts in generative Video-Tools. Die Tools produzierten Clips. Das Team sichtete Tausende dieser Clips in der Hoffnung, welche zu finden, die kohärent genug aussahen, um sie zusammenzuschneiden. Das ist, was ich die "Prompt and Pray"-Methodik nenne, und es ist der vorherrschende Ansatz in dem, was ich als die "Wrapper-Ära" der KI-Videoproduktion betrachte. Man schreibt eine Beschreibung dessen, was man will. Man drückt auf Generieren. Man drückt die Daumen.

Siebzigtausend Clips. Für dreißig Sekunden.

Diese Zahl verfolgte mich. Sie bedeutete, dass der kreative Prozess auf eine Kuratierungsaufgabe reduziert worden war – ein Durchsieben eines Ozeans von Halluzinationen, um die wenigen zu finden, die am wenigsten falsch aussahen. Der Regisseur führte keine Regie. Der Regisseur filterte. Das ist ein himmelweiter Unterschied.

Als die Kreativen bei Silverside AI zu der Gegenreaktion befragt wurden, verglichen sie sie mit dem frühen Widerstand gegen CGI in Toy Story. Ich fand diesen Vergleich fast beleidigend falsch. Toy Story nutzte Technologie, um eine Geschichte zu erzählen, die auf keine andere Weise erzählt werden konnte – das Innenleben von Spielzeugen. Coca-Cola nutzte Technologie, um eine Geschichte neu zu erzählen, die vor dreißig Jahren mit praktischen Effekten bereits besser erzählt worden war. Die KI fügte nichts hinzu. Sie zog Menschlichkeit ab.

Das Narrativ verschob sich von "Coca-Cola ist innovativ" zu "Coca-Cola ist billig." Das ist eine Katastrophe für den Markenwert, verkleidet als Technologie-Showcase.

Ich habe über diese Dynamik viel ausführlicher geschrieben in der interaktiven Version unserer Forschung, einschließlich des Falls Toys 'R' Us – wo ein KI-generierter Kinderdarsteller eine so viszerale Ablehnung auslöste, dass die Markenstimmung über Nacht abstürzte.

Warum gewann Nikes KI-Werbespot einen Cannes Grand Prix?

Das ist der Teil der Geschichte, der mir Hoffnung gibt.

Etwa zur selben Zeit, als Marken für KI-generierten Schund zerrissen wurden, veröffentlichte Nike "Never Done Evolving" zu ihrem 50-jährigen Jubiläum. Das Konzept: die Simulation eines Tennismatches zwischen Serena Williams von 1999 und Serena Williams von 2017. Es gewann einen Grand Prix in Cannes. Einhellige Anerkennung. Keine Gegenreaktion.

Der Unterschied war nicht das Budget. Es war die Architektur.

Nike bat keine KI darum, sich Serena vorzustellen. Sie fütterten ein Machine-Learning-Modell mit echtem Archivmaterial ihres Spiels – jahrelangem Material – und nutzten es, um ihre Geschwindigkeit, Schlagauswahl und Reaktionsfähigkeit zu verschiedenen Zeitpunkten ihrer Karriere zu analysieren. Die KI berechnete Möglichkeiten auf Grundlage der Realität. Es war eine Zeitmaschine, keine Fabrikationsmaschine. Stanfords "vid2player"-Technik erzeugte verhaltensgenaue Spieler-Sprites auf Basis von Fachwissen über Tennisphysik. Anschließend sorgten menschliche Compositor und Editoren für die visuelle Wiedergabetreue und das erzählerische Tempo.

Die KI erzeugte die Bewegungen und die Spiellogik. Menschen sorgten dafür, dass es aussah und sich anfühlte wie eine Nike-Produktion.

Das ist das Modell. Das ist, was funktioniert. Und darauf haben wir bei Veriprajna hingearbeitet.

Wie nutzt man KI, ohne die Seele seiner Marke zu verlieren?

Ein dreiphasiges Pipeline-Diagramm, das genau zeigt, wie KI in Pre-Produktion, Produktion und Post-Produktion eine jeweils andere Rolle spielt, mit den spezifischen Tools und Techniken, die für jede Phase beschriftet sind.

Diese Frage wird mir ständig gestellt. Meist von CMOs, die die Coca-Cola-Schlagzeilen gesehen haben und Angst davor haben, die Nächsten zu sein, die aber auch wissen, dass sie KI nicht völlig ignorieren können, weil ihre Konkurrenten es nicht tun werden.

Meine Antwort ist immer dieselbe: Lasst KI nicht den finalen Pixel rendern.

Bei Veriprajna haben wir etwas aufgebaut, das wir eine Human-in-the-Loop-Architektur nennen. Es ist keine Philosophie. Es ist eine buchstäbliche Produktionspipeline mit menschlichen Kontrollpunkten auf jeder Ebene. Das Prinzip ist einfach: Menschliche Absicht muss die Maschinenausführung steuern. Nicht umgekehrt.

In der Praxis gliedert es sich in drei Phasen, und die KI spielt in jeder eine andere Rolle.

In der Pre-Produktion ist KI der Träumer. Wir nutzen Tools wie Krea AI zur Echtzeit-Visualisierung – ein Designer skizziert ein Layout und sieht es innerhalb von Millisekunden fotorealistisch gerendert. Das senkt die Storyboarding-Kosten um 60–80 %. Aber niemand legt sich auf einen finalen Look fest. Der Regisseur "dreht" den Werbespot virtuell, iteriert sofort an Beleuchtung und Bildkomposition, bevor eine einzige Kamera läuft.

In der Produktion erfassen Menschen das, worauf es ankommt. Für alles, was emotionale Resonanz erfordert – ein Gesicht, eine Produktinteraktion, einen Moment echter menschlicher Verbindung –, filmen wir echte Darsteller. Wir nutzen das, was ich die "Sandwich-Methode" nenne: die Hero-Elemente (der Schauspieler, das Produkt) vor Greenscreen oder auf LED-Volumes filmen und dann KI nutzen, um hochauflösende Hintergründe zu generieren, die auf diese LED-Wände projiziert werden. Der Schauspieler interagiert mit echtem Licht aus einer synthetischen Szene. Die Emotion ist echt. Die Umgebung ist generiert.

In der Post-Produktion wird KI zum Bildhauer. Hier glänzt tiefgreifende KI – nicht Text-zu-Video-Generierung, sondern Video-zu-Video-Transformation. Wir komponieren echte Schauspieler in synthetische Umgebungen. Wir wenden konsistente Markenästhetik an, indem wir maßgeschneidert trainierte LoRA-Modelle (Low-Rank Adaptation) verwenden – leichtgewichtige Dateien, die auf den spezifischen Kamerastil einer Marke trainiert sind. Für einen Kunden wie Nike würden wir eine LoRA auf zwanzig Jahre ihrer visuellen Sprache trainieren. Jedes KI-generierte Bild fühlt sich wie eine Nike-Werbung an, weil das Modell diese Markencodes verinnerlicht hat.

Und wir nutzen ControlNet, um die Geometrie festzuzurren. Anstatt zu hoffen, dass ein Prompt die exakte Form eines Produkts bewahrt, füttern wir das Netzwerk mit einer Canny Edge Map oder Depth Map des tatsächlichen Produkts. Die KI generiert rund um die exakte Silhouette. Beleuchtung und Hintergründe können generativ sein, aber das Produkt bleibt mathematisch perfekt – 94,2 % strukturelle Integrität im Vergleich zum Würfelwurf des reinen Promptens.

Was verursacht eigentlich das Problem des "flackernden Trucks"?

Der Fachbegriff lautet zeitliche Inkonsistenz, und sie ist die größte einzelne Hürde für KI-Video im Unternehmenseinsatz. Sie ist der Grund, warum der Coca-Cola-Truck zwischen den Schnitten seine Form veränderte. Sie ist der Grund, warum KI-generierte Figuren morphen, wenn sie den Kopf drehen. Das Modell behält keine einheitliche Repräsentation eines Objekts über mehrere Bilder hinweg bei – es regeneriert jedes Mal von Grund auf neu, und jede Regeneration ist ein neuer probabilistischer Würfelwurf.

Wir lösen das mit einer Metrik namens Video Consistency Distance (VCD), die wir in unseren Fine-Tuning-Prozess integrieren. VCD misst den Abstand im Frequenzbereich zwischen einem konditionierenden Bild und den generierten Bildern. Indem wir hohe VCD-Werte während des Trainings bestrafen, zwingen wir das Modell, Kohärenz zu priorisieren. Auf diese Weise feinabgestimmte Modelle erreichen 95,22 % Subjektkonsistenz und 96,32 % Hintergrundkonsistenz in Standard-Benchmarks.

Für die Objektpermanenz – das Problem, bei dem eine Person hinter einem Baum vorbeigeht und das Modell vergisst, dass sie existiert – verankern wir die KI-Generierung mittels NeRF-Integration (Neural Radiance Fields) an 3D-Proxy-Szenen. Die KI "beklebt" einen 3D-Blockout und verbindet so die geometrische Logik traditioneller CGI mit der ästhetischen Flexibilität generativer KI.

Die vollständige technische Aufschlüsselung dieser Pipelines, einschließlich unserer Ansätze zu Mode Collapse und Manipulation des latenten Raums, finden Sie in unserem Forschungspapier.

Das Argument, das mir immer wieder begegnet

Es gibt ein Gespräch, das ich im letzten Jahr wahrscheinlich fünfzig Mal geführt habe. Es beginnt meist damit, dass jemand sagt: "Aber die Modelle werden besser werden. In zwei Jahren wird Sora all das können."

Vielleicht. Wahrscheinlich sogar, für bestimmte eng umrissene Aufgaben. Aber dieses Argument verfehlt den Punkt völlig.

Die Frage war nie "Kann KI ein technisch fehlerfreies Video generieren?" Die Frage lautet "Sollte die emotionale Identität Ihrer Marke eine Funktion einer Wahrscheinlichkeitsverteilung sein?"

Selbst wenn die flackernden Trucks behoben werden und die toten Augen lernen, sich zu falten, bleibt Ihnen immer noch das Vertrauensproblem. 44 % der Verbraucher fühlen sich durch KI-generierte Inhalte aktiv gestört. NielsenIQ stellte fest, dass selbst polierte KI-Werbung einen "negativen Halo-Effekt" auslöst – Zuschauer bezeichneten sie als "nervig", "langweilig" und "verwirrend", selbst wenn die visuelle Qualität hoch war. Der Schaden reicht über die einzelne Kampagne hinaus bis zur Marke selbst.

Dove baute eine ganze Kampagne – "The Code" – rund um die Ablehnung von KI-Verzerrung menschlicher Körper auf. Es war ein enormer Gewinn für den Markenwert. Sie verwandelten die Bedrohung in ein Unterscheidungsmerkmal. Für Kategorien wie Beauty, Lebensmittel, Wellness und Luxus ist "echt" keine Einschränkung. Es ist ein Aufpreis.

Die Marken, die mit KI gewinnen, nutzen sie nicht, um Menschlichkeit zu ersetzen. Sie nutzen sie, um Geschichten zu verstärken, die sie sich früher nicht leisten konnten zu erzählen.

Heinz bewies das brillant. Sie baten KI, Bilder von "Ketchup" zu generieren, und zeigten, dass jedes Modell standardmäßig eine Heinz-Flasche wählte. Sie verwandelten die Voreingenommenheit der KI in einen Beweis für Markendominanz. Die Halluzination war das Feature. Es war transparent, witzig, und es funktionierte, weil die Marke selbst Teil des Witzes war, statt zu versuchen, irgendjemanden zu täuschen.

Der Teil, in dem ich zugebe, was mich nachts wach hält

Ich will ehrlich sein bei einer Sache. Was mich beunruhigt, ist nicht, dass KI-Video schlecht bleiben wird. Es ist, dass es gerade gut genug werden wird, dass faule Marken sich damit zufriedengeben, und der Markt wird mit Inhalten überschwemmt, die technisch akzeptabel, aber emotional leer sind. Der Begriff, den die Leute bereits verwenden, ist "AI Slop" – synthetischer Content in hoher Menge und mit geringem Aufwand, der Feeds füllt, ohne irgendetwas zu sagen.

Meine Angst ist die Normalisierung. Dass Verbraucher aufhören werden, handwerkliche Qualität zu erwarten. Dass eine Generation von Zuschauern in dem Glauben aufwächst, der plastikartige Schimmer und die toten Augen seien einfach das, wie Werbung aussieht.

Wir hatten vor ein paar Monaten ein Team-Meeting darüber, das in einen echten Streit ausartete. Einer unserer Ingenieure vertrat den Standpunkt, dass Verbraucher sich anpassen werden – dass das Uncanny Valley schrumpfen wird, je mehr man ihm ausgesetzt ist. Unsere Kreativdirektorin widersprach heftig. "Die Leute haben sich nicht an schlechtes Essen angepasst, nur weil Fast Food überall auftauchte", sagte sie. "Sie haben einen Geschmack für Qualität entwickelt. Dasselbe wird hier passieren."

Ich glaube, sie hat recht. Die Daten stützen sie. Die Gegenreaktion gegen Coca-Cola kam nicht von einer Nischengruppe von KI-Skeptikern. Sie war Mainstream. Verbraucher entwickeln einen sechsten Sinn für synthetische Inhalte, und die Strafe fürs Erwischtwerden ist höher als die Einsparungen durchs Abkürzen.

Die nächste Grenze – das, was Forscher "World Models" nennen – wird KI letztlich ein Verständnis von Physik geben, nicht nur von Pixeln. ByteDance schätzt bedeutsame Fortschritte bis 2026–2027. Bis dahin ist der hybride Workflow die einzige sichere Brücke. Er lässt Sie die Rendering-Kraft der heutigen KI nutzen und dabei die physische und emotionale Intelligenz ausleihen, die nur menschliche Kreative besitzen.

Die Frage, auf die es wirklich ankommt

Jede Führungskraft im Unternehmen, mit der ich spreche, stellt dieselbe Frage: "Wie viel Geld kann uns KI in der Produktion sparen?"

Das ist die falsche Frage. Sie führt direkt ins Uncanny Valley – zu 70.000 generierten Clips und einem 30-Sekunden-Spot, der die Menschen nichts fühlen lässt.

Die richtige Frage lautet: "Welche Geschichten kann KI uns erzählen helfen, die wir uns früher nicht leisten konnten zu erzählen?"

Nike sparte mit "Never Done Evolving" kein Geld. Sie gaben reichlich aus. Aber sie schufen etwas ohne KI Unmögliches – ein Match zwischen zwei Versionen desselben Athleten, getrennt durch achtzehn Jahre. Das ist keine Kostenoptimierung. Das ist kreative Erweiterung.

Hören Sie auf zu fragen, wie KI Ihre Produktion billiger machen kann. Fangen Sie an zu fragen, wie sie Ihr Storytelling mutiger machen kann.

Die Neuheitsphase ist vorbei. "Schaut, was die KI gemacht hat" beeindruckt niemanden mehr. Der neue Maßstab – der einzige Maßstab, der 2026 und darüber hinaus zählen wird – ist "Schaut, was wir mit KI gemacht haben." Die Betonung liegt eindeutig auf dem wir.

Die Marken, die das verstehen, werden Legenden bauen. Die, die es nicht verstehen, werden Millionen dafür ausgeben, einem Algorithmus das Lächeln beizubringen, und sich fragen, warum niemand zurücklächelt.

Related Research

Also Published On