Immagine editoriale che mostra la mano di un regista mentre guida e scolpisce fisicamente una scena parzialmente generata dall'IA, a rappresentare l'intento umano che governa l'output della macchina.
Artificial IntelligenceMarketingBrand Strategy

Ho visto Coca-Cola spendere milioni per insegnare all'IA a sorridere. L'IA non ci è riuscita.

Ashutosh SinghalAshutosh Singhal2 febbraio 202614 min

Ero seduto nel mio ufficio una sera tardi di novembre quando un collega mi ha inviato un link. "Devi vedere questo." Era la pubblicità di Coca-Cola del 2025 "Holidays Are Coming" — quella generata interamente dall'IA. L'ho guardata due volte. La prima volta, qualcosa sembrava sbagliato ma non riuscivo a dargli un nome. La seconda volta, ci sono riuscito.

I camion erano rossi. La neve luccicava. Gli orsi polari si muovevano pesantemente sullo schermo. E niente di tutto ciò aveva importanza, perché ogni sorriso in quella pubblicità era spento dietro gli occhi.

Quella pubblicità è diventata il caso di studio più importante nel nostro lavoro in Veriprajna — non perché fosse brutta, ma perché era quasi buona. E il "quasi buono" è il luogo dove i brand vanno a morire. La pubblicità IA di Coca-Cola è il segnale più chiaro che io abbia visto del fatto che l'era di ciò che chiamo il "LLM Wrapper" — appiccicare una bella interfaccia sopra un modello di base come Sora o Runway e chiamarlo pipeline di produzione — è finita per qualsiasi brand che tenga alla propria reputazione. La fiducia nelle pubblicità realizzate interamente dall'IA si attesta al 13%. Co-create con gli esseri umani? 48%. Quel divario non è un errore di arrotondamento. È un abisso.

Questo saggio parla di ciò che si trova dall'altra parte di quell'abisso: i workflow di IA ibridi, dove l'intento umano governa la velocità della macchina. È l'approccio che stiamo costruendo in Veriprajna, ed è l'unica architettura che credo possa proteggere il valore del brand nell'era dei media sintetici.

La pubblicità che ha rotto l'incantesimo

Ecco cosa la maggior parte delle persone non ha colto del disastro Coca-Cola. Non era economica. Non era pigra. Secondo quanto riferito, il team di produzione ha generato oltre 70.000 clip video per assemblare un singolo spot di 30 secondi. Erano coinvolti due studi — Secret Level e Silverside AI. Il responsabile dell'IA generativa di Coca-Cola ha pubblicamente insistito sul fatto che la maestria artigianale fosse "dieci volte migliore" del loro precedente tentativo con l'IA.

E il pubblico l'ha comunque odiata.

I commenti erano brutali. "Senz'anima." "Distopica." Il mio preferito, grondante del tipo di rabbia che solo un fan tradito può provare: "Coca-Cola è rossa perché è fatta con il sangue degli artisti rimasti senza lavoro."

Ricordo di aver rivisto la pubblicità fotogramma per fotogramma con il mio team, cercando di articolare esattamente cosa stesse fallendo. Una delle nostre designer ha indicato lo schermo e ha detto: "Il camion ha un numero di ruote diverso in questa inquadratura rispetto a tre secondi fa." Aveva ragione lei. Abbiamo iniziato a contare. La forma della cabina cambiava tra un taglio e l'altro. Il telaio fluttuava sopra la neve come un hovercraft — nessuna sospensione, nessun trasferimento di peso, nessun attrito.

Ma il vero problema non erano i camion. Erano le persone. O meglio, le non-persone.

Perché l'IA non riesce a sorridere?

Questa è la domanda che mi ha spinto in una tana di ricerca da cui sto ancora cercando di uscire. Un genuino sorriso umano non è solo una forma della bocca. Comporta una contrazione involontaria dell'orbicularis oculi — il muscolo attorno all'occhio — creando ciò che gli psicologi chiamano il "marcatore di Duchenne". È la differenza tra un sorriso che raggiunge gli occhi e uno che si ferma alle labbra. Siamo biologicamente predisposti a rilevare la differenza, anche se non riusciamo ad articolarla consapevolmente.

I modelli di diffusione non lo sanno. Operano su distribuzioni di probabilità a livello di pixel, non su regole anatomiche. Hanno visto milioni di immagini etichettate come "sorriso" e hanno imparato a riprodurre la geometria di un sorriso. Ma non possono riprodurne la fisica.

I modelli generativi producono contenuti visivamente plausibili ma emotivamente vuoti. Noi lo chiamiamo "Allucinazione Estetica" — l'immagine sembra giusta, ma dà una sensazione sbagliata.

Quel termine — Allucinazione Estetica — è qualcosa che abbiamo coniato in Veriprajna per descrivere questa specifica modalità di fallimento, e penso sia il concetto più importante da comprendere per qualsiasi leader di brand in questo momento. Non riguarda la risoluzione o la qualità del rendering. Riguarda il divario tra ciò che sembra reale e ciò che dà la sensazione di essere reale. La pubblicità di Coca-Cola aveva texture bellissime. Neve che luccicava. Luce che rimbalzava sul cromo. E sorrisi che facevano accapponare la pelle.

Uno studio di ByteDance Research pubblicato nel 2025 ha confermato ciò che vedevamo nella pratica: i modelli di generazione video come Sora e Gen-3 non apprendono la fisica newtoniana. Memorizzano le transizioni visive. Possono riprodurre l'aspetto di un camion in movimento perché hanno visto migliaia di video di guida, ma non comprendono la sospensione, l'attrito o il peso. I ricercatori hanno trovato una gerarchia di ciò che questi modelli azzeccano: Colore > Dimensione > Velocità > Forma. Il colore è quasi sempre accurato — da qui il perfetto rosso Coca-Cola. La forma è dove le cose crollano. Il modello garantisce che il camion sia rosso in ogni fotogramma ma "dimentica" quante ruote ha perché genera il video in blocchi latenti senza una rappresentazione 3D unificata.

Ecco perché il liquido nelle pubblicità di bevande generate dall'IA sembra mercurio. Il modello azzecca il colore caramello ma non ha alcun concetto di conservazione del volume. Non sa che un liquido non può apparire e scomparire dentro un bicchiere.

Cosa significa davvero "Prompt and Pray"?

Un diagramma di confronto affiancato che contrappone il workflow "Prompt & Pray" (l'approccio di Coca-Cola) al workflow "Human-in-the-Loop" (l'approccio di Veriprajna), che mostra perché uno fallisce e l'altro riesce.

Voglio essere concreto su cosa fosse effettivamente il workflow di Coca-Cola, perché comprenderlo spiega perché è fallito.

Il team digitava prompt negli strumenti di generazione video. Gli strumenti producevano clip. Il team guardava migliaia di quelle clip, sperando di trovarne alcune che sembrassero abbastanza coerenti da essere montate insieme. Questo è ciò che chiamo la metodologia "prompt and pray", ed è l'approccio dominante in quella che considero l'"era dei wrapper" della produzione video con IA. Scrivi una descrizione di ciò che vuoi. Premi genera. Incroci le dita.

Settantamila clip. Per trenta secondi.

Quel numero mi ha perseguitato. Significava che il processo creativo era stato ridotto a un compito di curatela — setacciare un oceano di allucinazioni per trovare le poche che sembravano meno sbagliate. Il regista non stava dirigendo. Il regista stava filtrando. C'è un mondo di differenza.

Quando ai creatori di Silverside AI è stato chiesto della reazione negativa, l'hanno paragonata alla resistenza iniziale alla CGI in Toy Story. Ho trovato questo paragone quasi offensivamente sbagliato. Toy Story usava la tecnologia per raccontare una storia che non poteva essere raccontata in nessun altro modo — la vita interiore dei giocattoli. Coca-Cola ha usato la tecnologia per raccontare di nuovo una storia che era già stata raccontata meglio con effetti pratici trent'anni fa. L'IA non ha aggiunto nulla. Ha sottratto umanità.

La narrazione è passata da "Coca-Cola è innovativa" a "Coca-Cola è economica". Questa è una catastrofe per il valore del brand travestita da vetrina tecnologica.

Ho scritto di questa dinamica in modo molto più approfondito ne la versione interattiva della nostra ricerca, incluso il caso Toys 'R' Us — dove un attore bambino generato dall'IA ha innescato un rifiuto così viscerale che il sentiment del brand è precipitato dall'oggi al domani.

Perché la pubblicità IA di Nike ha vinto un Grand Prix a Cannes?

Questa è la parte della storia che mi dà speranza.

Più o meno nello stesso periodo in cui i brand venivano distrutti per la sciatteria generata dall'IA, Nike ha pubblicato "Never Done Evolving" per il suo 50° anniversario. Il concetto: simulare una partita di tennis tra la Serena Williams del 1999 e la Serena Williams del 2017. Ha vinto un Grand Prix a Cannes. Plauso universale. Nessuna reazione negativa.

La differenza non era il budget. Era l'architettura.

Nike non ha chiesto a un'IA di immaginare Serena. Hanno alimentato un modello di machine learning con vero materiale d'archivio del suo gioco — anni di riprese — e l'hanno usato per analizzare la sua velocità, la scelta dei colpi e la reattività in diversi momenti della sua carriera. L'IA ha calcolato le possibilità basandosi sulla realtà. Era una macchina del tempo, non un motore di fabbricazione. La tecnica "vid2player" di Stanford ha generato sprite di giocatori comportamentalmente accurati basati sulla conoscenza di dominio della fisica del tennis. Poi compositori ed editor umani hanno garantito la fedeltà visiva e il ritmo narrativo.

L'IA ha generato i movimenti e la logica di gioco. Gli esseri umani hanno garantito che sembrasse e desse la sensazione di una produzione Nike.

Questo è il modello. Questo è ciò che funziona. Ed è ciò verso cui stiamo costruendo in Veriprajna.

Come si usa l'IA senza perdere l'anima del proprio brand?

Un diagramma di pipeline in tre fasi che mostra esattamente come l'IA svolge un ruolo diverso nella pre-produzione, produzione e post-produzione, con gli strumenti e le tecniche specifici etichettati in ogni fase.

Mi viene posta questa domanda di continuo. Di solito da CMO che hanno visto i titoli su Coca-Cola e sono terrorizzati di essere i prossimi, ma che sanno anche di non poter ignorare del tutto l'IA perché i loro concorrenti non lo faranno.

La mia risposta è sempre la stessa: non lasciare che l'IA renderizzi il pixel finale.

In Veriprajna, abbiamo costruito ciò che chiamiamo un'architettura Human-in-the-Loop. Non è una filosofia. È una vera e propria pipeline di produzione con checkpoint umani a ogni livello. Il principio è semplice: l'intento umano deve governare l'esecuzione della macchina. Non il contrario.

Nella pratica, si suddivide in tre fasi, e l'IA svolge un ruolo diverso in ciascuna.

In pre-produzione, l'IA è il sognatore. Usiamo strumenti come Krea AI per la visualizzazione in tempo reale — un designer abbozza un layout e lo vede renderizzato fotorealisticamente in millisecondi. Questo riduce i costi dello storyboarding del 60–80%. Ma nessuno si impegna a un aspetto definitivo. Il regista sta "girando" la pubblicità virtualmente, iterando su illuminazione e composizione istantaneamente, prima che una singola telecamera entri in azione.

In produzione, gli esseri umani catturano ciò che conta. Per tutto ciò che richiede risonanza emotiva — un volto, un'interazione con un prodotto, un momento di genuina connessione umana — filmiamo veri talenti. Usiamo ciò che chiamo il "Metodo Sandwich": filmiamo gli elementi eroe (l'attore, il prodotto) su green screen o LED volume, poi usiamo l'IA per generare sfondi ad alta fedeltà proiettati su quelle pareti LED. L'attore interagisce con luce reale proveniente da una scena sintetica. L'emozione è reale. L'ambiente è generato.

In post-produzione, l'IA diventa lo scultore. È qui che l'IA profonda brilla — non la generazione text-to-video, ma la trasformazione video-to-video. Componiamo attori reali in ambienti sintetici. Applichiamo estetiche di brand coerenti usando modelli LoRA (Low-Rank Adaptation) addestrati su misura — file leggeri addestrati sullo specifico stile cinematografico di un brand. Per un cliente come Nike, addestreremmo una LoRA su vent'anni del loro linguaggio visivo. Ogni fotogramma generato dall'IA dà la sensazione di una pubblicità Nike perché il modello ha interiorizzato quei codici del brand.

E usiamo ControlNet per bloccare la geometria. Invece di sperare che un prompt preservi la forma esatta di un prodotto, alimentiamo la rete con una Canny Edge Map o una Depth Map del prodotto reale. L'IA genera attorno alla silhouette esatta. Illuminazione e sfondi possono essere generativi, ma il prodotto rimane matematicamente perfetto — 94,2% di integrità strutturale rispetto al tiro di dadi del solo prompting.

Cosa causa davvero il problema del "Camion Tremolante"?

Il termine tecnico è incoerenza temporale, ed è la singola più grande barriera al video IA a livello enterprise. È il motivo per cui il camion di Coca-Cola cambiava forma tra un taglio e l'altro. È il motivo per cui i personaggi generati dall'IA si trasformano quando girano la testa. Il modello non mantiene una rappresentazione unificata di un oggetto attraverso i fotogrammi — la rigenera da zero ogni volta, e ogni rigenerazione è un nuovo tiro probabilistico.

Risolviamo questo con una metrica chiamata Video Consistency Distance (VCD), che integriamo nel nostro processo di fine-tuning. La VCD misura la distanza nel dominio della frequenza tra un'immagine di condizionamento e i fotogrammi generati. Penalizzando gli alti valori di VCD durante l'addestramento, costringiamo il modello a dare priorità alla coerenza. I modelli sottoposti a fine-tuning in questo modo raggiungono il 95,22% di coerenza del soggetto e il 96,32% di coerenza dello sfondo su benchmark standard.

Per la permanenza dell'oggetto — il problema in cui una persona cammina dietro un albero e il modello dimentica che esiste — ancoriamo la generazione IA a scene proxy 3D usando l'integrazione NeRF (Neural Radiance Fields). L'IA "riveste" un blockout 3D, combinando la logica geometrica della CGI tradizionale con la flessibilità estetica dell'IA generativa.

Per l'analisi tecnica completa di queste pipeline, inclusi i nostri approcci al mode collapse e alla manipolazione dello spazio latente, consulta il nostro paper di ricerca.

L'argomento che continuo a discutere

C'è una conversazione che avrò avuto probabilmente cinquanta volte nell'ultimo anno. Di solito inizia con qualcuno che dice: "Ma i modelli miglioreranno. Tra due anni, Sora sarà in grado di fare tutto questo."

Forse. Probabilmente, addirittura, per certi compiti ristretti. Ma questo argomento manca completamente il punto.

La domanda non è mai stata "L'IA può generare un video tecnicamente impeccabile?" La domanda è "L'identità emotiva del tuo brand dovrebbe essere una funzione di una distribuzione di probabilità?"

Anche se i camion tremolanti venissero sistemati e gli occhi spenti imparassero a increspare gli angoli, resteresti comunque con il problema della fiducia. Il 44% dei consumatori è attivamente infastidito dai contenuti generati dall'IA. NielsenIQ ha rilevato che persino le pubblicità IA raffinate causano un "effetto alone negativo" — gli spettatori le hanno definite "fastidiose", "noiose" e "confuse" anche quando la qualità visiva era alta. Il danno si estende oltre la singola campagna fino al brand stesso.

Il marchio Dove ha costruito un'intera campagna — "The Code" — attorno al rifiuto della distorsione IA dei corpi umani. È stata una vittoria enorme per il valore del brand. Hanno trasformato la minaccia in un elemento distintivo. Per categorie come bellezza, cibo, benessere e lusso, il "reale" non è una limitazione. È un premium.

I brand che vincono con l'IA non la usano per rimpiazzare l'umanità. La usano per amplificare storie che prima non potevano permettersi di raccontare.

Heinz lo ha dimostrato brillantemente. Hanno chiesto all'IA di generare immagini di "ketchup" e hanno mostrato che ogni modello ripiegava su una bottiglia Heinz. Hanno trasformato il bias dell'IA in prova del dominio del brand. L'allucinazione era la funzionalità. Era trasparente, divertente, e ha funzionato perché il brand era complice della battuta invece di cercare di ingannare qualcuno.

La parte in cui ammetto cosa mi tiene sveglio la notte

Sarò onesto su una cosa. Ciò che mi preoccupa non è che il video IA resti brutto. È che diventi appena abbastanza buono che i brand pigri se ne accontentino, e il mercato venga inondato di contenuti tecnicamente accettabili ma emotivamente vacui. Il termine che le persone già usano è "AI slop" — contenuti sintetici ad alto volume e basso sforzo che riempiono i feed senza dire nulla.

La mia paura è la normalizzazione. Che i consumatori smettano di aspettarsi la maestria. Che una generazione di spettatori cresca pensando che la patina plastificata e gli occhi spenti siano semplicemente l'aspetto che hanno le pubblicità.

Abbiamo avuto una riunione di team su questo qualche mese fa che si è trasformata in una vera discussione. Uno dei nostri ingegneri ha sostenuto che i consumatori si adatteranno — che l'uncanny valley si restringerà con l'aumentare dell'esposizione. La nostra direttrice creativa ha ribattuto con forza. "Le persone non si sono adattate al cibo scadente solo perché il fast food è arrivato ovunque," ha detto. "Hanno sviluppato un gusto per la qualità. La stessa cosa accadrà qui."

Penso che abbia ragione. I dati la sostengono. La reazione negativa contro Coca-Cola non veniva da un gruppo di nicchia di scettici dell'IA. Era mainstream. I consumatori stanno sviluppando un sesto senso per i contenuti sintetici, e la penalità per essere scoperti è più ripida del risparmio ottenuto tagliando gli angoli.

La prossima frontiera — ciò che i ricercatori chiamano "World Models" — darà infine all'IA una comprensione della fisica, non solo dei pixel. ByteDance stima progressi significativi entro il 2026–2027. Fino ad allora, il workflow ibrido è l'unico ponte sicuro. Ti permette di sfruttare la potenza di rendering dell'IA di oggi prendendo in prestito l'intelligenza fisica ed emotiva che solo i creatori umani possiedono.

La domanda che conta davvero

Ogni leader d'impresa con cui parlo pone la stessa domanda: "Quanto denaro può farci risparmiare l'IA sulla produzione?"

È la domanda sbagliata. Porta direttamente all'uncanny valley — a 70.000 clip generate e a una pubblicità di 30 secondi che non fa provare nulla alle persone.

La domanda giusta è: "Quali storie l'IA può aiutarci a raccontare che prima non potevamo permetterci di raccontare?"

Nike non ha risparmiato denaro con "Never Done Evolving". Hanno speso parecchio. Ma hanno creato qualcosa di impossibile senza l'IA — una partita tra due versioni dello stesso atleta separate da diciotto anni. Questa non è ottimizzazione dei costi. È espansione creativa.

Smetti di chiederti come l'IA possa rendere la tua produzione più economica. Inizia a chiederti come possa rendere la tua narrazione più audace.

La fase della novità è finita. "Guarda cosa ha fatto l'IA" non impressiona più nessuno. Il nuovo standard — l'unico standard che conterà nel 2026 e oltre — è "Guarda cosa noi abbiamo fatto con l'IA." L'enfasi cade direttamente sul noi.

I brand che lo capiscono costruiranno leggende. Quelli che non lo capiscono spenderanno milioni per insegnare a un algoritmo a sorridere e si chiederanno perché nessuno ricambia il sorriso.

Related Research

Also Published On