Imagem editorial mostrando a mão de um diretor de cinema guiando e esculpindo fisicamente uma cena parcialmente renderizada gerada por IA, representando a intenção humana governando a saída da máquina.
Artificial IntelligenceMarketingBrand Strategy

Vi a Coca-Cola Gastar Milhões Ensinando a IA a Sorrir. A IA Não Conseguiu.

Ashutosh SinghalAshutosh Singhal2 de fevereiro de 202614 min

Eu estava sentado no meu escritório certa noite de novembro quando um colega me mandou um link. "Você precisa ver isso." Era o anúncio de 2025 da Coca-Cola, "Holidays Are Coming" — aquele gerado inteiramente por IA. Assisti duas vezes. Na primeira, algo parecia errado, mas eu não conseguia nomear. Na segunda, consegui.

Os caminhões eram vermelhos. A neve reluzia. Os ursos polares atravessavam pesadamente a tela. E nada disso importava, porque cada sorriso naquele comercial estava morto por trás dos olhos.

Aquele anúncio se tornou o estudo de caso mais importante do nosso trabalho na Veriprajna — não porque era ruim, mas porque era quase bom. E "quase bom" é onde as marcas vão para morrer. O anúncio da Coca-Cola feito por IA é o sinal mais claro que já vi de que a era do que eu chamo de "LLM Wrapper" — colocar uma interface bonita em cima de um modelo fundacional como Sora ou Runway e chamar isso de pipeline de produção — acabou para qualquer marca que se importa com sua reputação. A confiança em anúncios feitos inteiramente por IA está em 13%. Cocriados com humanos? 48%. Essa diferença não é um erro de arredondamento. É um abismo.

Este ensaio é sobre o que fica do outro lado desse abismo: os fluxos de trabalho híbridos de IA, onde a intenção humana governa a velocidade da máquina. É a abordagem que temos construído na Veriprajna, e é a única arquitetura que acredito ser capaz de proteger o valor de marca na era da mídia sintética.

O anúncio que quebrou o encanto

Eis o que a maioria das pessoas não percebeu sobre o fiasco da Coca-Cola. Não foi barato. Não foi preguiçoso. Segundo relatos, a equipe de produção gerou mais de 70.000 clipes de vídeo para montar um único comercial de 30 segundos. Dois estúdios — Secret Level e Silverside AI — estiveram envolvidos. O chefe de IA generativa da Coca-Cola insistiu publicamente que o acabamento era "dez vezes melhor" do que sua tentativa anterior com IA.

E o público ainda assim o odiou.

Os comentários foram brutais. "Sem alma." "Distópico." Meu favorito pessoal, escorrendo o tipo de raiva que só um fã traído consegue reunir: "A Coca-Cola é vermelha porque é feita do sangue de artistas desempregados."

Lembro de abrir o anúncio quadro a quadro com minha equipe, tentando articular exatamente o que estava falhando. Um dos nossos designers apontou para a tela e disse: "O caminhão tem um número diferente de rodas nesta cena do que tinha três segundos atrás." Ela estava certa. Começamos a contar. O formato da cabine mudava entre os cortes. O chassi flutuava sobre a neve como um aerodeslizador — sem suspensão, sem transferência de peso, sem atrito.

Mas o verdadeiro problema não eram os caminhões. Eram as pessoas. Ou melhor, as não pessoas.

Por que a IA não consegue sorrir?

Esta é a pergunta que me levou a um buraco de coelho de pesquisa do qual ainda estou saindo. Um sorriso humano genuíno não é apenas um formato de boca. Ele envolve uma contração involuntária do orbicularis oculi — o músculo ao redor do olho — criando o que os psicólogos chamam de "marcador de Duchenne". É a diferença entre um sorriso que chega aos olhos e um que para nos lábios. Somos biologicamente programados para detectar a diferença, mesmo que não consigamos articulá-la conscientemente.

Os modelos de difusão não sabem disso. Eles operam com distribuições de probabilidade em nível de pixel, não com regras anatômicas. Viram milhões de imagens marcadas como "sorriso" e aprenderam a reproduzir a geometria de um sorriso. Mas não conseguem reproduzir a física dele.

Os modelos generativos produzem conteúdo visualmente plausível, mas emocionalmente vazio. Chamamos isso de "Alucinação Estética" — a imagem parece certa, mas soa errada.

Esse termo — Alucinação Estética — é algo que cunhamos na Veriprajna para descrever esse modo específico de falha, e acho que é o conceito mais importante para qualquer líder de marca entender agora. Não se trata de resolução ou qualidade de renderização. Trata-se da lacuna entre o que parece real e o que soa real. O anúncio da Coca-Cola tinha texturas lindas. Neve que reluzia. Luz que ricocheteava no cromado. E sorrisos que davam arrepios.

Um estudo da ByteDance Research publicado em 2025 confirmou o que víamos na prática: modelos de geração de vídeo como Sora e Gen-3 não aprendem a física newtoniana. Eles memorizam transições visuais. Conseguem reproduzir a aparência de um caminhão dirigindo porque viram milhares de vídeos de direção, mas não entendem suspensão, atrito ou peso. Os pesquisadores encontraram uma hierarquia do que esses modelos acertam: Cor > Tamanho > Velocidade > Forma. A cor é quase sempre precisa — daí o vermelho Coca-Cola perfeito. A forma é onde as coisas desmoronam. O modelo garante que o caminhão seja vermelho em cada quadro, mas "esquece" quantas rodas ele tem porque gera o vídeo em blocos latentes sem uma representação 3D unificada.

É por isso que o líquido em anúncios de bebidas gerados por IA parece mercúrio. O modelo acerta a cor do caramelo, mas não tem noção de conservação de volume. Ele não sabe que o líquido não pode surgir e desaparecer dentro de um copo.

Como é, na prática, o "Prompt e reze"?

Um diagrama comparativo lado a lado contrastando o fluxo de trabalho "Prompt e reze" (a abordagem da Coca-Cola) com o fluxo de trabalho "Humano no circuito" (a abordagem da Veriprajna), mostrando por que um fracassa e o outro tem sucesso.

Quero ser concreto sobre o que o fluxo de trabalho da Coca-Cola realmente foi, porque entendê-lo explica por que ele fracassou.

A equipe digitava prompts em ferramentas generativas de vídeo. As ferramentas produziam clipes. A equipe assistia a milhares desses clipes, esperando encontrar aqueles que parecessem coerentes o suficiente para montar juntos. Isso é o que eu chamo de metodologia do "prompt e reze", e é a abordagem dominante no que considero a "era do wrapper" da produção de vídeo por IA. Você escreve uma descrição do que quer. Você aperta gerar. Você cruza os dedos.

Setenta mil clipes. Para trinta segundos.

Esse número me assombrou. Significava que o processo criativo tinha sido reduzido a uma tarefa de curadoria — vasculhar um oceano de alucinações para achar as poucas que pareciam menos erradas. O diretor não estava dirigindo. O diretor estava filtrando. Há um mundo de diferença.

Quando os criadores da Silverside AI foram questionados sobre a reação negativa, eles a compararam à resistência inicial à CGI em Toy Story. Achei essa comparação quase ofensivamente errada. Toy Story usou a tecnologia para contar uma história que não poderia ser contada de nenhuma outra forma — a vida interior dos brinquedos. A Coca-Cola usou a tecnologia para recontar uma história que já havia sido contada muito melhor com efeitos práticos trinta anos atrás. A IA não acrescentou nada. Ela subtraiu humanidade.

A narrativa mudou de "a Coca-Cola é inovadora" para "a Coca-Cola é barata". Isso é uma catástrofe de valor de marca disfarçada de vitrine tecnológica.

Escrevi sobre essa dinâmica com muito mais profundidade em a versão interativa da nossa pesquisa, incluindo o caso da Toys 'R' Us — em que um ator infantil gerado por IA provocou uma rejeição tão visceral que a percepção da marca despencou da noite para o dia.

Por que o anúncio de IA da Nike ganhou um Grand Prix em Cannes?

Esta é a parte da história que me dá esperança.

Mais ou menos na mesma época em que marcas eram destruídas por conteúdo lixo gerado por IA, a Nike lançou "Never Done Evolving" para seu 50º aniversário. O conceito: simular uma partida de tênis entre a Serena Williams de 1999 e a Serena Williams de 2017. Ganhou um Grand Prix em Cannes. Aclamação universal. Nenhuma reação negativa.

A diferença não era orçamento. Era arquitetura.

A Nike não pediu a uma IA que imaginasse a Serena. Eles alimentaram um modelo de aprendizado de máquina com imagens de arquivo reais das partidas dela — anos delas — e as usaram para analisar sua velocidade, escolha de golpes e reatividade em diferentes momentos da carreira. A IA calculou possibilidades com base na realidade. Era uma máquina do tempo, não um mecanismo de fabricação. A técnica "vid2player" de Stanford gerou sprites de jogadora comportamentalmente precisos com base no conhecimento de domínio da física do tênis. Depois, compositores e editores humanos garantiram a fidelidade visual e o ritmo narrativo.

A IA gerou os movimentos e a lógica de jogo. Os humanos garantiram que aquilo parecesse e soasse como uma produção da Nike.

Este é o modelo. É isto que funciona. E é o que temos construído na Veriprajna.

Como usar a IA sem perder a alma da sua marca?

Um diagrama de pipeline em três fases mostrando exatamente como a IA desempenha um papel diferente na pré-produção, na produção e na pós-produção, com as ferramentas e técnicas específicas rotuladas em cada etapa.

Recebo essa pergunta constantemente. Geralmente de CMOs que viram as manchetes da Coca-Cola e estão apavorados de serem os próximos, mas que também sabem que não podem ignorar a IA por completo porque seus concorrentes não vão.

Minha resposta é sempre a mesma: não deixe a IA renderizar o pixel final.

Na Veriprajna, construímos o que chamamos de arquitetura Humano no Circuito. Não é uma filosofia. É um pipeline de produção literal com pontos de verificação humanos em cada camada. O princípio é simples: a intenção humana deve governar a execução da máquina. Não o contrário.

Na prática, ela se divide em três fases, e a IA desempenha um papel diferente em cada uma.

Na pré-produção, a IA é a sonhadora. Usamos ferramentas como a Krea AI para visualização em tempo real — um designer esboça um layout e o vê renderizado de forma fotorrealista em milissegundos. Isso reduz os custos de storyboard em 60–80%. Mas ninguém está se comprometendo com um visual final. O diretor está "filmando" o comercial virtualmente, iterando sobre iluminação e composição instantaneamente, antes que uma única câmera rode.

Na produção, os humanos capturam o que importa. Para qualquer coisa que exija ressonância emocional — um rosto, uma interação com o produto, um momento de conexão humana genuína — filmamos talentos reais. Usamos o que chamo de "Método Sanduíche": filmar os elementos-herói (o ator, o produto) em chroma key (tela verde) ou volumes de LED, e depois usar a IA para gerar fundos de alta fidelidade projetados nessas paredes de LED. O ator interage com luz real de uma cena sintética. A emoção é real. O ambiente é gerado.

Na pós-produção, a IA se torna a escultora. É aqui que a IA profunda brilha — não a geração de texto para vídeo, mas a transformação de vídeo para vídeo. Compomos atores reais em ambientes sintéticos. Aplicamos estéticas de marca consistentes usando modelos LoRA (Low-Rank Adaptation) treinados sob medida — arquivos leves treinados no estilo cinematográfico específico de uma marca. Para um cliente como a Nike, treinaríamos um LoRA com vinte anos da linguagem visual deles. Cada quadro gerado por IA soa como um anúncio da Nike porque o modelo internalizou esses códigos de marca.

E usamos o ControlNet para travar a geometria. Em vez de torcer para que um prompt preserve o formato exato de um produto, alimentamos a rede com um Mapa de Bordas Canny ou um Mapa de Profundidade do produto real. A IA gera ao redor da silhueta exata. Iluminação e fundos podem ser generativos, mas o produto permanece matematicamente perfeito — 94,2% de integridade estrutural em comparação com a jogada de dados de apenas usar prompts.

O que realmente causa o problema do "caminhão tremeluzente"?

O termo técnico é inconsistência temporal, e é a maior barreira isolada para o vídeo de IA corporativo. É por isso que o caminhão da Coca-Cola mudava de forma entre os cortes. É por isso que personagens gerados por IA se deformam quando viram a cabeça. O modelo não mantém uma representação unificada de um objeto ao longo dos quadros — ele regenera do zero a cada vez, e cada regeneração é uma nova jogada probabilística.

Resolvemos isso com uma métrica chamada Video Consistency Distance (VCD), que integramos ao nosso processo de fine-tuning. A VCD mede a distância no domínio da frequência entre uma imagem de condicionamento e os quadros gerados. Ao penalizar valores altos de VCD durante o treinamento, forçamos o modelo a priorizar a coerência. Modelos ajustados dessa forma alcançam 95,22% de consistência de sujeito e 96,32% de consistência de fundo em benchmarks padrão.

Para a permanência de objetos — o problema em que uma pessoa passa atrás de uma árvore e o modelo esquece que ela existe — ancoramos a geração de IA a cenas proxy 3D usando a integração NeRF (Neural Radiance Fields). A IA "reveste" um blockout 3D, combinando a lógica geométrica da CGI tradicional com a flexibilidade estética da IA generativa.

Para o detalhamento técnico completo desses pipelines, incluindo nossas abordagens para o colapso de modo e a manipulação do espaço latente, veja nosso artigo de pesquisa.

A discussão que eu não paro de ter

Há uma conversa que provavelmente tive umas cinquenta vezes no último ano. Ela costuma começar com alguém dizendo: "Mas os modelos vão melhorar. Em dois anos, o Sora vai conseguir fazer tudo isso."

Talvez. Provavelmente, até, para certas tarefas restritas. Mas esse argumento perde completamente o ponto.

A pergunta nunca foi "A IA consegue gerar um vídeo tecnicamente impecável?" A pergunta é "A identidade emocional da sua marca deveria ser uma função de uma distribuição de probabilidade?"

Mesmo que os caminhões tremeluzentes sejam corrigidos e os olhos mortos aprendam a franzir, você ainda fica com o problema da confiança. 44% dos consumidores se incomodam ativamente com conteúdo gerado por IA. A NielsenIQ descobriu que até anúncios de IA polidos causam um "efeito halo negativo" — os espectadores os rotularam de "irritantes", "chatos" e "confusos", mesmo quando a qualidade visual era alta. O dano se estende para além da campanha individual, chegando à própria marca.

A Dove construiu uma campanha inteira — "The Code" — em torno de rejeitar a distorção de corpos humanos por IA. Foi uma enorme vitória de valor de marca. Eles transformaram a ameaça em um diferencial. Para categorias como beleza, alimentação, bem-estar e luxo, "real" não é uma limitação. É um prêmio.

As marcas que vencem com a IA não a usam para substituir a humanidade. Elas a usam para amplificar histórias que não teriam como contar antes.

A Heinz provou isso brilhantemente. Eles pediram à IA que gerasse imagens de "ketchup" e mostraram que todo modelo recorria a uma garrafa da Heinz. Eles transformaram o viés da IA em prova de domínio de marca. A alucinação era o recurso. Foi transparente, engraçado, e funcionou porque a marca estava por dentro da piada, em vez de tentar enganar alguém.

A parte em que admito o que me tira o sono

Vou ser honesto sobre uma coisa. O que me preocupa não é que o vídeo de IA continue ruim. É que ele fique bom o suficiente para que marcas preguiçosas se contentem com ele, e o mercado seja inundado por conteúdo tecnicamente aceitável, mas emocionalmente vazio. O termo que as pessoas já estão usando é "AI slop" — conteúdo sintético de alto volume e baixo esforço que enche os feeds sem dizer nada.

Meu medo é a normalização. Que os consumidores parem de esperar apuro. Que uma geração de espectadores cresça pensando que o brilho plástico e os olhos mortos são simplesmente a cara dos anúncios.

Tivemos uma reunião de equipe sobre isso alguns meses atrás que virou uma discussão de verdade. Um dos nossos engenheiros defendeu que os consumidores vão se adaptar — que o vale da estranheza vai encolher à medida que a exposição aumenta. Nossa diretora de criação rebateu com força. "As pessoas não se adaptaram à comida ruim só porque o fast food se espalhou por toda parte", disse ela. "Elas desenvolveram um gosto pela qualidade. A mesma coisa vai acontecer aqui."

Acho que ela está certa. Os dados a apoiam. A reação negativa contra a Coca-Cola não veio de um grupo de nicho de céticos da IA. Foi mainstream. Os consumidores estão desenvolvendo um sexto sentido para conteúdo sintético, e a penalidade por ser pego é mais alta do que a economia de cortar caminho.

A próxima fronteira — o que os pesquisadores chamam de "Modelos de Mundo" — acabará dando à IA uma compreensão de física, não apenas de pixels. A ByteDance estima progresso significativo até 2026–2027. Até lá, o fluxo de trabalho híbrido é a única ponte segura. Ele permite aproveitar o poder de renderização da IA de hoje enquanto se toma emprestada a inteligência física e emocional que só os criadores humanos possuem.

A pergunta que realmente importa

Todo líder corporativo com quem converso faz a mesma pergunta: "Quanto dinheiro a IA pode nos economizar na produção?"

É a pergunta errada. Ela leva diretamente ao vale da estranheza — a 70.000 clipes gerados e um anúncio de 30 segundos que faz as pessoas não sentirem nada.

A pergunta certa é: "Que histórias a IA pode nos ajudar a contar que não teríamos como contar antes?"

A Nike não economizou dinheiro com "Never Done Evolving". Eles gastaram bastante. Mas criaram algo impossível sem a IA — uma partida entre duas versões da mesma atleta separadas por dezoito anos. Isso não é otimização de custos. É expansão criativa.

Pare de perguntar como a IA pode tornar sua produção mais barata. Comece a perguntar como ela pode tornar sua narrativa mais ousada.

A fase da novidade acabou. "Olha o que a IA fez" não impressiona mais ninguém. O novo padrão — o único padrão que vai importar em 2026 e daí em diante — é "Olha o que nós fizemos com a IA." A ênfase recai diretamente sobre o nós.

As marcas que entenderem isso construirão lendas. As que não entenderem gastarão milhões ensinando um algoritmo a sorrir e se perguntarão por que ninguém sorri de volta.

Related Research

Also Published On