
Vi a Coca-Cola gastar millones enseñando a la IA a sonreír. La IA no pudo.
Estaba sentado en mi oficina una noche de noviembre, ya tarde, cuando un colega me envió un enlace. «Tienes que ver esto». Era el anuncio de Coca-Cola de 2025 «Holidays Are Coming» —el que se generó íntegramente con IA—. Lo vi dos veces. La primera, algo me pareció mal, pero no supe ponerle nombre. La segunda vez, sí pude.
Los camiones eran rojos. La nieve resplandecía. Los osos polares avanzaban pesadamente por la pantalla. Y nada de eso importaba, porque cada sonrisa de ese anuncio estaba muerta detrás de los ojos.
Ese anuncio se convirtió en el caso de estudio más importante de nuestro trabajo en Veriprajna, no porque fuera malo, sino porque era casi bueno. Y «casi bueno» es donde las marcas van a morir. El anuncio de Coca-Cola con IA es la señal más clara que he visto de que la era de lo que yo llamo el «Envoltorio de LLM» —ponerle una interfaz bonita a un modelo fundacional como Sora o Runway y llamarlo una tubería de producción— ha terminado para cualquier marca que se preocupe por su reputación. La confianza en los anuncios hechos enteramente por IA se sitúa en el 13%. ¿Cocreados con humanos? 48%. Esa brecha no es un error de redondeo. Es un abismo.
Este ensayo trata de lo que se encuentra al otro lado de ese abismo: los flujos de trabajo híbridos de IA, donde la intención humana gobierna la velocidad de la máquina. Es el enfoque que hemos venido construyendo en Veriprajna, y es la única arquitectura que creo capaz de proteger el valor de marca en la era de los medios sintéticos.
El anuncio que rompió el hechizo
Esto es lo que la mayoría de la gente pasó por alto sobre el fiasco de Coca-Cola. No fue barato. No fue perezoso. Según se informó, el equipo de producción generó más de 70.000 clips de vídeo para montar un solo anuncio de 30 segundos. Participaron dos estudios: Secret Level y Silverside AI. El responsable de IA generativa de Coca-Cola insistió públicamente en que la artesanía era «diez veces mejor» que su intento anterior con IA.
Y el público lo siguió aun así odiando.
Los comentarios fueron brutales. «Sin alma». «Distópico». Mi favorito personal, rezumando la clase de ira que solo un fan traicionado puede reunir: «Coca-Cola es roja porque está hecha con la sangre de artistas sin trabajo».
Recuerdo poner el anuncio fotograma a fotograma con mi equipo, tratando de articular exactamente qué estaba fallando. Una de nuestras diseñadoras señaló la pantalla y dijo: «El camión tiene un número distinto de ruedas en esta toma del que tenía hace tres segundos». Tenía razón. Empezamos a contar. La forma de la cabina cambiaba entre cortes. El chasis flotaba sobre la nieve como un aerodeslizador: sin suspensión, sin transferencia de peso, sin fricción.
Pero el verdadero problema no eran los camiones. Eran las personas. O más bien, las no-personas.
¿Por qué la IA no puede sonreír?
Esta es la pregunta que me lanzó a una madriguera de investigación de la que aún estoy saliendo. Una sonrisa humana genuina no es solo una forma de la boca. Implica una contracción involuntaria del orbicularis oculi —el músculo alrededor del ojo—, creando lo que los psicólogos llaman el «marcador de Duchenne». Es la diferencia entre una sonrisa que llega a los ojos y una que se detiene en los labios. Estamos biológicamente programados para detectar la diferencia, aunque no podamos articularla conscientemente.
Los modelos de difusión no saben esto. Operan sobre distribuciones de probabilidad a nivel de píxel, no sobre reglas anatómicas. Han visto millones de imágenes etiquetadas como «sonrisa» y han aprendido a reproducir la geometría de una sonrisa. Pero no pueden reproducir la física de una.
Los modelos generativos producen contenido visualmente plausible pero emocionalmente hueco. A esto lo llamamos «Alucinación Estética»: la imagen se ve bien, pero se siente mal.
Ese término —Alucinación Estética— es algo que acuñamos en Veriprajna para describir este modo de fallo específico, y creo que es el concepto más importante que cualquier líder de marca debe entender en este momento. No se trata de resolución ni de calidad de renderizado. Se trata de la brecha entre lo que se ve real y lo que se siente real. El anuncio de Coca-Cola tenía texturas hermosas. Nieve que resplandecía. Luz que rebotaba en el cromo. Y sonrisas que ponían la piel de gallina.
Un estudio de ByteDance Research publicado en 2025 confirmó lo que veíamos en la práctica: los modelos de generación de vídeo como Sora y Gen-3 no aprenden física newtoniana. Memorizan transiciones visuales. Pueden reproducir la apariencia de un camión conduciendo porque han visto miles de vídeos de conducción, pero no entienden la suspensión, la fricción ni el peso. Los investigadores encontraron una jerarquía de lo que estos modelos aciertan: Color > Tamaño > Velocidad > Forma. El color casi siempre es preciso, de ahí el rojo Coca-Cola perfecto. La forma es donde las cosas se derrumban. El modelo se asegura de que el camión sea rojo en cada fotograma, pero «olvida» cuántas ruedas tiene porque genera el vídeo en fragmentos latentes sin una representación 3D unificada.
Por eso el líquido en los anuncios de bebidas generados por IA parece mercurio. El modelo clava el color caramelo pero no tiene concepto de conservación del volumen. No sabe que el líquido no puede aparecer y desaparecer dentro de un vaso.
¿Cómo se ve realmente el «hacer un prompt y rezar»?

Quiero ser concreto sobre cuál fue realmente el flujo de trabajo de Coca-Cola, porque entenderlo explica por qué fracasó.
El equipo escribía prompts en herramientas de vídeo generativo. Las herramientas producían clips. El equipo veía miles de esos clips, con la esperanza de encontrar algunos que parecieran lo bastante coherentes para montarlos juntos. Esto es lo que yo llamo la metodología de «hacer un prompt y rezar», y es el enfoque dominante en lo que considero la «era del envoltorio» de la producción de vídeo con IA. Escribes una descripción de lo que quieres. Pulsas generar. Cruzas los dedos.
Setenta mil clips. Para treinta segundos.
Ese número me obsesionó. Significaba que el proceso creativo se había reducido a una tarea de curación: cribar un océano de alucinaciones para encontrar las pocas que se veían menos mal. El director no dirigía. El director filtraba. Hay un mundo de diferencia.
Cuando se les preguntó a los creadores de Silverside AI sobre la reacción negativa, la compararon con la resistencia inicial a la imagen generada por ordenador (CGI) en Toy Story. Encontré esta comparación casi ofensivamente equivocada. Toy Story usó la tecnología para contar una historia que no podía contarse de ninguna otra manera: la vida interior de los juguetes. Coca-Cola usó la tecnología para volver a contar una historia que ya se había contado mejor con efectos prácticos hace treinta años. La IA no añadió nada. Restó humanidad.
La narrativa pasó de «Coca-Cola es innovadora» a «Coca-Cola es barata». Eso es una catástrofe de valor de marca disfrazada de escaparate tecnológico.
Escribí sobre esta dinámica con mucha más profundidad en la versión interactiva de nuestra investigación, incluido el caso de Toys 'R' Us, donde un niño actor generado por IA provocó un rechazo tan visceral que la percepción de la marca se desplomó de la noche a la mañana.
¿Por qué el anuncio con IA de Nike ganó un Gran Premio en Cannes?
Esta es la parte de la historia que me da esperanza.
Más o menos al mismo tiempo que las marcas estaban siendo destrozadas por la basura generada con IA, Nike lanzó «Never Done Evolving» para su 50.º aniversario. El concepto: simular un partido de tenis entre la Serena Williams de 1999 y la de 2017. Ganó un Gran Premio en Cannes. Aclamación unánime. Ninguna reacción negativa.
La diferencia no era el presupuesto. Era la arquitectura.
Nike no le pidió a una IA que imaginara a Serena. Alimentaron un modelo de aprendizaje automático con imágenes de archivo reales de su juego —años de material— y lo usaron para analizar su velocidad, su elección de golpes y su capacidad de reacción en distintos momentos de su carrera. La IA calculó posibilidades basándose en la realidad. Era una máquina del tiempo, no un motor de fabricación. La técnica «vid2player» de Stanford generó sprites de jugadora conductualmente precisos basados en el conocimiento del dominio de la física del tenis. Luego, compositores y editores humanos aseguraron la fidelidad visual y el ritmo narrativo.
La IA generó los movimientos y la lógica del juego. Los humanos aseguraron que se viera y se sintiera como una producción de Nike.
Este es el modelo. Esto es lo que funciona. Y es hacia lo que hemos venido construyendo en Veriprajna.
¿Cómo usar la IA sin perder el alma de tu marca?

Me hacen esta pregunta constantemente. Normalmente directores de marketing (CMO) que han visto los titulares de Coca-Cola y están aterrados de ser los siguientes, pero que también saben que no pueden ignorar la IA por completo porque sus competidores no lo harán.
Mi respuesta siempre es la misma: no dejes que la IA renderice el píxel final.
En Veriprajna, hemos construido lo que llamamos una arquitectura de Humano en el Bucle. No es una filosofía. Es una tubería de producción literal con puntos de control humanos en cada capa. El principio es simple: la intención humana debe gobernar la ejecución de la máquina. No al revés.
En la práctica, se descompone en tres fases, y la IA desempeña un papel diferente en cada una.
En la preproducción, la IA es la soñadora. Usamos herramientas como Krea AI para la visualización en tiempo real: un diseñador esboza un diseño y lo ve renderizado fotorrealistamente en milisegundos. Esto reduce los costes de storyboard en un 60–80%. Pero nadie se compromete con un aspecto final. El director está «rodando» el anuncio de forma virtual, iterando sobre la iluminación y la composición al instante, antes de que ruede una sola cámara.
En la producción, los humanos capturan lo que importa. Para cualquier cosa que requiera resonancia emocional —un rostro, una interacción con el producto, un momento de conexión humana genuina— filmamos con talento real. Usamos lo que yo llamo el «Método Sándwich»: filmar los elementos protagonistas (el actor, el producto) sobre pantalla verde o volúmenes LED, y luego usar la IA para generar fondos de alta fidelidad proyectados sobre esas paredes LED. El actor interactúa con luz real de una escena sintética. La emoción es real. El entorno es generado.
En la posproducción, la IA se convierte en la escultora. Aquí es donde brilla la IA profunda: no la generación de texto a vídeo, sino la transformación de vídeo a vídeo. Componemos actores reales dentro de entornos sintéticos. Aplicamos estéticas de marca consistentes usando modelos LoRA (Adaptación de Bajo Rango) entrenados a medida: archivos ligeros entrenados en el estilo cinematográfico específico de una marca. Para un cliente como Nike, entrenaríamos un LoRA con veinte años de su lenguaje visual. Cada fotograma generado por IA se siente como un anuncio de Nike porque el modelo ha interiorizado esos códigos de marca.
Y usamos ControlNet para fijar la geometría. En lugar de esperar que un prompt preserve la forma exacta de un producto, alimentamos la red con un Mapa de Bordes Canny o un Mapa de Profundidad del producto real. La IA genera alrededor de la silueta exacta. La iluminación y los fondos pueden ser generativos, pero el producto sigue siendo matemáticamente perfecto: un 94,2% de integridad estructural frente al golpe de dados de confiar solo en el prompt.
¿Qué causa realmente el problema del «camión parpadeante»?
El término técnico es inconsistencia temporal, y es la mayor barrera individual para el vídeo empresarial con IA. Es la razón por la que el camión de Coca-Cola cambiaba de forma entre cortes. Es la razón por la que los personajes generados por IA se deforman cuando giran la cabeza. El modelo no mantiene una representación unificada de un objeto a lo largo de los fotogramas: la regenera desde cero cada vez, y cada regeneración es una nueva tirada probabilística.
Resolvemos esto con una métrica llamada Distancia de Consistencia de Vídeo (VCD), que integramos en nuestro proceso de ajuste fino. La VCD mide la distancia en el dominio de la frecuencia entre una imagen de condicionamiento y los fotogramas generados. Al penalizar los valores altos de VCD durante el entrenamiento, obligamos al modelo a priorizar la coherencia. Los modelos ajustados de esta manera logran un 95,22% de consistencia de sujeto y un 96,32% de consistencia de fondo en los benchmarks estándar.
Para la permanencia de objetos —el problema en el que una persona camina detrás de un árbol y el modelo olvida que existe— anclamos la generación de IA a escenas proxy 3D usando la integración de NeRF (Campos de Radiación Neuronal). La IA «recubre» un blockout 3D, combinando la lógica geométrica de la CGI tradicional con la flexibilidad estética de la IA generativa.
Para el desglose técnico completo de estas tuberías, incluidos nuestros enfoques sobre el colapso de modos y la manipulación del espacio latente, consulta nuestro artículo de investigación.
El argumento que sigo teniendo
Hay una conversación que he tenido probablemente cincuenta veces en el último año. Suele empezar con alguien diciendo: «Pero los modelos mejorarán. En dos años, Sora podrá hacer todo esto».
Puede. Probablemente, incluso, para ciertas tareas concretas. Pero este argumento no capta el punto en absoluto.
La pregunta nunca fue «¿Puede la IA generar un vídeo técnicamente impecable?». La pregunta es «¿Debería la identidad emocional de tu marca ser una función de una distribución de probabilidad?».
Aunque se arreglen los camiones parpadeantes y los ojos muertos aprendan a arrugarse, sigues quedándote con el problema de la confianza. El 44% de los consumidores se sienten activamente molestos por el contenido generado por IA. NielsenIQ descubrió que incluso los anuncios de IA pulidos provocan un «efecto halo negativo»: los espectadores los calificaron de «molestos», «aburridos» y «confusos» incluso cuando la calidad visual era alta. El daño se extiende más allá de la campaña individual a la propia marca.
Dove construyó toda una campaña —«The Code»— en torno a rechazar la distorsión de los cuerpos humanos por parte de la IA. Fue una victoria enorme para el valor de marca. Convirtieron la amenaza en un factor diferenciador. Para categorías como la belleza, la alimentación, el bienestar y el lujo, «lo real» no es una limitación. Es un valor premium.
Las marcas que ganan con la IA no la usan para reemplazar la humanidad. La usan para amplificar historias que antes no podían permitirse contar.
Heinz lo demostró de forma brillante. Le pidieron a la IA que generara imágenes de «ketchup» y mostraron que todos los modelos recurrían por defecto a una botella de Heinz. Convirtieron el sesgo de la IA en una prueba del dominio de la marca. La alucinación era la función. Fue transparente, divertido, y funcionó porque la marca estaba metida en el chiste en lugar de intentar engañar a nadie.
La parte en la que admito lo que me quita el sueño
Seré honesto sobre una cosa. Lo que me preocupa no es que el vídeo con IA vaya a seguir siendo malo. Es que se vuelva lo bastante bueno como para que las marcas perezosas se conformen con él, y el mercado se inunde de contenido técnicamente aceptable pero emocionalmente vacío. El término que la gente ya está usando es «basura de IA» (AI slop): contenido sintético de alto volumen y bajo esfuerzo que llena los feeds sin decir nada.
Mi miedo es la normalización. Que los consumidores dejen de esperar artesanía. Que una generación de espectadores crezca pensando que el brillo plástico y los ojos muertos son simplemente el aspecto que tienen los anuncios.
Tuvimos una reunión de equipo sobre esto hace unos meses que se convirtió en una discusión de verdad. Uno de nuestros ingenieros defendió que los consumidores se adaptarán, que el valle inquietante se encogerá a medida que aumente la exposición. Nuestra directora creativa se opuso con fuerza. «La gente no se adaptó a la mala comida solo porque la comida rápida llegara a todas partes», dijo. «Desarrollaron un gusto por la calidad. Lo mismo pasará aquí».
Creo que ella tiene razón. Los datos la respaldan. La reacción negativa contra Coca-Cola no vino de un grupo reducido de escépticos de la IA. Fue masiva. Los consumidores están desarrollando un sexto sentido para el contenido sintético, y el castigo por ser descubierto es más severo que el ahorro de recortar gastos.
La próxima frontera —lo que los investigadores llaman «Modelos del Mundo»— acabará dándole a la IA una comprensión de la física, no solo de los píxeles. ByteDance estima progresos significativos para 2026–2027. Hasta entonces, el flujo de trabajo híbrido es el único puente seguro. Te permite aprovechar la potencia de renderizado de la IA actual mientras tomas prestada la inteligencia física y emocional que solo poseen los creadores humanos.
La pregunta que realmente importa
Cada líder empresarial con el que hablo hace la misma pregunta: «¿Cuánto dinero nos puede ahorrar la IA en producción?».
Es la pregunta equivocada. Conduce directamente al valle inquietante: a 70.000 clips generados y un anuncio de 30 segundos que hace que la gente no sienta nada.
La pregunta correcta es: «¿Qué historias puede ayudarnos a contar la IA que antes no podíamos permitirnos contar?».
Nike no ahorró dinero con «Never Done Evolving». Gastaron mucho. Pero crearon algo imposible sin IA: un partido entre dos versiones de la misma atleta separadas por dieciocho años. Eso no es optimización de costes. Es expansión creativa.
Deja de preguntar cómo puede la IA abaratar tu producción. Empieza a preguntar cómo puede hacer tu narración más valiente.
La fase de la novedad ha terminado. «Mira lo que hizo la IA» ya no impresiona a nadie. El nuevo estándar —el único estándar que importará en 2026 y en adelante— es «Mira lo que nosotros hicimos con la IA». El énfasis recae de lleno en el nosotros.
Las marcas que entiendan esto construirán leyendas. Las que no, gastarán millones enseñando a un algoritmo a sonreír y se preguntarán por qué nadie les devuelve la sonrisa.