영화 감독의 손이 부분적으로 렌더링된 AI 생성 장면을 직접 다듬으며 이끄는 모습을 담은 에디토리얼 이미지로, 인간의 의도가 기계의 결과물을 통제함을 상징한다.
Artificial IntelligenceMarketingBrand Strategy

코카콜라가 수백만 달러를 들여 AI에게 미소를 가르치는 걸 지켜봤다. AI는 끝내 웃지 못했다.

Ashutosh SinghalAshutosh Singhal2026년 2월 2일14 min

11월 어느 늦은 저녁, 사무실에 앉아 있는데 동료가 링크 하나를 보내왔다. "이건 꼭 봐야 해." 코카콜라의 2025년 "홀리데이는 다가온다(Holidays Are Coming)" 광고였다 — 전부 AI로 생성된 그 광고 말이다. 나는 두 번 봤다. 처음 봤을 때는 뭔가 잘못됐다는 느낌은 들었지만 그게 무엇인지 짚어낼 수 없었다. 두 번째로 봤을 때, 알 수 있었다.

트럭은 빨갰다. 눈은 반짝였다. 북극곰들은 화면을 가로질러 육중하게 걸어갔다. 그리고 그 어느 것도 중요하지 않았다. 그 광고 속 모든 미소가 눈빛만은 죽어 있었기 때문이다.

그 광고는 베리프라즈나(Veriprajna)에서의 우리 작업에서 가장 중요한 사례 연구가 되었다 — 그것이 형편없었기 때문이 아니라, 거의 훌륭했기 때문이다. 그리고 "거의 훌륭한" 지점이야말로 브랜드가 죽으러 가는 곳이다. 이 코카콜라 AI 광고는 내가 "LLM 래퍼(Wrapper)"라고 부르는 것 — 즉 Sora나 Runway 같은 기반 모델 위에 근사한 인터페이스만 씌워 놓고 이를 프로덕션 파이프라인이라 부르는 것 — 의 시대가, 자신의 평판을 소중히 여기는 모든 브랜드에게 끝났음을 보여주는 가장 명확한 신호다. 전적으로 AI로 만든 광고에 대한 신뢰도는 13%에 머문다. 인간과 공동 창작한 경우는? 48%다. 그 격차는 반올림 오차가 아니다. 그것은 심연이다.

이 에세이는 그 심연의 반대편에 있는 것에 관한 것이다: 바로 인간의 의도가 기계의 속도를 통제하는 하이브리드 AI 워크플로다. 이것은 우리가 베리프라즈나에서 구축해 온 접근법이며, 합성 미디어의 시대에 브랜드 자산을 지킬 수 있다고 내가 믿는 유일한 아키텍처다.

주술을 깨뜨린 광고

코카콜라 참사에 대해 대부분의 사람들이 놓친 점이 여기 있다. 그것은 값싸게 만든 것이 아니었다. 게으르게 만든 것도 아니었다. 제작팀은 단 하나의 30초짜리 광고를 조합하기 위해 7만 개가 넘는 영상 클립을 생성한 것으로 전해진다. 두 개의 스튜디오 — Secret Level과 Silverside AI — 가 참여했다. 코카콜라의 생성형 AI 책임자는 이번 작업의 완성도가 이전 AI 시도보다 "열 배는 더 낫다"고 공개적으로 주장했다.

그런데도 대중은 여전히 그것을 싫어했다.

댓글들은 가혹했다. "영혼이 없다." "디스토피아 같다." 내가 개인적으로 가장 좋아한 것은, 배신당한 팬만이 낼 수 있는 종류의 분노가 뚝뚝 묻어나는 이 댓글이다: "코카콜라가 빨간 이유는 일자리를 잃은 예술가들의 피로 만들어졌기 때문이다."

나는 팀원들과 함께 그 광고를 프레임 단위로 돌려보며 무엇이 정확히 실패하고 있는지 명확히 표현해 보려 했던 것을 기억한다. 우리 디자이너 중 한 명이 화면을 가리키며 말했다. "이 장면의 트럭 바퀴 개수가 3초 전과 다르네요." 그녀 말이 맞았다. 우리는 세어보기 시작했다. 컷과 컷 사이에서 운전석 형태가 바뀌었다. 차체는 마치 호버크래프트처럼 눈 위를 떠다녔다 — 서스펜션도, 무게감도, 마찰도 없이.

하지만 진짜 문제는 트럭이 아니었다. 문제는 사람들이었다. 아니, 더 정확히는 사람 아닌 것들이었다.

AI는 왜 미소 짓지 못하는가?

이것은 나를 아직도 빠져나오는 중인 연구의 토끼굴로 밀어 넣은 질문이다. 진정한 인간의 미소는 단순한 입 모양이 아니다. 그것은 안륜근(orbicularis oculi) — 눈 주위 근육 — 의 불수의적 수축을 수반하며, 심리학자들이 "뒤센 표지(Duchenne marker)"라 부르는 것을 만들어낸다. 그것은 눈까지 닿는 미소와 입술에서 멈추는 미소의 차이다. 우리는 그 차이를 의식적으로 표현하지 못하더라도 생물학적으로 감지하도록 배선되어 있다.

확산 모델(Diffusion model)은 이것을 모른다. 그것들은 해부학적 규칙이 아니라 픽셀 단위 확률 분포에 따라 작동한다. 그것들은 "미소"라고 태그된 수백만 장의 이미지를 보고 미소의 기하학적 형태를 재현하는 법을 배웠다. 그러나 그것들은 미소의 물리(physics)를 재현하지는 못한다.

생성 모델은 시각적으로는 그럴듯하지만 감정적으로는 공허한 콘텐츠를 만들어낸다. 우리는 이것을 "미학적 환각(Aesthetic Hallucination)"이라 부른다 — 이미지는 올바르게 보이지만, 느낌은 잘못됐다.

그 용어 — 미학적 환각 — 은 우리가 베리프라즈나에서 이 특정한 실패 양상을 설명하기 위해 만들어낸 말이며, 나는 이것이 지금 당장 모든 브랜드 리더가 이해해야 할 가장 중요한 개념이라고 생각한다. 그것은 해상도나 렌더링 품질에 관한 문제가 아니다. 그것은 진짜처럼 보이는 것과 진짜처럼 느껴지는 것 사이의 간극에 관한 문제다. 코카콜라 광고에는 아름다운 질감이 있었다. 반짝이는 눈. 크롬에 튕겨 나오는 빛. 그리고 소름 끼치게 만드는 미소들.

2025년에 발표된 바이트댄스(ByteDance) 연구의 한 논문은 우리가 실무에서 목격하던 것을 확인해 주었다: Sora나 Gen-3 같은 영상 생성 모델은 뉴턴 물리학을 학습하지 않는다. 그것들은 시각적 전환을 암기한다. 그것들은 트럭이 달리는 겉모습은 재현할 수 있다 — 수천 개의 주행 영상을 봤기 때문이다 — 하지만 서스펜션이나 마찰이나 무게는 이해하지 못한다. 연구자들은 이 모델들이 제대로 다루는 것들의 위계를 발견했다: 색 > 크기 > 속도 > 형태. 색은 거의 항상 정확하다 — 그래서 완벽한 코카콜라 빨강이 나온다. 형태는 모든 것이 무너지는 지점이다. 모델은 모든 프레임에서 트럭이 빨갛도록 보장하지만, 통일된 3D 표현 없이 잠재 공간의 덩어리 단위로 영상을 생성하기 때문에 바퀴가 몇 개인지는 "잊어버린다".

이것이 AI가 생성한 음료 광고 속 액체가 수은처럼 보이는 이유다. 모델은 캐러멜 색은 완벽하게 잡아내지만 부피 보존이라는 개념이 없다. 그것은 액체가 유리잔 안에서 나타났다 사라졌다 할 수 없다는 것을 모른다.

"프롬프트 후 기도하기"란 실제로 어떤 모습인가?

"프롬프트 후 기도(Prompt & Pray)" 워크플로(코카콜라의 방식)와 "휴먼 인 더 루프(Human-in-the-Loop)" 워크플로(베리프라즈나의 방식)를 나란히 대조하는 다이어그램으로, 왜 하나는 실패하고 다른 하나는 성공하는지 보여준다.

나는 코카콜라의 워크플로가 실제로 무엇이었는지 구체적으로 말하고 싶다. 그것을 이해하면 왜 그것이 실패했는지 알 수 있기 때문이다.

팀은 생성형 영상 도구에 프롬프트를 입력했다. 도구는 클립을 만들어냈다. 팀은 그 수천 개의 클립을 지켜보며, 이어 붙일 만큼 충분히 일관성 있어 보이는 것들을 찾기를 바랐다. 이것이 내가 "프롬프트 후 기도" 방법론이라 부르는 것이며, 내가 AI 영상 제작의 "래퍼 시대"라고 여기는 것에서 지배적인 접근법이다. 원하는 것에 대한 설명을 쓴다. 생성 버튼을 누른다. 손가락을 꼬고 행운을 빈다.

7만 개의 클립. 30초를 위해서.

그 숫자가 나를 괴롭혔다. 그것은 창작 과정이 큐레이션 작업으로 전락했음을 의미했다 — 환각의 바다를 헤집으며 가장 덜 잘못돼 보이는 몇 개를 찾아내는 일 말이다. 감독은 연출하고 있지 않았다. 감독은 걸러내고 있었다. 그 둘 사이에는 하늘과 땅 차이가 있다.

Silverside AI의 제작자들은 반발에 대해 질문받자, 그것을 토이 스토리(Toy Story)에서 CGI에 대한 초기 저항에 비유했다. 나는 이 비유가 거의 모욕적일 만큼 틀렸다고 느꼈다. 토이 스토리는 다른 어떤 방식으로도 전할 수 없는 이야기 — 장난감들의 내면 — 를 전하기 위해 기술을 사용했다. 코카콜라는 30년 전 실사 특수효과로 이미 더 잘 전해졌던 이야기를 다시 전하기 위해 기술을 사용했다. AI는 아무것도 더하지 않았다. 그것은 인간성을 뺐다.

서사는 "코카콜라는 혁신적이다"에서 "코카콜라는 값싸다"로 옮겨 갔다. 그것은 기술 쇼케이스로 포장된 브랜드 자산의 재앙이다.

나는 이 역학에 대해 훨씬 더 깊이 다뤘다 — 우리 연구의 인터랙티브 버전에서, 여기에는 Toys 'R' Us 사례도 포함되어 있다 — AI로 생성된 아역 배우가 너무나 본능적인 거부감을 불러일으켜 하룻밤 사이에 브랜드 감성이 곤두박질친 사례 말이다.

나이키의 AI 광고는 왜 칸 그랑프리를 수상했는가?

이 부분이 나에게 희망을 주는 대목이다.

브랜드들이 AI가 만든 조잡한 결과물로 난도질당하던 것과 비슷한 시기에, 나이키는 창립 50주년을 기념해 "Never Done Evolving(진화를 멈추지 않는다)"을 공개했다. 콘셉트는 1999년의 세리나 윌리엄스와 2017년의 세리나 윌리엄스 사이의 테니스 경기를 시뮬레이션하는 것이었다. 그것은 칸에서 그랑프리를 수상했다. 만장일치의 찬사. 반발은 없었다.

차이는 예산이 아니었다. 그것은 아키텍처였다.

나이키는 AI에게 세리나를 상상해 보라고 하지 않았다. 그들은 머신러닝 모델에 그녀의 실제 경기 아카이브 영상 — 수년치 — 을 입력했고, 이를 활용해 그녀 커리어의 여러 시점에서의 속도, 샷 선택, 반응성을 분석했다. AI는 현실에 기반해 가능성을 계산했다. 그것은 조작 엔진이 아니라 타임머신이었다. 스탠퍼드의 "vid2player" 기법은 테니스 물리에 대한 도메인 지식을 바탕으로 행동적으로 정확한 선수 스프라이트를 생성했다. 그런 다음 인간 합성가와 편집자들이 시각적 충실도와 서사적 완급을 보장했다.

AI는 움직임과 경기 논리를 생성했다. 인간은 그것이 나이키 프로덕션처럼 보이고 느껴지도록 보장했다.

이것이 바로 그 모델이다. 이것이 효과가 있는 방식이다. 그리고 이것이 우리가 베리프라즈나에서 지향해 온 것이다.

브랜드의 영혼을 잃지 않으면서 AI를 어떻게 사용할 것인가?

AI가 사전 제작, 제작, 후반 제작에서 각각 어떻게 다른 역할을 하는지를 정확히 보여주는 3단계 파이프라인 다이어그램으로, 각 단계마다 구체적인 도구와 기법이 표시되어 있다.

나는 이 질문을 끊임없이 받는다. 대개 코카콜라 헤드라인을 보고 다음 차례가 될까 봐 겁에 질렸으면서도, 경쟁사들이 AI를 무시하지 않을 것이기에 자신들도 AI를 완전히 무시할 수 없다는 것을 아는 CMO들에게서 말이다.

내 대답은 언제나 똑같다: AI가 최종 픽셀을 렌더링하게 두지 마라.

베리프라즈나에서 우리는 우리가 휴먼 인 더 루프(Human-in-the-Loop) 아키텍처라 부르는 것을 구축했다. 그것은 철학이 아니다. 그것은 모든 계층에 인간의 체크포인트를 둔 문자 그대로의 프로덕션 파이프라인이다. 원칙은 단순하다: 인간의 의도가 기계의 실행을 통제해야 한다. 그 반대가 아니라.

실제로 그것은 세 단계로 나뉘며, AI는 각 단계에서 다른 역할을 한다.

사전 제작 단계에서 AI는 몽상가다. 우리는 실시간 시각화를 위해 Krea AI 같은 도구를 사용한다 — 디자이너가 레이아웃을 스케치하면 그것이 밀리초 단위로 사실적으로 렌더링되어 보인다. 이것은 스토리보드 비용을 60~80% 절감한다. 하지만 아무도 최종 룩에 확정을 짓지 않는다. 감독은 광고를 가상으로 "촬영"하며, 단 한 대의 카메라도 돌아가기 전에 조명과 구도를 즉각적으로 반복 실험한다.

제작 단계에서 인간은 중요한 것을 포착한다. 감정적 울림이 필요한 것 — 얼굴, 제품 상호작용, 진정한 인간적 교감의 순간 — 은 무엇이든 우리는 실제 인재를 촬영한다. 우리는 내가 "샌드위치 기법"이라 부르는 것을 사용한다: 히어로 요소(배우, 제품)를 그린 스크린이나 LED 볼륨에서 촬영한 다음, AI를 사용해 그 LED 벽에 투사할 고충실도 배경을 생성한다. 배우는 합성된 장면에서 나오는 실제 빛과 상호작용한다. 감정은 진짜다. 환경은 생성된 것이다.

후반 제작 단계에서 AI는 조각가가 된다. 이것이 딥 AI가 빛을 발하는 지점이다 — 텍스트-투-비디오 생성이 아니라, 비디오-투-비디오 변환 말이다. 우리는 실제 배우를 합성 환경에 합성해 넣는다. 우리는 맞춤 학습된 LoRA(Low-Rank Adaptation, 저순위 적응) 모델 — 브랜드의 특정 촬영 스타일로 학습된 경량 파일 — 을 사용해 일관된 브랜드 미학을 적용한다. 나이키 같은 고객을 위해서라면, 우리는 그들의 20년치 시각 언어로 LoRA를 학습시킬 것이다. AI가 생성한 모든 프레임이 나이키 광고처럼 느껴지는 이유는 모델이 그 브랜드 코드를 내재화했기 때문이다.

그리고 우리는 ControlNet을 사용해 기하 구조를 고정한다. 프롬프트가 제품의 정확한 형태를 보존해 주기를 바라는 대신, 우리는 네트워크에 실제 제품의 캐니 엣지 맵(Canny Edge Map)이나 뎁스 맵(Depth Map)을 입력한다. AI는 정확한 실루엣 주변을 생성한다. 조명과 배경은 생성적일 수 있지만, 제품은 수학적으로 완벽하게 유지된다 — 프롬프트만 쓰는 주사위 던지기에 비해 94.2%의 구조적 무결성을 달성한다.

"깜빡이는 트럭" 문제를 실제로 유발하는 것은 무엇인가?

전문 용어로는 시간적 비일관성(temporal inconsistency)이며, 이것은 엔터프라이즈 AI 영상의 가장 큰 단일 장벽이다. 이것이 코카콜라 트럭이 컷 사이에서 형태가 바뀐 이유다. 이것이 AI가 생성한 캐릭터가 고개를 돌릴 때 모습이 변형되는 이유다. 모델은 프레임 전반에 걸쳐 물체에 대한 통일된 표현을 유지하지 못한다 — 그것은 매번 처음부터 다시 생성하며, 각각의 재생성은 새로운 확률적 주사위 던지기다.

우리는 이것을 비디오 일관성 거리(Video Consistency Distance, VCD)라는 지표로 해결하며, 이를 우리의 파인튜닝 과정에 통합한다. VCD는 조건화 이미지와 생성된 프레임 사이의 주파수 영역 거리를 측정한다. 학습 중에 높은 VCD 값에 페널티를 부과함으로써, 우리는 모델이 일관성을 우선하도록 강제한다. 이런 방식으로 파인튜닝된 모델은 표준 벤치마크에서 95.22%의 피사체 일관성96.32%의 배경 일관성을 달성한다.

물체 항상성 — 사람이 나무 뒤로 걸어가면 모델이 그 존재를 잊어버리는 문제 — 을 위해, 우리는 NeRF(신경 방사장, Neural Radiance Fields) 통합을 사용해 AI 생성을 3D 프록시 장면에 앵커링한다. AI는 3D 블록아웃에 "스킨을 입혀", 전통적 CGI의 기하학적 논리를 생성형 AI의 미학적 유연성과 결합한다.

모드 붕괴(mode collapse)와 잠재 공간 조작에 대한 우리의 접근법을 포함해, 이 파이프라인들의 완전한 기술적 분석은 우리 연구 논문을 참조하라.

내가 계속 하게 되는 논쟁

지난 한 해 동안 아마 쉰 번쯤 나눴을 대화가 있다. 그것은 대개 누군가 이렇게 말하며 시작된다. "하지만 모델은 더 나아질 겁니다. 2년 뒤면 Sora가 이 모든 걸 할 수 있게 될 거예요."

어쩌면. 어쩌면 그럴 수도, 심지어 특정한 좁은 작업들에 대해서는. 하지만 이 주장은 요점을 완전히 놓친다.

질문은 결코 "AI가 기술적으로 흠 없는 영상을 생성할 수 있는가?"가 아니었다. 질문은 "당신 브랜드의 감정적 정체성이 확률 분포의 함수여야 하는가?"이다.

설령 깜빡이는 트럭이 고쳐지고 죽어 있던 눈이 주름 짓는 법을 배운다 해도, 당신에게는 여전히 신뢰의 문제가 남는다. 소비자의 44%는 AI가 생성한 콘텐츠에 적극적으로 거부감을 느낀다. NielsenIQ는 세련되게 다듬어진 AI 광고조차 "부정적 후광 효과"를 유발한다는 것을 발견했다 — 시각적 품질이 높을 때조차 시청자들은 그것들을 "짜증 난다", "지루하다", "혼란스럽다"고 평했다. 그 피해는 개별 캠페인을 넘어 브랜드 자체로 확장된다.

도브(Dove)는 하나의 캠페인 전체 — "The Code(코드)" — 를 인간 신체에 대한 AI 왜곡을 거부하는 것을 중심으로 구축했다. 그것은 막대한 브랜드 자산의 승리였다. 그들은 위협을 차별화 요소로 바꿔놓았다. 뷰티, 식품, 웰니스, 럭셔리 같은 카테고리에서 "진짜"는 한계가 아니다. 그것은 프리미엄이다.

AI로 승리하는 브랜드들은 그것을 인간성을 대체하는 데 쓰지 않는다. 그들은 그것을 이전에는 전할 여력이 없던 이야기들을 증폭하는 데 쓴다.

하인즈(Heinz)는 이것을 훌륭하게 입증했다. 그들은 AI에게 "케첩" 이미지를 생성하라고 요청했고, 모든 모델이 하인즈 병을 기본값으로 내놓는다는 것을 보여줬다. 그들은 AI의 편향을 브랜드 지배력의 증거로 바꿨다. 환각이 곧 기능이 되었다. 그것은 투명했고, 재미있었으며, 효과가 있었다 — 브랜드가 누구를 속이려 한 것이 아니라 그 농담에 함께 끼어 있었기 때문이다.

내가 밤잠을 설치는 이유를 고백하는 대목

한 가지 솔직하게 말하겠다. 나를 걱정시키는 것은 AI 영상이 계속 형편없을 것이라는 점이 아니다. 그것이 딱 충분히 괜찮아져서 게으른 브랜드들이 그것으로 만족해 버리고, 시장이 기술적으로는 봐줄 만하지만 감정적으로는 공허한 콘텐츠로 넘쳐나게 될 것이라는 점이다. 사람들이 이미 쓰고 있는 용어는 "AI 슬롭(AI slop)"이다 — 아무것도 말하지 않으면서 피드를 채우는, 대량 생산되고 노력은 적게 든 합성 콘텐츠 말이다.

내 두려움은 정상화다. 소비자들이 완성도에 대한 기대를 멈춰 버릴 것이라는 것. 한 세대의 시청자들이 그 플라스틱 같은 광택과 죽어 있는 눈이 그냥 광고의 원래 모습이라고 생각하며 자랄 것이라는 것.

우리는 몇 달 전 이것에 관해 팀 회의를 했는데, 그것이 진짜 논쟁으로 번졌다. 우리 엔지니어 중 한 명은 소비자들이 적응할 것이라고 — 노출이 늘수록 언캐니 밸리(uncanny valley)가 줄어들 것이라고 — 주장했다. 우리 크리에이티브 디렉터는 강하게 반박했다. "사람들은 패스트푸드가 사방에 깔렸다고 해서 형편없는 음식에 적응하지 않았어요." 그녀가 말했다. "그들은 품질에 대한 취향을 길렀죠. 여기서도 똑같은 일이 일어날 겁니다."

나는 그녀가 옳다고 생각한다. 데이터가 그녀를 뒷받침한다. 코카콜라에 대한 반발은 소수의 AI 회의론자 집단에서 나온 것이 아니었다. 그것은 주류였다. 소비자들은 합성 콘텐츠에 대한 육감을 발달시키고 있으며, 들켰을 때의 대가는 편법으로 아낀 비용보다 훨씬 가파르다.

다음 개척지 — 연구자들이 "월드 모델(World Models)"이라 부르는 것 — 은 결국 AI에게 단순한 픽셀이 아닌 물리에 대한 이해를 부여할 것이다. 바이트댄스는 2026~2027년경 의미 있는 진전을 예상한다. 그때까지는 하이브리드 워크플로가 유일하게 안전한 다리다. 그것은 당신이 오늘날 AI의 렌더링 능력을 활용하면서도, 오직 인간 창작자만이 지닌 물리적·감정적 지능을 빌려 쓸 수 있게 해준다.

실제로 중요한 질문

내가 이야기를 나누는 모든 엔터프라이즈 리더는 똑같은 질문을 한다: "AI가 제작 비용을 얼마나 아껴줄 수 있나요?"

그것은 잘못된 질문이다. 그것은 곧장 언캐니 밸리로 이어진다 — 7만 개의 생성된 클립과, 사람들에게 아무런 감흥도 주지 못하는 30초짜리 광고로 말이다.

올바른 질문은 이것이다: "이전에는 전할 여력이 없던 어떤 이야기들을 AI가 우리가 전하도록 도와줄 수 있는가?"

나이키는 "Never Done Evolving"으로 돈을 아끼지 않았다. 그들은 넉넉히 썼다. 하지만 그들은 AI 없이는 불가능했을 무언가를 창조했다 — 18년의 세월로 갈라진, 같은 선수의 두 버전 사이의 경기를 말이다. 그것은 비용 최적화가 아니다. 그것은 창의적 확장이다.

AI가 어떻게 당신의 제작을 더 싸게 만들 수 있는지 묻기를 멈춰라. AI가 어떻게 당신의 스토리텔링을 더 대담하게 만들 수 있는지 묻기 시작하라.

신기함의 국면은 끝났다. "AI가 만든 것 좀 봐"는 더 이상 누구에게도 감흥을 주지 못한다. 새로운 기준 — 2026년 이후에 유일하게 중요할 기준 — 은 "우리가 AI로 만든 것 좀 봐"이다. 방점은 정확히 그 우리에 찍힌다.

이것을 이해하는 브랜드들은 전설을 만들어낼 것이다. 이해하지 못하는 브랜드들은 수백만 달러를 들여 알고리즘에게 미소 짓는 법을 가르치고는, 왜 아무도 미소로 화답하지 않는지 의아해할 것이다.

Related Research

Also Published On