
צפיתי בקוקה-קולה מוציאה מיליונים כדי ללמד בינה מלאכותית לחייך. הבינה המלאכותית לא הצליחה.
ישבתי במשרד שלי מאוחר בערב אחד בנובמבר כשעמית שלח לי לינק. "אתה חייב לראות את זה." זו הייתה הפרסומת של קוקה-קולה לשנת 2025, "החגים מגיעים" — זו שנוצרה כולה על ידי בינה מלאכותית. צפיתי בה פעמיים. בפעם הראשונה משהו הרגיש לא נכון אבל לא הצלחתי להצביע עליו. בפעם השנייה כבר יכולתי.
המשאיות היו אדומות. השלג נצץ. דובי הקוטב התנהלו בכבדות על פני המסך. וכל זה לא היה משנה, כי כל חיוך בפרסומת הזו היה מת מאחורי העיניים.
הפרסומת הזו הפכה לחקר המקרה החשוב ביותר בעבודה שלנו ב-VeriPrajna — לא כי היא הייתה גרועה, אלא כי היא הייתה כמעט טובה. ו"כמעט טובה" זה המקום שבו מותגים הולכים למות. פרסומת הבינה המלאכותית של קוקה-קולה היא האות הברור ביותר שראיתי לכך שעידן מה שאני מכנה "מעטפת ה-LLM" — הצמדת ממשק נחמד מעל מודל יסוד כמו Sora או Runway וקריאה לזה צינור ייצור — הסתיים עבור כל מותג שאכפת לו מהמוניטין שלו. האמון בפרסומות שנוצרו כולן על ידי בינה מלאכותית עומד על 13%. נוצרו במשותף עם בני אדם? 48%. הפער הזה אינו שגיאת עיגול. זו תהום.
המסה הזו עוסקת במה שנמצא בצד השני של אותה תהום: זרימות עבודה היברידיות של בינה מלאכותית, שבהן כוונה אנושית שולטת במהירות המכונה. זו הגישה שאנחנו בונים ב-VeriPrajna, וזו הארכיטקטורה היחידה שאני מאמין שיכולה להגן על ערך המותג בעידן המדיה הסינתטית.
הפרסומת ששברה את הכישוף
הנה מה שרוב האנשים פספסו בנוגע לפדיחה של קוקה-קולה. זה לא היה זול. זה לא היה עצלני. על פי הדיווחים, צוות ההפקה יצר מעל 70,000 קליפי וידאו כדי להרכיב פרסומת אחת באורך 30 שניות. שני אולפנים — Secret Level ו-Silverside AI — היו מעורבים. ראש תחום הבינה המלאכותית הגנרטיבית של קוקה-קולה טען בפומבי שהמלאכה הייתה "פי עשרה טובה יותר" מהניסיון הקודם שלהם בבינה מלאכותית.
והציבור עדיין שנא את זה.
התגובות היו אכזריות. "חסר נשמה." "דיסטופי." האהובה עליי במיוחד, שנוטפת מהסוג של הזעם שרק מעריץ שנבגד יכול לגייס: "קוקה-קולה אדומה כי היא עשויה מדמם של אמנים מובטלים."
אני זוכר שהעליתי את הפרסומת פריים אחר פריים עם הצוות שלי, מנסה לנסח בדיוק מה נכשל. אחד המעצבים שלנו הצביע על המסך ואמר: "למשאית יש מספר גלגלים שונה בשוט הזה ממה שהיה לפני שלוש שניות." הוא צדק. התחלנו לספור. צורת התא השתנתה בין הקאטים. השלדה ריחפה מעל השלג כמו רחפת — ללא מתלים, ללא העברת משקל, ללא חיכוך.
אבל הבעיה האמיתית לא הייתה המשאיות. אלה היו האנשים. או ליתר דיוק, הלא-אנשים.
למה בינה מלאכותית לא יכולה לחייך?
זו השאלה ששלחה אותי למחילת ארנב של מחקר שאני עדיין מטפס ממנה החוצה. חיוך אנושי אמיתי אינו רק צורת פה. הוא כרוך בהתכווצות בלתי-רצונית של orbicularis oculi — השריר סביב העין — היוצרת את מה שפסיכולוגים מכנים "סמן דושן". זה ההבדל בין חיוך שמגיע עד העיניים לבין כזה שנעצר בשפתיים. אנחנו מחווטים ביולוגית לזהות את ההבדל, גם אם איננו יכולים לנסח אותו במודע.
מודלי דיפוזיה אינם יודעים זאת. הם פועלים על התפלגויות הסתברות ברמת הפיקסל, לא על חוקים אנטומיים. הם ראו מיליוני תמונות מתויגות "חיוך" ולמדו לשחזר את הגיאומטריה של חיוך. אבל הם אינם יכולים לשחזר את הפיזיקה שלו.
מודלים גנרטיביים מייצרים תוכן סביר מבחינה ויזואלית אך חלול מבחינה רגשית. אנחנו מכנים זאת "הזיה אסתטית" — התמונה נראית נכונה, אך היא מרגישה לא נכונה.
המונח הזה — הזיה אסתטית — הוא משהו שטבענו ב-VeriPrajna כדי לתאר את מצב הכשל הספציפי הזה, ואני חושב שזה הרעיון החשוב ביותר שכל מנהיג מותג צריך להבין כרגע. זה לא עניין של רזולוציה או איכות רינדור. זה עניין של הפער בין מה שנראה אמיתי לבין מה שמרגיש אמיתי. לפרסומת של קוקה-קולה היו טקסטורות יפהפיות. שלג שנצץ. אור שהקפיץ מהכרום. וחיוכים שגרמו לעורך לסמור.
מחקר של ByteDance Research שפורסם ב-2025 אישר את מה שראינו בפועל: מודלים ליצירת וידאו כמו Sora ו-Gen-3 אינם לומדים פיזיקה ניוטונית. הם משננים מעברים ויזואליים. הם יכולים לשחזר את המראה של משאית נוסעת כי הם ראו אלפי סרטוני נסיעה, אבל הם אינם מבינים מתלים, חיכוך או משקל. החוקרים מצאו היררכיה של מה שמודלים אלה קולעים בו נכון: צבע > גודל > מהירות > צורה. צבע כמעט תמיד מדויק — ומכאן האדום המושלם של קוקה-קולה. הצורה היא המקום שבו הדברים מתפרקים. המודל מוודא שהמשאית אדומה בכל פריים אך "שוכח" כמה גלגלים יש לה כי הוא מייצר וידאו במקטעים לטנטיים ללא ייצוג תלת-ממדי מאוחד.
זו הסיבה שהנוזל בפרסומות משקאות שנוצרו על ידי בינה מלאכותית נראה כמו כספית. המודל קולע בצבע הקרמל בול אך אין לו מושג בשימור נפח. הוא אינו יודע שנוזל אינו יכול להופיע ולהיעלם בתוך כוס.
איך באמת נראה "תנחש ותתפלל"?

אני רוצה להיות קונקרטי לגבי מה הייתה זרימת העבודה של קוקה-קולה בפועל, כי הבנה שלה מסבירה מדוע היא נכשלה.
הצוות הקליד פרומפטים לתוך כלים גנרטיביים ליצירת וידאו. הכלים ייצרו קליפים. הצוות צפה באלפי הקליפים האלה, בתקווה למצוא כאלה שנראו קוהרנטיים מספיק כדי לחתוך אותם יחד. זה מה שאני מכנה מתודולוגיית "תנחש ותתפלל", וזו הגישה הדומיננטית במה שאני מחשיב כ"עידן המעטפת" של הפקת וידאו בבינה מלאכותית. אתה כותב תיאור של מה שאתה רוצה. אתה לוחץ על יצירה. אתה מצליב אצבעות.
שבעים אלף קליפים. עבור שלושים שניות.
המספר הזה רדף אותי. משמעותו שהתהליך היצירתי צומצם למשימת אוצרות — סינון של אוקיינוס של הזיות כדי למצוא את המעטים שנראו הכי פחות שגויים. הבמאי לא ביים. הבמאי סינן. יש עולם שלם של הבדל.
כאשר היוצרים ב-Silverside AI נשאלו על התגובות הזועמות, הם השוו זאת להתנגדות המוקדמת ל-CGI בToy Story. מצאתי את ההשוואה הזו שגויה כמעט באופן פוגעני. Toy Story השתמש בטכנולוגיה כדי לספר סיפור שלא ניתן היה לספר בשום דרך אחרת — חיי הפנים של צעצועים. קוקה-קולה השתמשה בטכנולוגיה כדי לספר מחדש סיפור שכבר סופר טוב יותר עם אפקטים מעשיים לפני שלושים שנה. הבינה המלאכותית לא הוסיפה דבר. היא החסירה אנושיות.
הנרטיב עבר מ"קוקה-קולה חדשנית" ל"קוקה-קולה זולה". זו קטסטרופה של ערך מותג עטופה כתצוגת טכנולוגיה.
כתבתי על הדינמיקה הזו לעומק רב הרבה יותר בגרסה האינטראקטיבית של המחקר שלנו, כולל המקרה של Toys 'R' Us — שבו שחקן ילד שנוצר על ידי בינה מלאכותית עורר דחייה כה קרביית עד שסנטימנט המותג צנח בן לילה.
מדוע פרסומת הבינה המלאכותית של Nike זכתה ב-Grand Prix בקאן?
זה החלק בסיפור שמעניק לי תקווה.
בערך באותו זמן שבו מותגים נהרסו בגלל תוכן פסולת שנוצר על ידי בינה מלאכותית, Nike השיקה את "Never Done Evolving" לרגל יום השנה ה-50 שלה. הרעיון: לדמות משחק טניס בין סרינה ויליאמס של 1999 לסרינה ויליאמס של 2017. היא זכתה ב-Grand Prix בקאן. שבחים אוניברסליים. ללא תגובות זועמות.
ההבדל לא היה תקציב. הוא היה ארכיטקטורה.
Nike לא ביקשה מבינה מלאכותית לדמיין את סרינה. הם הזינו מודל למידת מכונה בצילומי ארכיון אמיתיים של המשחק שלה — שנים של צילומים — והשתמשו בו כדי לנתח את המהירות שלה, בחירת החבטות והתגובתיות בנקודות שונות בקריירה שלה. הבינה המלאכותית חישבה אפשרויות המבוססות על מציאות. זו הייתה מכונת זמן, לא מנוע פבריקציה. טכניקת ה"vid2player" של סטנפורד יצרה ספרייטים של שחקנית מדויקים התנהגותית המבוססים על ידע תחומי של פיזיקת הטניס. לאחר מכן קומפוזיטורים ועורכים אנושיים הבטיחו את הנאמנות הוויזואלית ואת קצב הנרטיב.
הבינה המלאכותית יצרה את התנועות ואת לוגיקת המשחק. בני אדם הבטיחו שזה נראה ומרגיש כמו הפקה של Nike.
זה המודל. זה מה שעובד. וזה מה שאנחנו בונים לקראתו ב-VeriPrajna.
כיצד משתמשים בבינה מלאכותית מבלי לאבד את נשמת המותג?

שואלים אותי את השאלה הזו כל הזמן. בדרך כלל על ידי מנהלי שיווק ראשיים שראו את הכותרות על קוקה-קולה ומפוחדים מלהיות הבאים בתור, אך שגם יודעים שהם אינם יכולים להתעלם מבינה מלאכותית לחלוטין כי המתחרים שלהם לא יתעלמו.
התשובה שלי תמיד זהה: אל תיתן לבינה מלאכותית לרנדר את הפיקסל הסופי.
ב-VeriPrajna בנינו את מה שאנחנו מכנים ארכיטקטורת "אדם בתוך הלולאה". זו אינה פילוסופיה. זהו צינור ייצור ממשי עם נקודות בקרה אנושיות בכל שכבה. העיקרון פשוט: כוונה אנושית חייבת לשלוט בביצוע המכונה. לא להיפך.
בפועל, זה מתפרק לשלושה שלבים, והבינה המלאכותית ממלאת תפקיד שונה בכל אחד מהם.
בקדם-הפקה, הבינה המלאכותית היא החולמת. אנחנו משתמשים בכלים כמו Krea AI להדמיה בזמן אמת — מעצב משרטט פריסה ורואה אותה מרונדרת בצורה פוטו-ריאליסטית תוך אלפיות שנייה. זה חותך את עלויות הסטוריבורד ב-60–80%. אבל אף אחד לא מתחייב למראה סופי. הבמאי "מצלם" את הפרסומת באופן וירטואלי, מבצע איטרציות על תאורה והרכב באופן מיידי, לפני שמצלמה אחת מתגלגלת.
בהפקה, בני אדם לוכדים את מה שחשוב. עבור כל דבר הדורש תהודה רגשית — פנים, אינטראקציה עם מוצר, רגע של חיבור אנושי אמיתי — אנחנו מצלמים כישרון אמיתי. אנחנו משתמשים במה שאני מכנה "שיטת הסנדוויץ'": מצלמים את אלמנטי הגיבור (השחקן, המוצר) על מסך ירוק או נפחי LED, ואז משתמשים בבינה מלאכותית כדי ליצור רקעים בנאמנות גבוהה המוקרנים על אותם קירות LED. השחקן מקיים אינטראקציה עם אור אמיתי מסצנה סינתטית. הרגש אמיתי. הסביבה נוצרת.
בפוסט-הפקה, הבינה המלאכותית הופכת לפסלת. כאן הבינה המלאכותית העמוקה זורחת — לא יצירת טקסט-לווידאו, אלא טרנספורמציה של וידאו-לווידאו. אנחנו מרכיבים שחקנים אמיתיים לתוך סביבות סינתטיות. אנחנו מיישמים אסתטיקת מותג עקבית באמצעות מודלי LoRA (Low-Rank Adaptation) המאומנים בהתאמה אישית — קבצים קלי-משקל המאומנים על סגנון הצילום הספציפי של מותג. עבור לקוח כמו Nike, היינו מאמנים LoRA על עשרים שנה של השפה הוויזואלית שלהם. כל פריים שנוצר על ידי בינה מלאכותית מרגיש כמו פרסומת של Nike כי המודל הפנים את קודי המותג האלה.
ואנחנו משתמשים ב-ControlNet כדי לנעול את הגיאומטריה. במקום לקוות שפרומפט ישמר את הצורה המדויקת של מוצר, אנחנו מזינים לרשת מפת קצוות Canny או מפת עומק של המוצר הממשי. הבינה המלאכותית מייצרת סביב הצללית המדויקת. תאורה ורקעים יכולים להיות גנרטיביים, אך המוצר נשאר מושלם מתמטית — 94.2% שלמות מבנית בהשוואה להטלת הקוביות של פרומפטינג בלבד.
מה באמת גורם לבעיית "המשאית המהבהבת"?
המונח הטכני הוא חוסר עקביות טמפורלי, וזה המחסום היחיד הגדול ביותר לווידאו ארגוני בבינה מלאכותית. זו הסיבה שהמשאית של קוקה-קולה שינתה צורה בין הקאטים. זו הסיבה שדמויות שנוצרו על ידי בינה מלאכותית משתנות כשהן מסובבות את ראשן. המודל אינו שומר על ייצוג מאוחד של אובייקט לאורך הפריימים — הוא מייצר מחדש מאפס בכל פעם, וכל התחדשות היא הטלה הסתברותית חדשה.
אנחנו פותרים זאת באמצעות מדד הנקרא מרחק עקביות וידאו (VCD), אותו אנחנו משלבים בתהליך הכוונון העדין שלנו. VCD מודד את המרחק במרחב התדר בין תמונת התניה לבין הפריימים שנוצרו. על ידי ענישת ערכי VCD גבוהים במהלך האימון, אנחנו מכריחים את המודל לתעדף קוהרנטיות. מודלים המכווננים בדרך זו משיגים 95.22% עקביות נושא ו-96.32% עקביות רקע במדדי ביצוע סטנדרטיים.
עבור קביעות אובייקט — הבעיה שבה אדם הולך מאחורי עץ והמודל שוכח שהוא קיים — אנחנו מעגנים את יצירת הבינה המלאכותית לסצנות פרוקסי תלת-ממדיות באמצעות שילוב NeRF (Neural Radiance Fields). הבינה המלאכותית "מלבישה עור" על בלוקאאוט תלת-ממדי, ומשלבת את הלוגיקה הגיאומטרית של CGI מסורתי עם הגמישות האסתטית של בינה מלאכותית גנרטיבית.
לפירוט הטכני המלא של הצינורות האלה, כולל הגישות שלנו לקריסת מוד ולמניפולציה של מרחב לטנטי, ראו את מאמר המחקר שלנו.
הוויכוח שאני ממשיך לנהל
יש שיחה שניהלתי כנראה חמישים פעם בשנה האחרונה. בדרך כלל היא מתחילה במישהו שאומר: "אבל המודלים ישתפרו. תוך שנתיים, Sora יוכל לעשות את כל זה."
אולי. כנראה, אפילו, עבור משימות צרות מסוימות. אבל הטיעון הזה מפספס את הנקודה לחלוטין.
השאלה מעולם לא הייתה "האם בינה מלאכותית יכולה ליצור וידאו מושלם מבחינה טכנית?" השאלה היא "האם הזהות הרגשית של המותג שלך צריכה להיות פונקציה של התפלגות הסתברות?"
גם אם המשאיות המהבהבות יתוקנו והעיניים המתות ילמדו לקמט, אתה עדיין נותר עם בעיית האמון. 44% מהצרכנים מוטרדים באופן פעיל מתוכן שנוצר על ידי בינה מלאכותית. NielsenIQ מצאה שאפילו פרסומות בינה מלאכותית מלוטשות גורמות ל"אפקט הילה שלילי" — צופים תייגו אותן כ"מעצבנות", "משעממות" ו"מבלבלות" גם כאשר האיכות הוויזואלית הייתה גבוהה. הנזק חורג מעבר לקמפיין הבודד אל המותג עצמו.
Dove בנתה קמפיין שלם — "The Code" — סביב דחיית עיוות של גופים אנושיים על ידי בינה מלאכותית. זה היה ניצחון עצום של ערך מותג. הם הפכו את האיום ליתרון מבדל. עבור קטגוריות כמו יופי, מזון, בריאות ורווחה, ומותרות, "אמיתי" אינו מגבלה. זה פרימיום.
המותגים שמנצחים עם בינה מלאכותית אינם משתמשים בה כדי להחליף אנושיות. הם משתמשים בה כדי להגביר סיפורים שלא היו יכולים להרשות לעצמם לספר קודם.
Heinz הוכיחה זאת בצורה מבריקה. הם ביקשו מבינה מלאכותית ליצור תמונות של "קטשופ" והראו שכל מודל כברירת מחדל הגיע לבקבוק Heinz. הם הפכו את ההטיה של הבינה המלאכותית להוכחה של דומיננטיות המותג. ההזיה הייתה הפיצ'ר. זה היה שקוף, מצחיק, וזה עבד כי המותג היה שותף לבדיחה במקום לנסות לרמות מישהו.
החלק שבו אני מודה במה שמונע ממני לישון בלילה
אני אהיה כן לגבי משהו. הדבר שמדאיג אותי אינו שווידאו בבינה מלאכותית יישאר גרוע. זה שהוא ייעשה בדיוק מספיק טוב כדי שמותגים עצלנים יסתפקו בו, והשוק יוצף בתוכן שהוא סביר מבחינה טכנית אך ריק מבחינה רגשית. המונח שאנשים כבר משתמשים בו הוא "פסולת בינה מלאכותית" — תוכן סינתטי בנפח גבוה ומאמץ נמוך שממלא פידים מבלי לומר דבר.
הפחד שלי הוא נורמליזציה. שהצרכנים יפסיקו לצפות לאומנות. שדור של צופים יגדל מתוך מחשבה שהברק הפלסטי והעיניים המתות הם פשוט איך שפרסומות נראות.
הייתה לנו ישיבת צוות על כך לפני כמה חודשים שהפכה לוויכוח של ממש. אחד המהנדסים שלנו טען שהצרכנים יסתגלו — שהעמק המאוים יצטמצם ככל שהחשיפה תגדל. המנהלת היצירתית שלנו התנגדה בחוזקה. "אנשים לא הסתגלו לאוכל גרוע רק כי אוכל מהיר הגיע לכל מקום," היא אמרה. "הם פיתחו טעם לאיכות. אותו דבר יקרה כאן."
אני חושב שהיא צודקת. הנתונים תומכים בה. התגובה הזועמת נגד קוקה-קולה לא הגיעה מקבוצת נישה של ספקני בינה מלאכותית. היא הייתה מיינסטרים. צרכנים מפתחים חוש שישי לתוכן סינתטי, והעונש על להיתפס תלול יותר מהחיסכון מלקצץ בפינות.
החזית הבאה — מה שחוקרים מכנים "מודלים של עולם" — תעניק בסופו של דבר לבינה מלאכותית הבנה של פיזיקה, לא רק של פיקסלים. ByteDance מעריכה התקדמות משמעותית עד 2026–2027. עד אז, זרימת העבודה ההיברידית היא הגשר הבטוח היחיד. היא מאפשרת לך לרתום את עוצמת הרינדור של הבינה המלאכותית של היום תוך שאילת האינטליגנציה הפיזית והרגשית שרק יוצרים אנושיים מחזיקים בה.
השאלה שבאמת חשובה
כל מנהיג ארגוני שאני מדבר איתו שואל את אותה שאלה: "כמה כסף בינה מלאכותית יכולה לחסוך לנו בהפקה?"
זו השאלה הלא נכונה. היא מובילה ישירות אל העמק המאוים — אל 70,000 קליפים שנוצרו ופרסומת בת 30 שניות שגורמת לאנשים לא להרגיש דבר.
השאלה הנכונה היא: "אילו סיפורים בינה מלאכותית יכולה לעזור לנו לספר שלא היינו יכולים להרשות לעצמנו לספר קודם?"
Nike לא חסכה כסף עם "Never Done Evolving". הם הוציאו לא מעט. אבל הם יצרו משהו בלתי אפשרי ללא בינה מלאכותית — משחק בין שתי גרסאות של אותה ספורטאית המופרדות בשמונה עשרה שנים. זו אינה אופטימיזציה של עלויות. זו הרחבה יצירתית.
הפסיקו לשאול כיצד בינה מלאכותית יכולה להוזיל את ההפקה שלכם. התחילו לשאול כיצד היא יכולה להפוך את הסיפור שלכם לאמיץ יותר.
שלב החידוש נגמר. "תראו מה הבינה המלאכותית יצרה" כבר לא מרשים אף אחד. הסטנדרט החדש — הסטנדרט היחיד שיהיה בעל חשיבות ב-2026 ואילך — הוא "תראו מה אנחנו יצרנו עם בינה מלאכותית." הדגש נופל בבירור על האנחנו.
המותגים שיבינו זאת יבנו אגדות. אלה שלא, יוציאו מיליונים על ללמד אלגוריתם לחייך ויתהו מדוע אף אחד לא מחייך בחזרה.