
شاهدتُ كوكا كولا تنفق الملايين لتعليم الذكاء الاصطناعي أن يبتسم.. فعجز عن ذلك
كنت جالساً في مكتبي في وقت متأخر من إحدى أمسيات نوفمبر عندما أرسل لي أحد الزملاء رابطاً. "عليك أن ترى هذا". كان إعلان كوكا كولا لعام 2025 "الأعياد قادمة" — ذلك الإعلان الذي أُنتج بالكامل بواسطة الذكاء الاصطناعي. شاهدته مرتين. في المرة الأولى، شعرت أن هناك خطأً ما لكنني لم أستطع تحديده. في المرة الثانية، استطعت.
كانت الشاحنات حمراء. والثلج يتلألأ. والدببة القطبية تتهادى عبر الشاشة. ولم يكن شيء من ذلك مهماً، لأن كل ابتسامة في ذلك الإعلان كانت ميتة خلف العيون.
أصبح ذلك الإعلان أهم دراسة حالة في عملنا لدى Veriprajna — ليس لأنه كان سيئاً، بل لأنه كان شبه جيد. و"شبه الجيد" هو المكان الذي تذهب إليه العلامات التجارية لتموت. إن إعلان كوكا كولا المنتَج بالذكاء الاصطناعي هو أوضح إشارة رأيتها على أن عصر ما أسميه "غلاف نموذج اللغة الكبير" (LLM Wrapper) — أي وضع واجهة أنيقة فوق نموذج تأسيسي مثل Sora أو Runway وتسميته خط إنتاج — قد انتهى بالنسبة لأي علامة تجارية تهتم بسمعتها. الثقة في الإعلانات المنتَجة بالكامل بالذكاء الاصطناعي تقف عند 13%. وبمشاركة البشر في صنعها؟ 48%. هذه الفجوة ليست خطأ تقريب. إنها هوّة سحيقة.
هذا المقال يدور حول ما يقع على الجانب الآخر من تلك الهوّة: سير العمل الهجين للذكاء الاصطناعي، حيث تحكم النية البشرية سرعة الآلة. إنه النهج الذي ما فتئنا نبنيه لدى Veriprajna، وهو المعمارية الوحيدة التي أعتقد أنها قادرة على حماية قيمة العلامة التجارية في عصر الوسائط الاصطناعية.
الإعلان الذي كسر السحر
إليك ما فاته معظم الناس بشأن كارثة كوكا كولا. لم يكن رخيصاً. ولم يكن كسولاً. تفيد التقارير بأن فريق الإنتاج ولّد أكثر من 70,000 مقطع فيديو لتجميع لقطة واحدة مدتها 30 ثانية. شارك فيه استوديوهان — Secret Level و Silverside AI. وأصرّ رئيس قسم الذكاء الاصطناعي التوليدي في كوكا كولا علناً على أن الحرفية كانت "أفضل بعشر مرات" من محاولتهم السابقة بالذكاء الاصطناعي.
ومع ذلك لا يزال الجمهور يكرهه.
كانت التعليقات قاسية. "بلا روح". "كابوسية". وأفضّلها شخصياً، تقطر بنوع من الغضب لا يستطيع أن يحمله إلا معجب تعرّض للخيانة: "كوكا كولا حمراء لأنها مصنوعة من دماء الفنانين العاطلين عن العمل".
أتذكّر أنني عرضت الإعلان إطاراً بإطار مع فريقي، محاولاً أن أعبّر بدقة عما كان يفشل. أشار أحد مصممينا إلى الشاشة وقال: "للشاحنة عدد مختلف من العجلات في هذه اللقطة عما كان لها قبل ثلاث ثوانٍ". كانت محقة. بدأنا نعدّ. تغيّر شكل الكابينة بين المقاطع. طاف الهيكل فوق الثلج كأنه حوّامة — بلا نظام تعليق، ولا نقل للوزن، ولا احتكاك.
لكن المشكلة الحقيقية لم تكن في الشاحنات. بل كانت في الناس. أو بالأحرى، في الكائنات التي ليست بشراً.
لماذا لا يستطيع الذكاء الاصطناعي أن يبتسم؟
هذا هو السؤال الذي دفعني إلى دوامة بحثية ما زلت أتسلق للخروج منها. الابتسامة البشرية الحقيقية ليست مجرد شكل للفم. إنها تشمل انقباضاً لا إرادياً في العضلة الدويرية العينية (orbicularis oculi) — العضلة المحيطة بالعين — مُنشئةً ما يسميه علماء النفس "علامة دوشين". إنه الفرق بين ابتسامة تصل إلى العينين وأخرى تتوقف عند الشفتين. نحن مبرمَجون بيولوجياً لاكتشاف الفرق، حتى لو لم نستطع التعبير عنه بوعي.
نماذج الانتشار لا تعرف هذا. إنها تعمل على توزيعات احتمالية على مستوى البكسل، لا على قواعد تشريحية. لقد رأت ملايين الصور الموسومة بـ"ابتسامة" وتعلّمت أن تعيد إنتاج هندسة الابتسامة. لكنها لا تستطيع أن تعيد إنتاج فيزياء الابتسامة.
النماذج التوليدية تنتج محتوى معقولاً بصرياً لكنه أجوف عاطفياً. نسمي هذا "الهلوسة الجمالية" — تبدو الصورة صحيحة، لكنها تُحسّ خاطئة.
هذا المصطلح — الهلوسة الجمالية — هو شيء صغناه لدى Veriprajna لوصف نمط الفشل المحدد هذا، وأعتقد أنه أهم مفهوم يجب أن يفهمه أي قائد علامة تجارية الآن. لا يتعلق الأمر بالدقة أو بجودة العرض. إنه يتعلق بالفجوة بين ما يبدو حقيقياً وما يُحسّ أنه حقيقي. كان إعلان كوكا كولا يحوي مواد سطحية جميلة. ثلجاً يتلألأ. ضوءاً يرتد عن الكروم. وابتسامات تجعل جلدك يقشعرّ.
أكّدت دراسة أجرتها ByteDance Research ونُشرت عام 2025 ما كنا نراه في الواقع العملي: نماذج توليد الفيديو مثل Sora و Gen-3 لا تتعلّم الفيزياء النيوتونية. إنها تحفظ الانتقالات البصرية. تستطيع أن تعيد إنتاج مظهر شاحنة تسير لأنها رأت آلاف مقاطع فيديو القيادة، لكنها لا تفهم نظام التعليق أو الاحتكاك أو الوزن. وجد الباحثون تراتبية لما تصيبه هذه النماذج: اللون > الحجم > السرعة > الشكل. اللون دقيق دائماً تقريباً — ومن هنا جاء الأحمر المثالي لكوكا كولا. أما الشكل فهو حيث تنهار الأمور. يضمن النموذج أن تكون الشاحنة حمراء في كل إطار لكنه "ينسى" كم عجلة لها لأنه يولّد الفيديو في كتل كامنة دون تمثيل ثلاثي الأبعاد موحّد.
لهذا السبب يبدو السائل في إعلانات المشروبات المنتَجة بالذكاء الاصطناعي وكأنه زئبق. يتقن النموذج لون الكراميل لكن ليس لديه أي مفهوم عن حفظ الحجم. إنه لا يعرف أن السائل لا يمكن أن يظهر ويختفي داخل الكأس.
كيف يبدو "اطلب وادعُ" في الواقع؟

أريد أن أكون محدداً بشأن ما كان عليه سير عمل كوكا كولا فعلاً، لأن فهمه يفسّر سبب فشله.
كتب الفريق مطالبات (prompts) في أدوات توليد الفيديو. أنتجت الأدوات مقاطع. شاهد الفريق آلاف تلك المقاطع، آملين أن يجدوا منها ما هو متماسك بما يكفي ليُدمج معاً. هذا ما أسميه منهجية "اطلب وادعُ"، وهو النهج المهيمن في ما أعتبره "عصر الأغلفة" لإنتاج الفيديو بالذكاء الاصطناعي. تكتب وصفاً لما تريد. تضغط على زر التوليد. وتعقد أصابعك تفاؤلاً.
سبعون ألف مقطع. لثلاثين ثانية.
لاحقني ذلك الرقم. فقد كان يعني أن العملية الإبداعية قد اختُزلت إلى مهمة انتقاء — غربلة محيط من الهلوسات للعثور على القلة التي بدت الأقل خطأً. لم يكن المخرج يُخرج. كان المخرج يرشّح. هناك فرق شاسع.
عندما سُئل صنّاع Silverside AI عن ردة الفعل الغاضبة، قارنوها بالمقاومة المبكرة للرسوم المولّدة بالحاسوب (CGI) في فيلم Toy Story. وجدت هذه المقارنة خاطئة بشكل يكاد يكون مسيئاً. Toy Story استخدم التقنية ليروي قصة لم يكن من الممكن أن تُروى بأي طريقة أخرى — الحياة الداخلية للُّعب. أما كوكا كولا فقد استخدمت التقنية لتعيد سرد قصة رُويت بالفعل بشكل أفضل بمؤثرات عملية قبل ثلاثين عاماً. الذكاء الاصطناعي لم يضف شيئاً. بل طرح الإنسانية.
تحوّل السرد من "كوكا كولا مبتكِرة" إلى "كوكا كولا رخيصة". هذه كارثة في قيمة العلامة التجارية متنكّرة في زيّ عرض تقني.
لقد كتبت عن هذه الديناميكية بعمق أكبر بكثير في النسخة التفاعلية من بحثنا، بما في ذلك حالة Toys 'R' Us — حيث أثارت طفلة مولّدة بالذكاء الاصطناعي رفضاً عميقاً حتى انهارت مشاعر الجمهور تجاه العلامة التجارية بين عشية وضحاها.
لماذا فاز إعلان Nike المولّد بالذكاء الاصطناعي بجائزة كان الكبرى (Grand Prix)؟
هذا هو الجزء من القصة الذي يمنحني الأمل.
في الوقت نفسه تقريباً الذي كانت فيه العلامات التجارية تُدمَّر بسبب النفايات المولّدة بالذكاء الاصطناعي، أطلقت Nike إعلان "Never Done Evolving" بمناسبة الذكرى الخمسين لتأسيسها. الفكرة: محاكاة مباراة تنس بين سيرينا ويليامز عام 1999 وسيرينا ويليامز عام 2017. وقد فاز بجائزة كان الكبرى. إشادة عالمية. بلا ردة فعل غاضبة.
لم يكن الفرق في الميزانية. بل كان في المعمارية.
لم تطلب Nike من ذكاء اصطناعي أن يتخيّل سيرينا. بل غذّت نموذج تعلّم آلي بلقطات أرشيفية حقيقية لأدائها — سنوات منها — واستخدمته لتحليل سرعتها واختياراتها للضربات وسرعة استجابتها في نقاط مختلفة من مسيرتها. حسب الذكاء الاصطناعي الاحتمالات بناءً على الواقع. كان آلة زمن، لا محرك تلفيق. ولّدت تقنية "vid2player" من جامعة ستانفورد نماذج لاعبات دقيقة سلوكياً بناءً على المعرفة المجالية بفيزياء التنس. ثم ضمن مُركّبون ومحرّرون بشريون الدقة البصرية وإيقاع السرد.
ولّد الذكاء الاصطناعي الحركات ومنطق اللعب. وضمن البشر أن يبدو ويُحسّ وكأنه إنتاج من Nike.
هذا هو النموذج. هذا هو ما ينجح. وهذا ما ما فتئنا نبنيه لدى Veriprajna.
كيف تستخدم الذكاء الاصطناعي دون أن تفقد روح علامتك التجارية؟

يُطرح عليّ هذا السؤال باستمرار. عادةً من قِبل مديري التسويق الذين رأوا عناوين كوكا كولا وباتوا مرعوبين من أن يكونوا التاليين، لكنهم يعرفون أيضاً أنهم لا يستطيعون تجاهل الذكاء الاصطناعي كلياً لأن منافسيهم لن يفعلوا.
جوابي دائماً هو نفسه: لا تدع الذكاء الاصطناعي يعرض البكسل الأخير.
لدى Veriprajna، بنينا ما نسميه معمارية "الإنسان في الحلقة". إنها ليست فلسفة. إنها خط إنتاج فعلي بنقاط تفتيش بشرية في كل طبقة. المبدأ بسيط: يجب أن تحكم النية البشرية تنفيذ الآلة. لا العكس.
من الناحية العملية، ينقسم إلى ثلاث مراحل، ويلعب الذكاء الاصطناعي دوراً مختلفاً في كل منها.
في مرحلة ما قبل الإنتاج، الذكاء الاصطناعي هو الحالم. نستخدم أدوات مثل Krea AI للتصور الفوري — يرسم المصمم تخطيطاً فيراه معروضاً بواقعية فوتوغرافية في أجزاء من الثانية. هذا يقلّص تكاليف رسم القصة المصورة (storyboarding) بنسبة 60–80%. لكن لا أحد يلتزم بمظهر نهائي. المخرج "يصوّر" الإعلان افتراضياً، يكرّر التجربة على الإضاءة والتكوين فوراً، قبل أن تدور كاميرا واحدة.
في مرحلة الإنتاج، يلتقط البشر ما يهم. لأي شيء يتطلب رنيناً عاطفياً — وجه، تفاعل مع منتج، لحظة تواصل إنساني حقيقي — نصوّر مواهب حقيقية. نستخدم ما أسميه "طريقة الشطيرة": نصوّر العناصر البطلة (الممثل، المنتج) على شاشة خضراء أو أحجام LED، ثم نستخدم الذكاء الاصطناعي لتوليد خلفيات عالية الدقة تُسقَط على جدران LED تلك. يتفاعل الممثل مع ضوء حقيقي من مشهد اصطناعي. العاطفة حقيقية. والبيئة مولّدة.
في مرحلة ما بعد الإنتاج، يصبح الذكاء الاصطناعي النحّات. هنا يتألق الذكاء الاصطناعي العميق — ليس توليد الفيديو من النص، بل تحويل الفيديو إلى فيديو. نركّب ممثلين حقيقيين في بيئات اصطناعية. نطبّق جماليات علامة تجارية متسقة باستخدام نماذج LoRA (التكيّف منخفض الرتبة) المدرّبة خصيصاً — ملفات خفيفة الوزن مدرّبة على أسلوب التصوير السينمائي المحدد لعلامة تجارية. لعميل مثل Nike، ندرّب نموذج LoRA على عشرين عاماً من لغتهم البصرية. كل إطار مولّد بالذكاء الاصطناعي يُحسّ وكأنه إعلان من Nike لأن النموذج قد استوعب تلك الرموز العلامية.
ونستخدم ControlNet لتثبيت الهندسة. بدلاً من الأمل في أن تحافظ مطالبة على الشكل الدقيق للمنتج، نغذّي الشبكة بخريطة حواف كاني (Canny Edge Map) أو خريطة عمق (Depth Map) للمنتج الفعلي. يولّد الذكاء الاصطناعي حول المخطط الظلّي الدقيق. يمكن أن تكون الإضاءة والخلفيات توليدية، لكن المنتج يبقى مثالياً رياضياً — 94.2% سلامة بنيوية مقارنةً برمي النرد المتمثل في المطالبة وحدها.
ما الذي يسبب فعلاً مشكلة "الشاحنة الوامضة"؟
المصطلح التقني هو عدم الاتساق الزمني، وهو أكبر عائق منفرد أمام فيديو الذكاء الاصطناعي على مستوى المؤسسات. إنه سبب تغيّر شكل شاحنة كوكا كولا بين المقاطع. وهو سبب تحوّل الشخصيات المولّدة بالذكاء الاصطناعي عندما تدير رؤوسها. لا يحافظ النموذج على تمثيل موحّد لكائن عبر الإطارات — بل يعيد توليده من الصفر في كل مرة، وكل عملية إعادة توليد هي رمية احتمالية جديدة.
نحل هذا بمقياس يسمى مسافة اتساق الفيديو (VCD)، ندمجه في عملية الضبط الدقيق لدينا. يقيس VCD المسافة في مجال التردد بين صورة تكييف والإطارات المولّدة. بمعاقبة قيم VCD المرتفعة أثناء التدريب، نجبر النموذج على إعطاء الأولوية للتماسك. النماذج المضبوطة بدقة بهذه الطريقة تحقق 95.22% اتساق للموضوع و 96.32% اتساق للخلفية على المعايير القياسية.
أما بالنسبة لثبات الكائن — المشكلة التي يمشي فيها شخص خلف شجرة فينسى النموذج وجوده — فنحن نُرسي توليد الذكاء الاصطناعي إلى مشاهد وكيلة ثلاثية الأبعاد باستخدام تكامل NeRF (حقول الإشعاع العصبية). "يكسو" الذكاء الاصطناعي مجسّماً أولياً ثلاثي الأبعاد، جامعاً بين المنطق الهندسي للرسوم التقليدية المولّدة بالحاسوب والمرونة الجمالية للذكاء الاصطناعي التوليدي.
للاطلاع على التفصيل التقني الكامل لخطوط الإنتاج هذه، بما في ذلك أساليبنا في التعامل مع انهيار الأنماط (mode collapse) والتلاعب بالفضاء الكامن، انظر ورقتنا البحثية.
الجدال الذي أخوضه باستمرار
هناك حوار خضته على الأرجح خمسين مرة في العام الماضي. عادةً ما يبدأ بأن يقول أحدهم: "لكن النماذج ستتحسن. في غضون عامين، سيتمكن Sora من فعل كل هذا".
ربما. بل على الأرجح، حتى، لمهام ضيقة معينة. لكن هذا الجدال يفوّت الفكرة برمّتها.
لم يكن السؤال قط "هل يستطيع الذكاء الاصطناعي توليد فيديو خالٍ من العيوب تقنياً؟" السؤال هو "هل ينبغي أن تكون الهوية العاطفية لعلامتك التجارية دالةً لتوزيع احتمالي؟"
حتى لو أُصلحت الشاحنات الوامضة وتعلّمت العيون الميتة أن تتغضّن، فستظل عالقاً مع مشكلة الثقة. 44% من المستهلكين ينزعجون فعلياً من المحتوى المولّد بالذكاء الاصطناعي. وجدت NielsenIQ أن حتى إعلانات الذكاء الاصطناعي المصقولة تسبب "تأثير هالة سلبياً" — إذ وصفها المشاهدون بأنها "مزعجة" و"مملة" و"مربكة" حتى عندما كانت الجودة البصرية عالية. ويمتد الضرر إلى ما وراء الحملة الفردية ليطال العلامة التجارية نفسها.
بنت Dove حملة كاملة — "The Code" — حول رفض تشويه الذكاء الاصطناعي لأجساد البشر. كان انتصاراً هائلاً في قيمة العلامة التجارية. لقد حوّلوا التهديد إلى عامل تمييز. بالنسبة لفئات مثل الجمال والطعام والعافية والرفاهية، "الحقيقي" ليس قيداً. إنه ميزة راقية.
العلامات التجارية التي تفوز بالذكاء الاصطناعي لا تستخدمه لتحلّ محل الإنسانية. بل تستخدمه لتضخيم قصص لم يكن بمقدورها أن ترويها من قبل.
أثبتت Heinz هذا ببراعة. طلبوا من الذكاء الاصطناعي توليد صور لـ"كاتشب" وأظهروا أن كل نموذج يلجأ افتراضياً إلى زجاجة Heinz. لقد حوّلوا تحيّز الذكاء الاصطناعي إلى دليل على هيمنة العلامة التجارية. كانت الهلوسة هي الميزة. كانت شفافة وطريفة ونجحت لأن العلامة التجارية كانت شريكة في الطرفة بدلاً من محاولة خداع أي أحد.
الجزء الذي أعترف فيه بما يبقيني مستيقظاً في الليل
سأكون صادقاً بشأن شيء ما. الشيء الذي يقلقني ليس أن يظل فيديو الذكاء الاصطناعي سيئاً. بل أن يصبح جيداً بما يكفي فقط بحيث تقنع به العلامات التجارية الكسولة، ويغرق السوق بمحتوى مقبول تقنياً لكنه أجوف عاطفياً. المصطلح الذي يستخدمه الناس بالفعل هو "نفايات الذكاء الاصطناعي" (AI slop) — محتوى اصطناعي كبير الحجم قليل الجهد يملأ الخلاصات دون أن يقول أي شيء.
خوفي هو التطبيع. أن يتوقف المستهلكون عن توقّع الحرفية. أن يكبر جيل من المشاهدين وهم يظنون أن اللمعان البلاستيكي والعيون الميتة هما ببساطة كيف تبدو الإعلانات.
عقدنا اجتماعاً للفريق حول هذا قبل بضعة أشهر تحوّل إلى جدال حقيقي. طرح أحد مهندسينا حجة مفادها أن المستهلكين سيتكيّفون — وأن الوادي الغريب (uncanny valley) سيتقلّص مع زيادة التعرّض. اعترضت مديرتنا الإبداعية بشدة. "الناس لم يتكيّفوا مع الطعام السيّئ لمجرد أن الوجبات السريعة أصبحت في كل مكان"، قالت. "لقد طوّروا ذائقة للجودة. الشيء نفسه سيحدث هنا".
أعتقد أنها محقة. البيانات تدعمها. لم تأتِ ردة الفعل الغاضبة ضد كوكا كولا من مجموعة محدودة من المتشككين في الذكاء الاصطناعي. بل كانت سائدة. المستهلكون يطوّرون حاسة سادسة تجاه المحتوى الاصطناعي، وعقوبة الانكشاف أقسى من الوفورات الناتجة عن التقصير.
الحد التالي — ما يسميه الباحثون "نماذج العالم" (World Models) — سيمنح الذكاء الاصطناعي في نهاية المطاف فهماً للفيزياء، لا للبكسلات فقط. تقدّر ByteDance تحقيق تقدّم ذي مغزى بحلول عامي 2026–2027. حتى ذلك الحين، يبقى سير العمل الهجين هو الجسر الآمن الوحيد. فهو يتيح لك تسخير قوة العرض في ذكاء اليوم الاصطناعي مع استعارة الذكاء الفيزيائي والعاطفي الذي لا يمتلكه إلا المبدعون البشر.
السؤال الذي يهمّ فعلاً
كل قائد مؤسسة أتحدث إليه يطرح السؤال نفسه: "كم من المال يمكن أن يوفّره لنا الذكاء الاصطناعي في الإنتاج؟"
إنه السؤال الخاطئ. فهو يؤدي مباشرةً إلى الوادي الغريب — إلى 70,000 مقطع مولّد وإعلان مدته 30 ثانية يجعل الناس لا يشعرون بشيء.
السؤال الصحيح هو: "ما القصص التي يمكن للذكاء الاصطناعي أن يساعدنا على روايتها والتي لم يكن بمقدورنا أن نرويها من قبل؟"
لم توفّر Nike المال بإعلان "Never Done Evolving". بل أنفقت الكثير. لكنها صنعت شيئاً مستحيلاً بدون الذكاء الاصطناعي — مباراة بين نسختين من الرياضية نفسها تفصل بينهما ثمانية عشر عاماً. هذا ليس تحسيناً للتكلفة. هذا توسّع إبداعي.
توقّف عن السؤال كيف يمكن للذكاء الاصطناعي أن يجعل إنتاجك أرخص. وابدأ بالسؤال كيف يمكنه أن يجعل سردك القصصي أجرأ.
انتهت مرحلة الجدّة. "انظروا ماذا صنع الذكاء الاصطناعي" لم تعد تُبهر أحداً. المعيار الجديد — المعيار الوحيد الذي سيهمّ في عام 2026 وما بعده — هو "انظروا ماذا صنعنا نحن بالذكاء الاصطناعي". يقع التشديد بالكامل على نحن.
العلامات التجارية التي تفهم هذا ستبني أساطير. أما تلك التي لا تفهمه فستنفق الملايين في تعليم خوارزمية كيف تبتسم، وتتساءل لماذا لا أحد يبتسم في المقابل.