
لم تكن مشكلة Sports Illustrated في الذكاء الاصطناعي. كانت مشكلتها في معمارية الحقيقة
أتذكر اللحظة المحددة التي توقفت فيها عن القراءة وبدأت أذرع الغرفة جيئةً وذهابًا.
كان ذلك في أواخر نوفمبر 2023، وكانت Futurism قد نشرت للتو تحقيقها حول Sports Illustrated. كانت التفاصيل شديدة العبثية إلى حد يصعب تصديقه: مؤسسة إعلامية عمرها 70 عامًا كانت تنشر مراجعات منتجات كتبها أشخاص لا وجود لهم. "درو أورتيز"، شخص وُصف بأنه يعشق الطبيعة، كانت صورته الشخصية مُشتراة من سوق يبيع وجوهًا مولّدة بالذكاء الاصطناعي. "سورا تاناكا"، خبيرة لياقة مزعومة، كانت لها قصة حياة ملفّقة عن حبها للطعام والشراب. تضمّن المحتوى المنسوب إلى هذه الأشباح دُرَرًا مثل "الكرة الطائرة واحدة من أكثر الرياضات شعبية في العالم، ولسبب وجيه" — جملة فارغة إلى حد أنها تكاد تُصدر صدى.
لم أكن أذرع الغرفة لأنني صُدمت. كنت أذرعها لأنني كنت أحذّر عملاء المؤسسات من هذا النمط الفشلي بالتحديد منذ أشهر. ليس حيال خطورة الذكاء الاصطناعي بمعنى مجرد على طريقة "المدمّر" — بل حيال انهيار معماري محدد جدًا وقابل للتنبؤ به إلى حد كبير. لم تُضبط Sports Illustrated وهي تستخدم الذكاء الاصطناعي. بل ضُبطت وهي تستخدم الذكاء الاصطناعي دون نظام حقيقة يقوم تحته. وهذا التمييز يهم أكثر مما يدركه معظم الناس.
كانت التداعيات سريعة ووحشية. هبط سهم The Arena Group بنسبة 27% في يوم واحد. سحبت Authentic Brands Group رخصة النشر من SI. أفادت نقابة SI بأن جميع الموظفين ربما سُرّحوا. غرفة أخبار غطّت محمد علي، و"معجزة الجليد"، وعقودًا من الرياضة الأمريكية، جرى إفراغها من مضمونها — ليس لأن الذكاء الاصطناعي حلّ محل الصحفيين، بل لأن الإدارة اختارت أرخص معمارية ذكاء اصطناعي ممكنة وأسمتها استراتيجية.
لتلك المعمارية اسم. نحن نسميها "غلاف نموذج اللغة الكبير" (LLM Wrapper). وبعد سنوات قضيتها في بناء البديل، أنا مقتنع بأنها التهديد الأكبر الأوحد لثقة المؤسسات اليوم.
ما هو "غلاف نموذج اللغة الكبير" (LLM Wrapper) بالضبط — ولماذا ينهار؟
حين أشرح هذا للمديرين التنفيذيين غير التقنيين، أستخدم تشبيهًا. تخيّل أنك وظّفت أبلغ متحدث في العالم — شخص يستطيع الحديث عن أي شيء، بأي أسلوب، لأي جمهور. مثير للإعجاب، أليس كذلك؟ الآن تخيّل أن هذا المتحدث بلا ذاكرة، وبلا قسم للتحقق من الحقائق، وبعجز مرضي عن قول "لا أعرف". بدلًا من ذلك، حين يصطدم بفجوة في معرفته، فإنه ببساطة... يختلق شيئًا ما. بثقة. بطلاقة. بنثر مثالي.
هذا نموذج لغة كبير بلا تأريض. إنه محرك استدلال احتمالي — يتنبأ بالكلمة التالية الأكثر ترجيحًا بناءً على الأنماط في بيانات تدريبه. إنه لا "يعرف" أن درو أورتيز غير موجود. إنه يعرف أن نمط مراجعة المنتج يتضمن عادةً اسم مؤلف وسيرة ذاتية، فيملأ القالب بتفاصيل معقولة إحصائيًا. بالنسبة للنموذج، "درو أورتيز" ليس كذبة. إنه إكمال ناجح لنمط.
غلاف نموذج اللغة الكبير هو ما تحصل عليه حين تأخذ شركةٌ ذلك المتحدث البليغ المُلفِّق وتضعه على المسرح ومعه لا شيء سوى ميكروفون وقائمة كلمات مفتاحية. لا ملاحظات. لا محرر ينتظر في الكواليس. لا أحد يتحقق مما إذا كانت الأشياء الخارجة من فمه صحيحة. طبقة البرمجيات المحيطة بالنموذج رقيقة — تمرّر مطالبة (prompt)، وتستعيد نصًا، وتنشره. هذا كل شيء.
شركة AdVon Commerce، المورّد الخارجي الذي يقف وراء محتوى SI المزيف، عملت بهذه الطريقة بالضبط. كان لديها أداة داخلية تُدعى "MEL" — أساسًا غلاف يبتلع كلمات مفتاحية للمنتجات، ويمرّرها عبر نموذج أساسي، ويُخرج مراجعات منظّمة. أما "الكتّاب البشر" فكانوا يتقاضون أجورًا زهيدة لنسخ ولصق المخرجات في أنظمة إدارة المحتوى. لم يكونوا يحرّرون. لم يكونوا يتحققون من الحقائق. كانوا وسيطًا برمجيًا بشريًا.
حين يكون الذكاء الاصطناعي هو المحرك والإنسان مجرد مادة مُزلّقة، فإن انهيار الجودة ليس مخاطرة — بل موعدًا محددًا سلفًا.
الليلة التي أدركت فيها أن الذكاء الاصطناعي "الجيد بما يكفي" لم يكن جيدًا بما يكفي
كانت هناك ليلة — أظنها كانت في مطلع 2024، بعد أسابيع قليلة من انفجار قصة SI — حين كنت أنا وفريقي نختبر تحت الضغط مسار توليد محتوى لأحد العملاء. كنا قد أنشأنا نظام توليد معزّز بالاسترجاع (RAG) قياسي، من النوع الذي يُفترض أن يكون الطريقة "المسؤولة" لنشر نماذج اللغة الكبيرة. تسترجع المستندات ذات الصلة، وتحقنها في نافذة سياق النموذج، وتخبره بأن يستخدم تلك المصادر فقط.
شغّلنا دفعة من 500 وصف منتج. بدت النتائج نظيفة. سلسة. احترافية. كان كبير مهندسيّ مستعدًا لإنهاء الليلة.
قلت: "شغّل فحص الهلوسة مرة أخرى."
تنهّد. لكنه شغّله.
ثمانية عشر من أصل 500 وصف احتوت على ادّعاءات لم ترد في أي مستند مصدري. هذه نسبة خطأ 3.6% — تقع تمامًا ضمن النطاق الذي تُظهره الأبحاث للنماذج المتطورة، التي تهلوس بنسبة تتراوح بين 1.5% و6.4% حسب المجال. وفي مجالات متخصصة مثل القانون، يكون الأمر أسوأ.
ثمانية عشر لا تبدو كثيرة. لكن ضاعِف حجمها. إذا كنت ناشرًا يدفع 10,000 مقال سنويًا — ومزارع المحتوى تعمل بلا شك بهذا الحجم — فإن نسبة هلوسة 4% تعني 400 مقال يحتوي على ادّعاءات ملفّقة. أربعمئة دعوى قضائية محتملة، أو أزمة سمعة، أو لحظة مدمّرة للثقة. لقد رأينا بالفعل محامين تعرّضوا لعقوبات لاستشهادهم بقضايا محكمة غير موجودة اختلقها ChatGPT. الحسابات ليست في صالحك.
في تلك الليلة، قلت لفريقي: "لن نطرح أي شيء يعمل بالاحتمال وحده. نحتاج إلى نظام يتعامل مع الادّعاءات غير المُتحقَّق منها بالطريقة التي تتعامل بها قاعدة البيانات مع القيم الفارغة (null) — بوصفها غياب معرفة، لا دعوة للارتجال."
لماذا لا يمكنك ببساطة إصلاح الهلوسة بمطالبات أفضل؟
يسألني الناس هذا باستمرار. "ألا يمكنك ببساطة أن تخبر النموذج بأن يكون أكثر حذرًا؟ إضافة مطالبة نظامية تقول 'لا تختلق أشياء'؟"
لا. وإليك لماذا يكشف هذا السؤال عن سوء فهم جوهري للتقنية.
الهلوسة ليست خللًا يمكنك ترقيعه بالتعليمات. إنها خاصية بنيوية لكيفية عمل هذه النماذج. يخزّن نموذج اللغة الكبير علاقات إحصائية بين الرموز (tokens) — الكلمات وأجزاء الكلمات — مشتقة من بيانات التدريب. ليس لديه قاعدة بيانات داخلية للحقائق. ليس لديه مفهوم "الصحيح" مقابل "الخاطئ". لديه مفهوم "المُرجَّح" مقابل "غير المُرجَّح". حين يتطلب الإكمال المُرجَّح لنمطٍ ما حقيقةً لا يملكها النموذج، فإنه يولّد واحدة تناسب النمط. أن تخبره "لا تهلوس" أشبه بأن تخبر الماء "لا تكن مبللًا".
وهناك أيضًا مشكلة نافذة السياق. حتى النماذج الحديثة ذات نوافذ السياق الضخمة تصطدم بجدار مسدود حين تحاول تلقيمها قاعدة معرفة مؤسسية بأكملها. لا يمكنك لصق إرشادات التحرير الكاملة لشركتك، وقاعدة بيانات منتجاتها، وسجل مؤلفيها، وسياسات علامتها التجارية في كل مطالبة. فتملأ معرفة النموذج الداخلية — الساكنة، والمتقادمة، وغير القابلة للتحكم — الفجوات.
ثم هناك البُعد الأمني الذي لا يتحدث عنه تقريبًا أحد في معسكر "استخدم GPT فحسب". يمكن لهجمات حقن المطالبات (prompt injection) أن تتلاعب بالمدخلات لتجاوز مرشّحات الأمان. ويمكن لتسميم البيانات أن يُفسد مصادر الويب التي تسترجع منها أنظمة RAG. وثمة تهديد جديد يُسمى "slopsquatting" يستغل حقيقة أن نماذج اللغة الكبيرة تهلوس أسماء حزم برمجية — يسجّل المهاجمون تلك الأسماء المزيفة ويوصلون برمجيات خبيثة إلى المطوّرين الذين ينسخون ويلصقون اقتراحات الشيفرة. سطح الهجوم لغلافٍ رقيق هائل.
لقد كتبت عن أنماط الفشل المعماري هذه بتعمّق في النسخة التفاعلية من بحثنا، لكن الفكرة الجوهرية بسيطة: لا يمكنك أن تشقّ طريقك إلى الحقيقة عبر هندسة المطالبات. أنت بحاجة إلى معمارية مختلفة تمامًا.
الجدال الذي غيّر طريقة بنائنا
خضنا خلافًا حقيقيًا حول هذا داخل Veriprajna. ليس خلافًا مهذبًا — بل جدالًا فعليًا، من النوع الذي يرفع فيه الناس أصواتهم ويقول أحدهم في النهاية "هل يمكننا التراجع خطوة للحظة؟"
زعم معسكر في فريقي — أشخاص أذكياء، ومهندسون خبراء — أنه ينبغي أن نركّز على تحسين RAG. استرجاع أكثر تطورًا. استراتيجيات تقطيع أفضل. نماذج تضمين مضبوطة بدقة. النهج التدريجي. قالوا: "RAG يعمل جيدًا بما يكفي لـ96% من الحالات. لنُحسّن الـ4% الأخيرة."
أما المعسكر الآخر — وكنت راسخًا فيه — فقد زعم أن "الجيد بما يكفي" حكم بالإعدام على ثقة المؤسسات. تلك الـ4% ليست موزّعة عشوائيًا على أخطاء إملائية غير مؤذية. إنها تتجمّع حول الادّعاءات الأكثر أهمية بالضبط: الأسماء، والأرقام، والتواريخ، والعلاقات السببية. الأشياء التي، حين تكون خاطئة، تدمّر المصداقية.
جاءت نقطة التحول حين استحضر أحد أعضاء الفريق الجدول الزمني لـSI على سبورة بيضاء. نوفمبر 2023: تنشر Futurism التحقيق. يهبط سهم The Arena Group بنسبة 27%. تُحذَف الملفات المزيفة بصمت — خطوة وصفها أساتذة أخلاقيات الصحافة بأنها "شكل من أشكال الكذب". ينهار "دفاع الطرف الثالث" حين يؤكّد موظفون سابقون في AdVon أن "MEL" هي من ولّدت المحتوى. تسحب Authentic Brands Group الرخصة. يُسرّح الموظفون. تُنتزع أحشاء مؤسسة عمرها 70 عامًا.
قلت مشيرًا إلى السبورة: "هذا هو شكل الـ4% على نطاق واسع."
توقفنا عن الجدال حول تحسينات RAG التدريجية في ذلك اليوم. وبدأنا نبني شيئًا مختلفًا جوهريًا.
كيف يبدو فعليًا نظام لا يستطيع الكذب؟

الجواب هو ما يسميه مجتمع أبحاث الذكاء الاصطناعي الذكاء الاصطناعي العصبي-الرمزي (Neuro-Symbolic AI) — معمارية هجينة تدمج نوعين مختلفين جدًا من الذكاء.
فكّر فيها بوصفها نظامَي دماغ يعملان معًا. المكوّن العصبي — نموذج اللغة الكبير — يتعامل مع اللغة. إنه بارع في تحليل النصوص الفوضوية، وفهم الفروق الدقيقة، وتوليد نثر سلس. إنه محرك حدسك. لكن لا علاقة له بالحقيقة.
المكوّن الرمزي — الرسم البياني للمعرفة (Knowledge Graph) — يتعامل مع الحقائق. إنه يخزّن الواقع بوصفه علاقات منظّمة: كيانات مترابطة بمحمولات (predicates). Wilson AVP → is_certified_by → FIVB. Jane Smith → is_author_of → Article_4521. هذه ليست احتمالات. إنها تأكيدات حتمية. حين تستعلم من رسم بياني للمعرفة ولا يكون الجواب موجودًا فيه، تحصل على قيمة فارغة (null). لا ارتجال إبداعي. صمت.
في حالة SI، كان نظام عصبي-رمزي سيستخدم نموذج اللغة الكبير لكتابة المراجعة — فهو بارع في ذلك حقًا — لكنه سيعتمد على الرسم البياني للمعرفة للتحقّق من المؤلف. فإن لم يحتوِ الرسم البياني على كيان مُتحقَّق منه لـ"درو أورتيز"، فإن النظام يحجب اسم التوقيع. نقطة انتهى. أما الأنطولوجيا — القواعد البنيوية التي تحكم الرسم البياني — فكانت ستفرض أن مراجعة المنتج يجب أن تكون مرتبطة بمؤلف مُتحقَّق منه. مما يجعل فضيحة التوقيع المزيف مستحيلة معماريًا.
الرسم البياني للمعرفة لا "يخترع" مؤلفًا ليملأ الصمت. إنه يتعامل مع غياب المعرفة بوصفه غياب المعرفة. تلك الخاصية الواحدة جدار حماية ضد الهلوسة.
الفرق في الأداء قابل للقياس. تُظهر الأبحاث أن دمج الرسوم البيانية للمعرفة في مسار التوليد يقلّل الهلوسة بنسبة 6% ويخفّض استهلاك الرموز (tokens) بنسبة 80% مقارنةً بـRAG التقليدي. وفي المجال الطبي، حقّقت الأنظمة العصبية-الرمزية دقة بنسبة 100% في استخراج البيانات السريرية، مقارنةً بـ63–95% لـGPT-4 وحده. لا يحتاج النموذج إلى الخوض في مستندات مشوّشة — بل يستهلك ثلاثيات (triples) دقيقة ومُتحقَّق منها.
بناء غرفة الأخبار الاصطناعية

هنا يصبح الأمر مثيرًا للاهتمام — وهنا تصبح قصة Sports Illustrated ليست مجرد حكاية تحذيرية بل مواصفة تصميم.
ما افتقرت إليه SI لم يكن قدرة الذكاء الاصطناعي. بل المعمارية التحريرية. غرفة الأخبار الحقيقية لديها باحثون يجمعون الحقائق، وكتّاب ينسجون السرديات، ومحررون يتحققون من الادّعاءات، ومحرر مسؤول يشرف على سير العمل. أما أداة "MEL" لدى AdVon فقد طوت كل تلك الأدوار في مطالبة واحدة. نموذج واحد يفعل كل شيء. لا ضوابط. لا توازنات. لا مساءلة.
لقد أعدنا بناء تلك السلسلة التحريرية بأكملها بوصفها نظامًا متعدد الوكلاء. ليس ذكاءً اصطناعيًا واحدًا يفعل كل شيء، بل وكلاء متخصصين بأدوار متمايزة و— وهذا حاسم — صلاحيات متمايزة.
وكيل الباحث يملك حق الوصول إلى الرسم البياني للمعرفة وواجهات برمجة تطبيقات خارجية موثوقة. مهمته الوحيدة هي جمع حقائق مُتحقَّق منها. إنه يُنتج بيانات منظّمة، لا نثرًا. أما وكيل الكاتب فيأخذ تلك الحقائق ويصوغ السردية. والأهم أنه لا يملك أي وصول إلى الأدوات الخارجية أو الويب. لا يمكنه اختلاق "حقائق" جديدة لأنه لا يستطيع أن يتجاوز ما قدّمه الباحث. أما وكيل الناقد فيراجع المسودة بأسلوب خصومي — يفحص كل ادّعاء في مقابل الرسم البياني للمعرفة، ويؤشّر على التأكيدات غير المدعومة، ويقيّم النبرة والمنطق.
ثم هناك حلقة التأمّل (Reflection). معظم معماريات الغلاف تأخذ المسودة الأولى التي يُنتجها الذكاء الاصطناعي. نحن لا نفعل ذلك. ناقدنا يطالب الكاتب: "راجِع إجابتك السابقة. هل استشهدت بمصادر؟ هل ثمة فجوات منطقية؟ هل اختلقت أي شيء؟" يولّد الكاتب نقدًا ذاتيًا، ثم يستخدم ذلك النقد لإنتاج مسودة أفضل. تؤكّد الأبحاث أن نهج "التنقيح الذاتي" (Self-Refine) هذا يحسّن الأداء في المهام المعقدة بأكثر من 20% ويقلّل الهلوسة بشكل كبير.
والنتيجة نظام يمكن فيه تتبّع كل جملة في المخرجات النهائية رجوعًا إلى عقدة في الرسم البياني للمعرفة أو مستند مصدري محدد. انقر على ادّعاء، ترَ مصدر البيانات. هذه ليست ميزة — إنها الغاية بأكملها.
للاطلاع على التفصيل التقني الكامل لهذه المعمارية، بما في ذلك مسار GraphRAG ونموذج التحقّق الناقد-الفاعل (Critic-Actor)، انظر ورقتنا البحثية المفصّلة.
"لكن أليس هذا مجرد إبطاء للذكاء الاصطناعي؟"
يصلني هذا الاعتراض من مستثمرين وقادة مؤسسات جرى بيعهم على سردية السرعة. يُفترض أن يكون الذكاء الاصطناعي سريعًا. أما التحقّق فيبدو كاحتكاك.
جوابي: خسر سهم The Arena Group 80% من قيمته على مدار العام الذي تكشّفت فيه الفضيحة. طُرد موظفون. سُحبت رخصة العلامة التجارية. أخبرني مرة أخرى كيف وفّرت لهم "السرعة" المال.
السرعة بلا تحقّق ليست كفاءة. إنها كارثة مؤجّلة. السؤال ليس ما إذا كان بإمكانك تحمّل عبء معمارية للحقيقة. السؤال هو ما إذا كان بإمكانك تحمّل مسؤولية عدم امتلاكها.
هناك مفهوم في اقتصاديات المعلومات يُسمى "سوق الليمون" (lemons market) — حين لا يستطيع المشترون تمييز الجيد من الرديء، فإنهم يفترضون أن كل شيء رديء ويتوقفون عن دفع أسعار مرتفعة. هذا ما يحدث للمحتوى الرقمي الآن. حين تُضبط علامة تجارية موثوقة مثل Sports Illustrated وهي تختلق أشخاصًا، فإن ذلك يصدّق الافتراض المتشكّك بأن كل محتوى على الإنترنت مزيف محتمل. تخسر المنظومة بأكملها قيمتها. تصبح الصحافة عالية الجودة غير قابلة للتمييز عن سقط متاع مزارع المحتوى.
إن بنيت على أغلفة نماذج اللغة الكبيرة، فأنت تبني على رمال. السرعة التي تكسبها اليوم هي الثقة التي تخسرها غدًا.
المؤسسات التي ستنجو من هذا ليست تلك التي تولّد المحتوى الأسرع. بل تلك التي يحمل محتواها سلسلة عهدة قابلة للتحقّق — من البيانات المصدرية إلى الرسم البياني للمعرفة إلى النص المولّد إلى الموافقة البشرية. تلك السلسلة هي الخندق التنافسي الجديد.
ماذا أثبت انهيار SI فعليًا
أفكّر كثيرًا في صحفيي SI. أولئك الذين، كما قالت نقابتهم، "ناضلوا معًا للحفاظ على مستوى هذه المطبوعة العريقة". لم يحلّ الذكاء الاصطناعي محلّهم. بل ضُحّي بهم بقرار معماري — إدارة تختار أرخص تنفيذ ممكن لتقنية كان يمكنها، لو نُشرت بشكل صحيح، أن تضخّم عملهم بدلًا من أن تمحو وظائفهم.
تلك هي المأساة التي يغفل عنها الناس حين يؤطّرون هذا بوصفه "الذكاء الاصطناعي في مواجهة البشر". لم يكن قط الذكاء الاصطناعي في مواجهة البشر. بل كان معمارية ذكاء اصطناعي كسولة في مواجهة الثقة المؤسسية. لم يفشل الذكاء الاصطناعي. فشلت المعمارية. فشلت الحوكمة. فشل قرار معاملة التحقّق بوصفه اختياريًا.
أثبتت فضيحة Sports Illustrated شيئًا كنت أشتبه به لكنني لم أستطع التعبير عنه بوضوح حتى شاهدته يتكشّف: قيمة المؤسسة في عصر الذكاء الاصطناعي تتناسب طرديًا مع قدرتها على التحقّق مما تُنتجه أنظمتها. لا الحجم. لا السرعة. بل القابلية للتحقّق.
كل قائد مؤسسة يقرأ هذا يقوم بنشر الذكاء الاصطناعي الآن، أو يخطّط لذلك. السؤال ليس ما إذا كان يجب استخدامه — فهذه سفينة قد أبحرت. السؤال هو ما إذا كانت معماريتك تعامل الحقيقة بوصفها قيدًا بنيويًا أم أمرًا لاحقًا. ما إذا كان نظامك يستطيع أن يفسّر لماذا ولّد ما ولّده. ما إذا كنت، حين يسأل أحدهم "من كتب هذا وهل هو صحيح؟"، تملك جوابًا ليس "حسنًا، هكذا قال النموذج."
لم يكن درو أورتيز موجودًا. لكن الضرر الذي تسبّب به كان حقيقيًا جدًا. درو أورتيز التالي يجري توليده الآن، في مكان ما، عبر معمارية غلاف لا تملك أي آلية لإيقافه. السؤال الوحيد هو ما إذا كان يجري توليده على منصّتك.