استعارة بصرية تجسّد الأطروحة المحورية — ذكاء اصطناعي لغوي سلس مقترن بمحرك منطقي دقيق، يمثّل مفهوم "الصوت والدماغ" الجوهري في المقال.
Artificial IntelligenceMachine LearningTechnology

المدرّس الذكي الذي علّم طفلة أن 2+2=5 — وما يكشفه ذلك عن كل منتج ذكاء اصطناعي تستخدمه

Ashutosh SinghalAshutosh Singhal13 فبراير 202616 min

قبل بضعة أشهر، أرسلت لي إحدى الأمهات لقطة شاشة أصابتني بالذهول.

كانت ابنتها — تلميذة في الصف السابع — تستخدم إحدى أشهر منصات التدريس بالذكاء الاصطناعي للاستعداد لاختبار في الرياضيات. كانت الطفلة تحل مسألة ضرب: 3,750 في 7. فكتبت 21,690. والإجابة الصحيحة هي 26,250. لم تكن قريبة منها حتى.

فأجاب المدرّس الذكي: "عمل رائع في الضرب! لقد حللت المسألة وأظهرت تفكيرًا ممتازًا!"

حدّقت في تلك اللقطة طويلًا. ليس لأن الخطأ فاجأني — فقد أمضيت سنوات في دراسة أنماط فشل النماذج اللغوية الكبيرة. ما صدمني هو الحماس. لم يكتفِ الذكاء الاصطناعي بأن يخطئ. بل احتفى بالإجابة الخاطئة. عزّز مفهومًا مغلوطًا بدفء وثقة معلمٍ محبوب. وفي مكانٍ ما، مشت فتاة في الثانية عشرة من عمرها إلى اختبارها وهي تعتقد أنها فهمت الضرب لأن آلةً أخبرتها بذلك.

بلورت تلك اللقطة شيئًا كنت أدور حوله منذ فترة: أخطر أنظمة الذكاء الاصطناعي ليست تلك التي ترفض الإجابة. بل تلك التي تجيب بثقة وبشكل خاطئ. وهذا الوصف ينطبق الآن على كل منتج ذكاء اصطناعي تقريبًا مبني على النماذج اللغوية الكبيرة.

أنا أشوتوش، وأدير Veriprajna. نحن نبني أنظمة ذكاء اصطناعي عصبية-رمزية — بُنى تدمج الطلاقة اللغوية للشبكات العصبية مع الصرامة المنطقية للحلّالات الرمزية. أكتب هذا لأنني أعتقد أن الصناعة تراهن رهانًا كارثيًا على البنية الخاطئة، ومن سيدفع الثمن هم الطلاب والمرضى والمقترضون وكل من يثق بالذكاء الاصطناعي في تقديم الحقائق الصحيحة.

لماذا يبدو ذكاؤك الاصطناعي ذكيًا جدًا لكنه يخطئ في الرياضيات بهذا الشكل؟

إليك ما لا يدركه معظم الناس عن النماذج اللغوية الكبيرة مثل GPT-4 أو Claude: إنها لا تعرف أي شيء. ليس بالطريقة التي تعرف بها قاعدة بيانات أن عيد ميلادك هو 15 مارس، أو التي تعرف بها الآلة الحاسبة أن حاصل ضرب 17 في 24 هو 408.

النموذج اللغوي الكبير هو محرك تنبؤ. عندما تطرح عليه سؤالًا، فإنه لا يسترجع حقيقة ولا يجري حسابًا. بل يتنبأ بالتسلسل الأكثر احتمالًا إحصائيًا من الكلمات التي ينبغي أن تتبع طلبك، بناءً على الأنماط التي استوعبها من مليارات الصفحات من نصوص الإنترنت. إنه يؤدي ما يسميه الباحثون "التنبؤ بالرمز التالي" — اختيار الكلمة التالية (أو جزء من كلمة) بناءً على التوزيعات الاحتمالية التي تعلّمها أثناء التدريب.

لهذا تستطيع النماذج اللغوية الكبيرة أن تكتب شعرًا يبكيك ثم تخبرك أن 2+2=5 إذا حرّكت سياق النافذة بالطريقة الصحيحة. الشعر ينجح لأن اللغة هي أنماط. والرياضيات تفشل لأن الحساب ليس نمطًا — إنه نظام صوري له قواعد دقيقة لا تنحني للاحتمال الإحصائي.

النموذج اللغوي الكبير لا يميّز بين حقيقة ظهرت مليون مرة في بيانات تدريبه وأخرى ظهرت مرة واحدة. إنه يعامل الحقائق النادرة كضجيج إحصائي — ما يعني أنه كلما كانت المعلومة التي تحتاجها أكثر غموضًا، زاد احتمال أن يختلق الذكاء الاصطناعي شيئًا.

أفكر في الأمر هكذا: تخيّل أن لديك زميلًا قرأ كل كتاب كُتب على الإطلاق لكنه لم يتعلم قط استخدام الآلة الحاسبة. ستثق به لتلخيص رواية أو صياغة رسالة بريد إلكتروني مقنعة. لكنك لن تثق به أبدًا في إعداد إقراراتك الضريبية. ومع ذلك، هذا بالضبط ما نفعله عندما ننشر النماذج اللغوية الكبيرة الخام في التعليم والتمويل والرعاية الصحية.

الليلة التي أدركت فيها أن هندسة الأوامر طريق مسدود

كانت هناك فترة — يكاد يحرجني الاعتراف بذلك الآن — ظننت فيها أننا نستطيع إصلاح هذا بأوامر أفضل.

أمضيت أنا وفريقي أسابيع في صياغة تعليمات سلسلة تفكير معقّدة. "فكّر خطوة بخطوة." "أظهر خطوات عملك." "تحقّق من حسابك مرتين قبل الرد." اختبرنا عشرات التنويعات عبر مسائل الرياضيات وسيناريوهات الامتثال ومهام الاستدلال المنطقي. كانت بعض سلاسل الأوامر بطول مئات الرموز، تتوسل إلى النموذج عمليًا أن يتوخى الحذر.

لقد ساعد ذلك. قليلًا. حسّنت مطالبات سلسلة التفكير الدقة في مهام الاستدلال المعقّدة من مستوى مزرٍ إلى مجرد غير موثوق. لكن ما ظل يحدث هو التالي: كان النموذج يعرض سلسلة منطق جميلة — الخطوة الأولى صحيحة، الخطوة الثانية صحيحة، الخطوة الثالثة صحيحة — ثم يرتكب خطأ حسابيًا بسيطًا في الخطوة الرابعة يتتالى عبر بقية سلسلة الاستدلال، ليُنتج إجابة نهائية خاطئة بثقة وأناقة.

في إحدى الليالي، كنت أراجع نتائج الاختبارات على مكتبي. كنا قد أجرينا سلسلة من 500 عملية حساب فائدة مركّبة عبر إعداد GPT-4 مطالَب بسلسلة تفكير. كانت نسبة الدقة حوالي 87%. نظر شريكي المؤسس إلى النتائج وقال: "87% نسبة جيدة جدًا."

فتحت جدول بيانات. "هل كنت لتستخدم جدول بيانات يختلق الأرقام 13% من الوقت؟"

صمت.

كانت تلك اللحظة التي تحوّلت فيها البنية في ذهني. لم تكن المشكلة في الأمر. كانت المشكلة أننا نطلب من محرك تنبؤ أن يكون محرك منطق. كنا نهمس للنرد ونأمل أن يستقر على الرقم الصحيح. ولن يغيّر أي قدر من هندسة الأوامر الطبيعة العشوائية الجوهرية للنظام.

كنا بحاجة إلى دماغ.

ما هو الذكاء الاصطناعي العصبي-الرمزي، ولماذا ينبغي أن يهمّك؟

مخطط يربط بين نظام كانمان الأول والثاني والنموذجين الفكريين للذكاء الاصطناعي (الشبكات العصبية والذكاء الاصطناعي الرمزي)، ويوضح كيف يدمج الذكاء الاصطناعي العصبي-الرمزي كليهما — ما يجعل الإطار المفاهيمي المحوري للمقال مرئيًا على الفور.

تاريخ الذكاء الاصطناعي هو قصة قبيلتين أمضتا عقودًا ترفضان الحديث مع بعضهما.

كان الرمزيون — المهيمنون من خمسينيات القرن العشرين حتى ثمانينياته — يؤمنون بأن الذكاء يتعلق بمعالجة القواعد والمنطق الصريحة. إذا استطعت ترميز معرفة كافية كعبارات صورية (سقراط إنسان؛ كل البشر فانون؛ إذن سقراط فانٍ)، أمكنك بناء آلة مفكّرة. كانت أنظمتهم دقيقة وشفافة وصحيحة بشكل قابل للإثبات. لكنها كانت أيضًا هشّة — كانت تنهار في اللحظة التي تصادف فيها لغةً فوضوية واقعية أو مواقف لا تغطيها قواعدها.

أما الترابطيون — جماعة الشبكات العصبية — فقد سلكوا النهج المعاكس. لا تكتب قواعد؛ دع الآلة تتعلم الأنماط من البيانات. كانت أنظمتهم قادرة على التعامل مع الغموض والضجيج واللغة الطبيعية ببراعة. لكنها كانت صناديق سوداء. لم تستطع أن تفسّر لماذا أنتجت إجابة معينة، ولم يكن لديها أي مفهوم للحقيقة — فقط الاحتمال الإحصائي.

وصف دانيال كانمان، الحائز على جائزة نوبل، الإدراك البشري بأنه نظامان: النظام الأول سريع وحدسي وقائم على الأنماط — تتعرف على وجه صديق وسط حشد. النظام الثاني بطيء ومتأنٍ ومنطقي — تضرب 17 في 24 على الورق. النماذج اللغوية الكبيرة الحالية هي محركات نظام أول استثنائية يُطلب منها أداء عمل النظام الثاني. هذا هو الخلل في المطابقة.

الذكاء الاصطناعي العصبي-الرمزي هو الدمج. أنت تُبقي الشبكة العصبية بوصفها "الصوت" — تتولى اللغة، وتفهم المقصد، وتولّد ردودًا سلسة. لكنك تضيف "دماغًا" رمزيًا — حلّالات حتمية، ومحركات منطق، وأنظمة تحقق صورية — يتولى كل ما يتطلب دقة. الصوت يتحدث إلى المستخدم. الدماغ يجري الحساب. وجسرٌ يربط بينهما.

في النظام العصبي-الرمزي، سيساوي 2+2 دائمًا 4 — ليس لأن النموذج يتنبأ بأنه ينبغي ذلك، بل لأنه معرّف كبديهية في الطبقة الرمزية. الشبكة العصبية لا تستطيع حرفيًا تجاوز ذلك.

هذا ليس نظريًا. هذا ما نبنيه في Veriprajna، وقد عرضت المخطط المعماري الكامل في النسخة التفاعلية من ورقتنا البحثية.

كيف تجعل نموذجًا لغويًا يجري رياضيات لا يستطيع إجراءها؟

مخطط تفصيلي خطوة بخطوة يوضح كيف تعمل خطوة أنابيب PAL (النموذج اللغوي المدعوم بالبرمجة) — من سؤال المستخدم، إلى توليد النموذج اللغوي للشيفرة، إلى التنفيذ الحتمي، إلى رد بلغة طبيعية مُتحقَّق منه — مقارنةً بنهج النموذج اللغوي القياسي الذي يخمّن الإجابة.

الآلية الأساسية هي شيء يُسمى النماذج اللغوية المدعومة بالبرمجة، أو PAL. وأناقة الأمر ما زالت تسعدني.

بدلًا من أن تطلب من النموذج اللغوي الكبير أن يحل مسألة، تطلب منه أن يكتب برنامجًا يحل المسألة.

إليك ما يبدو عليه ذلك عمليًا. يسأل مستخدم: "إذا كان لديّ قرض بقيمة 50,000 دولار بفائدة 5% مركّبة سنويًا، فكم أدين بعد 3 سنوات؟"

في إعداد نموذج لغوي قياسي، يحاول النموذج حساب 50,000 دولار × (1.05)³ في ذهنه — باستخدام التنبؤ بالرمز. أحيانًا يصيب. وأحيانًا يخطئ. وليس لديك أي وسيلة لمعرفة أي إجابة يمكنك الوثوق بها.

في نظامنا، لا يحسب النموذج اللغوي أي شيء. بل يولّد بضعة أسطر من شيفرة Python: principal = 50000، rate = 0.05، years = 3، print(principal * (1 + rate) ** years). تُنفَّذ تلك الشيفرة بواسطة بيئة تشغيل حتمية — حاسوب حقيقي يجري رياضيات حقيقية. تُعيد وحدة المنطق الحسابي في المعالج القيمة 57,881.25. ثم يغلّف النموذج اللغوي ذلك الرقم المُتحقَّق منه في رد بلغة طبيعية: "بعد 3 سنوات، ستدين بمبلغ 57,881.25 دولار."

فعلت الشبكة العصبية ما تجيده: فهم السؤال وتوليد الشيفرة. وفعل المحرك الرمزي ما يجيده: حساب الإجابة بدقة تامة. لم يستطع أيٌّ منهما أداء عمل الآخر. ومعًا، هما هائلان.

اختبرنا هذا مقابل مطالبات سلسلة التفكير القياسية في مهام حسابية معقّدة. سجّلت النماذج اللغوية الكبيرة القياسية دقة أقل من 40% في العمليات الحسابية متعددة الخطوات. وحسّنت سلسلة التفكير ذلك إلى نتائج معتدلة لكنها عرضة للخطأ. أما نهجنا العصبي-الرمزي المعتمد على PAL فقد حقق دقة شبه كاملة — محدودة فقط بمدى صحة منطق الشيفرة المُولَّدة، وهي مشكلة أسهل بكثير في التحقق منها وتصحيحها من التنبؤ الاحتمالي بالرمز.

الجدال الذي كاد يشقّ فريقي

أحتاج أن أخبرك عن خلاف داخلي وقع بيننا، لأنه صاغ كيفية تفكيرنا في هذه البنية.

عندما بدأنا أول مرة في دمج الحلّالات الرمزية، اعترض أحد مهندسيّ — شاب لامع، غارق عميقًا في عالم التعلّم العميق — اعتراضًا شديدًا. كانت حجته: "النماذج تتحسن كل ستة أشهر. GPT-5 سيصلح مشكلات الرياضيات. GPT-6 سيصلح مشكلات الاستدلال. أنت تبني سقالة لمبنى سينمو هيكله العظمي بنفسه."

لم يكن مخطئًا بشأن الاتجاه. النماذج بالفعل تتحسن. لكنني ظللت أعود إلى حجة بنيوية لم أستطع التخلص منها.

التحسن في النماذج اللغوية الكبيرة مقارب في المهام الحتمية. جعل محرك التنبؤ أكبر بعشرة أضعاف لا يجعله حتميًا — بل يجعله محرك تنبؤ أكبر. النموذج الذي يصيب في حساب الفائدة المركّبة 95% من الوقت بدلًا من 87% لا يزال نموذجًا لا يمكنك الوثوق به في الحسابات المالية. الفجوة بين 95% و100% ليست فجوة تُغلق بالحجم. إنها فجوة تتطلب نوعًا مختلفًا من الأنظمة.

تجادلنا حول هذا لمدة يومين. لوحات بيضاء مغطاة بالمخططات. معايير أداء متنافسة. في لحظة ما قال أحدهم: "فقط استخدم GPT وأضف إخلاء مسؤولية." أظن أنني ارتعدت بشكل ظاهر.

ما حسم الأمر كان اختبارًا بسيطًا. أخذنا 100 سيناريو امتثال من عميل مصرفي — فحوص أهلية قروض بعتبات تنظيمية صارمة. أجريناها عبر نموذج لغوي كبير متطور مع مطالبات دقيقة. فوافق على ثلاثة قروض انتهكت متطلبات نسبة الدين إلى الدخل لأن المتقدمين كتبوا بيانات شخصية مقنعة. كان النموذج مُقنَعًا بالسرد. كان يفعل ما صُمّم من أجله — مطابقة الأنماط على اللغة — وبفعله ذلك، خرق القانون.

روبوت الدردشة الذي يكذب 5% من الوقت ليس مفيدًا بنسبة 95%. بالنسبة للمهام الحرجة، فهو غير قابل للاستخدام بنسبة 100%.

استوعب مهندسي الأمر. ليس لأن النهج الرمزي أكثر جاذبية — فهو ليس كذلك — بل لأن نمط فشل البديل كان غير مقبول.

لماذا تواجه شركات "غلاف الذكاء الاصطناعي" المتاعب؟

دعني أتراجع خطوة وأتحدث عن المشهد التجاري، لأن البنية التقنية لها تداعيات اقتصادية هائلة.

الآن، تهيمن على منظومة شركات الذكاء الاصطناعي الناشئة ما أسميه شركات "الغلاف" — أعمال منتجها الأساسي هو واجهة مستخدم وبعض منطق الأوامر يجلس فوق نموذج أساسي تابع لطرف ثالث. إنهم يعيدون بيع الوصول إلى قدرات لا يملكونها.

المشكلة بنيوية. في كل مرة تطلق OpenAI أو Anthropic إصدار نموذج جديد، تستوعب الميزات التي تقدمها شركات الغلاف. الشركة الناشئة التي تبيع "الذكاء الاصطناعي لتلخيص ملفات PDF" تُمحى عندما يضيف النموذج الأساسي رفع الملفات محليًا. والشركة التي تقدم "الذكاء الاصطناعي لتوليد الشيفرة" تشاهد قيمتها تتبخر مع تحسن النماذج الأساسية في البرمجة. إن خندقك التنافسي يُستنزف على يد مورّدك نفسه.

العملاء من المؤسسات يدركون ذلك. جلست في اجتماعات قال فيها مديرو التقنية بصراحة تامة: "لماذا أدفع لك لتغلّف واجهة برمجية أستطيع استدعاءها بنفسي؟" وهم محقون في السؤال. توجيه سجلات مالية حساسة أو شيفرة مملوكة عبر خوادم شركة ناشئة، تقوم بعد ذلك بتوجيهها إلى مزوّد نموذج عام، يخلق سطح هجوم غير مقبول. حركة "الذكاء الاصطناعي السيادي" — المؤسسات التي تطالب بامتلاك نماذجها وتشغيلها داخل بنيتها التحتية الخاصة — آخذة في التسارع.

لهذا رفضنا نموذج الغلاف منذ اليوم الأول. نحن لا نبيع الوصول إلى الرموز. نحن نبيع بُنى النظام الثاني — محركات استدلال رمزي مملوكة، ورسومًا بيانية معرفية خاصة بالمجال، وطبقات امتثال حتمية. عندما يصبح النموذج اللغوي الأساسي سلعة عامة (وسيحدث ذلك)، لا تتضاءل قيمتنا. بل تزداد، لأن الطبقة المنطقية تصبح المميّز الوحيد الذي يهم.

ماذا يحدث عندما تمنح مدرّسًا ذكيًا دماغًا حقيقيًا؟

دعني أعيد هذا إلى التعليم، لأن ذلك هو المجال الذي أشعر فيه أن الرهانات أكثر شخصية بالنسبة لي.

وعد التدريس بالذكاء الاصطناعي استثنائي: تعليم شخصي فردي لكل طالب، على نطاق واسع. أظهرت "مشكلة السيغما 2" الشهيرة لبلوم أن الطلاب الذين يتلقون تدريسًا فرديًا يؤدون بمقدار انحرافين معياريين أفضل من الطلاب في الفصول التقليدية. لو استطاع الذكاء الاصطناعي أن يقدّم ولو جزءًا يسيرًا من تلك الفائدة، لأحدث تحولًا في التعليم.

لكن الجيل الحالي من المدرّسين بالذكاء الاصطناعي يفشل بطرق أسوأ من عدم وجود مدرّس على الإطلاق. إلى جانب كارثة الضرب التي وصفتها سابقًا، هناك حالات موثّقة يصل فيها الطلاب إلى الإجابة الصحيحة، لكن الذكاء الاصطناعي — الذي يهلوس مسار حل خاطئ — يحاول إقناعهم بأنهم مخطئون. النموذج يتلاعب نفسيًا بالطالب حتى يتخلى عن استدلاله الصحيح. في سياق تعليمي، حيث الثقة هي كل شيء، هذا مدمّر.

نهجنا مختلف جوهريًا. لقد بنينا ما نسميه محرك الدقة التربوية — وهو يعمل على ثلاثة مستويات.

أولًا، تحتفظ الطبقة الرمزية بنموذج لحالة معرفة كل طالب باستخدام التتبع البايزي للمعرفة. إنها لا تخمّن ما إذا كان الطالب يفهم الجبر؛ بل تتتبع متجه احتمال يُحدَّث مع كل تفاعل. عندما يواجه الطالب صعوبة في الهندسة، يعرف النظام ذلك — رياضيًا، لا حدسيًا — ويعدّل سقالته وفقًا لذلك.

ثانيًا، عندما يولّد الذكاء الاصطناعي مسائل تدريبية، فإنه لا يختلق الأرقام فحسب. يضمن محرك PAL أن كل مسألة مُولَّدة تُنتج إجابات نظيفة وقابلة للحل. لا مزيد من "احسب 7,349 مقسومًا على 13.7" بينما الطالب يتعلم القسمة الأساسية. تضمن الطبقة الرمزية صعوبة مناسبة تربويًا.

ثالثًا — وهذا هو الأمر الذي أفخر به أكثر — نربط الذكاء الاصطناعي بالمنهج المحدد. باستخدام فهرسة الرسوم البيانية للخصائص، نحلل الكتاب المدرسي الفعلي إلى رسم بياني معرفي تكون فيه المفاهيم عُقدًا والعلاقات حوافّ. إذا عرّف الكتاب المدرسي "العدد الأولي" بطريقة محددة، يستخدم الذكاء الاصطناعي ذلك التعريف، لا أي تقريب مشتق من ويكيبيديا يقبع في بيانات تدريب النموذج اللغوي. للاطلاع على التفصيل التقني الكامل لكيفية تفاعل هذه الطبقات، انظر ورقتنا البحثية.

مشكلة الامتثال التي لا يريد أحد الحديث عنها

مخطط يوضح كيف تعمل طبقة النقض الرمزية في حالة استخدام الامتثال للقروض — يمر ناتج النموذج اللغوي عبر بوابة تدقيق قواعد إما توافق على الرد أو تحجبه قبل أن يصل إلى المستخدم.

التعليم مجال واحد. والتمويل مجال آخر — وبطرق ما، تكون أنماط الفشل أكثر إثارة للقلق.

جاءنا بنك إقليمي بعد أن كان نظام مورّد الذكاء الاصطناعي السابق قد وافق على قروض انتهكت المعايير التنظيمية للإقراض. كانت المسألة دقيقة، وحال فهمك للبنية، متوقعة تمامًا: كان النموذج اللغوي يعالج البيانات الشخصية للمتقدمين إلى جانب بياناتهم المالية. عندما كتب متقدم قصة مقنعة عن التغلب على الشدائد، رجّحت مطابقة الأنماط في النموذج — المدرَّبة على ملايين الأمثلة من السرود المقنعة المؤدية إلى نتائج إيجابية — السرد على عتبات نسبة الدين إلى الدخل الصارمة.

لم يكن النموذج مُعطَّلًا. كان يفعل تمامًا ما صُمّم من أجله: التنبؤ بالرمز التالي الأكثر احتمالًا في تسلسل يبدو كمحادثة موافقة على قرض. المشكلة أن الموافقة على القرض ليست محادثة. إنها قرار قائم على القواعد بحدود قانونية.

نفّذنا طبقة PyReason — إطار عصبي-رمزي يدعم الاستدلال المنطقي على الرسوم البيانية المعرفية. القواعد صريحة: إذا كان عمر المتقدم أقل من 21 والولاية نيويورك، فلا يمكن أن يكون نوع القرض تجاريًا. قبل أن يولّد النموذج اللغوي أي رد لمتقدّم قرض، يمر السياق عبر المحرك الرمزي. وإذا انتهك الناتج المقترح قاعدة صارمة، ينقضه المحرك الرمزي. لا نقاش.

النتيجة: التزام بنسبة 100% بالمعايير التنظيمية للإقراض، مقترنًا بتواصل شخصي متعاطف مع المتقدمين. الصوت يبقى دافئًا. الدماغ يبقى غير قابل للمرونة. هذه هي الغاية.

نحن لا نبني ذكاءً اصطناعيًا يُرجَّح أنه ممتثل. نحن نبني ذكاءً اصطناعيًا عاجزًا فيزيائيًا عن الموافقة على معاملة غير ممتثلة، بغض النظر عن مدى إقناع المدخلات.

"ألن تصلح النماذج الأكبر هذا وحسب؟"

يسألني الناس هذا باستمرار، وأفهم السبب. مسار قدرات النماذج اللغوية الكبيرة مثير للإعجاب حقًا. كل إصدار جديد يتعامل مع حالات حدّية أكثر، ويسجّل درجات أعلى في معايير الأداء، ويرتكب أخطاء واضحة أقل.

لكن إليك ما أظل أعود إليه: منحنى التحسن للمهام الحتمية له سقف مدمج في البنية. محرك التنبؤ، مهما كان كبيرًا، يولّد مخرجات احتماليًا. جعله أكبر يجعل التوزيع الاحتمالي أضيق — لكنه لا يصبح أبدًا ضمانة. وبالنسبة للمجالات الأكثر أهمية — تعليم طفل، تشخيص مريض، الحقوق القانونية لمقترض — فإن "يُرجَّح أنه صحيح" ليس فئة منتج.

هناك أيضًا حجة عملية. حتى لو حقق GPT-7 دقة 99.9% في الحساب (وهو ما سيكون مذهلًا)، فإن ذلك لا يزال يعني خطأً واحدًا في كل ألف عملية حساب. البنك الذي يعالج عشرة آلاف طلب قرض يوميًا سيولّد عشر عمليات حساب خاطئة يوميًا. كل واحدة منها انتهاك تنظيمي محتمل. كل واحدة منها دعوى قضائية تنتظر أن تحدث. الطبقة الرمزية لا تخفض معدل الخطأ إلى 99.9%. بل تخفضه إلى صفر لأي عملية موجّهة عبر الحلّال.

الاعتراض الآخر الذي أسمعه: "أليس هذا مجرد إضافة تعقيد؟" نعم. إنه كذلك. النظام العصبي-الرمزي أصعب في بنائه من الغلاف. إنه يتطلب فهم كلا النموذجين الفكريين — الإحصائي والمنطقي — وهندسة الجسر بينهما. لكن التعقيد يقيم في البنية حتى لا يضطر إلى الإقامة في نمط الفشل. أفضّل أن أبني نظامًا معقّدًا يعمل على نظام بسيط يفشل بشكل لا يمكن التنبؤ به.

الجسر بين نوعين من الذكاء

أريد أن أترككم مع صورة ظلت عالقة في ذهني منذ أن بدأنا هذا العمل.

فكّر في كيف تفكّر أنت فعلًا. عندما يطلب منك صديق أن ترشّح مطعمًا، تستخدم الحدس — مطابقة الأنماط على التجارب السابقة، والأجواء، والترابطات. النظام الأول. سريع وسلس. لكن عندما يطلب منك محاسبك التحقق من حساب ضريبي، تُخرج آلة حاسبة. النظام الثاني. بطيء وأكيد. أنت لا تحاول أن تحدس ما إذا كانت الأرقام تُجمع بشكل صحيح. أنت تتحقق.

كل نظام ذكاء اصطناعي منشور في العالم اليوم يعمل بالنظام الأول وحده. الأمر كما لو أننا بنينا حضارة من محاورين لامعين لا يستطيعون استخدام الآلات الحاسبة، ثم وضعناهم مسؤولين عن البنوك والمستشفيات والمدارس.

الحل ليس التخلص من المحاورين. إنهم استثنائيون فيما يفعلونه. الحل هو أن نناولهم آلة حاسبة — ونتأكد من أنهم يستخدمونها.

هذا هو الذكاء الاصطناعي العصبي-الرمزي. ليس بديلًا عن النماذج اللغوية الكبيرة. بل إتمامًا لها. الصوت والدماغ، يعملان معًا، بجسر يعرف متى يتحدث ومتى يحسب.

نحن نبني ذلك الجسر. وأعتقد أنه البنية الوحيدة التي تستحق أن يُوثق بها في الأمور التي تهم.

Related Research

Also Published On