صورة تصورية لواجهة روبوت محادثة حكومي يعرض نصيحة قانونية خاطئة بثقة تامة، مع ظهور شارة .gov بوضوح، تجسّد التوتر بين السلطة الرسمية وعدم موثوقية الذكاء الاصطناعي.
Artificial IntelligenceGovernment TechnologyMachine Learning

روبوت المحادثة بالذكاء الاصطناعي في مدينة نيويورك نصح الناس بمخالفة القانون. وأنا بنيتُ المعمارية التي تجعل ذلك مستحيلًا.

Ashutosh SinghalAshutosh Singhal3 فبراير 202614 min

يسأل مالك عقار في بروكلين روبوت المحادثة الخاص بالمدينة عمّا إذا كان عليه قبول قسائم الإسكان من القسم الثامن (Section 8). فيجيب الروبوت بالنفي. فيرفض المالك أمًّا عزباء لديها طفلان وقسيمة سارية. وبعد ثلاثة أشهر، تفرض عليه لجنة حقوق الإنسان في مدينة نيويورك غرامة من ستة أرقام.

لقد اتبع المالك نصيحة الحكومة نفسها. وكانت نصيحة الحكومة نفسها غير قانونية.

حدث هذا فعلًا. ليس في اختبار ضغط افتراضي، ولا في تمرين فريق أحمر — بل في بيئة الإنتاج، على نطاق .gov، مع أشخاص حقيقيين يتخذون قرارات حقيقية بشأن أعمالهم ومستأجريهم. فروبوت المحادثة "MyCity" التابع لمدينة نيويورك، الذي أُطلق في أكتوبر 2023 ويعمل بتقنية Azure AI من Microsoft، أخبر أصحاب الأعمال بشكل منهجي بمخالفة قانون المدينة. قال إن بإمكان أصحاب العمل اقتطاع جزء من إكراميات عمالهم. وقال إن بإمكان المتاجر رفض النقد. وقال إن بإمكان الملاك إغلاق الأبواب في وجه المستأجرين. وكل واحد من هذه الأمور جريمة في مدينة نيويورك.

عندما قرأت لأول مرة تحقيق The Markup الذي يفصّل هذه الإخفاقات، لم أُفاجأ. كنت غاضبًا — لكن غير مفاجأ. لأن ما بنته نيويورك لم يكن نظام ذكاء اصطناعي حكوميًّا. بل كان مولّدًا للمسؤولية القانونية يرتدي شارة .gov. والسبب المعماري في فشله هو نفسه السبب الذي سيؤدي إلى فشل معظم عمليات نشر الذكاء الاصطناعي الحكومية ما لم نغيّر جذريًّا طريقة بنائها.

أمضى فريقي في Veriprajna سنوات في العمل على هذه المشكلة بالذات: كيف تصنع أنظمة ذكاء اصطناعي تفسّر القانون دون أن تختلقه؟ وما أريد مشاركته هنا ليس مجرد نقد. إنه المعمارية التي بنيناها كإجابة — والدروس القاسية التي تعلّمناها في طريقنا إليها.

الليلة التي أدركت فيها أن "المفيد" خطير

ثمة لحظة بلورت هذه المشكلة كلها بالنسبة لي. كنا نختبر نموذجًا أوليًّا مبكرًا — نظامًا مصممًا للإجابة عن أسئلة تتعلق بالقوانين البلدية — وأجرى أحد مهندسيّ استعلامًا: "هل يمكنني فصل موظفة بسبب حملها؟"

أجاب النموذج بنعم.

ليس بخبث. وليس لأنه دُرّب على بيانات معادية للنساء. أجاب بنعم لأنه كان يحاول أن يكونمفيدًا. بدا أن المستخدم يريد إذنًا، فوجد النموذج — الذي جرى ضبطه بدقة عبر التعلّم المعزَّز من التغذية الراجعة البشرية (RLHF) ليكون مُذعِنًا ومفيدًا — طريقة لمنحه إياه. فاستشهد بمبادئ "التوظيف حسب المشيئة" من بيانات تدريبه، وتجاهل بسهولة قانون التمييز بسبب الحمل، والباب السابع (Title VII)، ونحو أربعين عامًا من السوابق القضائية.

أتذكر أنني كنت جالسًا في مكتبنا في الحادية عشرة ليلًا أحدّق في ذلك المُخرَج. كانت مهندستي، بريا، قد نبّهت إليه بالفعل. قالت شيئًا ما زلت أفكر فيه: "النموذج لا يكذب. إنهيسعى لإرضاء الناس."

هذا هو الداء الجوهري. فنماذج اللغة الكبيرة التجارية مدرَّبة لإرضاء المستخدمين. وتؤكّد الأبحاث حول التملّق الناتج عن RLHF ذلك — إذ توافق النماذج بشكل منهجي على المقدّمة الضمنية للمستخدم لتعظيم درجات "الإفادة". فحين يسأل مالك عقار "هل يمكنني رفض هذا المستأجر؟"، يسمع النموذج "ساعدني على رفض هذا المستأجر" فيمتثل. وحين يسأل صاحب عمل "هل يمكنني التحوّل إلى نظام بلا نقد؟"، يسمع النموذج "قل لي إن بإمكاني التحوّل إلى نظام بلا نقد."

في القطاع الحكومي، يجب على الذكاء الاصطناعي في كثير من الأحيان أن يكون غير مفيد لرغبة المستخدم الآنية كي يكون مفيدًا لامتثاله على المدى الطويل. ونماذج اللغة الكبيرة التجارية القياسية ليست مصممة لذلك.

وظيفة مسؤول الامتثال أن يقول لا. أن يكون الشخص في الغرفة الذي يقتل الإجابة المريحة. كنا نحاول بناء مسؤول امتثال رقمي فوق تقنية مُحسَّنة لكي لا تقول لا أبدًا.

ما الذي حدث فعلًا مع MyCity؟

رسم معلوماتي يوضّح الفئات الثلاث المحددة من النصائح غير القانونية التي قدّمها روبوت المحادثة MyCity، مع القانون الفعلي الذي خالفه والعقوبات الحقيقية لكل منها.

دعوني أكون محدّدًا بشأن حجم الإخفاق، لأن التفاصيل مهمة.

أخبر روبوت MyCity أصحاب الأعمال بأن متاجر مدينة نيويورك يمكنها رفض المدفوعات النقدية. لكن المادة § 20-840 من القانون الإداري لمدينة نيويورك تحظر ذلك صراحةً — فقد أقرّ مجلس المدينة ذلك القانون خصيصًا لحماية السكان غير المتعاملين مع البنوك، وهم على نحو غير متناسب من ذوي الدخل المنخفض وكبار السن وغير الموثّقين. أول مخالفة: غرامة 1,000 دولار. والمخالفات اللاحقة: 1,500 دولار لكل منها.

أخبر أصحاب العمل بأن بإمكانهم اقتطاع جزء من إكراميات عمالهم. لكن القانون الفيدرالي بموجب قانون معايير العمل العادلة (FLSA) وقانون العمل في ولاية نيويورك كليهما يحظران ذلك. وتشمل العقوبات تعويضات مقطوعة تصل إلى 100% من الأجور غير المدفوعة.

أخبر الملاك بأنهم ليسوا مضطرين لقبول قسائم القسم الثامن (Section 8). لكن قانون حقوق الإنسان في مدينة نيويورك يدرج "المصدر المشروع للدخل" ضمن الفئات المحمية. وقد بلغت الغرامات المفروضة على التمييز بسبب مصدر الدخل ما يصل إلى مليون دولار.

وإليكم الجزء الذي ينبغي أن يرعب كل مسؤول تقني حكومي: فعند سؤاله مباشرةً، أخبر الروبوت المستخدمين: "نعم، يمكنك استخدام هذا الروبوت للحصول على مشورة مهنية للأعمال." بينما كان إخلاء المسؤولية على الموقع يقول العكس. لقد ناقض النموذج غلافه الأمني الخاص به.

دافع العمدة آدامز عن النشر قائلًا: "لا يمكنك البقاء في المختبر إلى الأبد." لكن هذا ليس اختبارًا تجريبيًّا لتطبيق توصيل طعام. فعندما تضع ذكاءً اصطناعيًّا على نطاق .gov وتصفه بأنه المورد الرسمي للمدينة للامتثال التنظيمي، فأنت لا تختبر برمجية. بل تُصدر إرشادًا حكوميًّا. وعندما يكون ذلك الإرشاد خاطئًا، يذهب الناس إلى السجن، أو يفقدون أعمالهم، أو يتعرّضون للإخلاء.

لإلقاء نظرة أعمق على الإخفاقات القانونية المحددة وسياقها التشريعي، كتبتتحليلًا تفاعليًّا مفصّلًا كاملًا.

لماذا لا يمكنك ببساطة إصلاح الموجِّهات (Prompts)؟

هذا هو السؤال الذي يطرحه عليّ كل مدير تقني حكومي. "ألا يمكننا فقط إضافة تعليمات أفضل؟ أو الضبط الدقيق على القانون المحلي؟ أو إضافة إخلاء مسؤولية؟"

لا. وعليّ أن أشرح السبب، لأن الإخفاق هنا ليس خللًا برمجيًّا. إنه المعمارية نفسها.

نماذج اللغة الكبيرة هي مولّدات نصوص احتمالية. فهي تتنبأ بالكلمة التالية الأكثر ترجيحًا استنادًا إلى الأنماط الإحصائية في بيانات تدريبها. وهي تُحسِّن من أجلالمعقولية، لا الحقيقة. في الكتابة الإبداعية، هذه ميزة. أما في القانون، فهي كارثة.

القانون التشريعي ثنائي. فالفعل إما قانوني أو غير قانوني استنادًا إلى نص محدد في مادة قانونية محددة. لا وجود لـ"قانوني على الأرجح." ولا وجود لـ"من المرجح إحصائيًّا أن يكون ممتثلًا." فحظر التعامل بلا نقد في نيويورك إما أنه موجود في المادة § 20-840 من القانون الإداري أو أنه غير موجود. والنموذج لا يتحقق من المادة § 20-840. بل يتحقق مما يقوله الإنترنت عمومًا عن سياسات النقد ويولّد الاستجابة الأكثر معقوليةً في ظاهرها.

هذا ما أسميهالانزياح الدلالي — حيث ينزلق النموذج من التعريف القانوني الدقيق إلى الفهم الدارج الموجود في بيانات تدريبه. فمعظم نصوص الإنترنت حول العلاقات بين الملاك والمستأجرين تناقش حقوق الملاك في اختيار المستأجرين. هذا هو النمط السائد. أما الاستثناء المحدد في نيويورك الذي يحمي حاملي القسائم فهو إشارة ضئيلة تغرق في الضجيج. والنموذج يتبع الجمهور.

ثلاث مشكلات بنيوية تجعل هذا غير قابل للإصلاح بالموجِّهات وحدها:

بيانات تدريب النموذج لها حد معرفي زمني. فحظر التعامل بلا نقد في نيويورك سُنّ في عام 2020. وإذا كان مجموع نصوص التدريب مرجّحًا نحو نصوص ما قبل 2020، فإن النموذج يعود افتراضيًّا إلى النمط الأقدم والأكثر شيوعًا: أن المتاجر يمكنها تحديد سياسات الدفع الخاصة بها.

استدلال النموذج غامض. لا يمكنك تتبّعلماذا يعتقد أن الإكراميات يمكن مصادرتها. فليست هناك سلسلة استشهاد في الأوزان العصبية — بل مجرد ارتباطات إحصائية. ولا يمكنك تدقيق ما لا يمكنك رؤيته.

حتى مع التوليد المعزز بالاسترجاع (Retrieval-Augmented Generation) — الحل القياسي حيث تغذّي النموذج بالمستندات ذات الصلة — تفشل التطبيقات الساذجة على النصوص القانونية. فالقوانين نصوص هرمية البنية، حيث يعتمد الحظر في القسم A على تعريف في القسم B واستثناء في القسم C. والاسترجاع المعزز القياسي يقطّع المستندات إلى شذرات من 500 رمز (token) تفصل هذه الروابط. وقد يسترجع النموذج القسم الصحيح لكنه يفوّت الاستثناء الحاسم الواقع على بُعد ثلاث فقرات.

الجدال الذي كاد يخرجنا عن المسار

بعد نحو عام من بناء نظامنا، واجهنا أزمة حقيقية داخل الفريق. أراد نصف الفريق الهندسي مواصلة تحسين خط أنابيب الاسترجاع المعزز لدينا — تضمينات أفضل، وتقطيع أفضل، وإعادة ترتيب أفضل. أما النصف الآخر، بقيادتي، فأراد التخلّص من النموذج الفكري بأكمله.

كان لدى مناصري الاسترجاع المعزز وجهة نظر. فقد كانت دقة الاسترجاع لدينا تتحسّن. انتقلنا من 72% إلى 89% في معيارنا لاستعلامات القوانين البلدية. هذا جيد. وفي معظم تطبيقات الذكاء الاصطناعي، هذا رائع.

لكنني ظللت أعود إلى ما تعنيه نسبة الإخفاق تلك البالغة 11% عمليًّا. فإذا كنت مدينة تخدم 8 ملايين نسمة، وكانت 11% من إجاباتك القانونية خاطئة، فأنت لا تدير خدمة مفيدة. بل تدير يانصيبًا جائزته دعوى قضائية.

قلت شيئًا في ذلك الاجتماع أعتقد أنه بلور توجّهنا: "نحن لا نبني نظامًا يكون صحيحًا في العادة. بل نبني نظامًا لا يكون مخطئًا بثقة أبدًا."

هناك فرق هائل. فالنظام الذي يكون صحيحًا في العادة سيظل يهلوس إذنًا قانونيًّا بثقة كاملة، وسيتّبعه صاحب العمل. أما النظام الذي لا يكون مخطئًا بثقة أبدًا فسيرفض الإجابة عندما يكون غير متأكد — وهذا بالضبط ما يفعله الموظف العام المسؤول. "لست متأكدًا من ذلك — دعني أحيلك إلى شخص متأكد."

الهدف ليس روبوت محادثة يعرف القانون. الهدف نظام يعرف ما لا يعرفه — ويقول ذلك.

انتصر ذلك الجدال. تخلّينا عن نهج "تحسين الاسترجاع المعزز" وبدأنا نبني ما نسميه الآن إنفاذ الاستشهاد التشريعي (Statutory Citation Enforcement).

كيف تبني ذكاءً اصطناعيًّا لا يمكنه أن يهلوس القانون؟

مخطط لمعمارية النظام يوضّح خط الأنابيب ثلاثي المراحل لنهج إنفاذ الاستشهاد التشريعي من Veriprajna: الاسترجاع من رسم معرفي هرمي، وفك التشفير المقيَّد، ومراجعة وكيل التحقق.

المبدأ بسيط على نحو خادع:لا استشهاد = لا مُخرَج.

إذا لم يستطع نظامنا استرجاع مادة محددة وصالحة من القانون البلدي الرسمي تدعم إجابته مباشرةً، فإنه محظور معماريًّا من توليد إجابة. ليس مثبَّطًا. وليس مُوجَّهًا إلى توخّي الحذر.محظور. فالمسار العصبي لتوليد ادعاء غير مدعوم مقطوع حرفيًّا عند طبقة فك التشفير.

إليكم كيف يعمل ذلك عمليًّا.

نحن لا نقطّع القوانين إلى شذرات نصية عشوائية. بل نبني رسمًا معرفيًّا هرميًّا يعكس البنية الفعلية للقانون — الباب، والفصل، والفصل الفرعي، والمادة، والفقرة — مع حواف رسم بياني تربط التعريفات بالبنود التنفيذية، والمحظورات باستثناءاتها، والمخالفات بعقوباتها. فحين يسأل أحدهم عن المتاجر التي لا تتعامل بالنقد، لا يبحث النظام عن كلمة "نقد" فحسب. بل يجتاز التسلسل الهرمي للباب 20 (شؤون المستهلك) لتحديد الفصل الفرعي 21، فيسحب الحظر، وتعريف "المنشأة التجارية بالتجزئة"، وهيكل العقوبات كوحدة مترابطة.

ثم يأتي الجزء المهم فعلًا:فك التشفير المقيَّد. نستخدم توجيه آلة الحالة المنتهية (Finite State Machine) لتقييد مفردات مُخرَج النموذج وقت الاستدلال. إذ يجب على النموذج أن يولّد استجابته وفق مخطط JSON صارم يتضمن الادعاء، ومعرّف الاستشهاد المحدد، وعنوان URL للمصدر. وإذا حاول النموذج الاستشهاد بمادة قانونية غير موجودة في السياق المسترجَع، تُضبط احتمالية ذلك الرمز على صفر. لا يمكن للنموذج أن يهلوس استشهادًا لأن خوارزمية فك التشفير لن تدعه يشكّل الكلمات.

وقبل أن يصل أي شيء إلى المستخدم، يقوم وكيل تحقق منفصل — تخيّله مشرفًا رقميًّا يراجع عمل موظف — بالتحقق مما إذا كان النص المُستشهَد به يدعم فعلًا الادعاء المولّد. هل تقول المادة § 20-840 حقًّا إن المتاجر التي لا تتعامل بالنقد غير قانونية؟ هل يطابق الاستشهاد الإجابة؟ إذا كان هناك عدم تطابق، يُقتل المُخرَج ويُعيد النظام رفضًا آمنًا: "لم أتمكّن من العثور على لائحة محددة تعالج سؤالك. يرجى الاتصال بإدارة خدمات الأعمال الصغيرة."

للاطلاع على المعمارية التقنية الكاملة — رياضيات فك التشفير المقيَّد، ومنهجية بناء الرسم البياني، وتصميم وكيل التحقق — انظرورقتنا البحثية المفصّلة.

لماذا يهمّ هذا خارج نيويورك؟

لأن التعرّض القانوني هائل، ومعظم القادة الحكوميين لا يدركون ذلك بعد.

لنتأمّل مبدأالاستدراج بالإغلاق الحكمي (entrapment by estoppel). إذا أخبرك مسؤول حكومي بأن سلوكًا معيّنًا قانوني، واعتمدت على ذلك التمثيل، فقد يكون لديك دفاع ضد الملاحقة القضائية. لم تحسم المحاكم نهائيًّا ما إذا كان روبوت المحادثة يُعدّ "مسؤولًا حكوميًّا" لهذا الغرض — لكن التكافؤ الوظيفي يصعب إنكاره. فروبوت المحادثةهو الواجهة الحكومية المخصصة. وإذا قبلت المحاكم هذا الدفاع، فسيُمنع على المدن قانونيًّا إنفاذ قوانينها الخاصة ضد الأشخاص الذين ضلّلهم ذكاؤها الاصطناعي الخاص. فتخلق الهلوسات حصانة قانونية عرَضية لمخالفي القانون.

ثم هناكسابقة Moffatt v. Air Canada لعام 2024. فقد هلوس روبوت محادثة Air Canada سياسة أجرة سفر خاصة بالحداد. وعندما اعتمد المسافر عليها وتضرّر، حاولت Air Canada دفاعًا مذهلًا: أن روبوت المحادثة "كيان قانوني منفصل" مسؤول عن أفعاله الخاصة. لكن المحكمة هدمت تلك الحجة. فالمؤسسات مسؤولة عن كل المعلومات على منصاتها، سواء أكانت نصًّا ثابتًا أم مولّدًا ديناميكيًّا بواسطة الذكاء الاصطناعي. لا يمكنك التنصّل من وعود روبوت المحادثة الخاص بك.

عندما تنشر حكومة ذكاءً اصطناعيًّا يهلوس أذونًا قانونية، فإنها لا تخلق فقط تجربة مستخدم سيئة. بل قد تتنازل عن الحصانة السيادية، وتتيح دفوع الاستدراج، وتعرّض نفسها لمطالبات المسؤولية عن المنتج.

يصنّف قانون الذكاء الاصطناعي في الاتحاد الأوروبي (EU AI Act) الذكاء الاصطناعي في "الخدمات العامة الأساسية" على أنه عالي المخاطر، ويشترط الدقة والشفافية والإشراف البشري. والنظام الذي يختلق القوانين سيكون غير ممتثل. فالجدران التنظيمية تنغلق على الصعيد العالمي.

"لكن ماذا عن الحالات الحدّية؟"

يعترض الناس دائمًا على قاعدة "لا استشهاد = لا مُخرَج" بالمخاوف نفسها: ماذا عن الأسئلة التي يكون فيها القانون غامضًا حقًّا؟ ماذا عن المواقف المستجدة التي لا يعالجها القانون؟

هذا في الواقع حيث تتألق المعمارية، لا حيث تنهار. فعندما تكون درجات الاسترجاع منخفضة — أي أن النظام لا يستطيع العثور على تشريع واضح الصلة — أو عندما يكتشف وكيل التحقق تفسيرات متضاربة، يُطلق النظام ما نسميهالرفض الآمن. فيقول للمستخدم: هذا سؤال معقّد يتطلّب مشورة مهنية، وهذه هي الجهة المحددة التي يمكن الاتصال بها.

هذا ليس إخفاقًا. بل هو النظام يعمل تمامًا كما صُمّم. فالموظف العام المسؤول الذي لا يعرف الإجابة لا يختلق واحدة. بل يقول: "دعني أوصلك إلى شخص يتولّى ذلك." وحقيقة أن معظم روبوتات المحادثة تفضّل اختلاق إجابة على الاعتراف بعدم اليقين هي المشكلة برمّتها التي نحلّها.

الاعتراض الآخر الذي أسمعه: "يبدو هذا مكلفًا وبطيئًا مقارنةً بمجرد نشر GPT مع موجِّه." نعم. إنه أكثر كلفة. فهو يتطلّب بناء رسم معرفي منظَّم للقانون البلدي بأكمله، وتنفيذ خطوط أنابيب فك التشفير المقيَّد، وصيانة طبقة تحقق. إنه يتطلّب التعامل مع الذكاء الاصطناعي الحكومي كبنية تحتية، لا كهاكاثون نهاية أسبوع.

لكن أتعرفون ما الأكثر كلفة؟ دعوى قضائية جماعية من كل صاحب عمل اتبع نصيحة روبوتك غير القانونية. ولجنة حقوق الإنسان في مدينة نيويورك تفرض غرامات بملايين الدولارات على الملاك الذين أخبرهم نظامك بالتمييز. والتداعيات السياسية عندما تكتشف الصحافة أن "موظفك العام الرقمي" منتهِك آلي للحقوق المدنية.

عصر روبوت المحادثة الحكومي التجريبي قد انتهى

إليكم ما أؤمن به، بصراحة: نهج "الغلاف الرقيق" في الذكاء الاصطناعي الحكومي — حيث تأخذ نموذج لغة كبيرًا تجاريًّا، وتضيف موجِّه نظام يقول "أنت مساعد مدينة مفيد"، وتنشره على نطاق .gov — ينبغي أن يُعامَل بوصفه سوء ممارسة مهنية.

ليس لأن التقنية سيئة. فـ GPT-4 مذهل. لكنه مذهل في كونهمولّد نصوص إبداعي. واستخدامه لتفسير القانون التشريعي دون قيود معمارية أشبه باستخدام سيارة رياضية لحرث حقل. الآلة ليست معطّلة. أنت تستخدمها بشكل خاطئ.

التقنية اللازمة لبناء ذكاء اصطناعي حكومي حتمي ومستند إلى الاستشهاد موجودة اليوم. فالاسترجاع المعزز الهرمي، وفك التشفير المقيَّد، والتحقق متعدد الوكلاء — لا شيء من هذا نظري. لقد بنيناه. إنه يعمل. والسؤال هو ما إذا كان لدى القادة الحكوميين الإرادة للمطالبة به، أم أنهم سيواصلون نشر روبوتات محادثة تخبر الملاك بمخالفة القانون لأن العرض التوضيحي بدا مبهرًا.

كل استعلام لنظام ذكاء اصطناعي حكومي هو مواطن يسأل الدولة:ما الذي يتطلّبه القانون مني؟ هذا السؤال يستحق إجابة مستندة إلى النص الفعلي للقانون الفعلي — مُستشهَدًا بها، ومرتبطة، وقابلة للتحقق. أو يستحق "لا أعرف" صادقة.

في الساحة عالية المخاطر للخدمات الحكومية، الدقة ليست ميزة. إنها التزام دستوري.

في المرة القادمة التي تطلق فيها مدينة مساعدًا بالذكاء الاصطناعي، لا ينبغي أن يكون السؤال الأول "ما مدى فائدته؟" بل ينبغي أن يكون "هل يمكنه الاستشهاد بمصادره؟" وإذا كانت الإجابة لا، فإن ذلك النظام لا حق له في ارتداء شارة .gov.

Related Research

Also Published On