رسم توضيحي تحريري أنيق يُظهر بنية رسم بياني معرفي متراكبة على مفهوم التوظيف — يربط المهارات بالأدوار عبر مسارات مرئية قابلة للتتبع، مقارِناً الشفافية بالغموض.

Artificial IntelligenceHiringMachine Learning

أمازون بنت أداة توظيف بالذكاء الاصطناعي علّمت نفسها كراهية النساء. وأنا بنيتُ واحدة عاجزة عن ذلك بنيوياً.

Ashutosh Singhal 11 فبراير 202612 min

في عام 2014، جلس فريق من مهندسي التعلم الآلي في إدنبرة لحل مشكلة التوظيف على نطاق أمازون. تُغذّي النظام بـ100 سيرة ذاتية، فيعيد لك أفضل خمس، مرتّبة من نجمة إلى خمس نجوم — تماماً كتقييم المنتجات. أنيق. فعّال. وفي غضون ثلاث سنوات، اكتشفوا أن النظام قد علّم نفسه أن كون المرء أنثى صفةٌ مُسقِطة للأهلية.

عاقب الذكاء الاصطناعي السير الذاتية التي تحتوي على كلمة "نسائي" — كما في "قائدة نادي الشطرنج النسائي." وخفّض تقييم خريجات كليتين مخصصتين للنساء بالكامل. لا لأن أحداً أمره بذلك. بل لأنك حين تدرّب نموذجاً على عشر سنوات من بيانات التوظيف في صناعة يهيمن عليها الذكور، يصبح "كون المرء ذكراً"، إحصائياً، أحد أقوى مؤشرات "الحصول على الوظيفة."

أتذكر قراءتي لتحقيق رويترز حين نُشر. كنت آنذاك منغمساً بعمق في بناء أنظمة الرسوم البيانية المعرفية في VeriPrajna، ولم يكن رد فعلي الأول صدمة — بل كان تعرّفاً. كنت أُحاجّ منذ أشهر بأن محركات الارتباط الإحصائي لا شأن لها باتخاذ قرارات بشأن الإمكانات البشرية. لم تكن قصة أمازون شذوذاً. كانت حتمية رياضية. وقد جذّرت لدي الإيمان بأن المنهج المعماري بأكمله للتوظيف بالذكاء الاصطناعي معطوب — لا عند الأطراف، بل في الأساس.

المشكلة ليست في التحيز. بل في المعمارية.

إليك ما يخطئ فيه معظم الناس بشأن كارثة أمازون: يظنون أن المهندسين كانوا مهملين. لم يكونوا كذلك. كانوا من أفضل مهندسي التعلم الآلي على وجه الأرض. وحين اكتشفوا التحيز الجنساني، حاولوا إصلاحه. برمجوا النموذج صراحةً على تجاهل المصطلحات المرتبطة بالجنس. فوجد النموذج طرقاً للالتفاف.

هذا هو مفهوم المتغيرات الوكيلة، وهو الأمر الذي يؤرّقني ويمنعني من النوم. فنماذج التعلم العميق باحثةٌ عن الأنماط بلا هوادة. احذف كلمة "امرأة" من المُدخلات، فيتشبّث النموذج ببنية الجملة. تُظهر الدراسات أن السير الذاتية للرجال تميل إلى استخدام أفعال مثل "نفّذ" و"استحوذ"، بينما تميل السير الذاتية للنساء إلى لغة أكثر جماعيةً. يرى النموذج أن "نفّذ" يرتبط بـ"التوظيف"، فيعيد بناء التحيز الجنساني بهدوء عبر اللغويات وحدها.

لم يستطع مهندسو أمازون استئصال التحيز جراحياً دون تدمير القدرة التنبؤية للنموذج. فأنهوا المشروع بأكمله.

لا يمكنك إصلاح نظام يميّز بالصدفة. عليك أن تبني نظاماً عاجزاً عن التمييز بحكم تصميمه.

لقد كانت تلك الجملة نجمي القطبي طوال ثلاث سنوات. وهي السبب في أننا بنينا محرك التوظيف الخاص بـVeriPrajna على الرسوم البيانية المعرفية بدلاً من الشبكات العصبية.

لماذا يتعلّم كل مُوظِّف بالذكاء الاصطناعي التمييز في نهاية المطاف؟

أحتاج منك أن تفهم شيئاً عن كيفية عمل التعلم العميق في التوظيف، لأن نمط الفشل مناقض للبديهة.

لا تفهم الشبكة العصبية معنى "Python". لا تعرف أن Python لغة برمجة مفيدة لعلوم البيانات. كل ما تعرفه هو أن السلسلة النصية "Python" ظهرت بكثرة في السير الذاتية لمن حصلوا على وظائف. وإذا ظهرت "Lacrosse" (الكروس) بكثرة أيضاً — ربما بسبب ارتباطات اجتماعية-اقتصادية بين رياضات معينة ومدارس معينة تُغذّي شركات معينة — فقد يزن النموذج "Lacrosse" بثقل "Python" نفسه.

هذا ارتباطٌ يتنكّر في زي الذكاء. لا يفكّر النموذج في السبب والنتيجة. بل يجد الأنماط ويُحسِّن نفسه من أجلها. وهنا يكمن الجزء الخبيث: تضخيم التحيز يعني أن هذه النماذج لا تكتفي بتكرار التحيزات التاريخية — بل تُبالغ فيها. فإذا كان الرجال يشكّلون 60% من القوى العاملة في بيانات التدريب، فقد يدفع النموذج نحو توظيف 80% أو 90% من الرجال لتعظيم درجة دقته.

أجريت محادثة مع مستثمر محتمل في وقت مبكر أخبرني فيها: "استخدم GPT-4 فحسب لفرز السير الذاتية. الجميع يفعل ذلك." سألته: إذا أدخلت السيرة الذاتية نفسها إلى GPT-4 مرتين، فهل تحصل على الدرجة نفسها؟ توقّف. الجواب لا — فنماذج اللغة الكبيرة عشوائية. إنها غير حتمية. شغّل المُدخل نفسه مرتين، فتحصل على مخرجين مختلفين. في سيناريو تدقيق، هذا ليس طرافةً. إنه إخفاق في الامتثال.

الجدران التنظيمية تُطبق شيئاً فشيئاً

لم يعد هذا نظرياً. فقد رأت الحكومات قصة أمازون وهي الآن تشرّع القوانين.

قانون نيويورك المحلي رقم 144، الساري منذ يوليو 2023، يُلزم أي صاحب عمل يستخدم أداة قرار توظيف آلية بالخضوع لتدقيق تحيز مستقل سنوي. ليس تدقيقاً غامضاً من نوع "تحققنا من العدالة" — بل تدقيقاً محدداً وكمياً. يفرض القانون حساب معدلات الاختيار ونسب التأثير لكل فئة من فئات العِرق والإثنية والجنس. وإذا انخفض معدل الاختيار لمجموعة محمية مقسوماً على معدل المجموعة الأكثر اختياراً إلى ما دون 0.8 — "قاعدة الأربعة أخماس" — فذلك دليل ظاهر على وجود تأثير متفاوت.

أما قانون الذكاء الاصطناعي للاتحاد الأوروبي فيذهب أبعد من ذلك. فهو يصنّف أنظمة الذكاء الاصطناعي المستخدمة في التوظيف على أنها عالية المخاطر — نفس فئة الأجهزة الطبية والبنية التحتية الحرجة. تطالب المادة 13 بأن تكون هذه الأنظمة "شفافةً بما يكفي لتمكين المستخدمين من تفسير مخرجات النظام." وتشترط المادة 14 إشرافاً بشرياً — القدرة على تجاوز قرارات الذكاء الاصطناعي. لكنك لا تستطيع أن تتجاوز قراراً لا تفهمه تجاوزاً ذا معنى.

وبموجب اللائحة العامة لحماية البيانات (GDPR)، تمنح المادة 15(1)(h) أصحاب البيانات الحق في الوصول إلى "معلومات ذات معنى حول المنطق المستخدم" في القرارات الآلية. وتذكر الحيثية 71 صراحةً الحق في "الحصول على تفسير للقرار المُتخذ."

حاول تفسير قرار شبكة عصبية. تفضّل. "أطلق العصبون رقم 4,502 عند شدة 0.8" ليس تفسيراً ذا معنى. ولا كذلك "حدّد النموذج أنك مطابق بنسبة 73%" دون أي تفاصيل إضافية.

الفجوة بين التعقيد التقني والمتطلب القانوني للتفسير البسيط هي الأزمة المركزية لتقنيات الموارد البشرية الحديثة.

كتبت عن هذا المشهد التنظيمي بمزيد من التعمق في النسخة التفاعلية من ورقتنا البحثية، التي تستعرض بالتفصيل كيف تنطبق كل لائحة على معماريات الذكاء الاصطناعي المختلفة.

ماذا لو لم يستطع الذكاء الاصطناعي رؤية الجنس على الإطلاق؟

هنا أحتاج أن أحدّثك عن الليلة التي اتّضح فيها كل شيء أمامي.

كنا نجرّب مناهج مختلفة لإزالة التحيز — التدريب التخاصمي، والتعزيز المضاد للواقع، ومجموعة الأدوات المعتادة. وكنت جالساً في مكتبنا في الحادية عشرة ليلاً، أحدّق في تمثيل بياني لرسم على شاشتي، حين خطر لي أحد تلك الإدراكات البديهية بأثر رجعي: كنا نحاول تعليم النموذج تجاهل التحيز. فماذا لو بنينا معماريةً يستحيل فيها على التحيز حرفياً أن يدخل محرك الاستدلال؟

في الرسم البياني المعرفي، تُخزَّن البيانات على هيئة عُقَد (كيانات) وحواف (علاقات). تتصل عقدة الشخص بعقد المهارات. وتتصل عقد المهارات بعقد مهارات أخرى عبر علاقات دلالية. يعرف الرسم أن "PyTorch" مكتبةٌ لـ"التعلم العميق"، وهو مجموعة فرعية من "الذكاء الاصطناعي." فإذا تطلّبت وظيفةٌ "خبرة في الذكاء الاصطناعي" وأدرج مرشحٌ "PyTorch"، يتتبّع الرسم المسار ويجد تطابقاً — حتى دون ظهور كلمة "الذكاء الاصطناعي" في أي مكان في السيرة الذاتية.

وهنا يأتي القرار المعماري الحاسم: حين يعمل خوارزم المطابقة لدينا، فإنه يعمل على رسم فرعي مقيّد. يحتوي هذا رسم الاستدلال على المهارات والأدوار ومستويات الخبرة والشهادات. ويستبعد صراحةً عُقد الاسم والجنس والإثنية والعنوان وتواريخ التخرج.

التحيز ليس مكبوتاً. بل هو مقطوع بنيوياً. فلا يوجد مسار من "المرشح" إلى "الجنس" إلى "الدور"، لأن عقدة الجنس غير موجودة أصلاً في الرسم الذي يمكن للخوارزم رؤيته.

قارن هذا بنموذج تعلم عميق يبتلع النص الخام بأكمله. حتى لو أزلت حقل "الجنس"، يقرأ النموذج "نادي الشطرنج النسائي" ويستنتج الجنس. في نظامنا، يُحوّل نموذج اللغة الكبير الذي يحلّل السيرة الذاتية عبارة "نادي الشطرنج النسائي" إلى عقدة محايدة: (:Activity {type: "Strategy Club", role: "Leadership"}). يُجرَّد المُعدِّل المرتبط بالجنس قبل أن يدخل محرك الاستدلال.

أتذكر نقاش الفريق حول هذا. اعترض أحد مهندسيّ بشدة — إذ رأى أننا نفقد إشارة قيّمة بتجريد السياق. "ماذا لو كان نادي الشطرنج النسائي أكثر تنافسيةً بالفعل من النادي العادي؟" وجهة نظر وجيهة. لكننا لم نكن نُحسِّن من أجل أقصى استخراج للمعلومات. كنا نُحسِّن من أجل العدالة تحت التدقيق القانوني. وأفضّل أن أفوّت إشارةً هامشية على أن أبني نظاماً يتعلم معاقبة نصف السكان.

كيف تقيس الموهبة فعلياً دون تحيز؟

مقتطف مُعنون من رسم بياني معرفي يوضح كيف تتصل المهارات دلالياً، مع مثال ملموس لمسار Docker إلى Kubernetes ومفهوم تسجيل مسافة المهارة.

نحن لا نتنبأ بمن سينجح. نحن نقيس مسافة المهارة — الفجوة الهندسية بين ما يملكه المرشح وما تتطلبه الوظيفة. وهذا ينقل التوظيف من الاحتمال الذاتي إلى القياس الموضوعي.

تستخدم أنظمة تتبّع المتقدمين التقليدية منطقاً بوليانياً: هل تحتوي السيرة الذاتية على الكلمة المفتاحية "Java"؟ نعم أم لا. هذا هشّ وغبي. فهو يُغفل كل من يستخدم مصطلحاً مختلفاً للكفاءة نفسها.

نستخدم تضمينات الرسم البياني — خوارزميات مثل Node2Vec تتعلّم تمثيلاً متجهياً لكل مهارة في أنطولوجيتنا. المهارات التي تتزامن كثيراً في الرسم (مثل "Python" و"Pandas") تنتهي متقاربةً في فضاء المتجهات. والمهارات غير المترابطة (مثل "Python" و"Phlebotomy" [سحب الدم]) تنتهي متباعدةً.

لتقييم مرشح، نحسب تشابه جيب التمام بين مجموعة متجهات مهارات المرشح ومجموعة متجهات متطلبات الوظيفة. وهذا يمنحنا رصيداً جزئياً. فالمرشح الذي يفتقر إلى "Tableau" لكنه يملك "Power BI" يحصل على درجة تشابه عالية لأن هاتين العقدتين جارتان دلاليتان في عنقود "ذكاء الأعمال." أما بحث الكلمات المفتاحية فسيمنحه صفراً.

ونضيف طبقةً من تشابه جاكار لتداخل المهارات الخام والمسافة الجيوديسية — حسابات أقصر مسار عبر الرسم — لتحليل الفجوات. فإذا تطلّبت وظيفةٌ Kubernetes وكان لدى المرشح Docker، يجد الرسم المسار: Docker → الحاويات → التنسيق → Kubernetes. المسافة: 3 قفزات. التفسير: قابل للتدريب. أما إذا كانت المسافة 6 قفزات أو أكثر، فهي فجوة صعبة.

درجة مسافة المهارة النهائية مقياسٌ قائم على الكفاءة بحتاً، أعمى تماماً عن السمات الديموغرافية. نحن لا نُخمّن من هو الجيد. نحن نقيس مدى قربهم.

للاطلاع على التفصيل التقني الكامل لهذه الخوارزميات — بما في ذلك الرياضيات وراء تشابه جيب التمام ونموذج التسجيل المركّب لدينا — انظر ورقتنا البحثية.

لحظة "SQL المفقود"

دعني أجعل هذا ملموساً بشيء حدث أثناء الاختبار.

أدخلنا ملف مرشح إلى كلٍّ من مُوظِّف صندوق أسود قياسي ونظامنا. رفض الصندوق الأسود المرشح. دون إبداء سبب. (حدّدنا لاحقاً أن المرشح التحق بكلية صغيرة أقل شهرة — عقوبة سلالة نَسَبيّة كلاسيكية.)

أما نظامنا فأعاد ما يلي: "يفتقر المرشح إلى خبرة صريحة في SQL. لكن تحليل الرسم يُظهر خبرة واسعة مع Pandas DataFrames وR dplyr. مسافة الرسم بين DataFrames وSQL قصيرة (المفهوم المشترك: معالجة البيانات). التوصية: إجراء مقابلة. قابلية نقل عالية."

ذلك المرشح — الذي رماه الصندوق الأسود بعيداً — كان يملك كل مهارة تحتاجها الوظيفة. لقد استخدم فحسب كلمات مختلفة لها. والتحق بمدرسة لم يرَ الصندوق الأسود ما يكفي منها في بيانات تدريبه ليعتبرها "ناجحة."

هذا ما أعنيه حين أقول إن الرسوم البيانية المعرفية توسّع مجمّع المواهب. فهي تجد أشخاصاً يملكون الكفاءات لكن ليس النَّسَب أو المفردات الدقيقة. وهذا يُحسّن التنوع بطبيعته — لا عبر الحصص أو التعديلات، بل عبر قياس أفضل.

ماذا يحدث حين يرصد النظام مشكلة؟

يسألني الناس: "ماذا لو كان نظامك لا يزال يُنتج نتائج متحيزة؟" سؤال وجيه، وسأشكّ في أي شخص يزعم أن نظامه مثالي.

إليك الفرق: حين يُنتج صندوق أسود نتائج متحيزة، تكون عالقاً. يمكنك أن ترى التأثير المتفاوت في الأرقام، لكنك لا تستطيع أن ترى لماذا. أهي أسماء الجامعات؟ أم الرموز البريدية؟ أم أسلوب الكتابة؟ إنك تُنقّح نظاماً بملايين المعاملات وبلا منطق مقروء.

حين يُنتج نظامنا شذوذاً إحصائياً — لنقل، نسبة تأثير دون 0.8 لمجموعة ديموغرافية معينة — يمكننا تتبّعه. يمكننا تحديد عُقد الرسم المحددة المسبِّبة للتفاوت. ربما يتطلّب وصف وظيفةٍ شهادةً باهظة معينة ترتبط بالوضع الاجتماعي-الاقتصادي. يمكننا رؤية ذلك، ووضع علامة عليه، ويمكن لفريق التوظيف أن يقرر ما إذا كانت تلك الشهادة ضرورية حقاً أم مجرد متطلب موروث لم يشكّك فيه أحد.

الصندوق الزجاجي لا يعني أن النظام محقّ دائماً. بل يعني أنه حين يُخطئ، يمكنك معرفة السبب وإصلاحه.

نموذج اللغة الكبير لا يزال له عمل — لكنه ليس العمل المهم

مخطط معماري يقارن كيفية تدفق البيانات عبر شبكة عصبية صندوق أسود مقابل نظام الرسم البياني المعرفي لدى VeriPrajna، مبيّناً أين يدخل التحيز وأين يُحجَب بنيوياً.

دعني أكون واضحاً: نحن نستخدم نماذج اللغة الكبيرة. لسنا من أنصار تحطيم الآلات. لكننا نستخدمها كما تستخدم مترجماً — للقراءة والكتابة، لا للحكم.

تفرض معماريتنا فصلاً صارماً للاهتمامات. يتولّى نموذج اللغة الكبير الإدراك: فهو يقرأ نص السيرة الذاتية غير المنظّم ويستخرج الكيانات. تتحوّل عبارة "نسّقت فريقاً من 5 مطورين لبناء تطبيق React Native" إلى بيانات منظّمة — مهارة: React Native، مهارة: قيادة الفريق، السياق: تطوير الأجهزة المحمولة. ويُوحّد نموذج اللغة الكبير المرادفات: "ReactJS" و"React.js" كلاهما يُطابق العقدة نفسها.

لكن نموذج اللغة الكبير لا يتخذ أبداً قرار توظيف. تتم كل المطابقة والتسجيل والترتيب عبر اجتياز حتمي للرسم. الرسم نفسه مع الاستعلام نفسه يساوي النتيجة نفسها، في كل مرة. ونستخدم نموذج اللغة الكبير أيضاً عند طرف المخرجات — فهو يولّد تفسيرات مقروءة للبشر، لكن فقط من حقائق مُتحقَّق منها عبر الرسم. لا يمكنه أن يهلوس تطابق مهارة لا يدعمه الرسم.

أفكّر فيه على أن نموذج اللغة الكبير هو عينا النظام وفمه، بينما الرسم البياني المعرفي هو الدماغ. لن تدع فمك يتخذ القرارات نيابةً عنك. (حسناً، معظمنا لن يفعل.)

بين ماذا نختار حقاً؟

كما أراه، الصناعة عند مفترق طرق. أحد المسارين يقود إلى نماذج أكبر، ومعاملات أكثر، وغموض أكثر — ولعبة لا تنتهي من ضرب الخُلد مع تحيز يجد دوماً متغيرات وكيلة جديدة يستغلها. والمسار الآخر يقود إلى استدلال منظّم، وقياس دلالي، وأنظمة قادرة على تفسير نفسها لجهة تنظيمية أو مُوظِّف أو مرشح مرفوض.

تحدثت مع قادة الموارد البشرية في شركات لا تزال تستخدم أدوات فرز الصندوق الأسود. إنهم يعرفون الخطر. لقد قرأوا عن أمازون. لكن تبديل المعماريات يبدو مكلفاً وغير مؤكد، فيواصلون الترقيع. يضيفون "طبقات تخفيف التحيز" فوق أنظمة متحيزة جوهرياً. يوظّفون مستشارين لإجراء تدقيقات سنوية تخبرهم بما هو معطوب دون أن تمنحهم أدوات إصلاحه.

البيانات مرآة. إذا درّبت نموذجاً على الماضي، فإنك تُكرّر الماضي. وفي عالم يسعى إلى الإنصاف، يكون تكرار الماضي حالة فشل.

لن أختم هذا بتحفّظ. لقد أمضيت سنوات في بناء هذا، ورأيت البديل يفشل فشلاً ذريعاً، وأنا واثق من الخلاصة: مستقبل الذكاء الاصطناعي في التوظيف لا يتعلق بالتنبؤ بمن سينجح استناداً إلى من نجح من قبل. بل يتعلق بقياس المسافة الفعلية بين ما يستطيع شخص فعله وما تتطلبه الوظيفة — وجعل ذلك القياس شفافاً وحتمياً وعاجزاً بنيوياً عن التمييز.

يمكنك أن تستمر في التنبؤ بالماضي. أو يمكنك أن تبدأ بقياس المستقبل.