سلامة وحوكمة الذكاء الاصطناعي السريري

نظامكم الصحي يشغّل من 5 إلى 15 أداة ذكاء اصطناعي. لم يُتحقَّق من أيٍّ منها بشكل مستقل.

كتبة طبيون محيطيون يصيغون الملاحظات السريرية. ذكاء اصطناعي في بوابة المرضى يرسل الرسائل نيابة عن أطبائكم. نماذج للإنتان (تعفن الدم) تطلق التنبيهات. خوارزميات للفرز توجّه المرضى. لكل أداة ادعاءات الدقة الخاصة بها، وملف السلامة الخاص بها، ونقاط العمى الخاصة بها. السؤال ليس ما إذا كان الذكاء الاصطناعي لديكم يعمل. السؤال هو ما إذا كان بإمكانكم إثبات ذلك، عبر كل فئة سكانية من المرضى، عندما يسأل جهة تنظيمية أو محامي مدّعٍ أو صحفي.

7.1%

رسائل مصاغة بالذكاء الاصطناعي شكّلت خطر إيذاء جسيم للمرضى

Lancet Digital Health، أبريل 2024

66.6%

من الأخطاء الضارة التي أغفلها الأطباء المراجعون

Lancet Digital Health، أبريل 2024

14%

زيادة في دعاوى سوء الممارسة المرتبطة بالذكاء الاصطناعي منذ 2022

Medical Economics، 2025

تبني Veriprajna البنية التحتية للسلامة التي تقع بين أدوات الذكاء الاصطناعي السريري لديكم وبين مرضاكم. تقييمات مستقلة، ومراقبة للتحيّز، وهندسة للحوكمة، وهندسة للامتثال التنظيمي. محايدة تجاه المورّدين. مبنية على الأدلة. مصمّمة لكبير مسؤولي المعلوماتية الطبية (CMIO) الذي يحتاج إلى إجابات لا إلى عروض تسويقية.

ثلاثة أنماط فشل تحدّد المخاطر

يفشل الذكاء الاصطناعي السريري بطرق محددة وقابلة للتوثيق. لكل نمط فشل قاعدة أدلته الخاصة، واستجابته التنظيمية الخاصة، وتخفيفه التقني الخاص. فهم التمييز بينها مهم لأن ضوابط الحوكمة لكل منها مختلفة.

01

الهلوسة والتحيّز نحو الأتمتة

يولّد الذكاء الاصطناعي محتوى سريرياً معقولاً لكنه خاطئ، ويثق به الطبيب.

يراجع طبيب مستشفى رداً مصاغاً بالذكاء الاصطناعي عبر MyChart على مريض يسأل عن دواء جديد. يوصي المسوّدة بالاستمرار في الميتفورمين ويشير إلى أن آخر قراءة لـ HbA1c لدى المريض كانت 6.8%. يتصفّحها الطبيب في 12 ثانية وينقر على إرسال. المشكلة: مستوى الكرياتينين لدى المريض كان في ارتفاع عبر ثلاث زيارات، ولم ينبّه الذكاء الاصطناعي إلى تدهور وظيفة الكلى الذي يجعل الميتفورمين مضاد استطباب. الطبيب، واثقاً بالوعي السياقي للذكاء الاصطناعي، لم يتحقق من التحاليل بشكل مستقل. كانت المسوّدة لغوياً مثالية ومتعاطفة وخاطئة.

هذا ليس افتراضياً. وثّقت دراسة Lancet أنه عندما تكون مسوّدات الذكاء الاصطناعي جيدة الصياغة ومتعاطفة، يدخل الأطباء في حالة إدراكية حيث تحل جودة النثر محل التحقق السريري المستقل. أفاد تسعون بالمئة من الأطباء في الدراسة بثقتهم في أداء الذكاء الاصطناعي. كان معدل اكتشاف الأخطاء 33.4%.

في تجربة رائدة بالربع الأول من 2025 في ثلاثة مستشفيات، أوصى مساعد ذكاء اصطناعي للخروج من المستشفى بدواء لمريض مُدرَج صراحةً على أنه مصاب بحساسية تجاه تلك الفئة الدوائية. اكتُشف الخطأ من قبل ممرضة، لا من قبل الطبيب المراجع. كان المعدل الفعلي للتصريحات الخاطئة القابلة للتنفيذ سريرياً في النظام 0.98%، أي اثني عشر ضعفاً أعلى من المعدل الذي ادعاه المورّد البالغ 0.08%.

02

ادعاءات دقة غير قابلة للتحقق

يقول المورّد 99.999%. يقول المدعي العام لولاية تكساس أثبت ذلك.

في سبتمبر 2024، توصّل المدعي العام لولاية تكساس إلى تسوية مع Pieces Technologies بشأن ادعائها بـ "معدل هلوسة حرجة" أقل من 0.001% لبرنامج التوثيق السريري المنشور في Houston Methodist وChildren's Health وTexas Health Resources وParkland. لم يكن المدعي العام بحاجة إلى تشريع خاص بالذكاء الاصطناعي. كان قانون حماية المستهلك القائم كافياً لتحدّي ادعاءات الدقة غير المثبتة.

يُلزم "تعهد الامتثال الطوعي" لمدة خمس سنوات الآن Pieces بالكشف عن تعريفات المقاييس ومنهجيات الحساب وبيانات التدريب والاستخدامات الضارة المعروفة لكل عميل. تنطبق هذه السابقة على كل مورّد ذكاء اصطناعي سريري يعمل في الولايات المتحدة. إذا ادعى المورّد لديكم معدل خطأ محدداً، فينبغي أن تسألوا: محسوب على أي مجموعة بيانات؟ مُتحقَّق منه بواسطة مَن؟ على مدى أي فترة زمنية؟ على أي فئات سكانية من المرضى؟

أتبعت تكساس التسوية بقانون حوكمة الذكاء الاصطناعي المسؤول (يونيو 2025)، الذي يُقرّ عقوبات مدنية تتراوح بين $80,000-$200,000 لكل مخالفة غير قابلة للمعالجة. يدخل قانون الذكاء الاصطناعي لولاية كولورادو حيز التنفيذ في 30 يونيو 2026. يدخل تصنيف الذكاء الاصطناعي عالي المخاطر للذكاء الاصطناعي السريري بموجب قانون الذكاء الاصطناعي للاتحاد الأوروبي حيز التنفيذ في 2 أغسطس 2026، بعقوبات تصل إلى 15 مليون يورو أو 3% من حجم الأعمال العالمي.

03

نقاط العمى السكانية في الذكاء الاصطناعي السريري

يؤدي نموذجكم أداءً مختلفاً باختلاف هوية المريض. قد لا تعلمون بذلك.

تبالغ أجهزة قياس الأكسجة النبضية في تقدير تشبّع الأكسجين في الدم بمقدار 0.6-1.5 نقطة مئوية لدى المرضى ذوي البشرة الداكنة. المرضى السود أكثر عرضةً بنحو ثلاثة أضعاف لنقص الأكسجة الخفي الذي لا يكتشفه الجهاز. عندما يستخدم نظام الفرز بالذكاء الاصطناعي لديكم قراءة SpO2 كميزة إدخال، فإنه يرث هذا التحيّز. المريض الذي يكون أكسجينه الشرياني الحقيقي عند 88% بينما يقرأ مقياس الأكسجة النبضية 93% لن يُطلق تنبيهاً عالي الأولوية مضبوطاً عند 92%. لم تمارس الخوارزمية تمييزاً. البيانات التي استوعبتها كانت خاطئة بالفعل.

تتفاقم المشكلة في النماذج التنبؤية. ادّعى نموذج الإنتان من Epic (Epic Sepsis Model) مساحة تحت المنحنى (AUC) تتراوح بين 0.76-0.83 داخلياً. أظهر التحقق الخارجي في Michigan Medicine مساحة تحت المنحنى بلغت 0.63، بحساسية لا تتعدى 33% (تفوّت ثلثي حالات الإنتان) وقيمة تنبؤية إيجابية بلغت 12% (معدل إنذارات كاذبة 88%). كان ينبّه قبل الأطباء في 6% فقط من الحالات. المرضى السود والمنحدرون من أصل لاتيني، الذين يعانون من ضعف معدل حدوث الإنتان تقريباً، يواجهون أسوأ أداء من نماذج مدرَّبة في الغالب على بيانات من فئات سكانية بيضاء من المرضى.

في صحة الأمومة، أغفلت أنظمة الإنذار المبكر بالذكاء الاصطناعي 40% من حالات الاعتلال الشديد لدى المريضات السود (California Maternal Data Center). تواجه النساء السود معدل وفيات مرتبطة بالحمل يبلغ 49.5 لكل 100,000 ولادة حية، أي 3.4 أضعاف مثيله لدى النساء البيض. وعندما تكون هؤلاء المريضات أيضاً أكثر عرضةً بمقدار 1.79 مرة للوفاة بمجرد حدوث مضاعفة ("الفشل في الإنقاذ")، فإن الفجوة بين ما تكتشفه الخوارزمية وما يحتاجه المريض تُقاس بالأرواح.

مشهد الذكاء الاصطناعي السريري الذي تحتاج لجنة الحوكمة لديكم إلى فهمه

صُمّم هذا الجدول ليُعرض في اجتماعكم القادم لحوكمة الذكاء الاصطناعي. يغطّي فئات الأدوات التي من المرجح أنكم تشغّلونها أو تقيّمونها بالفعل، مع تقييمات صادقة لمواطن القصور في كل فئة. بعض الثغرات تشير إلى قدرات Veriprajna. وأخرى تشير إلى تحديات تنظيمية لا يستطيع أي مورّد حلّها نيابةً عنكم.

الفئة اللاعبون الرئيسيون ما يجيدونه أين يقصّرون
التوثيق المحيطي Nuance DAX (Microsoft) وAbridge وAmbience Healthcare تقلّل عبء التوثيق بنسبة 50-79%. تقدّم Abridge وNuance إمكانية تتبّع الأدلة المرتبطة. تكامل عميق مع السجل الصحي الإلكتروني (Abridge هي أول شريك Pal لـ Epic). لا أحد ينشر معدلات هلوسة مستقلة ومراجَعة من الأقران مصنّفة حسب التخصص السريري. الدقة مُبلّغ عنها ذاتياً. لا يقدّم أي مورّد تفصيلاً للأداء حسب الفئات السكانية.
دعم القرار السريري Epic (مدمج) وViz.ai وAidoc وPieces Technologies تمتلك Viz.ai موافقات متعددة من إدارة الغذاء والدواء (FDA) عبر أكثر من 1,400 مستشفى. حصلت Aidoc على موافقة لفرز التصوير المقطعي المحوسب للبطن لـ 14 حالة بحساسية 97%. أظهرت نماذج Epic المدمجة (مثل ESM) تعميماً خارجياً ضعيفاً. غالباً ما تفتقر النماذج المملوكة إلى تحقق مستقل. نادراً ما يُكشف عن بيانات الأداء للفئات الفرعية.
منصات حوكمة الذكاء الاصطناعي Censinet وCredo AI وHolistic AI وIBM watsonx.governance تقدّم Censinet إدارة مخاطر خاصة بالرعاية الصحية. تربط Credo AI المتطلبات التنظيمية. توفّر IBM حوكمة لدورة حياة على نطاق المؤسسة. تدير منصات الحوكمة العمليات. لكنها لا تختبر الذكاء الاصطناعي السريري بحثاً عن الهلوسات، ولا تجري اختبارات تحقيق خصامية، ولا تقيس الأداء حسب الفئات السكانية على بيانات مرضاكم.
اكتشاف الهلوسة Vectara (HHEM-2.1) وArthur AI وGalileo يقيس نموذج HHEM من Vectara الأمانة للمصدر. توفّر Arthur AI مراقبة كاملة لدورة حياة التعلّم الآلي. أدوات عامة الغرض غير معايَرة للنص السريري. قد تكون "فكّر في الميتفورمين" صحيحة لداء السكري من النوع الثاني لكنها خطيرة في حالة القصور الكلوي. يتطلب الاكتشاف المعتمد على السياق تأسيساً سريرياً.
شركات الخدمات الأربع الكبرى / مكاملو الأنظمة الكبار Deloitte وAccenture وMcKinsey وEY إدارة التغيير على مستوى المؤسسة. مصداقية على مستوى مجلس الإدارة. فرق كبيرة لعمليات تنفيذ متعددة السنوات. هم ينفّذون المنصات، لا يبنون البنية التحتية لسلامة الذكاء الاصطناعي السريري من الأساس. تبدأ الارتباطات من 500 ألف دولار إلى أكثر من 5 ملايين دولار. تتناوب الفرق العامة؛ يبقى العمق التخصصي سطحياً. يوصون بأطر الحوكمة. نادراً ما يختبرون النماذج على بياناتكم.
الفرق الداخلية فرق المعلوماتية والامتثال وتقنية المعلومات لديكم تعرف سير عملكم وبياناتكم وسياساتكم الداخلية. أساسية للحوكمة المستدامة. تفتقر معظم فرق المعلوماتية في الأنظمة الصحية إلى القدرة على الاختبار الخصامي للذكاء الاصطناعي، والبنية التحتية لحساب مقاييس العدالة، والطاقة الاستيعابية لمراقبة التحيّز عبر عدة مورّدين. هذه فجوة في الموارد لا يحلّها أي مورّد خارجي بالكامل. تستطيع Veriprajna بناء البنية التحتية وتدريب الفريق، لكن المراقبة المستدامة تتطلب قدرة داخلية.

ما الذي نبنيه للأنظمة الصحية

يبدأ كل ارتباط بأدوات الذكاء الاصطناعي المنشورة لديكم وبفئة مرضاكم السكانية. نحن لا نبيع منصة. نبني البنية التحتية للسلامة التي تحتاجها لجنة الحوكمة والفرق السريرية لديكم لاتخاذ قرارات قابلة للدفاع عنها بشأن الذكاء الاصطناعي السريري.

تقييمات سلامة الذكاء الاصطناعي السريري

نختبر أدوات الذكاء الاصطناعي السريري لديكم على فئة مرضاكم السكانية، لا على معايير قياس عامة. لكل أداة، نقيس معدلات الهلوسة عبر التخصصات السريرية، ونحسب الحساسية/النوعية/القيمة التنبؤية الإيجابية مصنّفة حسب العرق والجنس والعمر، ونفحص بحثاً عن ثغرات حقن الأوامر وتسرّب البيانات، ونقارن ادعاءات المورّد بالأداء المرصود بشكل مستقل.

نلجأ إلى بروتوكولات اختبار مشتقة من Med-HALT ومُكيَّفة للتوثيق السريري، لا إلى مقاييس أمانة عامة. بالنسبة للكتبة المحيطيين، نقارن الملاحظات المولّدة بالذكاء الاصطناعي بسجلات اللقاءات المُتحقَّق منها من قبل الأطباء لحساب معدلات التطابق الواقعي حسب قسم الملاحظة (تاريخ المرض الحالي HPI، التقييم، الخطة). بالنسبة لأدوات دعم القرار السريري، نجري تحليلات بأثر رجعي على بياناتكم التاريخية لقياس دقة التنبيهات حسب الفئة السكانية الفرعية.

هندسة حوكمة الذكاء الاصطناعي

نصمّم ونشغّل البنية التحتية للحوكمة التي تحتاجها لجنتكم للانتقال من ميثاق إلى رقابة قابلة للإنفاذ. يشمل ذلك بطاقات تقييم المورّدين بمعايير مرجّحة (التحقق السريري، الأداء حسب الفئات السكانية، الشهادات التنظيمية، قابلية التشغيل البيني)، وسير عمل للموافقة متدرّج حسب المخاطر ومعايَر وفق القرب السريري، وقوالب لبطاقات النماذج، ولوحات مراقبة بعد النشر.

نوائم ضوابط الحوكمة مع إطار NIST AI RMF ومعيار ISO 42001 لأن هذه الأطر تنشئ قرينة قابلة للدحض على الامتثال بموجب قانون الذكاء الاصطناعي لولاية كولورادو. كما نبني بروتوكولات لاكتشاف الذكاء الاصطناعي الخفي لتحديد وحوكمة الأدوات التي يتبنّاها الأطباء خارج الرقابة المؤسسية.

مراقبة التحيّز وعمليات تدقيق الإنصاف

نبني أنظمة مراقبة مستمرة تتتبّع الاحتمالات المتساوية (equalized odds)، وتصنيف القيمة التنبؤية الإيجابية/السلبية (PPV/NPV)، ومؤشر استقرار المجموعة السكانية (PSI) عبر الفئات السكانية لكل أداة ذكاء اصطناعي سريري تنشرونها. عندما تنخفض حساسية نموذج الإنتان لديكم لدى المرضى المنحدرين من أصل لاتيني أو ترث خوارزمية الفرز لديكم تحيّز قياس الأكسجة النبضية لدى المرضى ذوي البشرة الداكنة، تعلمون بذلك خلال أيام.

نأخذ في الاعتبار مشكلة البيانات الأولية. تبالغ أجهزة قياس الأكسجة النبضية في تقدير SpO2 لدى المرضى ذوي البشرة الداكنة. توصي مسوّدة إرشادات إدارة الغذاء والدواء (FDA) الصادرة في يناير 2025 الآن بالاختبار على أكثر من 150 مشاركاً متنوعاً باستخدام مقياس Monk Skin Tone، ارتفاعاً من 10. نبني مراقبة تنبّه إلى التناقضات بين قراءة SpO2 والعلامات الحيوية وتتتبّع ما إذا كان أداء نماذج الذكاء الاصطناعي لديكم يرتبط بأنماط تحيّز المستشعرات المعروفة.

هندسة الامتثال التنظيمي

نترجم AB 3030 (كاليفورنيا)، وقانون كولورادو للذكاء الاصطناعي (SB 24-205)، والملحق الثالث من قانون الذكاء الاصطناعي للاتحاد الأوروبي، وسابقة تسوية المدعي العام لتكساس إلى ضوابط تقنية وسير عمل تشغيلي. قوالب إفصاح بمواصفات لكل وسيط. واجهات مراجعة هادفة تكافح التحيّز نحو الأتمتة. بُنى لمسار التدقيق تلبّي تحقيقات المدعي العام واعتماد اللجنة المشتركة (Joint Commission). صياغة لعقود المورّدين تعكس متطلبات الشفافية لما بعد قضية Pieces.

بالنسبة لقانون كولورادو للذكاء الاصطناعي تحديداً، نقارن كل أداة من أدوات الذكاء الاصطناعي المنشورة لديكم بتعريف "القرار المصيري"، ونحدّد أيها يؤهَّل لإعفاء توصية مقدّم الرعاية بموجب HIPAA، ونبني وثائق المراجعة السنوية وتقييم الأثر التي يتطلبها القانون.

الاختبار الخصامي (Red-Teaming) للذكاء الاصطناعي السريري

نحاكي سيناريوهات خصامية ضد أنظمة الذكاء الاصطناعي السريري لديكم قبل أن يفعل ذلك جهة سيئة النية أو حالة حدّية. فحص الهلوسة بحالات حدّية سريرية خاصة بالمجال (تفاعلات الأدوية لدى مرضى تعدد الأدوية، الأعراض النادرة التي تحاكي الحالات الشائعة، الجرعات للأطفال لدى المرضى ذوي الوزن الحدّي). اختبار حقن الأوامر ضد روبوتات المحادثة الموجّهة للمرضى وواجهات البوابة. محاولات استخراج البيانات لاختبار ما إذا كان يمكن استنباط المعلومات الصحية المحمية (PHI) عبر الاستجواب غير المباشر. أنماط كسر الحماية (Jailbreak) التي تحاول تجاوز الحواجز الواقية السريرية وتوليد نصائح طبية غير آمنة.

المُخرَج: تقرير نتائج متدرّج حسب الخطورة مع توصيات معالجة محددة، مرتبط بإطار إدارة المخاطر لديكم، ملائم لمراجعة لجنة الحوكمة والتوثيق التنظيمي.

كيف نعمل

يتّبع كل ارتباط بنية من أربع مراحل. تتفاوت الجداول الزمنية بحسب عدد أدوات الذكاء الاصطناعي المنشورة وتعقيد بيئتكم التنظيمية. يمكن إنجاز تقييم سلامة لأداة واحدة في 4-6 أسابيع. أما بناء هندسة حوكمة كاملة لنظام متعدد المستشفيات يضم أكثر من 10 أدوات ذكاء اصطناعي فيستغرق عادةً 12-16 أسبوعاً.

المرحلة 1

الاكتشاف والجرد

نُفهرس كل أداة ذكاء اصطناعي قيد الاستخدام السريري، بما في ذلك الذكاء الاصطناعي الخفي الذي يتبنّاه أطباء أو أقسام أفراد خارج الحوكمة. لكل أداة، نوثّق المورّد، وسير العمل السريري الذي تمسّه، والبيانات التي تستوعبها، والقرارات التي تؤثر فيها، والضوابط الرقابية الحالية (أو غيابها). نراجع هيكل لجنة الحوكمة الحالي لديكم، وعقود المورّدين، ووضع الامتثال مقابل AB 3030 وقانون كولورادو للذكاء الاصطناعي والمتطلبات الفيدرالية/الولائية ذات الصلة. المدة المعتادة: 2-3 أسابيع.

المرحلة 2

التقييم والاختبار

نجري تقييمات السلامة على أدوات الذكاء الاصطناعي الأعلى مخاطرةً لديكم. يشمل ذلك اختبار الهلوسة بحالات حدّية سريرية، وتصنيف الأداء حسب الفئات السكانية باستخدام بيانات فئة مرضاكم، والاختبار الخصامي، والتحقق من ادعاءات المورّد. بالنسبة لمراقبة التحيّز، نحسب مقاييس الاحتمالات المتساوية الأساسية ومؤشر استقرار المجموعة السكانية (PSI) التي ستكون نقطة المرجع للمراقبة المستمرة. المُخرَج: تقرير سلامة لكل أداة بنتائج متدرّجة حسب الخطورة. المدة المعتادة: 3-6 أسابيع حسب عدد الأدوات.

المرحلة 3

الهندسة والتنفيذ

نصمّم ونبني البنية التحتية للحوكمة: بطاقات تقييم المورّدين، وسير عمل الموافقة المتدرّج حسب المخاطر، ولوحات المراقبة، ومسارات الإبلاغ عن الحوادث، وقوالب بطاقات النماذج، ووثائق الامتثال التنظيمي. بالنسبة لواجهات المراجعة الهادفة (AB 3030)، نصمّم سير العمل السريري الذي يبرز عدم يقين الذكاء الاصطناعي، ويُظهر سياق المريض، ويسجّل إجراءات المراجعة. نوائم جميع الضوابط مع إطار NIST AI RMF ومعيار ISO 42001 للامتثال لقانون كولورادو للذكاء الاصطناعي. المدة المعتادة: 4-8 أسابيع.

المرحلة 4

التسليم والمراقبة

ندرّب فرق المعلوماتية والامتثال لديكم على تشغيل البنية التحتية للمراقبة بشكل مستقل. نجري تمارين محاكاة (tabletop) لحوادث سلامة الذكاء الاصطناعي (وصول هلوسة إلى مريض، تدهور الأداء حسب الفئة السكانية، استفسار تنظيمي). نضع وتائر مراجعة ربع سنوية ونحدّد المقاييس والعتبات ومسارات التصعيد التي تطلق إجراء الحوكمة. تنبيه: تتطلب المراقبة المستدامة قدرة داخلية. نبني النظام وندرّب الفريق، لكننا صادقون في أن الاستشارات الخارجية لا يمكنها أن تحل محل قيادة المعلوماتية السريرية الداخلية. المدة المعتادة: 2-4 أسابيع.

تقييم الجاهزية لسلامة الذكاء الاصطناعي السريري

أجب عن 8 أسئلة حول البنية التحتية الحالية لحوكمة وسلامة الذكاء الاصطناعي في نظامكم الصحي. يُنتج التقييم درجة جاهزية مع خطوات تالية محددة وقابلة للتنفيذ يمكنكم اتخاذها بشكل مستقل، سواءً تعاملتم مع Veriprajna أم لا.

أسئلة يطرحها علينا كبار مسؤولي المعلوماتية الطبية (CMIOs)

كيف نقيّم سلامة الذكاء الاصطناعي السريري قبل الشراء؟

ابدأ بثلاثة متطلبات غير قابلة للتفاوض قبل أي عرض توضيحي: بيانات أداء للفئات الفرعية مصنّفة حسب العرق والجنس والعمر لفئة المرضى السكانية التي ستخدمها الأداة؛ ودراسة تحقق خارجية مستقلة (غير ممولة من المورّد)؛ وبطاقة نموذج مكتملة توثّق مصدر بيانات التدريب وأنماط الفشل المعروفة والسياقات السريرية المحددة التي لم تُختبر فيها الأداة.

سيقدّم معظم المورّدين أرقام دقة إجمالية. تجاوز ذلك. اطلب الحساسية والقيمة التنبؤية الإيجابية مفصّلتين حسب الفئة السكانية. نموذج إنتان بحساسية 80% للمرضى البيض و40% للمرضى السود ليس نموذجاً دقيقاً بنسبة 80%. إنه أداتان مختلفتان تقدّمان مستويين من الرعاية.

اطلب من المورّد أن يوقّع صياغة تعاقدية تلتزم بالإفصاح المستمر عن الأداء، لا فقط معايير ما قبل البيع. أثبتت تسوية Pieces Technologies أن ادعاءات الدقة التسويقية دون إثبات هي ممارسة تجارية خادعة. ينبغي أن تعكس عقود المورّدين لديكم هذه السابقة: اربط تمثيلات الدقة بمقاييس قابلة للتحقق بشكل مستقل، وأدرج بنوداً للمعالجة تُفعَّل عند تدهور الأداء.

بالنسبة لأدوات التوثيق المحيطي تحديداً، اطلب إمكانيات الأدلة المرتبطة حيث يتتبّع كل بيان مولّد بالذكاء الاصطناعي في ملاحظة سريرية لحظة محددة في صوت لقاء المريض. تقدّم كل من Abridge وNuance نسخاً من هذا. إذا لم يستطع المورّد لديكم توفير عزو المصدر للنص المولّد، فتلك مخاطرة هلوسة لا يمكنكم مراقبتها.

ماذا تعني تسوية Pieces Technologies لعقود مورّدي الذكاء الاصطناعي الحالية لدينا؟

أثبتت تسوية المدعي العام لتكساس مع Pieces Technologies في سبتمبر 2024 أن قانون حماية المستهلك القائم، لا تشريع جديد خاص بالذكاء الاصطناعي، كافٍ لملاحقة مورّدي الذكاء الاصطناعي في الرعاية الصحية بسبب ادعاءات الدقة الخادعة. يُلزم "تعهد الامتثال الطوعي" لمدة خمس سنوات Pieces بالكشف عن تعريفات المقاييس ومنهجيات الحساب وتفاصيل بيانات التدريب والاستخدامات الضارة المعروفة لجميع العملاء الحاليين والمستقبليين.

بالنسبة لعقودكم، ينشئ هذا ثلاثة بنود عمل فورية. أولاً، دقّق كل ادعاء دقة في اتفاقيات المورّدين والمواد التسويقية الحالية لديكم. إذا ادعى مورّد معدل هلوسة أو معدل خطأ أو نسبة دقة محددة، فينبغي أن يتطلب عقدكم الكشف عن كيفية حساب ذلك الرقم، وعلى أي مجموعة بيانات، وما إذا كان قد تم التحقق منه بشكل مستقل. ثانياً، أضف بنود شفافية الأداء إلى العقود الجديدة. اطلب من المورّدين توفير مقاييس أداء للفئات الفرعية، والكشف عن تحديثات النماذج التي قد تؤثر على الدقة، والموافقة على تدقيق مستقل من طرف ثالث حسب اختياركم. ثالثاً، راجع توزيع المسؤولية لديكم. تحتوي معظم عقود مورّدي السجل الصحي الإلكتروني، بما في ذلك اتفاقية الترخيص الرئيسية للبرمجيات الخاصة بـ Epic، على بنود واسعة لتحديد المسؤولية. عندما يخفق نموذج الإنتان المدمج في Epic، تبقى المسؤولية التعاقدية عادةً على عاتق النظام الصحي.

تشير سابقة Pieces إلى أن التسويق الخادع للدقة قد يتجاوز هذه القيود، لكن تلك النظرية لم تُختبر في المحكمة. لا تنتظروا التقاضي لتوضيح هذا. ابنوا التحقق المستقل في عملية الحوكمة لديكم الآن.

كيف ينبغي أن نتعامل مع الامتثال لـ AB 3030 للرسائل المصاغة بالذكاء الاصطناعي في بوابة المرضى؟

يتطلب AB 3030 من المنشآت الصحية في كاليفورنيا إخطار المرضى عند استخدام الذكاء الاصطناعي التوليدي للتواصل بشأن المعلومات السريرية للمريض، مع معايير إخطار محددة للاتصالات الكتابية والمحادثة عبر الإنترنت والصوتية والمرئية. الفارق الدقيق الحاسم هو إعفاء "القراءة والمراجعة": إذا قرأ مقدّم رعاية مرخَّص الاتصال المولّد بالذكاء الاصطناعي وراجعه قبل وصوله إلى المريض، فلا ينطبق متطلب الإفصاح.

تعتمد معظم الأنظمة الصحية على هذا الإعفاء. المشكلة أن الاعتماد عليه يتطلب أن تكون مراجعة الطبيب هادفة، والأدلة تقول إنها ليست كذلك. وجدت دراسة Lancet الصادرة في أبريل 2024 أن الأطباء أغفلوا 66.6% من الأخطاء الضارة في الرسائل المصاغة بالذكاء الاصطناعي للمرضى، مع إرسال 35-45% من المسوّدات الخاطئة دون أي تعديل على الإطلاق. يبلغ متوسط زمن المراجعة في كثير من المؤسسات 8-15 ثانية لكل رسالة. إذا كانت مجموعة أطباء المستشفى لديكم تعالج أكثر من 400 رسالة MyChart مصاغة بالذكاء الاصطناعي يومياً بمتوسط زمن مراجعة 12 ثانية، فإن إعفاء "القراءة والمراجعة" خيال قانوني لن يصمد أمام التدقيق التنظيمي.

توصيتنا: نفّذوا كلاً من البنية التحتية للإفصاح وضوابط المراجعة الهادفة. أضيفوا إخلاءات المسؤولية المطلوبة إلى جميع الاتصالات المدعومة بالذكاء الاصطناعي كخط أساس. ثم ابنوا واجهة مراجعة تبرز عدم يقين الذكاء الاصطناعي، وتُظهر التاريخ المرضي ذا الصلة إلى جانب المسوّدة، وتتطلب تأكيداً نشطاً للبيانات السريرية المُعلَّمة، وتسجّل مدة المراجعة والتعديلات المحددة. هذا يحميكم بغض النظر عمّا إذا صمد الإعفاء أم لا، وهو يعالج مشكلة سلامة المرضى الفعلية.

إن عقوبة الـ 25,000 دولار لكل مخالفة للمنشآت حقيقية، لكن التعرّض لسوء الممارسة من رسالة مصاغة بالذكاء الاصطناعي تؤذي مريضاً لم يُخبَر قط بأن الذكاء الاصطناعي كان متورطاً هو أعلى بمرتبات من حيث الحجم.

هل يتحمّل نظامنا الصحي المسؤولية عندما يُنتج الذكاء الاصطناعي السريري توصية خاطئة؟

المسؤولية متعددة الطبقات، ويعتمد توزيعها على أداة الذكاء الاصطناعي المحددة، وكيفية نشرها، وما الذي فعله الطبيب بمخرجاتها. في 2025-2026، زادت دعاوى سوء الممارسة المتعلقة بأدوات الذكاء الاصطناعي بنسبة 14% مقارنةً بعام 2022، وتركّزت في الأشعة وأمراض القلب والأورام.

يخلق معيار الرعاية المتطوّر مسؤولية في كلا الاتجاهين: الطبيب الذي يقبل بشكل أعمى توصية ذكاء اصطناعي ضارة يمكن أن يُعتبر مهملاً، والطبيب الذي يفشل في استخدام أداة ذكاء اصطناعي مُتحقَّق منها كان بإمكانها اكتشاف خطأ قد يواجه مسؤولية أيضاً، مع أن تصبح الرعاية المدعومة بالذكاء الاصطناعي المعيار المتوقع.

بالنسبة للنظام الصحي، تهمّ ثلاثة محاور للمسؤولية. أولاً، مسؤولية اختيار المورّد: إذا اخترتم أداة ذكاء اصطناعي دون عناية واجبة كافية بشأن ملف سلامتها وأدائها حسب الفئات السكانية وتحققها السريري، يمكن الطعن في قرار الشراء ذاك. ثانياً، مسؤولية الإشراف: إذا فشل هيكل الحوكمة لديكم في مراقبة الأداء المستمر للأداة أو الاستجابة لإشارات السلامة المعروفة، يتحمّل النظام المسؤولية. ثالثاً، مسؤولية تكامل سير العمل: إذا دُمج الذكاء الاصطناعي بطريقة جعلت من الصعب على الأطباء تجاوز توصياته أو الاعتراض عليها (حقول مملوءة تلقائياً، قبولات افتراضية، سير عمل تحت ضغط الوقت)، يصبح تصميم النظام نفسه عاملاً مساهماً.

تستجيب شركات تأمين سوء الممارسة. بعضها يدرج الآن استثناءات خاصة بالذكاء الاصطناعي. وبعضها الآخر يتطلب من الأطباء إكمال تدريب على سلامة الذكاء الاصطناعي للحفاظ على التغطية. يحتاج برنامج إدارة المخاطر لديكم إلى توثيق عملية تقييم المورّدين لديكم، ومراقبتكم المستمرة، وتدريب أطبائكم. المؤسسات الأفضل تموضعاً هي تلك التي لديها مسارات حوكمة قابلة للتدقيق تُظهر أنها حددت المخاطر، وراقبت الأداء، واتخذت إجراءات بناءً على إشارات التدهور.

كيف نكتشف ونعالج التحيّز العرقي في أدوات الذكاء الاصطناعي السريري المنشورة لدينا؟

يتطلب اكتشاف التحيّز بنية تحتية للمراقبة المستمرة، لا عمليات تدقيق لمرة واحدة. ابدأ بثلاث خطوات ملموسة. أولاً، جهّز مخرجات الذكاء الاصطناعي السريري لديكم للتصنيف حسب الفئات السكانية. ينبغي أن يكون كل تنبؤ أو تنبيه أو توصية تولّدها أدوات الذكاء الاصطناعي لديكم قابلاً للتسجيل مع عرق المريض وإثنيته وجنسه وعمره المبلَّغ عنها ذاتياً. لا يتطلب هذا تغيير نموذج الذكاء الاصطناعي نفسه. بل يتطلب بناء طبقة تحليلات فوق مخرجات النموذج تحسب الحساسية والنوعية والقيمة التنبؤية الإيجابية لكل فئة سكانية على أساس متدحرج.

ثانياً، حدّد عتبات التنبيه. إذا انخفضت حساسية نموذج الإنتان لديكم للمرضى السود إلى أقل من 80% من حساسيته للمرضى البيض (تشبيه تقريبي لقاعدة الأربعة أخماس المستخدمة في التمييز الوظيفي)، فإن ذلك يطلق مراجعة حوكمة. تعتمد العتبات المحددة على سياقكم السريري ومدى تحمّلكم للمخاطر، لكن عدم وجود عتبات يعني أنكم تطيرون على غير هدى.

ثالثاً، عالج مشكلة البيانات الأولية. تبالغ أجهزة قياس الأكسجة النبضية في تقدير SpO2 بمقدار 0.6-1.5 نقطة مئوية لدى المرضى ذوي البشرة الداكنة. أصدرت إدارة الغذاء والدواء (FDA) مسوّدة إرشادات في يناير 2025 توصي بالاختبار على أكثر من 150 مشاركاً متنوعاً باستخدام مقياس Monk Skin Tone، ارتفاعاً من المتطلب السابق البالغ 10 أشخاص فقط. إذا استخدم نظام الفرز بالذكاء الاصطناعي لديكم قراءة SpO2 كميزة إدخال، فإنه يرث هذا التحيّز العتادي. المرضى السود أكثر عرضةً بنحو ثلاثة أضعاف لنقص الأكسجة الخفي الذي تغفله أجهزة قياس الأكسجة النبضية. ينبغي أن تتضمن بروتوكولاتكم السريرية تقييمات تكميلية عندما تتباعد قراءات SpO2 عن العلامات الحيوية الأخرى لدى المرضى ذوي البشرة الداكنة.

هذه ليست مجرد مشكلة ذكاء اصطناعي. إنها مشكلة سلامة بيانات يضخّمها الذكاء الاصطناعي. توضّح فجوة الأداء الموثّقة لنموذج الإنتان من Epic (مساحة تحت المنحنى 0.63 في التحقق الخارجي مقابل 0.76-0.83 المُدّعاة) ما يحدث عندما يلتقي الإفراط في التخصيص لموقع محدد بتقييم أعمى للفئات السكانية.

كيف يبدو الامتثال لقانون كولورادو للذكاء الاصطناعي وقانون الذكاء الاصطناعي للاتحاد الأوروبي في الرعاية الصحية؟

قانون كولورادو للذكاء الاصطناعي (SB 24-205)، الساري الآن اعتباراً من 30 يونيو 2026 بعد تمديد من فبراير، هو أول قانون ولائي أمريكي شامل للذكاء الاصطناعي ذي تداعيات مباشرة على الرعاية الصحية. يعرّف أنظمة الذكاء الاصطناعي "عالية المخاطر" بأنها تلك التي تشكّل عاملاً جوهرياً في القرارات المصيرية، بما في ذلك توفير خدمات الرعاية الصحية أو رفضها أو تكلفتها أو شروطها. على جهات نشر الرعاية الصحية تنفيذ سياسة لإدارة المخاطر، وإجراء مراجعات سنوية لكل نظام ذكاء اصطناعي عالي المخاطر بحثاً عن التمييز الخوارزمي، وإكمال تقييمات الأثر، وإخطار المرضى عندما يتخذ الذكاء الاصطناعي قرارات مصيرية، وتوفير فرص للطعن عبر مراجعة بشرية.

يوجد إعفاء حاسم للكيانات الخاضعة لـ HIPAA: إذا قدّم الذكاء الاصطناعي توصيات تتطلب من مقدّم رعاية صحية اتخاذ إجراء لتنفيذها، فقد يكون النظام معفىً. هذا يعني أن الكاتب المحيطي لديكم الذي يصوغ ملاحظة لمراجعة الطبيب من المرجح أنه معفىً، لكن الذكاء الاصطناعي الذي يفرز المرضى تلقائياً أو يرفض الموافقات المسبقة تلقائياً ليس كذلك. يملك المدعي العام لكولورادو سلطة الإنفاذ الحصرية، والامتثال لإطار NIST AI RMF أو معيار ISO 42001 ينشئ قرينة قابلة للدحض على العناية المعقولة.

بالنسبة لقانون الذكاء الاصطناعي للاتحاد الأوروبي، يُصنَّف دعم القرار السريري على أنه عالي المخاطر بموجب الملحق الثالث، النقطة 5. بحلول 2 أغسطس 2026، يجب على أي أداة دعم قرار سريري تخدم مرضى الاتحاد الأوروبي الامتثال للمواد 9-17: أنظمة إدارة المخاطر، والتوثيق التقني، وحوكمة البيانات، ومتطلبات الشفافية، والإشراف البشري، والمراقبة بعد طرح المنتج في السوق. تبلغ عقوبات عدم الامتثال 15 مليون يورو أو 3% من حجم الأعمال السنوي العالمي.

بالنسبة للقانونين، نقطة الانطلاق العملية هي ذاتها: احتفظوا بجرد مركزي لكل أداة ذكاء اصطناعي منشورة في سير العمل السريري، وصنّفوا كلاً منها حسب درجة المخاطر، ووثّقوا ضوابط الحوكمة لديكم لكل درجة.

كيف نبني لجنة حوكمة للذكاء الاصطناعي تعمل فعلاً؟

اعتباراً من 2026، أنشأت 84% من مؤسسات الرعاية الصحية لجاناً لحوكمة الذكاء الاصطناعي، لكن معظمها يفتقر إلى السلطة التشغيلية. يشغل مديرو المعلومات (CIOs) مقاعد في 63% منها، وكبار مسؤولي المعلوماتية الطبية (CMIOs) في 45% فقط، ما يعني أن نحو نصف هذه اللجان تتخذ قرارات الذكاء الاصطناعي السريري دون طبيب معلوماتية سريرية على الطاولة.

تحتاج اللجنة إلى أربع قدرات تشغيلية، لا مجرد ميثاق. أولاً، سير عمل للموافقة قبل النشر بمعايير صريحة: ما الأدلة المطلوبة قبل أن يمكن استخدام أداة ذكاء اصطناعي في الأماكن السريرية؟ كحد أدنى، يشمل ذلك بيانات تحقق مستقلة، ومقاييس أداء للفئات الفرعية، وبطاقة نموذج مكتملة، ووثائق HIPAA/BAA/SOC 2، ورائداً سريرياً يتحمّل مسؤولية النشر الآمن للأداة.

ثانياً، بروتوكول للمراقبة بعد النشر: مَن يراجع أداء أداة الذكاء الاصطناعي، وكم مرة، وما الذي يطلق إيقافاً مؤقتاً أو سحباً؟ حدّد مقاييس معينة (معدل الهلوسة، مؤشرات إرهاق التنبيهات، نسب الأداء حسب الفئات السكانية) ووتائر مراجعة (ربع سنوية للأدوات منخفضة المخاطر، شهرية للأدوات عالية المخاطر).

ثالثاً، مسار للإبلاغ عن الحوادث: عندما يكتشف طبيب خطأً في الذكاء الاصطناعي، إلى أين يذهب ذلك البلاغ؟ ينبغي أن يُغذّي نظام الإبلاغ عن سلامة المرضى الحالي لديكم، لا صومعة منفصلة خاصة بالذكاء الاصطناعي.

رابعاً، خطة لاكتشاف الذكاء الاصطناعي الخفي والاستجابة له. يتبنّى الأطباء أدوات ذكاء اصطناعي خارج الحوكمة المؤسسية. تحتاج لجنتكم إلى عملية لاكتشاف الاستخدام غير المصرّح به للذكاء الاصطناعي، وتقييم مخاطره، وإما إقراره ضمن الحوكمة أو إزالته. ينبغي أن يتضمن تكوين اللجنة كبير مسؤولي المعلوماتية الطبية CMIO (السلامة السريرية)، وكبير مسؤولي أمن المعلومات CISO (الأمن والخصوصية)، ومسؤول امتثال (التنظيم)، ومسؤول سلامة المرضى (إدارة الحوادث)، ورائداً طبيباً في الخط الأمامي (واقع سير العمل)، وعالم بيانات أو متخصص معلوماتية (التقييم التقني). الاجتماع شهرياً بجدول أعمال ثابت: طلبات الأدوات الجديدة، مراجعة لوحة المراقبة، تقارير الحوادث، التحديثات التنظيمية.

البحث التقني

الأوراق البحثية التفاعلية وراء صفحة الحل هذه. كل منها يستكشف بعمق بُعداً محدداً من أبعاد سلامة الذكاء الاصطناعي السريري.

الضرورة السريرية للذكاء الاصطناعي المؤسَّس: ما وراء غلاف نموذج اللغة الكبير في الرعاية الصحية

تحليل جنائي لدراسة Lancet لبوابة المرضى، وآليات التحيّز نحو الأتمتة، وبنية التوليد المعزَّز بالاسترجاع (RAG) للتأسيس السريري، وتداعيات الامتثال لـ AB 3030.

ما وراء مغالطة الـ 0.001%: السلامة المعمارية والمساءلة التنظيمية في الذكاء الاصطناعي التوليدي للمؤسسات

التشريح التقني لادعاءات الدقة الخادعة، وتسوية Pieces Technologies، وأطر تقييم Med-HALT، ونموذج تدرّج مستوى سلامة الذكاء الاصطناعي لسير العمل السريري.

الإنصاف الخوارزمي: معالجة التحيّز المنهجي في دعم القرار السريري

التحيّز العرقي في قياس الأكسجة النبضية، وتحليل فشل نموذج الإنتان من Epic، والتفاوتات في صحة الأمومة لدى السود، ودوال الخسارة الواعية بالعدالة، وبنية مراقبة الأداء حسب الفئات السكانية.

أدوات الذكاء الاصطناعي لديكم تتخذ قرارات سريرية. هل يمكنكم إثبات أنها آمنة؟

حادثة سلبية واحدة مرتبطة بالذكاء الاصطناعي تكلّف النظام الصحي ما بين 250,000 دولار وأكثر من مليون دولار في التحقيق والمعالجة والتعرّض القانوني.

مع ارتفاع دعاوى سوء الممارسة المتعلقة بأدوات الذكاء الاصطناعي بنسبة 14% منذ 2022 وتوسّع إنفاذ المدعين العامين للولايات إلى ما وراء تكساس، فإن تكلفة التحقق المستقل من السلامة جزء يسير من تكلفة فشل لم يُكتشف. نبدأ بتقييم مركّز لأداة الذكاء الاصطناعي الأعلى مخاطرةً لديكم.

تقييم سلامة الذكاء الاصطناعي السريري

  • ✓ اختبار الهلوسة بحالات حدّية سريرية
  • ✓ تصنيف الأداء حسب الفئات السكانية
  • ✓ التحقق من ادعاءات المورّد مقابل بياناتكم
  • ✓ الاختبار الخصامي واختبار حقن الأوامر

بناء هندسة الحوكمة

  • ✓ جرد أدوات الذكاء الاصطناعي وتصنيف المخاطر
  • ✓ بطاقات تقييم المورّدين وسير عمل الموافقة
  • ✓ البنية التحتية لمراقبة التحيّز ولوحات المعلومات
  • ✓ هندسة الامتثال التنظيمي (AB 3030، قانون كولورادو للذكاء الاصطناعي، قانون الذكاء الاصطناعي للاتحاد الأوروبي)