אבטחת שרשרת אספקה של AI ושלמות מודלים

משטח התקיפה שרוב תוכניות האבטחה מפספסות

מודלי AI אינם פריטים סטטיים. הם קוד שרץ בעת טעינה, אימון, הסקה והרצת סוכנים. ארבע קטגוריות תקיפה שולטות במודל האיום.

בעיית פורמט ה-Pickle

torch.load() מריץ Python שרירותי במהלך הדה-סריאליזציה. זהו אינו באג. זוהי ההתנהגות המתוכננת של סריאליזציית pickle, ו-80%+ ממודלי ה-ML משתמשים בה.

מודל בשם "baller423" ב-Hugging Face נמצא כשהוא מקים reverse shell אל Kreonet. המודל נראה רגיל. הוא עבר סריקות בסיסיות. הוא הריץ קוד שרירותי ברגע שמישהו טען אותו.

PickleScan, ההגנה הנפוצה ביותר, סובל מ-3 עקיפות zero-day ידועות לפחות (CVE-2025-10155). סריקה מבוססת רשימה שחורה שבורה מיסודה משום שהתוקף שולט בפורמט הסריאליזציה.

כוונון עדין הורס את הבטיחות

Llama 3.1 8B צונח מ- 0.95 אל 0.15 בעמידות בפני prompt injection לאחר סבב אחד של כוונון עדין. זוהי הידרדרות של 84% ביישור הבטיחות מאימון רגיל, לא-יריבי.

כמעט אף אחד לא מעריך מחדש את הבטיחות לאחר כוונון עדין. המודל עובר את הערכת הבטיחות הראשונית, עובר כוונון עדין על נתוני תחום, ויוצא לייצור כשמעקות הבטיחות שלו הוסרו למעשה. זו אינה תקיפה אקזוטית. זהו זרימת העבודה ברירת המחדל ברוב הארגונים.

התפשטות AI צללים

ל-98% מהארגונים יש שימוש לא מורשה ב-AI. המספר הזה אינו טעות הקלדה. עלות הפריצה הנוספת של $670K לאירועי AI צללים משקפת מציאות פשוטה: אי אפשר לאבטח את מה שלא רואים.

62% מצוותי האבטחה אינם מסוגלים לזהות היכן LLM-ים פרוסים בסביבתם. מפתחים מורידים מודלים מ-Hugging Face, קוראים ל-API של OpenAI עם מפתחות אישיים, ופורסים מודלים מכווננים בחשבונות ענן אישיים. כלי האבטחה הנוכחיים חושפים בערך 38% מהפעילות הזו.

הגברה של AI סוכני

פגיעות ה-RCE של GitHub Copilot (CVE-2025-53773, CVSS 7.8) הפכה prompt injection בתיעוד של מאגר לפשרה מלאה של המערכת דרך מצב YOLO. הסוכן קרא הוראה זדונית, הריץ אותה כקוד, ומכונת המשתמש נכבשה.

קובץ cleaner.md של Amazon Q הפיץ פקודות הרסניות ל-950K+ משתמשים דרך חלון ההקשר של הסוכן. השוק של OpenClaw צבר 138 CVE-ים על פני 63 ימים, כש-12% מהמיומנויות שהוגשו נמצאו זדוניות.

סוכנים הופכים prompt injections לפשרות ברמת המערכת משום שיש להם גישה לכלים, אישורי גישה והרשאות הרצה שחסרים ל-LLM-ים מסורתיים.

מי עושה מה באבטחת מודלי AI

מערכת הספקים מתבגרת במהירות. הנה מבט כן על מה שכל שחקן מכסה והיכן נותרים הפערים.

ספק	מה הם עושים	מה הם לא עושים	מתאים ביותר ל
Palo Alto / Protect AI	סריקת מודלים, יצירת AI-BOM, משולב בפלטפורמת Prisma AIRS	תכנון ארכיטקטורה, הנדסת צינורות מותאמים אישית, ניהול שינוי ארגוני	ארגונים שכבר נמצאים על פלטפורמת PANW
HiddenLayer	זיהוי ותגובת AI בזמן ריצה, ניטור אבטחה סוכני	ארכיטקטורת שרשרת אספקה, הטמעת ML-BOM, מיפוי תאימות	צוותי SOC המוסיפים נראות AI
JFrog	MLSecOps, אבטחת רישום מודלים, אינטגרציית Hugging Face	Red-teaming יריבי, אימות יישור בטיחות, תכנון ממשל	צוותי DevOps המנהלים פריטי מודל
Wiz	AI-BOM בהקשר אבטחת ענן, סריקת מודלים	אבטחת מודלים מקומית (On-prem), בטיחות כוונון עדין, ארכיטקטורה סוכנית	ארגונים מוכווני ענן
NVIDIA NeMo Guardrails	guardrails בזמן ריצה בקוד פתוח עבור LLM-ים	סריקת מודלים, אבטחת שרשרת אספקה, מעקב מקור	צוותים הבונים יישומי LLM מותאמים אישית
Big 4 / משלבי מערכות גדולים	מסגרות ממשל, תיעוד תאימות, מצגות לדירקטוריון	הטמעה. בניית צינורות סריקה, הגדרת ML-BOM-ים, פריסת חתימת מודלים. התקשרויות מתחילות ב-$500K אסטרטגיה, ומתרחבות ל-$3-10M.	ארגונים הזקוקים לתיעוד מוכן לביקורת
קוד פתוח (ModelScan, PickleScan, SafeTensors)	סריקה בסיסית חינמית ופורמטי סריאליזציה בטוחים יותר	תזמור ברמה ארגונית, sandboxing התנהגותי, מעקב מקור, אכיפת מדיניות	צוותים עם הנדסת אבטחה פנימית חזקה

פער שאף אחד לא ממלא היטב. שינוי תרבות ארגונית הוא החלק הקשה ביותר. אף כלי או חברת ייעוץ אינם מבטלים את הנטייה האנושית לעקוף ממשל לטובת מהירות. אנו בונים את הבקרות הטכניות, אך ה-CISO עדיין זקוק לתמיכת ההנהלה הבכירה. כאשר מדען נתונים יכול להוריד מודל מ-Hugging Face תוך 30 שניות, כל שער אבטחה שלוקח 30 דקות ייעקף. הבקרות צריכות להיות מהירות מספיק כך שתאימות תהיה קלה יותר מעקיפה.

מה אנו בונים עבור תוכניות אבטחת AI

שש יכולות, כל אחת מהונדסת להשתלב במחסנית האבטחה הקיימת שלכם ובצינורות ה-CI/CD.

צינורות בדיקת מודלים

אנו בונים בדיקה אוטומטית שיושבת בין מאגרי מודלים ציבוריים לבין הרישום הפנימי שלכם. כל מודל עובר דרך sandboxing התנהגותי (נטען במכולות מבודדות, קריאות מערכת מנוטרות), ניתוח עומק רב-פורמטי (pickle, PyTorch, GGUF, Keras, SafeTensors), וחתימה קריפטוגרפית עם ה-PKI הארגוני שלכם.

אנו פונים לניתוח התנהגותי על פני סריקה סטטית משום שעקיפות ה-zero-day של PickleScan מוכיחות שגישות מבוססות רשימה שחורה שבורות מיסודן. סריקה סטטית שואלת "האם הקובץ הזה מכיל דפוסים זדוניים ידועים?" Sandboxing התנהגותי שואל "מה הקוד הזה באמת עושה כשהוא רץ?" השאלה השנייה תופסת תקיפות חדשניות.

ML-BOM & ארכיטקטורת מקור

יצירת CycloneDX ML-BOM משולבת ב-CI/CD. כל מודל מקבל כתב כמויות המתעד את מקור נתוני האימון, גרסאות framework, עצי תלויות, והיסטוריית כוונון עדין.

אנו משתמשים ב-CycloneDX על פני SPDX משום שכלי ה-ML-BOM בוגרים יותר, אם כי אנו מבטיחים ייצוא SPDX 3.0 עבור ארגונים הזקוקים לשניהם. ה-ML-BOM אינו תיבת סימון של תאימות. זהו מבנה הנתונים שהופך כל בקרת אבטחה אחרת לאפשרית: אי אפשר לחתום על מה שלא מנוהל במלאי, ואי אפשר לבקר את מה שלא ניתן לעקוב אחריו.

גילוי AI צללים

זיהוי ברמת הרשת של הורדות מודלים לא מורשות וקריאות API של AI. אינטגרציה עם ה-SIEM/SOAR הקיים שלכם. אנו ממפים כל נקודת מגע של AI כולל פריסות צללים, ולאחר מכן בונים אכיפת מדיניות שחוסמת סיכון מבלי לחסום חדשנות.

המטרה: צוות האבטחה שלכם רואה 100% משימוש ה-AI, ולא את ה-38% שכלים נוכחיים חושפים. הזיהוי מכסה הורדות מ-Hugging Face, קריאות API של OpenAI/Anthropic/Google, העברות משקלי מודל דרך HTTP/S, והרצת מודלים מקומית באמצעות ניטור תהליכים בנקודות קצה מנוהלות.

אימות בטיחות לאחר כוונון עדין

הערכת בטיחות אוטומטית מחדש לאחר כל סבב כוונון עדין. חבילת benchmark של OWASP LLM Top 10, בדיקה יריבית עבור triggers של דלת אחורית, ובדיקת רגרסיה של יישור בטיחות.

אנו בונים זאת משום שכמעט אף אחד לא מעריך מחדש את הבטיחות לאחר כוונון עדין. נתוני הידרדרות הבטיחות בסעיף לעיל מבססים את הטיעון. צינור האימות פועל כשער CI/CD. מודל שנכשל ברגרסיית בטיחות לא יכול לעלות לייצור, ללא קשר לביצועי המשימה שלו.

ארכיטקטורת אבטחה ל-AI סוכני

הפרדת הרשאות עבור סוכני AI. שכבות מדיניות דטרמיניסטיות המונעות הסלמה מ-prompt ל-RCE (וקטור התקיפה המדויק ב-CVE-2025-53773). אכיפת מדיניות שימוש בכלים, שערי human-in-the-loop לפעולות בסיכון גבוה, וניטור התנהגות בזמן ריצה.

הארכיטקטורה מזהה פעולות סוכן חריגות לפני שהן מסלימות. סוכן שמתחיל לפתע לכתוב לנתיבי מערכת קבצים מחוץ ל-sandbox שלו, לקרוא ל-API-ים שמעולם לא קרא להם, או לנסות הסלמת הרשאות מסיים את פעולתו ומסומן לבדיקה.

תכנון תוכנית אבטחת AI

עבור CISO-ים הבונים את הפונקציה מאפס. מיפוי בקרות NIST AI 100-2, ארכיטקטורת תאימות ל-EU AI Act, כימות סיכון ברמת הדירקטוריון, וספרי הפעלה לתגובה לאירועים עבור תקיפות ספציפיות ל-AI.

אנו עוזרים לתרגם סיכון טכני להצדקת תקציב שהדירקטוריון מאשר. "מצאנו 352K בעיות לא בטוחות ברישומי מודלים ציבוריים" היא נקודת נתון. "המהנדסים שלנו הורידו 47 מודלים שלא נבדקו ברבעון האחרון, 3 הכילו קוד הניתן להרצה בשכבת הסריאליזציה שלהם, והבקרות הנוכחיות שלנו לא זיהו אף אחד מהם" היא הצדקת תקציב.

כיצד התקשרות עובדת

שלושה שלבים, כל אחד עם תוצרים מוגדרים ואזהרות כנות לגבי מה לצפות.

שלב 1

גילוי & מידול איומים

שבועות 1-3

▶ מלאי נכסי AI: קטלוג כל מודל, API, סוכן וצינור בסביבתכם
▶ סריקת AI צללים: זיהוי ברמת הרשת של שימוש לא מורשה ב-AI בכל נקודות היציאה
▶ מודל איומים: מיפוי משטחי תקיפה ספציפיים לארכיטקטורת הפריסה ולסוגי המודלים שלכם
▶ ניתוח פערים מול דרישות NIST AI 100-2 ו-EU AI Act

תוצר: דוח מצב אבטחת AI עם מרשם סיכונים מתועדף

אזהרה: שלב זה לעיתים קרובות חושף פי 3-5 יותר שימוש ב-AI ממה שה-CISO ציפה. זה נורמלי. גילוי ה-AI צללים הוא החלק הבעל ערך ביותר והכי לא נוח בהתקשרות.

שלב 2

ארכיטקטורה & בנייה

שבועות 4-10

▶ תכנון צינור בדיקת מודלים, יצירת ML-BOM, ותשתית חתימה
▶ בנייה ופריסה לתוך ה-CI/CD שלכם (Jenkins, GitHub Actions, GitLab CI, Azure DevOps)
▶ הגדרת זיהוי AI צללים ואינטגרציית SIEM (Splunk, Sentinel, Chronicle)
▶ הטמעת אימות בטיחות לאחר כוונון עדין כשער CI/CD

תוצר: בקרות אבטחה מוכנות לייצור משולבות בזרימות עבודה קיימות

אזהרה: לוח הזמנים תלוי בבגרות ה-CI/CD. צוותים עם צינורות DevOps בוגרים פורסים מהר יותר. ארגונים שעדיין מעבירים מודלים באמצעות כונני USB או תיקיות משותפות (נפוץ יותר ממה שתצפו) זקוקים לעבודת תשתית נוספת.

שלב 3

הפעלה תפעולית & העברה

שבועות 11-14

▶ הכשרת צוות האבטחה בתפעול בדיקת מודלים ומיון התראות
▶ ביסוס קצב red-team יריבי (מומלץ רבעוני, חודשי למערכות בסיכון גבוה)
▶ בניית ספרי הפעלה לתגובה לאירועים עבור תקיפות ברמת המודל ואירועי AI סוכני
▶ תבניות דיווח מוכנות לדירקטוריון עם כימות סיכון

תוצר: תפעול אבטחת AI מקיים את עצמו עם runbooks מתועדים

אזהרה: ה-red-team היריבי הראשון תמיד מוצא משהו. זו המטרה. red-team שלא מוצא דבר או שלא ניסה מספיק או שהוגדר בצורה צרה מדי.

שאלות ש-CISO-ים שואלים על אבטחת שרשרת אספקה של AI

כמה זמן לוקח לבנות צינור בדיקת מודלים מאפס?

4-6 שבועות לצינור בסיסי המכסה סריקה סטטית ואימות חתימה. 8-12 שבועות ל-sandboxing התנהגותי מלא עם אינטגרציית CI/CD. צוואר הבקבוק הוא לעיתים נדירות טכנולוגיית הסריקה עצמה. זוהי האינטגרציה עם רישום המודלים הקיים שלכם (MLflow, Weights & Biases, JFrog ML) והגדרת לוגיקת המדיניות: מה נחסם לעומת מסומן לעומת מבודד. מצאנו שהחלטות המדיניות לוקחות יותר זמן מההנדסה.

מורכבות הפורמט מוסיפה זמן. Pickle, PyTorch, GGUF, Keras ו-SafeTensors דורשים גישות ניתוח שונות. Pickle נותר הפורמט בעל הסיכון הגבוה ביותר משום ש torch.load() מריץ Python שרירותי במהלך הדה-סריאליזציה, וזו הסיבה ש-sandboxing התנהגותי חשוב יותר מסריקה סטטית עבור פורמט זה. SafeTensors הוא אפשרות הסריאליזציה הבטוחה ביותר והפשוטה ביותר לסריקה, אך פחות מ-20% ממודלי הייצור משתמשים בה כיום. הצינור שלכם צריך לטפל בכולם משום שאינכם יכולים לשלוט באיזה פורמט ספקי המודלים במעלה הזרם בוחרים.

אנחנו כבר משתמשים ב-Palo Alto/Wiz/JFrog לאבטחה. למה אנחנו זקוקים לעבודה מותאמת אישית?

הפלטפורמות הללו מצוינות במה שהן עושות. אינטגרציית Protect AI של Palo Alto (דרך Prisma AIRS) מספקת לכם סריקת מודלים בתוך מחסנית האבטחה הקיימת שלכם. ה-MLSecOps של JFrog מטפל בממשל רישום מודלים. Wiz מוסיף AI-BOM לנראות ענן. מה שהן לא עושות: לתכנן את הארכיטקטורה מקצה לקצה, להגדיר יצירת ML-BOM בצינור ה-CI/CD הספציפי שלכם, לבנות את לוגיקת המדיניות עבור ההקשר הרגולטורי שלכם, או להנדס מחדש את זרימת העבודה לפריסת מודלים שלכם. הן כלי סריקה. אנחנו צוות ההטמעה שגורם להן לעבוד יחד.

התקשרויות רבות מתחילות עם ארגונים שכבר יש להם את הפלטפורמות הללו אך זקוקים לעזרה בהפעלתן התפעולית. דפוס נפוץ: צוות האבטחה רכש את Protect AI לפני שישה חודשים, הריץ סריקה, קיבל 400 ממצאים, ואז נתקע משום שאף אחד לא מיפה את הממצאים הללו לזרימות עבודה לתיקון או שילב סריקה בצינור קידום המודלים.

מהו הסיכון האמיתי של הרעלת מודלים? האם זה קרה בייצור?

המחסום הטכני להרעלת מודלים נמוך ממה שרוב ה-CISO-ים מניחים. מחקר מדגים ש-250 מסמכים מורעלים בלבד בקורפוס אימון יכולים להחדיר דלת אחורית למודל בעל 13B פרמטרים. Microsoft פרסמה שיטות זיהוי פורצות דרך בפברואר 2026, אך לרוב הארגונים אין יכולת זיהוי פרוסה כלל. בעיית הידרדרות הבטיחות בכוונון עדין מיידית יותר ונפוצה יותר: Llama 3.1 8B צונח מ-0.95 ל-0.15 בעמידות בפני prompt injection לאחר סבב אחד של כוונון עדין. זו אינה תקיפה. זהו כוונון עדין רגיל ללא הערכת בטיחות מחדש.

אירועי ייצור מתועדים של הרעלת מודלים מכוונת נותרים נדירים. אך התנאים בשלים: 80%+ ממודלי ה-ML משתמשים בסריאליזציית pickle, 62% מצוותי האבטחה אינם מסוגלים לזהות היכן מודלים פרוסים, ומודל בשם "baller423" ב-Hugging Face נמצא כשהוא מקים reverse shell אל Kreonet. תקדים הוויתור על מודל של ה-FTC (Weight Watchers/Kurbo, 2022) משמעו שמודל מורעל יכול לאלץ אתכם למחוק ולאמן מחדש מאפס, בעלויות שמגמדות את הפריצה עצמה.

כיצד אנו מתמודדים עם דרישות מקור המודל של EU AI Act?

ה-EU AI Act חל במלואו ב-2 באוגוסט 2026. עבור מערכות AI בסיכון גבוה, אתם זקוקים לתיעוד טכני המכסה את מקור נתוני האימון, היקף, מאפיינים ומתודולוגיות ניקוי. חובות שרשרת האספקה דורשות מיבואנים ומפיצים לאמת הערכת התאמה, תיעוד טכני וסימון CE. מבחינה מעשית, משמעות הדבר היא ML-BOM-ים לכל מודל בצינור שלכם, אישורים חתומים למקור, ושבילי ביקורת להחלטות כוונון עדין.

CycloneDX ML-BOM הוא התקן המוכן ביותר להטמעה. SPDX 3.0 הוסיף פרופילי AI/ML ב-2024, וחלק מהארגונים זקוקים לשני הפורמטים עבור קהלים רגולטוריים שונים. אנו בונים את צינור התיעוד כך שמעקב המקור יהיה אוטומטי, ולא תרגיל תאימות ידני. הטעות הנפוצה היא להתייחס לכך כפרויקט תיעוד חד-פעמי. כל סבב כוונון עדין, כל עדכון מודל, וכל שינוי במערך הנתונים צריכים לייצר רשומות מקור מעודכנות. אם ה-ML-BOM שלכם סטטי, הוא שגוי תוך שבועות.

האם אנחנו יכולים לאבטח סוכני AI מבלי להאט אותם?

הפרדת הרשאות היא הבסיס. כל סוכן מקבל פרופיל של הרשאות מינימליות המגדיר אילו כלים הוא יכול לקרוא, לאילו API-ים הוא יכול לגשת, ואילו נתיבי מערכת קבצים הוא יכול לגעת בהם. זה משקף את מודל היכולות של Linux המיושם על סוכני AI. ה-RCE של GitHub Copilot (CVE-2025-53773, CVSS 7.8) קרה משום שמצב YOLO העניק לסוכן גישה בלתי מוגבלת למערכת, ו-prompt injection בתיעוד של מאגר הסלים להרצת קוד מרחוק מלאה. שכבות מדיניות דטרמיניסטיות מונעות נתיב הסלמה זה לחלוטין.

ניטור בזמן ריצה מוסיף קו בסיס התנהגותי המזהה פעולות סוכן חריגות (קריאות כלים בלתי צפויות, דפוסי API חריגים, ניסיונות הסלמת הרשאות) מבלי להוסיף השהיה לפעולות רגילות. יש עלות השהיה קטנה לבדיקות אבטחה בפעולות בסיכון גבוה: כתיבות למערכת קבצים, קריאות API לענן, גישה לאישורי גישה. עבור רוב הפריסות הארגוניות, זה 50-200ms לכל פעולה משוערת. פעולות בסיכון נמוך (קריאת מקורות נתונים מאושרים, יצירת טקסט, קריאה ל-API-ים מאושרים מראש) עוברות עם אפס השהיה נוספת. השאלה היא האם 50-200ms בקריאות בסיכון גבוה הוא קביל בהשוואה לסוכן עם גישה מלאה למערכת וללא guardrails.

כיצד נראית תגובה לאירוע אבטחת AI?

אירועי אבטחת AI דורשים פורנזיקה שונה מחדירות רשת. עבור תקיפות ברמת המודל (הרעלה, דלתות אחוריות), רצף התגובה הוא: לבודד את המודל מהייצור, לאמת את שלמות צינור האימון, לבדוק חילוץ נתונים דרך פלטי המודל (מודלים יכולים לקודד נתונים גנובים במשקליהם ולדלוף אותם דרך prompts מעוצבים בקפידה), ולקבוע האם אתם צריכים לאמן מחדש מ-checkpoint נקי ידוע.

עבור אירועי AI סוכני, אתם גם צריכים לעקוב אחר כל קריאת כלי ופעולה שהסוכן ביצע, לאמת את שלמות הזיכרון וחלון ההקשר שלו (prompt injection יכול להישמר לאורך מפגשים אם ההקשר מאוחסן), ולבדוק תנועה צידית דרך הרשאות הסוכן. תהליכי IR גנריים אינם מכסים פורנזיקה ברמת המודל משום שהפריטים שונים. אינכם מנתחים יומני רשת ומזבלות זיכרון. אתם מנתחים משקלי מודל, מקור נתוני אימון, היסטוריות כוונון עדין, ויומני פעולות סוכן. אנו בונים ספרי הפעלה ספציפיים לתרחישים אלה, כולל נהלי שימור ראיות עבור משקלי מודל (שיכולים להיות מאות גיגה-בייט), תיעוד שרשרת משמורת עבור נתוני אימון, ותבניות תקשורת עבור רגולטורים שעשויים לדרוש ויתור על מודל.