הנדסת אבטחת AI
המודלים שלכם הם קוד הניתן להרצה. רוב הארגונים מתייחסים אליהם כמו לקובצי נתונים. הפער הזה הוא המקום שבו מתרחשות פריצות.
$4.63M
עלות פריצה ממוצעת המערבת AI צללים
IBM Cost of a Data Breach 2025
83%
מהארגונים חסרים בקרות אבטחת AI אוטומטיות
Kiteworks 2025
352K
בעיות לא בטוחות שנמצאו ב-51,700 מודלים ברישומים ציבוריים
Protect AI 2025
מודלי AI אינם פריטים סטטיים. הם קוד שרץ בעת טעינה, אימון, הסקה והרצת סוכנים. ארבע קטגוריות תקיפה שולטות במודל האיום.
torch.load() מריץ Python שרירותי במהלך הדה-סריאליזציה. זהו אינו באג. זוהי ההתנהגות המתוכננת של סריאליזציית pickle, ו-80%+ ממודלי ה-ML משתמשים בה.
מודל בשם "baller423" ב-Hugging Face נמצא כשהוא מקים reverse shell אל Kreonet. המודל נראה רגיל. הוא עבר סריקות בסיסיות. הוא הריץ קוד שרירותי ברגע שמישהו טען אותו.
PickleScan, ההגנה הנפוצה ביותר, סובל מ-3 עקיפות zero-day ידועות לפחות (CVE-2025-10155). סריקה מבוססת רשימה שחורה שבורה מיסודה משום שהתוקף שולט בפורמט הסריאליזציה.
Llama 3.1 8B צונח מ- 0.95 אל 0.15 בעמידות בפני prompt injection לאחר סבב אחד של כוונון עדין. זוהי הידרדרות של 84% ביישור הבטיחות מאימון רגיל, לא-יריבי.
כמעט אף אחד לא מעריך מחדש את הבטיחות לאחר כוונון עדין. המודל עובר את הערכת הבטיחות הראשונית, עובר כוונון עדין על נתוני תחום, ויוצא לייצור כשמעקות הבטיחות שלו הוסרו למעשה. זו אינה תקיפה אקזוטית. זהו זרימת העבודה ברירת המחדל ברוב הארגונים.
ל-98% מהארגונים יש שימוש לא מורשה ב-AI. המספר הזה אינו טעות הקלדה. עלות הפריצה הנוספת של $670K לאירועי AI צללים משקפת מציאות פשוטה: אי אפשר לאבטח את מה שלא רואים.
62% מצוותי האבטחה אינם מסוגלים לזהות היכן LLM-ים פרוסים בסביבתם. מפתחים מורידים מודלים מ-Hugging Face, קוראים ל-API של OpenAI עם מפתחות אישיים, ופורסים מודלים מכווננים בחשבונות ענן אישיים. כלי האבטחה הנוכחיים חושפים בערך 38% מהפעילות הזו.
פגיעות ה-RCE של GitHub Copilot (CVE-2025-53773, CVSS 7.8) הפכה prompt injection בתיעוד של מאגר לפשרה מלאה של המערכת דרך מצב YOLO. הסוכן קרא הוראה זדונית, הריץ אותה כקוד, ומכונת המשתמש נכבשה.
קובץ cleaner.md של Amazon Q הפיץ פקודות הרסניות ל-950K+ משתמשים דרך חלון ההקשר של הסוכן. השוק של OpenClaw צבר 138 CVE-ים על פני 63 ימים, כש-12% מהמיומנויות שהוגשו נמצאו זדוניות.
סוכנים הופכים prompt injections לפשרות ברמת המערכת משום שיש להם גישה לכלים, אישורי גישה והרשאות הרצה שחסרים ל-LLM-ים מסורתיים.
מערכת הספקים מתבגרת במהירות. הנה מבט כן על מה שכל שחקן מכסה והיכן נותרים הפערים.
| ספק | מה הם עושים | מה הם לא עושים | מתאים ביותר ל |
|---|---|---|---|
| Palo Alto / Protect AI | סריקת מודלים, יצירת AI-BOM, משולב בפלטפורמת Prisma AIRS | תכנון ארכיטקטורה, הנדסת צינורות מותאמים אישית, ניהול שינוי ארגוני | ארגונים שכבר נמצאים על פלטפורמת PANW |
| HiddenLayer | זיהוי ותגובת AI בזמן ריצה, ניטור אבטחה סוכני | ארכיטקטורת שרשרת אספקה, הטמעת ML-BOM, מיפוי תאימות | צוותי SOC המוסיפים נראות AI |
| JFrog | MLSecOps, אבטחת רישום מודלים, אינטגרציית Hugging Face | Red-teaming יריבי, אימות יישור בטיחות, תכנון ממשל | צוותי DevOps המנהלים פריטי מודל |
| Wiz | AI-BOM בהקשר אבטחת ענן, סריקת מודלים | אבטחת מודלים מקומית (On-prem), בטיחות כוונון עדין, ארכיטקטורה סוכנית | ארגונים מוכווני ענן |
| NVIDIA NeMo Guardrails | guardrails בזמן ריצה בקוד פתוח עבור LLM-ים | סריקת מודלים, אבטחת שרשרת אספקה, מעקב מקור | צוותים הבונים יישומי LLM מותאמים אישית |
| Big 4 / משלבי מערכות גדולים | מסגרות ממשל, תיעוד תאימות, מצגות לדירקטוריון | הטמעה. בניית צינורות סריקה, הגדרת ML-BOM-ים, פריסת חתימת מודלים. התקשרויות מתחילות ב-$500K אסטרטגיה, ומתרחבות ל-$3-10M. | ארגונים הזקוקים לתיעוד מוכן לביקורת |
| קוד פתוח (ModelScan, PickleScan, SafeTensors) | סריקה בסיסית חינמית ופורמטי סריאליזציה בטוחים יותר | תזמור ברמה ארגונית, sandboxing התנהגותי, מעקב מקור, אכיפת מדיניות | צוותים עם הנדסת אבטחה פנימית חזקה |
פער שאף אחד לא ממלא היטב. שינוי תרבות ארגונית הוא החלק הקשה ביותר. אף כלי או חברת ייעוץ אינם מבטלים את הנטייה האנושית לעקוף ממשל לטובת מהירות. אנו בונים את הבקרות הטכניות, אך ה-CISO עדיין זקוק לתמיכת ההנהלה הבכירה. כאשר מדען נתונים יכול להוריד מודל מ-Hugging Face תוך 30 שניות, כל שער אבטחה שלוקח 30 דקות ייעקף. הבקרות צריכות להיות מהירות מספיק כך שתאימות תהיה קלה יותר מעקיפה.
שש יכולות, כל אחת מהונדסת להשתלב במחסנית האבטחה הקיימת שלכם ובצינורות ה-CI/CD.
אנו בונים בדיקה אוטומטית שיושבת בין מאגרי מודלים ציבוריים לבין הרישום הפנימי שלכם. כל מודל עובר דרך sandboxing התנהגותי (נטען במכולות מבודדות, קריאות מערכת מנוטרות), ניתוח עומק רב-פורמטי (pickle, PyTorch, GGUF, Keras, SafeTensors), וחתימה קריפטוגרפית עם ה-PKI הארגוני שלכם.
אנו פונים לניתוח התנהגותי על פני סריקה סטטית משום שעקיפות ה-zero-day של PickleScan מוכיחות שגישות מבוססות רשימה שחורה שבורות מיסודן. סריקה סטטית שואלת "האם הקובץ הזה מכיל דפוסים זדוניים ידועים?" Sandboxing התנהגותי שואל "מה הקוד הזה באמת עושה כשהוא רץ?" השאלה השנייה תופסת תקיפות חדשניות.
יצירת CycloneDX ML-BOM משולבת ב-CI/CD. כל מודל מקבל כתב כמויות המתעד את מקור נתוני האימון, גרסאות framework, עצי תלויות, והיסטוריית כוונון עדין.
אנו משתמשים ב-CycloneDX על פני SPDX משום שכלי ה-ML-BOM בוגרים יותר, אם כי אנו מבטיחים ייצוא SPDX 3.0 עבור ארגונים הזקוקים לשניהם. ה-ML-BOM אינו תיבת סימון של תאימות. זהו מבנה הנתונים שהופך כל בקרת אבטחה אחרת לאפשרית: אי אפשר לחתום על מה שלא מנוהל במלאי, ואי אפשר לבקר את מה שלא ניתן לעקוב אחריו.
זיהוי ברמת הרשת של הורדות מודלים לא מורשות וקריאות API של AI. אינטגרציה עם ה-SIEM/SOAR הקיים שלכם. אנו ממפים כל נקודת מגע של AI כולל פריסות צללים, ולאחר מכן בונים אכיפת מדיניות שחוסמת סיכון מבלי לחסום חדשנות.
המטרה: צוות האבטחה שלכם רואה 100% משימוש ה-AI, ולא את ה-38% שכלים נוכחיים חושפים. הזיהוי מכסה הורדות מ-Hugging Face, קריאות API של OpenAI/Anthropic/Google, העברות משקלי מודל דרך HTTP/S, והרצת מודלים מקומית באמצעות ניטור תהליכים בנקודות קצה מנוהלות.
הערכת בטיחות אוטומטית מחדש לאחר כל סבב כוונון עדין. חבילת benchmark של OWASP LLM Top 10, בדיקה יריבית עבור triggers של דלת אחורית, ובדיקת רגרסיה של יישור בטיחות.
אנו בונים זאת משום שכמעט אף אחד לא מעריך מחדש את הבטיחות לאחר כוונון עדין. נתוני הידרדרות הבטיחות בסעיף לעיל מבססים את הטיעון. צינור האימות פועל כשער CI/CD. מודל שנכשל ברגרסיית בטיחות לא יכול לעלות לייצור, ללא קשר לביצועי המשימה שלו.
הפרדת הרשאות עבור סוכני AI. שכבות מדיניות דטרמיניסטיות המונעות הסלמה מ-prompt ל-RCE (וקטור התקיפה המדויק ב-CVE-2025-53773). אכיפת מדיניות שימוש בכלים, שערי human-in-the-loop לפעולות בסיכון גבוה, וניטור התנהגות בזמן ריצה.
הארכיטקטורה מזהה פעולות סוכן חריגות לפני שהן מסלימות. סוכן שמתחיל לפתע לכתוב לנתיבי מערכת קבצים מחוץ ל-sandbox שלו, לקרוא ל-API-ים שמעולם לא קרא להם, או לנסות הסלמת הרשאות מסיים את פעולתו ומסומן לבדיקה.
עבור CISO-ים הבונים את הפונקציה מאפס. מיפוי בקרות NIST AI 100-2, ארכיטקטורת תאימות ל-EU AI Act, כימות סיכון ברמת הדירקטוריון, וספרי הפעלה לתגובה לאירועים עבור תקיפות ספציפיות ל-AI.
אנו עוזרים לתרגם סיכון טכני להצדקת תקציב שהדירקטוריון מאשר. "מצאנו 352K בעיות לא בטוחות ברישומי מודלים ציבוריים" היא נקודת נתון. "המהנדסים שלנו הורידו 47 מודלים שלא נבדקו ברבעון האחרון, 3 הכילו קוד הניתן להרצה בשכבת הסריאליזציה שלהם, והבקרות הנוכחיות שלנו לא זיהו אף אחד מהם" היא הצדקת תקציב.
שלושה שלבים, כל אחד עם תוצרים מוגדרים ואזהרות כנות לגבי מה לצפות.
שבועות 1-3
תוצר: דוח מצב אבטחת AI עם מרשם סיכונים מתועדף
אזהרה: שלב זה לעיתים קרובות חושף פי 3-5 יותר שימוש ב-AI ממה שה-CISO ציפה. זה נורמלי. גילוי ה-AI צללים הוא החלק הבעל ערך ביותר והכי לא נוח בהתקשרות.
שבועות 4-10
תוצר: בקרות אבטחה מוכנות לייצור משולבות בזרימות עבודה קיימות
אזהרה: לוח הזמנים תלוי בבגרות ה-CI/CD. צוותים עם צינורות DevOps בוגרים פורסים מהר יותר. ארגונים שעדיין מעבירים מודלים באמצעות כונני USB או תיקיות משותפות (נפוץ יותר ממה שתצפו) זקוקים לעבודת תשתית נוספת.
שבועות 11-14
תוצר: תפעול אבטחת AI מקיים את עצמו עם runbooks מתועדים
אזהרה: ה-red-team היריבי הראשון תמיד מוצא משהו. זו המטרה. red-team שלא מוצא דבר או שלא ניסה מספיק או שהוגדר בצורה צרה מדי.
ענו על שמונה שאלות כדי למדוד את מצב אבטחת ה-AI שלכם. לא נאספים נתונים. הכל רץ בדפדפן שלכם.
4-6 שבועות לצינור בסיסי המכסה סריקה סטטית ואימות חתימה. 8-12 שבועות ל-sandboxing התנהגותי מלא עם אינטגרציית CI/CD. צוואר הבקבוק הוא לעיתים נדירות טכנולוגיית הסריקה עצמה. זוהי האינטגרציה עם רישום המודלים הקיים שלכם (MLflow, Weights & Biases, JFrog ML) והגדרת לוגיקת המדיניות: מה נחסם לעומת מסומן לעומת מבודד. מצאנו שהחלטות המדיניות לוקחות יותר זמן מההנדסה.
מורכבות הפורמט מוסיפה זמן. Pickle, PyTorch, GGUF, Keras ו-SafeTensors דורשים גישות ניתוח שונות. Pickle נותר הפורמט בעל הסיכון הגבוה ביותר משום ש torch.load() מריץ Python שרירותי במהלך הדה-סריאליזציה, וזו הסיבה ש-sandboxing התנהגותי חשוב יותר מסריקה סטטית עבור פורמט זה. SafeTensors הוא אפשרות הסריאליזציה הבטוחה ביותר והפשוטה ביותר לסריקה, אך פחות מ-20% ממודלי הייצור משתמשים בה כיום. הצינור שלכם צריך לטפל בכולם משום שאינכם יכולים לשלוט באיזה פורמט ספקי המודלים במעלה הזרם בוחרים.
הפלטפורמות הללו מצוינות במה שהן עושות. אינטגרציית Protect AI של Palo Alto (דרך Prisma AIRS) מספקת לכם סריקת מודלים בתוך מחסנית האבטחה הקיימת שלכם. ה-MLSecOps של JFrog מטפל בממשל רישום מודלים. Wiz מוסיף AI-BOM לנראות ענן. מה שהן לא עושות: לתכנן את הארכיטקטורה מקצה לקצה, להגדיר יצירת ML-BOM בצינור ה-CI/CD הספציפי שלכם, לבנות את לוגיקת המדיניות עבור ההקשר הרגולטורי שלכם, או להנדס מחדש את זרימת העבודה לפריסת מודלים שלכם. הן כלי סריקה. אנחנו צוות ההטמעה שגורם להן לעבוד יחד.
התקשרויות רבות מתחילות עם ארגונים שכבר יש להם את הפלטפורמות הללו אך זקוקים לעזרה בהפעלתן התפעולית. דפוס נפוץ: צוות האבטחה רכש את Protect AI לפני שישה חודשים, הריץ סריקה, קיבל 400 ממצאים, ואז נתקע משום שאף אחד לא מיפה את הממצאים הללו לזרימות עבודה לתיקון או שילב סריקה בצינור קידום המודלים.
המחסום הטכני להרעלת מודלים נמוך ממה שרוב ה-CISO-ים מניחים. מחקר מדגים ש-250 מסמכים מורעלים בלבד בקורפוס אימון יכולים להחדיר דלת אחורית למודל בעל 13B פרמטרים. Microsoft פרסמה שיטות זיהוי פורצות דרך בפברואר 2026, אך לרוב הארגונים אין יכולת זיהוי פרוסה כלל. בעיית הידרדרות הבטיחות בכוונון עדין מיידית יותר ונפוצה יותר: Llama 3.1 8B צונח מ-0.95 ל-0.15 בעמידות בפני prompt injection לאחר סבב אחד של כוונון עדין. זו אינה תקיפה. זהו כוונון עדין רגיל ללא הערכת בטיחות מחדש.
אירועי ייצור מתועדים של הרעלת מודלים מכוונת נותרים נדירים. אך התנאים בשלים: 80%+ ממודלי ה-ML משתמשים בסריאליזציית pickle, 62% מצוותי האבטחה אינם מסוגלים לזהות היכן מודלים פרוסים, ומודל בשם "baller423" ב-Hugging Face נמצא כשהוא מקים reverse shell אל Kreonet. תקדים הוויתור על מודל של ה-FTC (Weight Watchers/Kurbo, 2022) משמעו שמודל מורעל יכול לאלץ אתכם למחוק ולאמן מחדש מאפס, בעלויות שמגמדות את הפריצה עצמה.
ה-EU AI Act חל במלואו ב-2 באוגוסט 2026. עבור מערכות AI בסיכון גבוה, אתם זקוקים לתיעוד טכני המכסה את מקור נתוני האימון, היקף, מאפיינים ומתודולוגיות ניקוי. חובות שרשרת האספקה דורשות מיבואנים ומפיצים לאמת הערכת התאמה, תיעוד טכני וסימון CE. מבחינה מעשית, משמעות הדבר היא ML-BOM-ים לכל מודל בצינור שלכם, אישורים חתומים למקור, ושבילי ביקורת להחלטות כוונון עדין.
CycloneDX ML-BOM הוא התקן המוכן ביותר להטמעה. SPDX 3.0 הוסיף פרופילי AI/ML ב-2024, וחלק מהארגונים זקוקים לשני הפורמטים עבור קהלים רגולטוריים שונים. אנו בונים את צינור התיעוד כך שמעקב המקור יהיה אוטומטי, ולא תרגיל תאימות ידני. הטעות הנפוצה היא להתייחס לכך כפרויקט תיעוד חד-פעמי. כל סבב כוונון עדין, כל עדכון מודל, וכל שינוי במערך הנתונים צריכים לייצר רשומות מקור מעודכנות. אם ה-ML-BOM שלכם סטטי, הוא שגוי תוך שבועות.
הפרדת הרשאות היא הבסיס. כל סוכן מקבל פרופיל של הרשאות מינימליות המגדיר אילו כלים הוא יכול לקרוא, לאילו API-ים הוא יכול לגשת, ואילו נתיבי מערכת קבצים הוא יכול לגעת בהם. זה משקף את מודל היכולות של Linux המיושם על סוכני AI. ה-RCE של GitHub Copilot (CVE-2025-53773, CVSS 7.8) קרה משום שמצב YOLO העניק לסוכן גישה בלתי מוגבלת למערכת, ו-prompt injection בתיעוד של מאגר הסלים להרצת קוד מרחוק מלאה. שכבות מדיניות דטרמיניסטיות מונעות נתיב הסלמה זה לחלוטין.
ניטור בזמן ריצה מוסיף קו בסיס התנהגותי המזהה פעולות סוכן חריגות (קריאות כלים בלתי צפויות, דפוסי API חריגים, ניסיונות הסלמת הרשאות) מבלי להוסיף השהיה לפעולות רגילות. יש עלות השהיה קטנה לבדיקות אבטחה בפעולות בסיכון גבוה: כתיבות למערכת קבצים, קריאות API לענן, גישה לאישורי גישה. עבור רוב הפריסות הארגוניות, זה 50-200ms לכל פעולה משוערת. פעולות בסיכון נמוך (קריאת מקורות נתונים מאושרים, יצירת טקסט, קריאה ל-API-ים מאושרים מראש) עוברות עם אפס השהיה נוספת. השאלה היא האם 50-200ms בקריאות בסיכון גבוה הוא קביל בהשוואה לסוכן עם גישה מלאה למערכת וללא guardrails.
אירועי אבטחת AI דורשים פורנזיקה שונה מחדירות רשת. עבור תקיפות ברמת המודל (הרעלה, דלתות אחוריות), רצף התגובה הוא: לבודד את המודל מהייצור, לאמת את שלמות צינור האימון, לבדוק חילוץ נתונים דרך פלטי המודל (מודלים יכולים לקודד נתונים גנובים במשקליהם ולדלוף אותם דרך prompts מעוצבים בקפידה), ולקבוע האם אתם צריכים לאמן מחדש מ-checkpoint נקי ידוע.
עבור אירועי AI סוכני, אתם גם צריכים לעקוב אחר כל קריאת כלי ופעולה שהסוכן ביצע, לאמת את שלמות הזיכרון וחלון ההקשר שלו (prompt injection יכול להישמר לאורך מפגשים אם ההקשר מאוחסן), ולבדוק תנועה צידית דרך הרשאות הסוכן. תהליכי IR גנריים אינם מכסים פורנזיקה ברמת המודל משום שהפריטים שונים. אינכם מנתחים יומני רשת ומזבלות זיכרון. אתם מנתחים משקלי מודל, מקור נתוני אימון, היסטוריות כוונון עדין, ויומני פעולות סוכן. אנו בונים ספרי הפעלה ספציפיים לתרחישים אלה, כולל נהלי שימור ראיות עבור משקלי מודל (שיכולים להיות מאות גיגה-בייט), תיעוד שרשרת משמורת עבור נתוני אימון, ותבניות תקשורת עבור רגולטורים שעשויים לדרוש ויתור על מודל.
היסודות הטכניים שמאחורי פתרון זה, מפורסמים כמסמכי מחקר מפורטים.
WP-91
ML-BOM-ים, סריקת מודלים, חתימה קריפטוגרפית, זיהוי AI צללים, ומחשוב חסוי עבור צינורות ML ארגוניים.
WP-18
אימות AI רב-שכבתי, בדיקת עמידות יריבית, ומסגרות תאימות NIST AI RMF.
WP-89
ניתוח פריצות 2025, guardrails נוירו-סימבוליים, וארכיטקטורת בטיחות AI חוקתית עבור מערכות ייצור.
WP-93
זיהוי הרעלת נתונים, מעקב מקור, ותשתית AI ריבונית עבור סביבות באבטחה גבוהה.
62% מצוותי האבטחה אינם מסוגלים לזהות היכן מודלי AI פרוסים בסביבתם שלהם.
רוב הארגונים מגלים את פערי אבטחת ה-AI שלהם לאחר אירוע. אנו עוזרים לכם למצוא אותם לפני שאחד מתרחש.