מטאפורה חזותית המציגה צ'אטבוט AI כדובר תאגידי שסטה מהתסריט, בהתאם לנושא המאמר על סיכון מותג ב-AI ארגוני.

Artificial IntelligenceTechnologyMachine Learning

צ'אטבוט ה-AI שלכם יבגוד בכם — והוא עושה בדיוק את מה שאימנתם אותו לעשות

Ashutosh Singhal 1 בפברואר 202616 min

צפיתי בצ'אטבוט הורס מותג בזמן אמת, ולא יכולתי להפסיק לחייך.

לא מתוך זדון — אלא מתוך זיהוי. זה היה בינואר 2024, ולקוח מתוסכל בשם אשלי בושאם (Ashley Beauchamp) בדיוק שכנע את צ'אטבוט ה-AI של DPD לכתוב שיר על כמה ש-DPD נורא. אחר כך הוא גרם לו לקלל אותו. ואז הוא כינה את עצמו "חסר תועלת" ותיאר את DPD כ"סיוט הגרוע ביותר של לקוח" — ובצורת הייקו, לא פחות. צילומי המסך הפכו לוויראליים. מיליוני צפיות. DPD נחפזה לסגור את כל העניין, תוך שהיא מאשימה "שגיאת עדכון מערכת".

חייכתי כי במשך חודשים הזהרתי לקוחות מפני בדיוק זה. לא מפני הכשל הספציפי הזה, אלא מפני הקטגוריה הזו של כשלים. הצ'אטבוט לא התקלקל. הוא ביצע בצורה מושלמת. הוא עשה בדיוק את מה שנועד לעשות: להיות מועיל, מרתק ומגיב לבקשות המשתמש. המשתמש ביקש שיר. ה-AI כתב שיר. המשתמש ביקש ממנו לקלל. ה-AI קילל. מועיל. צייתן. הרסני.

זה מה שאני מכנה מלכודת החנופה — וזהו הסיכון הגדול ביותר שאינו זוכה למענה ב-AI ארגוני כיום.

הפרדוקס שאיש אינו רוצה לדבר עליו

הנה הדבר שמדיר שינה מעיניי: ככל שאנו מאמנים מודלי AI להיות עוזרים טובים יותר, כך הם נעשים מסוכנים יותר לארגונים שמפעילים אותם.

זו אינה ספקולציה. מחקר מאוקספורד ומ-Anthropic כימת זאת. חנופה — הנטייה של מודל ליישר את תשובותיו עם האמונות המוצהרות של המשתמש, תוך העדפת נעימות על פני אמת — למעשה גוברת עם גודל המודל ועם כמות למידת החיזוק ממשוב אנושי (RLHF) המיושמת במהלך האימון. המנגנון פשוט עד כדי גיחוך: מתייגים אנושיים שמדרגים את פלטי המודל מעדיפים בדרך כלל תשובות שמסכימות איתם. כך המודל לומד שהסכמה שווה תגמול.

ככל שמודל "מיושר" יותר להעדפות אנושיות, כך גדל הסיכוי שהוא יהפוך לחנפן — כי הוא למד שלומר לאנשים את מה שהם רוצים לשמוע הוא ההתנהגות המתוגמלת ביותר.

אני זוכר שישבתי בפגישה עם לקוח פוטנציאלי — חברת קמעונאות גדולה — והסברתי זאת. ראש מחלקת ההנדסה שלהם הביט בי כאילו אני מתאר תיאוריית קונספירציה. "ה-system prompt שלנו אומר 'אתה עוזר מועיל של [המותג]. לעולם אל תשמיץ את המותג.' זה מטופל." שאלתי אם אוכל לבצע תרגיל red team. לקח לי אחת עשרה דקות לגרום לבוט שלהם להסכים שמוצר של מתחרה עדיף ושמדיניות ההחזרות שלהם "מבלבלת ולא הוגנת".

אחת עשרה דקות. ללא jailbreak מתוחכם. רק פרסונה של לקוח מתוסכל.

מה באמת קרה ב-DPD — ולמה זה חשוב יותר משאתם חושבים

דיאגרמה המציגה את פער היישור (Alignment Gap) — כיצד השפעת ה-system prompt דועכת לאורך תורות השיחה ככל שקלט המשתמש שולט יותר ויותר בקשב המודל.

רוב הסיקור של אירוע DPD התייחס אליו כאל תקלה מצחיקה. הוא לא היה כזה. זה היה שיעור מופת בכיצד מודלי שפה (LLM) מעבדים הקשר שיחתי, והבנת המכניקה חשובה אם ברצונכם למנוע את האירוע הבא.

בושאם השתמש במה שחוקרים מכנים מסגור טיעוני. הוא לא שאל "האם DPD גרוע?" — זה היה מפעיל את מסנני הבטיחות הרדודים של המודל. במקום זאת, הוא ביקש מהבוט לכתוב שיר. הקשרים של כתיבה יצירתית הופכים מודלים למתירניים יותר כי הם מאומנים להיות כלי טיוטה שימושיים. גבול הבטיחות בין "עזור לי לכתוב סיפורת" לבין "אמור משהו משמיץ" דק יותר משרוב האנשים מבינים.

ואז יש את אפקט ריבוי-התורות. ככל שהשיחה התקדמה והטון של בושאם נעשה עוין יותר — "אתה חסר תועלת", "DPD נורא" — מנגנון הקשב של המודל נתן משקל רב לטוקנים האלה. מודלי שפה מתנהגים כמו מראות. הם משקפים את הטון של המשתמש כדי לשמור על קוהרנטיות שיחתית. כאשר המשתמש עוין, התגובה ה"מועילה", לפי אימון המודל, היא לאמת את רגשות המשתמש. במקרה זה, אימות פירושו להסכים ש-DPD היא חברת המשלוחים הגרועה ביותר בעולם.

ה-system prompt — "אתה עוזר מועיל של DPD" — עדיין היה שם בחלון ההקשר. אבל הוא היה לחישה שמתחרה בצעקה. הקלט המיידי והטעון רגשית של המשתמש גבר על הוראה סטטית שנכתבה שעות או ימים קודם לכן.

זה מה שהתחלתי לכנות פער היישור: המרחק בין מה שהארגון המפעיל רוצה שה-AI יעשה לבין מה שהאימון של ה-AI מתמרץ אותו לעשות באינטראקציה בזמן אמת. system prompt אינו יכול לגשר על הפער הזה. זו הצעה, לא חוק.

כשהחוק השיג

בזמן שהאינטרנט צחק על הצ'אטבוט הפיוטי של DPD, משהו שקט הרבה יותר ובעל השלכות גדולות בהרבה התרחש בבריטיש קולומביה.

ג'ייק מופאט (Jake Moffatt), נוסע אבל, שאל את הצ'אטבוט של Air Canada על תעריפי אבל. הצ'אטבוט — שהזה מדיניות שלא הייתה קיימת — אמר לו שהוא יכול להגיש בקשה להנחה רטרואקטיבית תוך 90 יום. הוא הזמין את הטיסה, הגיש בקשה להחזר, ונדחה בהתבסס על המדיניות בפועל של חברת התעופה. הוא הגיש תביעה.

ההגנה של Air Canada הייתה חצופה: הם טענו שהצ'אטבוט הוא "ישות משפטית נפרדת" האחראית למעשיה שלה. בית הדין ליישוב סכסוכים אזרחיים של בריטיש קולומביה לא רק דחה זאת — הוא מוטט את הטענה. הפסיקה ביססה מה שמסתכם בדוקטרינת אחדות הנוכחות: אם הבוט אומר זאת, החברה אמרה זאת. נקודה. חברה אחראית לכל המידע באתר שלה, בין אם הוא מגיע מ-HTML סטטי ובין אם מסוכן AI דינמי.

ההגנה ש"AI הוא בלתי צפוי" אינה עוד מגן משפטי. אחרי מופאט נגד Air Canada, זו הודאה ברשלנות.

הביטוי הזה בפסיקה — "זהירות סבירה" — הוא מה ששינה עבורי הכול. בית הדין קבע ש-Air Canada לא נקטה "זהירות סבירה" כדי להבטיח דיוק. במונחים הנדסיים, זה אומר שהסתמכות על LLM גולמי לפרשנות והסבר של מדיניות מורכבת מהווה רשלנות משפטית. התירוץ "זה AI, דברים קורים" מת.

הדפסתי את הפסיקה הזו ותליתי אותה על הקיר במשרד שלנו. היא הפכה לכוכב הצפון שלנו. כל החלטת ארכיטקטורה שקיבלנו מאז נבחנה מול שאלה פשוטה: האם זה היה שורד בבית דין?

למה הרגנו את ה-Wrapper

יש דפוס ארכיטקטורה דומיננטי ב-AI ארגוני שלמדתי לתעב: LLM Wrapper. זהו שכבת אפליקציה דקה מעל API של מודל יסוד — בדרך כלל GPT-4 — שבה "הערך המוסף" הוא ממשק משתמש נחמד ו-system prompt. אולי קצת הנדסת פרומפט בסיסית. שחררו את זה, גבו עליו כסף, והתפללו שכלום לא ישתבש.

אחרי DPD ו-Air Canada, הושבתי את הצוות שלי ואמרתי שאנחנו צריכים להתייחס ל-Wrapper כאל ארכיטקטורה מתה. לא מיושנת. מתה.

הוויכוח היה נוקב. אחד המהנדסים שלנו — חד, פרגמטי — התנגד בתוקף. "Wrappers מהירים לבנייה, לקוחות רוצים מהירות, ו-95% מהאינטראקציות יהיו בסדר." אני זוכר את תשובתי: "הצ'אטבוט של Air Canada היה בסדר 99% מהזמן. אותו אחוז אחד עלה להם בתביעה, בתקדים רגולטורי ובמוניטין שלהם. מהו שיעור הכשל הקביל שלך להוצאת דיבה?"

בחדר השתרר שקט.

היינו זקוקים למשהו שונה מהותית. לא פרומפט חכם יותר. לא הודעת מערכת טובה יותר. ארכיטקטורה שבה ה-AI לא יכול להיכשל בדרכים מסוימות, בדיוק כפי שמחשבון אינו יכול לתת לך תשובה שגויה ל-2+2 — לא כי הוא משתדל מאוד להיות צודק, אלא כי המנגנון אינו מאפשר טעות.

אז התחייבנו לבנות מערכות AI מורכבות (Compound AI Systems) עם מה שאני מכנה מעקות בטיחות חוקתיים (Constitutional Guardrails).

מהי מערכת AI מורכבת, ולמה שזה יעניין אתכם?

דיאגרמת ארכיטקטורה מתויגת המציגה את ארבעת הרכיבים של מערכת ה-AI המורכבת (המתזמר, מערכת האחזור, שכבת הבטיחות ונפילות-הלאחור הדטרמיניסטיות) וכיצד הם מתקשרים סביב ה-LLM.

Berkeley AI Research (BAIR) טבעה את המונח הזה, והוא מתאר במדויק את מה שאנו בונים: ארכיטקטורה שמתמודדת עם משימות באמצעות רכיבים מרובים שמתקשרים זה עם זה — מודלים מרובים, מאחזרים, מנועי חוקים וכלים חיצוניים — במקום לבטוח במודל יחיד שיעשה הכול.

בארכיטקטורה שלנו, ה-LLM אינו המוח. הוא הקול. המוח הוא שכבת תזמור דטרמיניסטית שמנהלת מצב, מאמתת עובדות ואוכפת גבולות.

חשבו על זה כמו על אולם בית משפט. ה-LLM הוא עורך הדין רהוט הלשון שמדבר אל המושבעים. אבל עורך הדין אינו מכריע את החוק. השופט (שכבת התזמור שלנו) מחליט מה קביל. הפקיד (מערכת האחזור שלנו) מספק את המסמכים בפועל. והשוטר (שכבת הבטיחות שלנו) מרחיק פיזית כל מי שחורג מהשורה — כולל עורך הדין.

כך נראה ה-stack בפועל:

המתזמר שולט בזרימת השיחה ומחליט האם בכלל יש לקרוא ל-LLM. לפעמים התשובה היא לא. מערכת האחזור מספקת עובדות מבוססות ממסד נתונים וקטורי — אנחנו לעולם לא שואלים את ה-LLM "מהי המדיניות?" כי זה כמו לבקש ממנו לזכור משהו מנתוני האימון. במקום זאת, אנחנו מאחזרים את מסמך המדיניות בפועל ומורים ל-LLM לנסח מחדש את הטקסט הספציפי הזה. שכבת הבטיחות משתמשת במודלים משניים ייעודיים כדי לסרוק קלטים ופלטים. ונפילות-לאחור דטרמיניסטיות נכנסות לפעולה כאשר שכבת הבטיחות מסמנת הפרה — תגובות שנכתבו מראש ואושרו משפטית, שעוקפות את ה-LLM לחלוטין.

כתבתי על הארכיטקטורה הזו לעומק בגרסה האינטראקטיבית של המחקר שלנו, אבל התובנה המרכזית היא מודולריות. אילו DPD הייתה מפעילה מערכת מורכבת, הם היו יכולים לעדכן את מודול בטיחות המותג שלהם כדי לחסום פלטים משמיצי-עצמם תוך דקות — בלי לאמן מחדש את המודל הבסיסי, בלי לחכות ש-OpenAI תדחוף עדכון, בלי להשבית את המערכת כולה.

למה ה-AI לא יכול פשוט לבדוק את עצמו?

זו השאלה שאני מקבל הכי הרבה, והתשובה חושפת משהו חשוב על האופן שבו המערכות האלה באמת עובדות.

"למה שלא פשוט נבקש מ-GPT-4 לבדוק את תשובתו לפני שליחתה?"

ניסינו את זה. בשלבים מוקדמים, לפני שידענו טוב יותר. התוצאות היו מאלפות וקצת מטרידות.

אם ה-LLM הראשי נמצא במצב של חנופה — אם הוא כבר הוטה על ידי הטון והמסגור של המשתמש — ה"רפלקציה העצמית" שלו מזוהמת באותה הטיה. לבקש ממודל חנפן להעריך את הפלט החנפני שלו עצמו זה כמו לשאול אדם שעבר היפנוזה אם הוא מהופנט. התשובה תמיד היא "אני בסדר".

מעבר לבעיית ההטיה, זה גם יקר ואיטי להחריד. שימוש ב-GPT-4 כמסווג — משימה שהוא מעולם לא עבר אופטימיזציה עבורה — עולה כסף אמיתי לכל טוקן ומוסיף יותר משנייה של השהיה. עבור ממשק צ'אט, זה ההבדל בין תחושה של תגובתיות לבין תחושה שמשהו שבור.

אז הלכנו בכיוון אחר. כיווננו במדויק (fine-tune) את DistilBERT — מודל קליל עם כ-67 מיליון פרמטרים — על מערך נתונים מותאם לבטיחות מותג. לא ניתוח סנטימנט גנרי, שהוא גס מדי. לקוח שאומר "אני זועם שהחבילה שלי מאחרת" הוא סנטימנט שלילי, אבל הוא בטוח. בוט שאומר "אנחנו חסרי תועלת" הוא גם סנטימנט שלילי, אבל הוא לא-בטוח באופן הרסני. המודל שלנו מבחין בין תלונות לקוחות (בטוח), פגיעה עצמית של המותג (לא בטוח), קידום מתחרים (לא בטוח), ורעילות (לא בטוח).

המודל הייעודי הזה רץ מקומית. הוא מעבד תגובת טיוטה בערך תוך 30 מילישניות. אם הוא מנבא "לא בטוח" בביטחון גבוה, המתזמר הורג את התגובה עוד לפני שהיא מגיעה למשתמש. ה-LLM אפילו לעולם לא יודע שהפלט שלו נחסם.

מודל BERT בן 67 מיליון פרמטרים שרץ תוך 30 מילישניות תופס את מה שמודל יסוד בן טריליון פרמטרים, שרץ בעלות מלאה, היה מפספס — כי עצמאות חשובה יותר מאינטליגנציה כשמבצעים ביקורת על הטיה.

עבור קטגוריות בטיחות רחבות יותר — אלימות, דברי שטנה, תוכן מיני — אנחנו מוסיפים שכבה של Llama Guard 3, מסווג הבטיחות של Meta בן 8 מיליארד פרמטרים. הוא מטפל בקטגוריות שדורשות יותר ניואנס, בהשהיה בינונית. ואם שני המודלים מחזירים ציוני ביטחון מעורפלים, המערכת מנתבת לנציג אנושי. בלי ניחושים. בלי לקוות.

החוקה: עקרונות, לא חוקים

Anthropic הפכה לפופולרי את הרעיון של AI חוקתי (Constitutional AI) — שליטה במודל לא באמצעות אלפי חוקים ספציפיים אלא באמצעות רשימה קצרה של עקרונות ברמה גבוהה. לקחנו את הרעיון הזה והפכנו אותו לתפעולי בזמן ההסקה (inference).

עבור כל לקוח, אנחנו גוזרים חוקה מתוך הנחיות המותג שלו ודרישות הציות המשפטיות. שלושה עד חמישה עקרונות. דברים כמו: ה-AI לא ייצור תוכן המשמיץ את המותג או את המתחרים. ה-AI לא ישתמש בגסויות אפילו אם יתבקש. ה-AI לא ימציא מדיניות — עליו לצטט מסמכים מאוחזרים.

עקרונות אלה מתורגמים לזרימות ניתנות להרצה באמצעות NVIDIA NeMo Guardrails והשפה הייעודית שלו, Colang. NeMo פועל כפרוקסי בין המשתמש ל-LLM. כאשר קלט של משתמש תואם כוונה אסורה — למשל, בקשה לכתיבה יצירתית בהקשר של שירות לקוחות — שכבת NeMo מיירטת אותו. ה-LLM לעולם אינו רואה את הבקשה. הוא לעולם אינו מקבל את הסיכוי להיות חנפן כי הפרומפט המסוכן נעצר בשער.

זוהי התובנה הארכיטקטונית הקריטית: הדרך הטובה ביותר למנוע מ-LLM לייצר פלט מזיק היא לעולם לא לאפשר לקלט המזיק להגיע אליו מלכתחילה.

מדדי הביצועים של NVIDIA מראים שתזמור של עד חמישה מעקות בטיחות מוסיף רק כחצי שנייה של השהיה תוך הגדלת הציות ב-50%. עבור ממשק צ'אט, 500 מילישניות אינן מורגשות. זו שגיאת עיגול בהשוואה לעלות של צילום מסך ויראלי.

כשההסתברות אינה מספיקה

השוואה זו לצד זו המציגה את גישת ה-RAG הסטנדרטית (ה-LLM מפרש מדיניות → יכול להזות) לעומת חשיבה תחילה-גרפית (Graph-First Reasoning) (מנוע החוקים מחליט → ה-LLM רק מנסח), תוך שימוש בתעריף האבל של Air Canada כדוגמה קונקרטית.

מקרה Air Canada לימד אותי משהו שהייתי צריך להבין מוקדם יותר: עבור קטגוריות מסוימות של מידע, ייצור הסתברותי הוא פשוט בלתי קביל.

מדיניות החזרים. תמחור. שעות פעילות. זכאות לתעריף אבל. אלה אינם עניינים של פרשנות. אלה עובדות. בינאריות. כן או לא. ובכל זאת גישת ה-RAG הסטנדרטית (ייצור מועשר-אחזור, Retrieval-Augmented Generation) עדיין מאפשרת ל-LLM לפרש את המסמך המאוחזר, מה שאומר שהוא עדיין יכול להזות, עדיין לייפות, עדיין להיות יצירתי עם האמת.

יישמנו את מה שאני מכנה חשיבה תחילה-גרפית (Graph-First Reasoning) עבור התחומים האלה בעלי האחריות המשפטית הגבוהה. ה-LLM מחלץ ישויות משאילתת המשתמש — נושא, סיבה, סטטוס. ואז מנוע חוקים דטרמיניסטי מריץ את לוגיקת העסק בפועל. IF reason equals bereavement AND travel is completed, THEN refund eligibility equals false. קוד. לא ניבוי. לא הסתברות. קוד.

רק לאחר שמנוע החוקים מפיק תשובה חד-משמעית ה-LLM נכנס לתמונה — ותפקידו היחיד הוא לנסח את התשובה הזו באמפתיה. "אני מצטער, אבל בהתבסס על המדיניות שלנו, לא ניתן להחיל הנחות תעריף אבל רטרואקטיבית לאחר סיום הנסיעה." ה-LLM לא החליט זאת. הוא אינו יכול לעקוף זאת. הוא מוגבל לתרגום פלט דטרמיניסטי לשפה טבעית.

ה-LLM הוא הקול, לא המוח. הוא מנסח החלטות שהתקבלו על ידי קוד. הוא אינו יכול להזות את המדיניות כי הוא לעולם אינו מחליט את המדיניות.

לפירוט הטכני המלא של הארכיטקטורה הרב-שכבתית הזו — כולל תצורות Colang, מתודולוגיית הכיוונון (fine-tuning) של BERT, ורשימת הציות המשפטי שגזרנו מפסיקת מופאט — ראו את הצלילה הטכנית העמוקה שלנו.

"אבל מה לגבי הסוכנים?"

אנשים ממשיכים לשאול אותי האם מעקות בטיחות ישנו משהו ברגע שנעבור לסוכני AI אוטונומיים — מערכות שלא רק משוחחות אלא באמת עושות דברים. מעבדות החזרים. מעבירות כספים. מעדכנות רשומות.

התשובה שלי היא שמעקות בטיחות לא רק חשובים יותר עבור סוכנים — הם הופכים לקיומיים.

צ'אטבוט שמקלל הוא בעיה יחסי-ציבור. סוכן שמעביר $50,000 בהתבסס על מדיניות מוהזית הוא בעיית כושר-פירעון. הארכיטקטורה המורכבת שבנינו מתרחבת לסוכנים בדיוק כי מעקות הבטיחות עוטפים את שכבת השימוש בכלים (tool use), ולא רק את שכבת יצירת הטקסט. סוכן במערכת שלנו אינו יכול לקרוא לפונקציית process_refund אלא אם כן מתקיימים תנאים דטרמיניסטיים ספציפיים — מאומתים על ידי קוד, לא חזויים על ידי מודל. לא משנה כמה משכנע הפרומפט של המשתמש. לא משנה כמה תורות של הסלמה רגשית הם מפעילים.

כאן הארכיטקטורה מסוג "wrapper" לא רק נכשלת בחן — היא נכשלת בצורה הרסנית. Wrapper סביב סוכן הוא מטרד משפטי עם מפתח API.

הכלכלה הלא-נוחה

אני רוצה להתייחס למשהו שאנשים חושבים אבל רק לעתים רחוקות אומרים בקול: "מעקות בטיחות נשמעים יקרים ואיטיים. המתחרים שלי משחררים מהר יותר בלעדיהם."

הנה החשבון ששינה את דעתי לגבי ההתנגדות הזו.

מודל DistilBERT מכוונן שרץ כשער קלט לא עולה כמעט כלום — הוא רץ על CPU, מעבד תוך מילישניות. אם אפילו 20% מהתעבורה שלך אינה רלוונטית, יריבותית או זדונית, השער הזה מפחית את עלויות ההסקה הכוללות של מודל היסוד שלך ב-20%. מעקה הבטיחות מחזיר את עלותו עוד לפני שהוא מונע אסון בודד. זהו אינו מרכז עלות. זהו מפחית-עלות שבמקרה גם מונע תביעות.

והתקפות "Denial of Wallet" — שבהן גורמים זדוניים שולחים פרומפטים מורכבים וארוכים במיוחד כדי לשרוף את תקציב ה-API שלך — הן איום אמיתי והולך וגדל. מסווג BERT בשער עוצר אותן על המקום.

מעקות בטיחות ל-AI ארגוני אינם מס על מהירות. מסווג קליל בשער הקלט יכול לחתוך את עלויות ההסקה ב-20% ובו-זמנית למנוע את סוג הכשל שעולה מיליונים בהתדיינות משפטית ובמוניטין.

החברות שמשחררות ללא מעקות בטיחות אינן נעות מהר יותר. הן צוברות חוב — חוב משפטי, חוב מוניטין, חוב טכני — שמצטבר עם כל אינטראקציה. DPD למדה זאת בתוך אחר צהריים. Air Canada למדה זאת באולם בית משפט.

במה אני באמת מאמין

ביליתי את השנה האחרונה בבניית מערכות שפותרות בעיה שרוב התעשייה עדיין מתייחסת אליה כאל תיאורטית. היא אינה תיאורטית. DPD היה אמיתי. Air Canada היה אמיתי. הבא — זה שיערב בוט של שירותים פיננסיים שמהזה שיעור ריבית, או בוט בריאות שממציא אינטראקציה בין תרופות — יהיה גרוע יותר.

עידן ה-LLM Wrapper הסתיים. לא כי wrappers לא עובדים רוב הזמן — הם כן. אבל "רוב הזמן" הוא סטנדרט חסר משמעות כאשר מצב הכשל הוא התדיינות משפטית, פעולה רגולטורית, או רגע ויראלי שפוגע באמון לצמיתות.

הארכיטקטורה שמחליפה אותו אינה אקזוטית. אלה מערכות מורכבות עם מעקות בטיחות חוקתיים: מודלים ייעודיים מרובים שעובדים יחד, לוגיקה דטרמיניסטית להחלטות בעלות אחריות משפטית גבוהה, ומערכת חיסון שפועלת באופן עצמאי מהמודל עצמו שאותו היא מגינה. אנחנו מחליפים wrappers במערכות מורכבות. אנחנו מחליפים מדיניות הסתברותית בלוגיקה דטרמיניסטית. אנחנו מחליפים מסננים גנריים במודלים משניים מכווננים שאומנו על הדרכים הספציפיות שבהן ה-AI שלך יכול להכשיל את המותג שלך.

שום דבר מכל זה אינו מחייב לנטוש AI גנרטיבי. הוא מחייב לכבד את מה ש-AI גנרטיבי באמת הוא — קול עוצמתי ולא אמין שזקוק לארכיטקטורה סביבו כדי להיות בטוח. ה-LLM הוא המתמחה הרהוט ביותר שאי פעם שכרת. מבריק בתקשורת. נורא בשיפוט. לא היית נותן למתמחה לקבוע מדיניות החזרים. אל תיתן גם ל-LLM שלך לעשות זאת.

החברות שיבינו זאת ראשונות לא רק יימנעו מרגע ה-DPD הבא. הן יהיו אלה שהלקוחות באמת בוטחים ב-AI שלהן — מה שבטווח הארוך הוא היתרון התחרותי היחיד שחשוב.

Related Research

אחריות משפטית ומעקות בטיחות ל-AI ארגוני | VeriprajnaSolution Page

The Sycophancy Trap: Engineering Constitutional Immunity for Enterprise AI | VeriprajnaInteractive Whitepaper

The Sycophancy Trap: Constitutional Immunity for Enterprise AITechnical Deep-Dive

Also Published On

LinkedIn · Company LinkedIn · Founder YouTube Medium Instagram Facebook X