מטאפורה חזותית של הרעיון המרכזי — AI שפה שוטף לצד מנוע לוגיקה מדויק, המייצג את מושג ה"קול והמוח" שבלב המאמר.
Artificial IntelligenceMachine LearningTechnology

המורה מבוסס ה-AI שלימד ילדה ש-2+2=5 — ומה זה חושף על כל מוצר AI שאתם משתמשים בו

Ashutosh SinghalAshutosh Singhal13 בפברואר 202616 min

לפני כמה חודשים, הורה שלח לי צילום מסך שהקפיא אותי במקום.

בתה — תלמידת כיתה ז' — השתמשה באחת מפלטפורמות ההוראה הפופולריות ביותר מבוססות ה-AI כדי ללמוד למבחן במתמטיקה. הילדה עבדה על תרגיל כפל: 3,750 כפול 7. היא הקלידה 21,690. התשובה הנכונה היא 26,250. היא אפילו לא הייתה קרובה.

המורה מבוסס ה-AI הגיב: "עבודה נהדרת בכפל! פתרת את התרגיל והפגנת חשיבה מצוינת!"

בהיתי בצילום המסך הזה זמן רב. לא מפני שהטעות הפתיעה אותי — חקרתי מצבי כשל של מודלי שפה במשך שנים. מה שהיכה בי היה ההתלהבות. ה-AI לא סתם טעה. הוא חגג את התשובה השגויה. הוא חיזק תפיסה מוטעית בחום ובביטחון של מורה אהוב. ואי-שם, ילדה בת שתים-עשרה נכנסה למבחן שלה מתוך אמונה שהיא הבינה כפל, כי מכונה אמרה לה שהיא הבינה.

צילום המסך הזה גיבש משהו שהסתובבתי סביבו זמן מה: מערכות ה-AI המסוכנות ביותר אינן אלה שמסרבות לענות. הן אלה שעונות בביטחון ובטעות. וכרגע, התיאור הזה מתאים כמעט לכל מוצר AI שנבנה על גבי מודלי שפה גדולים.

אני אשוטוש, ואני מנהל את VeriPrajna. אנו בונים מערכות AI נוירו-סימבוליות — ארכיטקטורות שממזגות את השטף הלשוני של רשתות נוירונים עם הקפדנות הלוגית של פותרים סימבוליים. אני כותב זאת מפני שאני חושב שהתעשייה מהמרת הימור קטסטרופלי על הארכיטקטורה הלא נכונה, ומי שישלמו את המחיר הם תלמידים, מטופלים, לווים, וכל מי שסומך על AI שיֵדע את העובדות נכון.

מדוע ה-AI שלכם נשמע כל כך חכם אך טועה כל כך במתמטיקה?

הנה משהו שרוב האנשים לא מבינים לגבי מודלי שפה גדולים כמו GPT-4 או Claude: הם לא יודעים כלום. לא באופן שבו מסד נתונים יודע שיום ההולדת שלכם הוא ה-15 במרץ, או שמחשבון יודע ש-17 כפול 24 שווה 408.

מודל שפה הוא מנוע חיזוי. כאשר אתם שואלים אותו שאלה, הוא אינו שולף עובדה או מבצע חישוב. הוא מנבא את רצף המילים הסביר ביותר סטטיסטית שאמור לעקוב אחר הפרומפט שלכם, בהתבסס על דפוסים שספג ממיליארדי דפים של טקסט אינטרנטי. הוא מבצע את מה שהחוקרים מכנים "חיזוי הטוקן הבא" — בחירת המילה הבאה (או חלק ממילה) בהתבסס על התפלגויות הסתברות שנלמדו במהלך האימון.

זו הסיבה שמודלי שפה יכולים לכתוב שירה שמביאה אתכם לדמעות ואז לומר לכם ש-2+2=5 אם תדחפו את חלון ההקשר בדרך הנכונה. השירה עובדת מפני ששפה היא דפוסים. המתמטיקה נכשלת מפני שאריתמטיקה אינה דפוס — היא מערכת פורמלית עם כללים מדויקים שאינם מתכופפים לסבירות סטטיסטית.

מודל שפה אינו מבחין בין עובדה שהופיעה מיליון פעמים בנתוני האימון שלו לבין כזו שהופיעה פעם אחת. הוא מתייחס לעובדות נדירות כרעש סטטיסטי — כלומר, ככל שהמידע שאתם צריכים נדיר יותר, כך גדל הסיכוי שה-AI ימציא משהו.

אני חושב על זה כך: דמיינו שהיה לכם עמית שקרא כל ספר שנכתב אי-פעם אך מעולם לא למד להשתמש במחשבון. הייתם סומכים עליו שיסכם רומן או ינסח מייל משכנע. לעולם לא הייתם סומכים עליו שיטפל בדוח המס שלכם. ובכל זאת, זה בדיוק מה שאנו עושים כשאנו משיקים מודלי שפה גולמיים בתחומי החינוך, הפיננסים והבריאות.

הלילה שבו הבנתי שהנדסת פרומפטים היא מבוי סתום

הייתה תקופה — כמעט מביך לי להודות בכך עכשיו — שבה חשבתי שנוכל לתקן זאת בעזרת פרומפטים טובים יותר.

אני והצוות שלי בילינו שבועות בעיצוב הוראות מורכבות של שרשרת מחשבה. "חשוב צעד אחר צעד." "הצג את עבודתך." "בדוק שוב את החישוב שלך לפני שאתה מגיב." בחנו עשרות וריאציות על פני בעיות מתמטיות, תרחישי ציות ומשימות של הסקה לוגית. חלק משרשראות הפרומפטים היו באורך מאות טוקנים, ובעצם התחננו בפני המודל להיזהר.

זה עזר. קצת. פרומפטינג של שרשרת מחשבה שיפר את הדיוק במשימות הסקה מורכבות ממצב תהומי למצב סתם לא-אמין. אבל הנה מה שהמשיך לקרות: המודל היה פורש שרשרת לוגית יפהפייה — צעד ראשון נכון, צעד שני נכון, צעד שלישי נכון — ואז עושה טעות אריתמטית פשוטה בצעד הרביעי שהתגלגלה לאורך שאר שרשרת ההסקה, ומייצרת תשובה סופית שהייתה שגויה בביטחון ובאלגנטיות.

לילה אחד סקרתי תוצאות בדיקה ליד שולחני. הרצנו מקבץ של 500 חישובי ריבית דריבית דרך מערך GPT-4 עם פרומפטינג של שרשרת מחשבה. שיעור הדיוק היה סביב 87%. שותפי המייסד הביט בתוצאות ואמר, "87% זה די טוב."

פתחתי גיליון אלקטרוני. "האם היית משתמש בגיליון אלקטרוני שממציא מספרים ב-13% מהמקרים?"

שתיקה.

זה היה הרגע שבו הארכיטקטורה השתנתה בראשי. הבעיה לא הייתה הפרומפט. הבעיה הייתה שביקשנו ממנוע חיזוי להיות מנוע לוגיקה. לחשנו לקוביות וקיווינו שיינחתו על המספר הנכון. שום כמות של הנדסת פרומפטים לא הייתה משנה את הטבע הסטוכסטי היסודי של המערכת.

היינו זקוקים למוח.

מהו AI נוירו-סימבולי, ומדוע כדאי לכם להתעניין בכך?

תרשים הממפה את מערכת 1 ומערכת 2 של כהנמן לשתי הפרדיגמות של ה-AI (רשתות נוירונים ו-AI סימבולי), ומראה כיצד AI נוירו-סימבולי ממזג את שתיהן — והופך את המסגרת המושגית המרכזית של המאמר לוויזואלית מיד.

ההיסטוריה של הבינה המלאכותית היא סיפור על שני שבטים שבמשך עשורים סירבו לדבר זה עם זה.

הסימבוליסטים — הדומיננטיים משנות ה-50 ועד שנות ה-80 — האמינו שאינטליגנציה עוסקת בטיפול בכללים מפורשים ובלוגיקה. אם היית מצליח לקודד מספיק ידע כאמירות פורמליות (סוקרטס הוא אדם; כל בני האדם בני-תמותה; לפיכך סוקרטס בן-תמותה), יכולת לבנות מכונה חושבת. המערכות שלהם היו מדויקות, שקופות, וניתנות להוכחה כנכונות. הן היו גם שבירות — הן התנפצו ברגע שנתקלו בשפה מבולגנת ואמיתית או במצבים שהכללים שלהן לא כיסו.

הקונקשניסטים — קהל רשתות הנוירונים — נקטו בגישה ההפוכה. אל תכתבו כללים; תנו למכונה ללמוד דפוסים מנתונים. המערכות שלהם ידעו להתמודד עם עמימות, רעש ושפה טבעית בצורה יפהפייה. אבל הן היו קופסאות שחורות. לא יכולת להסביר מדוע הן ייצרו תשובה מסוימת, ולא היה להן מושג של אמת — רק סבירות סטטיסטית.

דניאל כהנמן, חתן פרס נובל, תיאר את הקוגניציה האנושית כשתי מערכות: מערכת 1 היא מהירה, אינטואיטיבית ומבוססת-דפוסים — אתם מזהים פני חבר בקהל. מערכת 2 היא איטית, מכוונת ולוגית — אתם מכפילים 17 כפול 24 על הנייר. מודלי השפה הנוכחיים הם מנועי מערכת 1 יוצאי דופן שמתבקשים לבצע עבודה של מערכת 2. זו אי-ההתאמה.

AI נוירו-סימבולי הוא המיזוג. אתם משאירים את רשת הנוירונים כ"קול" — היא מטפלת בשפה, מבינה כוונה, מייצרת תגובות שוטפות. אבל אתם מוסיפים "מוח" סימבולי — פותרים דטרמיניסטיים, מנועי לוגיקה, מערכות אימות פורמליות — שמטפל בכל מה שדורש דיוק. הקול מדבר עם המשתמש. המוח עושה את המתמטיקה. וגשר מחבר ביניהם.

במערכת נוירו-סימבולית, 2+2 תמיד יהיה שווה ל-4 — לא מפני שהמודל מנבא שכך צריך להיות, אלא מפני שזה מוגדר כאקסיומה בשכבה הסימבולית. רשת הנוירונים פשוט אינה יכולה לעקוף זאת.

זה לא תיאורטי. זה מה שאנו בונים ב-VeriPrajna, ופרשתי את התוכנית האדריכלית המלאה בגרסה האינטראקטיבית של מאמר המחקר שלנו.

כיצד גורמים למודל שפה לבצע מתמטיקה שהוא אינו מסוגל לבצע?

תרשים שלב-אחר-שלב המראה כיצד עובד צינור ה-PAL (Program-Aided Language Model) — משאלת המשתמש, דרך יצירת קוד על ידי מודל השפה, לביצוע דטרמיניסטי, ועד תגובה מאומתת בשפה טבעית — בניגוד לגישת מודל השפה הסטנדרטית שמנחשת את התשובה.

המנגנון המרכזי הוא משהו שנקרא Program-Aided Language Models, או PAL. והאלגנטיות שלו עדיין משמחת אותי.

במקום לבקש ממודל השפה לפתור בעיה, אתם מבקשים ממנו לכתוב תוכנית שפותרת את הבעיה.

הנה איך זה נראה בפועל. משתמש שואל: "אם יש לי הלוואה של $50,000 בריבית של 5% המחושבת שנתית, כמה אני חייב אחרי 3 שנים?"

במערך מודל שפה סטנדרטי, המודל מנסה לחשב $50,000 × (1.05)³ בראשו — באמצעות חיזוי טוקנים. לפעמים הוא צודק. לפעמים לא. אין לכם דרך לדעת באיזו תשובה אפשר לבטוח.

במערכת שלנו, מודל השפה אינו מחשב דבר. הוא מייצר כמה שורות של קוד Python: principal = 50000, rate = 0.05, years = 3, print(principal * (1 + rate) ** years). קוד זה מורץ על ידי סביבת ריצה דטרמיניסטית — מחשב אמיתי שמבצע מתמטיקה אמיתית. יחידת הלוגיקה האריתמטית של המעבד מחזירה 57,881.25. מודל השפה אז עוטף את המספר המאומת הזה בתגובה בשפה טבעית: "אחרי 3 שנים, תהיה חייב $57,881.25."

רשת הנוירונים עשתה את מה שהיא טובה בו: הבנת השאלה ויצירת קוד. המנוע הסימבולי עשה את מה שהוא טוב בו: לחשב את התשובה בדיוק מושלם. אף אחד מהם לא יכול היה לעשות את עבודתו של האחר. יחד, הם אדירים.

בחנו זאת מול פרומפטינג סטנדרטי של שרשרת מחשבה במשימות אריתמטיות מורכבות. מודלי שפה סטנדרטיים השיגו דיוק של פחות מ-40% בחישובים רב-שלביים. שרשרת מחשבה שיפרה זאת לתוצאות בינוניות אך נוטות לשגיאות. הגישה הנוירו-סימבולית שלנו מבוססת ה-PAL השיגה דיוק כמעט מושלם — מוגבל רק בשאלה האם הלוגיקה של הקוד שנוצר הייתה נכונה, שזו בעיה קלה בהרבה לאימות ולניפוי שגיאות מאשר חיזוי טוקנים הסתברותי.

הוויכוח שכמעט פילג את הצוות שלי

אני חייב לספר לכם על ריב שהיה לנו פנימית, מפני שהוא עיצב את האופן שבו אנו חושבים על הארכיטקטורה הזו.

כשהתחלנו לראשונה לשלב פותרים סימבוליים, אחד המהנדסים שלי — בחור מבריק, שקוע עמוקות בעולם הלמידה העמוקה — התנגד בתוקף. הטיעון שלו: "המודלים משתפרים כל שישה חודשים. GPT-5 יתקן את בעיות המתמטיקה. GPT-6 יתקן את בעיות ההסקה. אתה בונה פיגומים לבניין שעומד לגדל לעצמו שלד."

הוא לא טעה לגבי המגמה. מודלים אכן משתפרים. אבל חזרתי שוב ושוב לטיעון מבני שלא הצלחתי להשתחרר ממנו.

השיפור במודלי שפה הוא אסימפטוטי עבור משימות דטרמיניסטיות. הגדלת מנוע חיזוי פי 10 אינה הופכת אותו לדטרמיניסטי — היא הופכת אותו למנוע חיזוי גדול יותר. מודל שמחשב ריבית דריבית נכון ב-95% מהמקרים במקום ב-87% מהמקרים הוא עדיין מודל שאי אפשר לבטוח בו לחישובים פיננסיים. הפער בין 95% ל-100% אינו פער שסוגרים באמצעות קנה מידה. זהו פער שדורש סוג אחר של מערכת.

התווכחנו על זה יומיים. לוחות מחיקים מכוסים בתרשימים. מבחני ביצועים מתחרים. בשלב מסוים מישהו אמר, "פשוט תשתמש ב-GPT ותוסיף הבהרה משפטית." אני חושב שנרתעתי בצורה גלויה.

מה שהכריע היה מבחן פשוט. לקחנו 100 תרחישי ציות מלקוח בנקאי — בדיקות זכאות להלוואה עם ספי רגולציה נוקשים. הרצנו אותם דרך מודל שפה מתקדם ביותר עם פרומפטינג זהיר. הוא אישר שלוש הלוואות שהפרו את דרישות יחס החוב-להכנסה מפני שהמבקשים כתבו הצהרות אישיות משכנעות. המודל שוכנע על ידי הנרטיב. הוא עשה את מה שנועד לעשות — התאמת דפוסים בשפה — ובכך, הפר את החוק.

צ'אטבוט שמשקר ב-5% מהמקרים אינו שימושי ב-95%. עבור משימות קריטיות, הוא בלתי שמיש ב-100%.

המהנדס שלי השתכנע. לא מפני שהגישה הסימבולית הייתה סקסית יותר — היא לא — אלא מפני שמצב הכשל של החלופה היה בלתי מתקבל על הדעת.

מדוע חברות "עוטף AI" נמצאות בצרות?

הרשו לי לעשות צעד אחורה ולדבר על הנוף העסקי, מפני שלארכיטקטורה הטכנית יש השלכות כלכליות עצומות.

כרגע, מערכת האקוסיסטם של סטארטאפי ה-AI נשלטת על ידי מה שאני מכנה חברות "עוטף" — עסקים שהמוצר המרכזי שלהם הוא ממשק משתמש ומעט לוגיקת פרומפטים שיושבים על גבי מודל יסוד של צד שלישי. הם מוכרים מחדש גישה ליכולות שאינן בבעלותם.

הבעיה מבנית. בכל פעם ש-OpenAI או Anthropic משחררות גרסת מודל חדשה, הן קולטות את התכונות שהעוטפים מספקים. הסטארטאפ שמוכר "AI לסיכום PDF" נמחק כאשר מודל היסוד מוסיף העלאת קבצים מובנית. החברה שמציעה "AI ליצירת קוד" צופה בהצעת הערך שלה מתאדה ככל שמודלי הבסיס משתפרים בכתיבת קוד. חפיר התחרות שלכם מתרוקן על ידי הספק שלכם עצמו.

לקוחות ארגוניים מתחילים להבין. ישבתי בפגישות שבהן מנהלי טכנולוגיה אמרו, ישירות: "למה שאשלם לכם כדי לעטוף API שאני יכול לקרוא לו בעצמי?" והם צודקים לשאול. ניתוב רשומות פיננסיות רגישות או קוד קנייני דרך שרתים של סטארטאפ, שמנתבים אותם לאחר מכן לספק מודל ציבורי, יוצר משטח תקיפה בלתי מתקבל על הדעת. תנועת ה-"AI הריבוני" — ארגונים הדורשים להחזיק במודלים שלהם ולהריץ אותם בתוך התשתית שלהם — מואצת.

זו הסיבה שדחינו את מודל העוטף מהיום הראשון. אנחנו לא מוכרים גישה לטוקנים. אנחנו מוכרים ארכיטקטורות של מערכת 2 — מנועי הסקה סימבוליים קנייניים, גרפי ידע ספציפיים לתחום, שכבות ציות דטרמיניסטיות. כאשר מודל השפה הבסיסי יהפוך למצרך (וכך יקרה), הערך שלנו אינו פוחת. הוא גדל, מפני ששכבת הלוגיקה הופכת לגורם הבידול היחיד שחשוב.

מה קורה כשנותנים למורה AI מוח אמיתי?

הרשו לי להחזיר את זה לחינוך, מפני ששם הסיכון מרגיש לי הכי אישי.

ההבטחה של הוראה מבוססת AI יוצאת דופן: הוראה מותאמת אישית, אחד-על-אחד, לכל תלמיד, בקנה מידה גדול. "בעיית 2 הסיגמא" המפורסמת של בלום הראתה שתלמידים המקבלים הוראה פרטנית מתפקדים טוב יותר בשתי סטיות תקן מתלמידים בכיתות רגילות. אם AI היה יכול לספק אפילו חלק קטן מהתועלת הזו, זה היה מחולל מהפכה בחינוך.

אבל הדור הנוכחי של מורי AI נכשל בדרכים שגרועות יותר מהיעדר מורה בכלל. מעבר לאסון הכפל שתיארתי קודם, ישנם מקרים מתועדים שבהם תלמידים מגיעים לתשובה הנכונה, אבל ה-AI — שהוזה נתיב פתרון שגוי — מנסה לשכנע אותם שהם טועים. המודל מבצע גזלייטינג לתלמיד עד שהוא נוטש הסקה נכונה. בהקשר חינוכי, שבו אמון הוא הכול, זה הרסני.

הגישה שלנו שונה מהותית. בנינו את מה שאנו מכנים מנוע דיוק פדגוגי — והוא עובד בשלוש רמות.

ראשית, השכבה הסימבולית מתחזקת מודל של מצב הידע של כל תלמיד באמצעות מעקב ידע בייסיאני (Bayesian Knowledge Tracing). היא אינה מנחשת אם התלמיד מבין אלגברה; היא עוקבת אחר וקטור הסתברות המתעדכן בכל אינטראקציה. כאשר התלמיד מתקשה בגיאומטריה, המערכת יודעת — מתמטית, לא אינטואיטיבית — ומתאימה את הפיגום שלה בהתאם.

שנית, כאשר ה-AI מייצר תרגילי תרגול, הוא לא סתם ממציא מספרים. מנוע ה-PAL מבטיח שכל תרגיל שנוצר מפיק תשובות נקיות שניתן לפתור. אין יותר "חשב 7,349 חלקי 13.7" כשהתלמיד לומד חילוק בסיסי. השכבה הסימבולית מבטיחה רמת קושי מתאימה פדגוגית.

שלישית — וזו הרמה שאני הכי גאה בה — אנו מעגנים את ה-AI לתוכנית הלימודים הספציפית. באמצעות אינדוקס גרף מאפיינים, אנו מנתחים את ספר הלימוד עצמו לגרף ידע שבו מושגים הם צמתים וקשרים הם קשתות. אם ספר הלימוד מגדיר "מספר ראשוני" בדרך מסוימת, ה-AI משתמש באותה הגדרה, ולא איזושהי אומדנה שמקורה בוויקיפדיה שחיה בנתוני האימון של מודל השפה. לפירוט הטכני המלא של האופן שבו השכבות הללו מתקשרות, ראו מאמר המחקר שלנו.

בעיית הציות שאף אחד לא רוצה לדבר עליה

תרשים המראה כיצד פועלת שכבת הווטו הסימבולית במקרה השימוש של ציות להלוואות — פלט מודל השפה עובר דרך שער בדיקת כללים שמאשר או חוסם את התגובה לפני שהיא מגיעה למשתמש.

החינוך הוא תחום אחד. הפיננסים הם תחום אחר — ובמובנים מסוימים, מצבי הכשל אף מדאיגים יותר.

בנק אזורי פנה אלינו לאחר שהמערכת של ספק ה-AI הקודם שלהם אישרה הלוואות שהפרו קריטריוני הלוואה רגולטוריים. הבעיה הייתה עדינה, וברגע שמבינים את הארכיטקטורה, צפויה לחלוטין: מודל השפה עיבד את ההצהרות האישיות של המבקשים לצד הנתונים הפיננסיים שלהם. כאשר מבקש כתב סיפור משכנע על התגברות על קשיים, התאמת הדפוסים של המודל — שאומנה על מיליוני דוגמאות של נרטיבים משכנעים המובילים לתוצאות חיוביות — שקללה את הנרטיב מעל לספי החוב-להכנסה הנוקשים.

המודל לא היה מקולקל. הוא עשה בדיוק את מה שנועד לעשות: לנבא את הטוקן הבא הסביר ביותר ברצף שנראה כמו שיחת אישור הלוואה. הבעיה הייתה שאישור הלוואה אינו שיחה. זו החלטה מבוססת-כללים עם גבולות משפטיים.

יישמנו שכבת PyReason — מסגרת נוירו-סימבולית התומכת בהסקה לוגית על גבי גרפי ידע. הכללים מפורשים: אם גיל המבקש מתחת ל-21 וגם המדינה היא ניו יורק, אז סוג ההלוואה אינו יכול להיות מסחרי. לפני שמודל השפה מייצר תגובה כלשהי למבקש הלוואה, ההקשר עובר דרך המנוע הסימבולי. אם הפלט המוצע מפר כלל נוקשה, המנוע הסימבולי מטיל עליו וטו. נקודה.

התוצאה: היצמדות של 100% לקריטריוני הלוואה רגולטוריים, בשילוב תקשורת מותאמת אישית ואמפתית עם המבקשים. הקול נשאר חם. המוח נשאר בלתי גמיש. זו הנקודה.

אנחנו לא בונים AI שהוא כנראה תואם. אנחנו בונים AI שאינו מסוגל פיזית לאשר עסקה לא-תואמת, ללא קשר לכמה משכנע הקלט.

"האם מודלים גדולים יותר לא פשוט יתקנו את זה?"

אנשים שואלים אותי את זה כל הזמן, ואני מבין למה. מסלול היכולת של מודלי השפה מרשים באמת. כל שחרור חדש מטפל ביותר מקרי קצה, מקבל ציון גבוה יותר במבחני ביצועים, ועושה פחות שגיאות ברורות.

אבל הנה מה שאני חוזר אליו שוב ושוב: לעקומת השיפור עבור משימות דטרמיניסטיות יש תקרה שמובנית בתוך הארכיטקטורה. מנוע חיזוי, לא משנה כמה גדול, מייצר פלטים באופן הסתברותי. הגדלתו הופכת את התפלגות ההסתברות להדוקה יותר — אך היא לעולם אינה הופכת לערובה. ועבור התחומים החשובים ביותר — חינוכו של ילד, אבחונו של מטופל, זכויותיו המשפטיות של לווה — "כנראה נכון" אינו קטגוריית מוצר.

יש גם טיעון מעשי. אפילו אם GPT-7 ישיג דיוק של 99.9% באריתמטיקה (מה שיהיה יוצא דופן), זה עדיין אומר טעות אחת לכל אלף חישובים. בנק שמעבד עשרת אלפים בקשות הלוואה ביום ייצר עשרה חישובים שגויים מדי יום. כל אחד מהם הוא הפרה רגולטורית פוטנציאלית. כל אחד מהם הוא תביעה משפטית שממתינה לקרות. השכבה הסימבולית אינה מפחיתה את שיעור השגיאות ל-99.9%. היא מפחיתה אותו לאפס עבור כל פעולה שמנותבת דרך הפותר.

ההתנגדות האחרת שאני שומע: "האם זה לא סתם מוסיף מורכבות?" כן. זה מוסיף. מערכת נוירו-סימבולית קשה יותר לבנייה מעוטף. היא דורשת הבנה של שתי הפרדיגמות — הסטטיסטית והלוגית — והנדסה של הגשר ביניהן. אבל המורכבות חיה בארכיטקטורה כדי שלא תצטרך לחיות במצב הכשל. אני מעדיף לבנות מערכת מורכבת שעובדת מאשר מערכת פשוטה שנכשלת באופן בלתי צפוי.

הגשר בין שני סוגי אינטליגנציה

אני רוצה להשאיר אתכם עם דימוי שתקוע בראשי מאז שהתחלנו את העבודה הזו.

חשבו על האופן שבו אתם באמת חושבים. כשחבר מבקש מכם להמליץ על מסעדה, אתם משתמשים באינטואיציה — התאמת דפוסים על חוויות עבר, תחושות, אסוציאציות. מערכת 1. מהירה ושוטפת. אבל כשרואה החשבון שלכם מבקש מכם לאמת חישוב מס, אתם שולפים מחשבון. מערכת 2. איטית ובטוחה. אתם לא מנסים לנחש באינטואיציה אם המספרים מסתדרים. אתם בודקים.

כל מערכת AI שמופעלת בעולם כיום פועלת על מערכת 1 בלבד. זה כאילו בנינו ציוויליזציה של שיחנים מבריקים שאינם יודעים להשתמש במחשבונים, ואז מינינו אותם לאחראים על הבנקים, בתי החולים ובתי הספר.

התיקון אינו להשליך את השיחנים. הם יוצאי דופן במה שהם עושים. התיקון הוא לתת בידיהם מחשבון — ולוודא שהם משתמשים בו.

זה מה שהוא AI נוירו-סימבולי. לא תחליף למודלי שפה גדולים. השלמה שלהם. הקול והמוח, עובדים יחד, עם גשר שיודע מתי לדבר ומתי לחשב.

אנחנו בונים את הגשר הזה. ואני מאמין שזו הארכיטקטורה היחידה שראויה לכך שיסמכו עליה בדברים שחשובים.

Related Research

Also Published On