
המורה ה-AI שלך לא יודע שהתקשית בשברים בשבוע שעבר
כמה חודשים לתוך בניית אב הטיפוס הראשון שלנו למורה AI ב-Veriprajna, צפיתי בהדגמה שהייתה אמורה למלא אותי גאווה. תלמידה הקלידה שאלה על משוואות ריבועיות. ה-AI הגיב בצורה נפלאה — סבלני, סוקרטי, מעודד. הוא הוביל את התלמידה דרך פירוק לגורמים בחמימות של מורה אהוב. כולם בחדר הנהנו.
אז התלמידה חזרה למחרת ושאלה על יחסים. ל-AI לא היה מושג שזו אותה תלמידה שהתקשתה בשברים במשך שלושה שבועות. הוא התייחס אליה כמו אל זרה. הוא הגיש תוכן שהניח שליטה שלא הייתה לה. תוך ארבע דקות, היא סגרה את הלשונית.
ההדגמה הזו שברה בי משהו. לא בגלל שהטכנולוגיה נכשלה — היא ביצעה בדיוק כפי שתוכננה. היא ייצרה את הטוקן הבא הסביר סטטיסטית בשיחה. היא גילמה מורה בשטף מוזר בטיבו. אבל היא לא ידעה שום דבר על התלמידה הזו. היא לא הצליחה לחבר את הקשיים שלה בשברים לבעיית היחסים שלפניה. לא היה לה זיכרון, לא מודל, לא תיאוריה של מי היא כלומדת.
אז הבנתי: רוב המורים מבוססי-AI אינם מורים כלל. הם צ'אטבוטים לבושים בתחפושת של מורה.
וההבנה הזו שלחה את הצוות שלי לנתיב ששינה מן היסוד את מה שאנחנו בונים.
מה הופך מורה למורה?
חשבו על המורה הכי טוב שהיה לכם אי פעם. אני מוכן להתערב שהדבר שהפך אותם למצוינים לא היה היכולת שלהם להסביר דברים בבהירות — אף שכנראה גם עשו זאת. זה היה שהם הכירו אתכם. הם זכרו שקפאתם במהלך מצגות בעל פה. הם שמו לב שתמיד הבנתם את הרעיון אבל עשיתם טעויות חשבון תחת לחץ. הם התאימו את עצמם, מפגש אחר מפגש, ובנו מודל מנטלי של החוזקות והפערים שלכם ששרד לאורך חודשים.
המודל המנטלי הזה הוא העיקר. לא ההסבר. לא התשאול הסוקרטי. אלא המודל של מוחו של הלומד שמתפתח לאורך זמן.
עכשיו הביטו במה שתעשיית ה-EdTech מכנה "למידה מותאמת אישית מבוססת-AI". כמעט ללא יוצא מן הכלל, מוצרים אלה הם עטיפות תוכנה דקות סביב API ציבורי — GPT-4, Claude, מה שיצא ברבעון הבא. כל ה"אינטליגנציה" חיה בהנחיית מערכת שאומרת משהו כמו: "אתה מורה מועיל למתמטיקה. היה סבלני ומעודד."
ההנחיה הזו שולטת בטון, לא באסטרטגיה. היא אומרת למודל איך להישמע, לא מה ללמד. ומכיוון ש-LLMs הם מנועי הסתברות חסרי מצב — הם חוזים את המילה הבאה על סמך חלון השיחה הנוכחי — הם מתייחסים לכל מפגש כאירוע מבודד. הם אינם יכולים לקשר תפיסה מוטעית מלפני שלושה חודשים לכישלון של היום, מפני שאין להם ייצוג מתמשך של ידע הלומד.
חינוך אינו ייצור של הסברים. הוא ניהול המצב הקוגניטיבי של הלומד לאורך זמן.
זו ההבחנה שכל שוק ה"מורה AI" מפספס.
הלילה שבו המספרים סיפרו סיפור אחר
אני צריך לספר לכם על ערב מסוים, מפני שהוא שינה את כיוון החברה שלנו.
הרצנו את אב הטיפוס מבוסס-העטיפה שלנו עם קבוצה קטנה של תלמידים, ועברתי על יומני האינטראקציה מאוחר בלילה, מצפה למצוא את הדפוס הרגיל — תלמידים שואלים שאלות, ה-AI עונה להם, כולם מרוצים. במקום זאת, מצאתי משהו מטריד.
ה-AI נתן לתלמיד תשובה סופית נכונה לבעיה באלגברה — אבל שלבי ההנמקה הביניים היו שגויים. התלמיד, בכיתה י' ללא דרך להבחין בין היגיון תקף להזיה בטוחה בעצמה, ספג את ההנמקה הפגומה והחיל אותה על שלוש הבעיות הבאות. כל תשובה עוקבת הייתה שגויה באופן שנבע ישירות מההסבר הבדוי של ה-AI.
מחקרים תומכים בכך. מחקרים על LLMs בהוראת מתמטיקה מצאו שמודלים לעיתים קרובות מספקים תשובות נכונות דרך שלבי ביניים שגויים, או מסמנים עבודת תלמיד נכונה כשגויה. תלמיד מתחיל אינו יכול להבחין בין הסבר אמיתי להזיה שנשמעת סבירה. ה-AI נשמע סמכותי כך או כך.
התקשרתי לשותף המייסד שלי באותו לילה. "אנחנו לא בונים מורה," אמרתי. "אנחנו בונים שקרן בטוח בעצמו שמדי פעם צודק."
זה היה קשוח. אבל זה היה גם הרגע שבו התחלנו לשאול שאלה אחרת: מה אם האינטליגנציה במורה AI לא צריכה לחיות במודל השפה כלל?
מדוע עטיפת LLM נכשלת בלמידה אמיתית?

הכשלים אינם מקרי קצה. הם ארכיטקטוניים. שלוש בעיות הופיעו שוב ושוב ביומנים שלנו, והן אותן שלוש בעיות שכל מורה מבוסס-עטיפה ייתקל בהן בסופו של דבר:
חוסר הזיכרון. מסע הלמידה של תלמיד משתרע על פני חודשים — אלפי מיקרו-אינטראקציות. אפילו עם חלונות הקשר מתרחבים, העלות וההשהיה של עיבוד ההיסטוריה השלמה של תלמיד עבור כל חילופי דברים בודדים הן בלתי מעשיות בקנה מידה גדול. אז ה-AI שוכח. הוא שוכח שהתלמידה הזו שלטה בחיבור מספרים שלמים לפני שבועות ואינה צריכה לחזור על כך. הוא שוכח שהיא ממשיכה לעשות את אותה טעות סימן במשוואות. כל מפגש מתחיל כמעט מאפס.
בעיית ההזיה. כבר תיארתי זאת, אבל כדאי להדגיש: כאשר AI מוביל בביטחון תלמיד דרך הנמקה שגויה, הנזק מצטבר. התלמיד לא רק טועה בבעיה אחת — הוא מפנים מודל מנטלי פגום שמשחית את הלמידה העתידית. ול-AI אין מנגנון לתפוס זאת, מפני שאין לו מודל של מה שהתלמיד באמת יודע.
הריק האסטרטגי. "התנהג כמו מורה" היא הוראה על פרסונה, לא על פדגוגיה. מורה אמיתי מקבל מאות מיקרו-החלטות בכל שיעור: האם לתת רמז או לתת להם להתאמץ? האם לחזור לחומר מקדים או להמשיך קדימה? האם לעבור מהסבר חזותי למילולי? ההחלטות האלה דורשות תיאוריה של התלמיד. לעטיפה אין תיאוריה. היא מגיבה להודעה הנוכחית. זהו זה.
מהו Deep Knowledge Tracing, ומדוע כדאי לכם להתעניין?
כאן אני צריך להיות קצת טכני, אבל אני מבטיח שזה מתחבר בחזרה לתלמידה שסגרה את הלשונית.
Knowledge Tracing היא משימת למידת מכונה עם מטרה ספציפית: למדל את ידע התלמיד לאורך זמן כדי לחזות ביצועים עתידיים. היא קיימת מזה עשורים, החל ממשהו שנקרא Bayesian Knowledge Tracing — מערכת שמתייחסת לידע כבינארי. אתה או "יודע" שברים או שלא. כל מושג חי בממגורה משלו. כל שאלה חייבת להיות מתויגת ידנית על ידי מומחה אנושי.
הגישה הזו מוגבלת בדרכים שחשובות. למידה אינה בינארית. אתה יכול להבין את מושג השברים אבל לעשות טעויות באופן עקבי כשהמכנים שונים. אתה יכול להיות "חלוד" במשהו ששלטת בו בחודש שעבר. ומושגים אינם עצמאיים — קושי בכפל חוזה קושי בחילוק, אבל המודלים הישנים לא יכלו לתפוס זאת אלא אם אדם קידד את הקשר במפורש.
Deep Knowledge Tracing, שהוצג במאמר פורץ דרך של Piech et al. בסטנפורד, זרק את כל זה החוצה. במקום תוויות בינאריות ותלויות מקודדות ידנית, DKT משתמש ברשתות עצביות חוזרות — ובפרט, רשתות Long Short-Term Memory — כדי ללמוד את מבנה הידע ישירות מנתוני האינטראקציה של התלמיד. ללא תיוג ידני. ללא הנחות בינאריות.
החדשנות המרכזית היא מה שהתחלתי לכנות "מצב המוח" (Brain State) — וקטור עתיר-ממדים שמשמש כפרוקסי דיגיטלי לכל מה שהמערכת מאמינה לגבי הידע הנוכחי של התלמיד. זה לא יומן ציונים שמתעד ביצועי עבר. זה מודל חזוי של היכולת הנוכחית שמתעדכן בכל אינטראקציה בודדת.
מצב המוח אינו מתעד מה עשית נכון אתמול. הוא חוזה מה תעשה נכון מחר — ומדוע.
כאשר תלמיד עונה על שאלה, ה-LSTM מעדכן את הווקטור הזה. הפלט הוא הסתברות עבור כל שאלה אחרת במסד הנתונים: מה הסיכוי שהתלמיד הזה יענה על כל אחת מהן נכון, ממש עכשיו? מפת ההסתברויות הזו היא המקום שבו הקסם האמיתי מתרחש.
כתבתי על הארכיטקטורה הטכנית המלאה — מנגנוני השערים, בעיית הגרדיאנט הנעלם, נתוני הביצועים ההשוואתיים — במאמר המחקר שלנו. אבל התובנה שחשובה למאמר הזה פשוטה יותר: DKT הראה שיפור של 25% בדיוק החיזוי לעומת שיטות בייסיאניות מסורתיות. זה לא רווח מצטבר קטן. זה ההבדל בין מערכת שקצת מכירה את התלמיד שלך לבין אחת שבאמת מכירה.
הוויכוח שכמעט הוציא אותנו מהמסלול
אני רוצה להיות כן לגבי משהו. כשהצעתי לראשונה לבנות מערכת DKT במקום לשפר את עטיפת הצ'אטבוט שלנו, הצוות שלי התנגד. בחוזקה.
"יש לנו מוצר עובד," אמר אחד המהנדסים שלנו. "משתמשים אוהבים לדבר איתו. למה אנחנו בונים מחדש את היסודות?"
יועץ היה בוטה עוד יותר: "פשוט תשתמשו ב-GPT. המודל משתפר כל שישה חודשים. הדבר הזה של knowledge tracing יתיישן לפני שתשחררו אותו."
הבנתי את ההיגיון. LLMs משתפרים במהירות. חלונות ההקשר מתרחבים. למה לבנות ארכיטקטורה קוגניטיבית נפרדת כאשר מודל השפה עשוי בסופו של דבר לטפל בכל?
הנה מה שאמרתי להם, ואני עדיין מאמין בזה: LLM שמשתפר בייצור טקסט אינו משתפר בהבנת לומד. אלה יכולות שונות מן היסוד. האחת לשונית. השנייה קוגניטיבית. אתה יכול להחזיק במורה הרהוט ביותר בעולם, אבל אם הוא לא זוכר שהתקשית בשברים בשבוע שעבר, הרהיטות שלו מבוזבזת.
הצוות השתכנע — לא בגלל הטיעון שלי, אלא בגלל הנתונים. ערכנו ניסוי פשוט: נתנו לאותה קבוצת תלמידים את אותה תוכנית לימודים, חצי דרך העטיפה שלנו וחצי דרך גרסה מוקדמת וגסה של המערכת מונחית ה-DKT שלנו. שיעור ההשלמה של קבוצת ה-DKT היה כמעט משולש. לא בגלל שההסברים היו טובים יותר. בגלל שהרצף היה טוב יותר. המערכת ידעה מתי לדחוף ומתי לתת פיגום תומך.
כיצד שומרים תלמיד באזור הזרימה (Flow)?

כאן הפסיכולוגיה פוגשת את המתמטיקה, וזה החלק בעבודתנו שאני מוצא הכי יפה.
המושג "זרימה" (Flow) של Mihaly Csikszentmihalyi מתאר מצב של שקיעה מוחלטת — כשאתה כל כך שקוע במשימה שהזמן נעלם. זה קורה רק כשהאתגר תואם את רמת המיומנות שלך. קל מדי, ואתה משתעמם. קשה מדי, ואתה חרד. נקודת האיזון האידיאלית צרה.
בכיתה מסורתית, מציאת נקודת האיזון הזו עבור 30 תלמידים שונים בו-זמנית היא כמעט בלתי אפשרית. בצ'אטבוט רגיל, אפילו לא מנסים — ה-AI פשוט עונה על מה שתשאל. אבל במערכת DKT, וקטור ההסתברות נותן לך משהו יוצא דופן: מפה בזמן אמת של היכן נמצא אזור הזרימה של כל תלמיד.
זוכרים את הפלט ההוא — ההסתברות לנכונות עבור כל שאלה במסד הנתונים? אנחנו יכולים למפות את ההסתברויות האלה ישירות למצבים פסיכולוגיים:
כאשר ההסתברות החזויה מעל 0.75, סביר שהתלמיד שלט בתוכן הזה. הצגתו לו מסתכנת בשעמום. מתחת ל-0.35, סביר שייכשל — הצגתו ללא תמיכה מסתכנת בתסכול ובנשירה. אבל ברצועה הזו שבין 0.40 ל-0.70, שבה לתלמיד יש אולי סיכוי של 55% או 60% לענות נכון? זה האזור. הם יודעים מספיק כדי לנסות את הבעיה אבל חייבים לחשוב כדי לפתור אותה. זהו אזור ההתפתחות הקרובה של Vygotsky, מכומת.
הפכנו תיאוריה פסיכולוגית משנות ה-1970 לאלגוריתם בחירה. התלמיד לא יודע שזה קורה. הוא פשוט מרגיש שהחומר תמיד בדיוק מתאים.
המערכת שלנו מריצה לולאה רציפה: התלמיד עונה, ה-LSTM מעדכן את מצב המוח, ההסתברויות משתנות, והשאלה הבאה נבחרת כדי לשמור אותו תלוי באותו אזור של מעורבות מרבית. אם הוא נכשל, המערכת מגישה אוטומטית תוכן פיגום פשוט יותר כדי לבנות מחדש ביטחון לפני החזרה למורכבות. אם הוא עובר בקלות, היא דוחפת חזק יותר.
זה מה שאני מתכוון כשאני אומר שהאינטליגנציה לא צריכה לחיות במודל השפה. ה-LLM לא מחליט מה ללמד. מצב המוח מחליט. ה-LLM רק מחליט איך לומר זאת.
מדוע מודל השפה לא יכול פשוט לעשות את כל זה?

אנשים שואלים אותי את זה כל הזמן, וזו שאלה הוגנת. אם LLMs נעשים חכמים יותר, בעלי הקשר ארוך יותר, ומסוגלים יותר, למה לבנות מערכת נפרדת?
שלוש סיבות.
ראשית, עלות והשהיה. עיבוד ההיסטוריה השלמה של אינטראקציות תלמיד — פוטנציאלית אלפי חילופי דברים לאורך חודשים — דרך LLM עבור כל תגובה בודדת הוא יקר חישובית ואיטי. מודל ה-DKT מעבד את אותם נתונים באלפיות שנייה מפני שהוא מתוכנן ארכיטקטונית למעקב מצב סדרתי. זה הכלי הנכון למשימה.
שנית, ריסון הזיות. כאשר המערכת שלנו מזהה את השאלה הטובה הבאה להצגה, היא מגבילה את היקף ה-LLM. במקום לתת ל-GPT לשוטט בחופשיות בכל המתמטיקה, אנחנו אומרים לו: "הצג בעיה #882. לתלמיד יש סיכוי של 60% לפתור אותה. ספק רמז הקשור לפירוק לגורמים אם הוא מהסס." על ידי הגבלת מרחב החיפוש, אנחנו מפחיתים באופן דרמטי את ההזדמנות של המודל לייצר שטויות שנשמעות סבירות.
שלישית — וזה הטיעון האסטרטגי — יכולת הגנה. אם כל המוצר שלך הוא הנחיה עטופה סביב API ציבורי, אין לך חפיר. כל אחד יכול לשכפל אותו בסוף שבוע. אבל מודל DKT שאומן על אלפי מסלולי למידה, משופר ברציפות על ידי נתוני תלמידים אמיתיים? זה נכס קנייני. ככל שיותר תלמידים משתמשים במערכת, כך היא חוזה טוב יותר, וככל שהיא חוזה טוב יותר, כך יותר תלמידים נשארים. זה גלגל תנופה של נתונים שמתחרים לא יכולים לשכפל באמצעות קריאת API.
למבט מעמיק יותר על איך תכנננו את זה ארכיטקטונית — האינטגרציה הנוירו-סימבולית, בעיית ההתחלה הקרה, אסטרטגיות למידת ההעברה — הרכבתי מדריך אינטראקטיבי שנכנס ליותר פרטים ממה שאני יכול כאן.
ההתחלה הקרה ועשרים השאלות הראשונות
אתגר אחד שהתמודדנו איתו במשך שבועות: מה עושים עם תלמיד חדש לגמרי? מודל ה-DKT זקוק לנתוני אינטראקציה כדי לבנות מצב מוח, אבל לתלמיד אין היסטוריה. זו בעיית "ההתחלה הקרה" הקלאסית בלמידת מכונה, ובחינוך היא כואבת במיוחד מפני שאותן אינטראקציות ראשונות ספורות קובעות אם התלמיד יחזור.
לפתרון שלנו שלוש שכבות. אנחנו מאמנים מראש את המודל על נתונים מצטברים אנונימיים מאלפי עקבות למידה היסטוריות, ומבססים קו בסיס. כאשר תלמיד חדש מגיע, אנחנו משייכים אותו לאשכול לומדים על סמך הערכה אבחונית קצרה, ומזריעים את המצב הנסתר שלו עם הצנטרואיד של לומדים דומים. אז — והחלק הזה דרש את הכיוונון הרב ביותר — עיצבנו את ה-LSTM כך שיסטה במהירות מקו הבסיס הגנרי למצב מותאם אישית בתוך 10 עד 20 האינטראקציות הראשונות.
עשרים השאלות הראשונות האלה הן החשובות ביותר. בילינו שבועות בכיולן — לא רק לדיוק אבחוני, אלא למעורבות. אם האבחון מרגיש כמו מבחן, תלמידים נוטשים. אם הוא מרגיש כמו שיחה, הם נכנסים לעניין. להשיג את זה נכון היה בעיית עיצוב לא פחות מבעיית למידת מכונה.
מה שיעורי ההשלמה באמת מראים
אני לא אעמיד פנים שהמערכת שלנו מושלמת. אנחנו עדיין בשלב מוקדם. אבל המספרים מהפיילוטים שלנו מספרים סיפור שקשה להתווכח איתו.
קורסים מקוונים מסורתיים — MOOCs, פלטפורמות LMS סטנדרטיות — מציגים שיעורי השלמה של סביב 15 עד 20%. המספר הזה נותר עקבי בעקשנות במשך למעלה מעשור. מערכות אדפטיביות המונעות על ידי knowledge tracing דוחפות זאת ל-60 עד 80%. בהקשרי הכשרה ארגונית, שבהם המדד שחשוב הוא הזמן להשגת מיומנות, מערכות אדפטיביות הראו הפחתות של 40 עד 50% בזמן ההכשרה הכולל — מפני שעובדים מדלגים על תוכן שכבר שלטו בו ומתמקדים רק בפערים האמיתיים שלהם.
בעיית "2 סיגמא", שזוהתה על ידי חוקר החינוך Benjamin Bloom, הראתה שהוראה אחד-על-אחד מפיקה תוצאות למידה שתי סטיות תקן מעל הוראה כיתתית. האתגר תמיד היה יכולת ההרחבה — אי אפשר לתת לכל תלמיד מורה אישי. DKT לא פותר את הבעיה הזו במלואה, אבל הוא מתקרב יותר מכל דבר אחר שראיתי, מפני שהוא נותן לכל תלמיד מערכת שבאמת ממדלת את הידע שלו — לא תוכנית לימודים גנרית.
בעיית 2 סיגמא מעולם לא עסקה במציאת הסברים טובים יותר. היא עסקה במציאת דרך להכיר כל לומד באופן אישי, בקנה מידה גדול. זו בעיית מעקב-מצב, לא בעיית שפה.
האמת הלא-נוחה על "למידה מותאמת אישית"
הנה למה הגעתי להאמין, ואני יודע שזו לא דעה פופולרית ב-EdTech: "למידה מותאמת אישית" כפי שהתעשייה מיישמת אותה כיום היא בעיקר שקר.
שינוי גודל הגופן אינו התאמה אישית. מתן אפשרות לתלמיד לבחור בין וידאו לטקסט אינו התאמה אישית. אפילו התאמת רמת הקושי על סמך שלוש התשובות האחרונות היא בקושי התאמה אישית — זה תרמוסטט, לא מנטור.
התאמה אישית אמיתית דורשת מודל מתמשך ומתפתח של הלומד הפרטני. היא דורשת לזכור שהתלמידה הזו שולטת במושגים חזותיים במהירות אבל מתקשה בסימון סמלי. היא דורשת להבין שהכישלון שלה בבעיית היחסים של היום מקושר לפער בהבנת השברים מלפני שבועות. היא דורשת לחזות לא רק אם היא תענה נכון על השאלה הבאה, אלא מדוע היא עלולה לטעות בה — ולהתאים את הנתיב בהתאם.
זה מה שמצב המוח עושה. וזו הסיבה שאני מאמין שעתיד ה-AI החינוכי אינו עוסק בבניית צ'אטבוטים טובים יותר. הוא עוסק בבניית ארכיטקטורות קוגניטיביות טובות יותר מתחתיהם.
ה-LLM הוא הפה. מודל ה-DKT הוא המוח. בלי המוח, הפה רק מדבר.
מערכת שזוכרת
אני חוזר שוב ושוב לתלמידה ההיא מההדגמה המוקדמת שלנו — זו שסגרה את הלשונית כשה-AI שכח אותה. אני חושב עליה מפני שהיא מייצגת מיליוני לומדים שהובטח להם חינוך מותאם אישית וקיבלו צ'אטבוט עם הנחיית מערכת ידידותית.
אנחנו בונים משהו אחר. לא מערכת שמייצרת הסברים טובים יותר — ה-LLMs ימשיכו להשתפר בזה בעצמם. אנחנו בונים מערכת שזוכרת. שיודעת שהתקשית בשברים בשבוע שעבר, ולכן צופה מראש את הקושי שלך ביחסים היום. שמשאירה אותך ברצועה הצרה שבה למידה באמת מתרחשת — מאותגר מספיק כדי לצמוח, נתמך מספיק כדי לא לוותר.
הטכנולוגיה לכך קיימת. Deep Knowledge Tracing אינו תיאורטי. ארכיטקטורות ה-LSTM מוכחות. אזור הזרימה ניתן לכימות ולמיקוד. השאלה מעולם לא הייתה אם זה אפשרי. השאלה הייתה אם מישהו יטרח לבנות זאת כאשר טפיחת עטיפה על GPT הייתה הרבה יותר קלה.
אנחנו טרחנו. ואני חושב שהתלמידים שנשארים — אלה שלא סוגרים את הלשונית — יהיו ההוכחה.