一張視覺隱喻圖,對比淺層的聊天機器人外殼與其底層的深度認知架構,聚焦於 AI 家教。
Artificial IntelligenceEducationMachine Learning

你的 AI 家教根本不記得你上週在分數上卡關

Ashutosh SinghalAshutosh Singhal2026年2月14日16 min

在 Veriprajna 建置我們第一個 AI 家教原型幾個月後,我看了一場本應讓我引以為傲的展示。一名學生輸入了一道關於二次方程式的問題。AI 回應得非常漂亮——有耐心、循循善誘、充滿鼓勵。它以最受愛戴老師般的溫暖,帶著學生一步步理解因式分解。在場的每個人都頻頻點頭。

然後那名學生隔天回來,問了關於比例的問題。AI 完全不知道這就是那個為分數苦苦掙扎了三個星期的同一名學生。它把她當成陌生人,提供的內容假設她已掌握了其實並不具備的能力。不到四分鐘,她就關掉了分頁。

那場展示擊碎了我心裡的某個東西。並不是因為技術失敗了——它的表現完全符合設計。它在對話中生成了下一個統計上最可能出現的詞元。它以令人不安的流暢度扮演著一名老師。但它並不了解任何關於這名學生的事。它無法把她在分數上的掙扎與眼前的比例問題連結起來。它沒有記憶、沒有模型、沒有關於她身為學習者是誰的任何理論。

就在那一刻,我意識到:大多數 AI 家教根本算不上家教。它們只是穿著老師戲服的聊天機器人。

而這個領悟讓我的團隊踏上了一條徹底改變我們所建之物的道路。

是什麼讓一位老師成為老師?

想想你遇過最好的老師。我敢打賭,讓他們如此出色的,並不是把事情講清楚的能力——雖然他們大概也做得到。而是他們了解你。他們記得你在口頭報告時會僵住。他們注意到你總是懂概念,卻在壓力下犯算術錯誤。他們一堂課接一堂課地調整,建立起一個關於你的優勢與不足、並持續數月不斷演進的心智模型。

那個心智模型才是關鍵。不是解釋,不是循循善誘的提問,而是那個隨時間演進的學習者心智模型

現在來看看 EdTech 產業所謂的「AI 驅動的個人化學習」。幾乎無一例外,這些產品都是包裹在公開 API——GPT-4、Claude,或下一季推出的任何東西——外面的一層薄薄軟體外殼。整個「智慧」都活在一段系統提示裡,內容大概是這樣:「你是一位樂於助人的數學家教。要有耐心、要鼓勵人。」

那段提示控制的是語氣,而非策略。它告訴模型該怎麼聽起來,而不是該教什麼。而由於 LLM 是無狀態的機率引擎——它們根據當前的對話視窗預測下一個詞——它們把每一次會話都當成孤立事件。它們無法把三個月前的一個迷思連結到今天的一次失敗,因為它們對學習者的知識沒有任何持久的表徵。

教育並非解釋的生成,而是對學習者認知狀態隨時間的管理。

這正是整個「AI 家教」市場搞錯的關鍵區別。

數字說出了另一個故事的那一夜

我得跟你講一個特定的夜晚,因為它改變了我們公司的方向。

我們一直讓一小群學生使用我們那個以外殼為基礎的原型,某天深夜我在翻看互動紀錄,本以為會找到常見的模式——學生提問、AI 回答、大家皆大歡喜。結果,我卻發現了某件令人不安的事。

AI 給了一名學生一道代數題正確的最終答案——但中間的推理步驟卻是錯的。這名十年級學生無從分辨有效的邏輯與一個自信滿滿的幻覺,於是吸收了那套有缺陷的推理,並把它套用到接下來的三道題上。之後的每個答案都錯得能直接追溯回 AI 捏造出來的那套解釋。

研究也印證了這一點。針對 LLM 在數學家教中的研究發現,模型經常透過錯誤的中間步驟得出正確答案,或把正確的學生作答標記為錯誤。一名新手學生分辨不出真正的解釋與聽起來合理的幻覺之間的差別。無論是哪一種,AI 聽起來都很權威。

那天晚上我打電話給我的共同創辦人。「我們建的不是家教,」我說。「我們建的是一個偶爾說對事情的自信騙子。」

這話很刺耳。但那也正是我們開始問一個不同問題的時刻:如果 AI 家教的智慧根本就不該活在語言模型裡,會怎麼樣?

為什麼替 LLM 包上外殼在真正的學習上會失敗?

一張三欄對照示意圖,展示以外殼為基礎的 AI 家教在架構上的三大失敗:記憶缺失、幻覺累積、以及策略真空。

這些失敗並非邊緣案例,而是架構性的。有三個問題不斷出現在我們的紀錄裡,而每一個以外殼為基礎的家教最終都會撞上這同樣的三個問題:

記憶缺失。一名學生的學習歷程橫跨數月——是成千上萬次的微互動。即便有不斷擴大的上下文視窗,在每一次交流都處理學生的完整歷史,其成本與延遲在規模化時都高得令人卻步。於是 AI 遺忘了。它忘了這名學生幾週前就已精通整數加法、不需要複習。它忘了她在方程式裡老是犯同樣的正負號錯誤。每次會話幾乎都從零開始。

幻覺問題。我前面已經描述過了,但值得強調:當 AI 自信滿滿地帶著學生走過錯誤的推理時,傷害會不斷累積。學生不只是做錯了一道題——他們內化了一個有缺陷的心智模型,而這會腐蝕未來的學習。而 AI 沒有任何機制能捕捉到這一點,因為它對學生實際知道什麼毫無模型可言。

策略真空。「表現得像個老師」是一道關於人設的指令,而非教學法。一位真正的老師在一堂課裡會做出數百個微決策:我該給提示,還是讓他們自己掙扎?我該退回到先備教材,還是往前推進?我該從視覺解釋切換到口語解釋嗎?這些決策需要一套關於學生的理論。外殼沒有任何理論。它只對當前的訊息做出反應。就這樣。

什麼是深度知識追蹤,你又為什麼該在意?

接下來我得講得稍微技術一點,但我保證這會連回到那個關掉分頁的學生。

知識追蹤(Knowledge Tracing)是一項有著明確目標的機器學習任務:對學生的知識隨時間建模,以預測未來的表現。它已存在數十年,起始於一種叫作貝氏知識追蹤(Bayesian Knowledge Tracing)的東西——一套把知識視為二元的系統。你要嘛「懂」分數,要嘛不懂。每個概念都活在自己的孤島裡。每道題都必須由人類專家手動標註。

那套做法在關鍵之處有其侷限。學習並不是二元的。你可以理解分數的概念,卻在分母不同時持續犯錯。你可以對上個月精通的某件事變得「生疏」。而概念也不是彼此獨立的——在乘法上掙扎預示著在除法上的掙扎,但舊模型除非有人類明確地把這種關係編碼進去,否則無法捕捉到它。

深度知識追蹤(Deep Knowledge Tracing)由史丹佛的 Piech 等人在一篇里程碑式的論文中提出,把上述一切全都推翻了。DKT 不用二元標籤與手工編碼的相依關係,而是使用遞迴神經網路——具體來說是長短期記憶網路(Long Short-Term Memory)——直接從學生的互動資料中學習知識的結構。無需手動標註。沒有二元假設。

關鍵創新是我開始稱之為「大腦狀態」(Brain State)的東西——一個高維向量,作為系統對某名學生當前知識所有信念的數位替身。它不是記錄過往表現的成績簿,而是一個對當前能力的預測模型,會隨著每一次互動而更新。

大腦狀態記錄的不是你昨天答對了什麼。它預測你明天會答對什麼——以及為什麼。

當學生回答一道問題時,LSTM 會更新這個向量。輸出是資料庫中每一道其他問題的機率:此刻這名學生答對每一道題的可能性有多高?那張機率地圖,正是真正魔法發生之處。

我在我們的研究論文裡寫過完整的技術架構——閘控機制、梯度消失問題、以及比較性能數據。但對本文而言更重要的洞見要簡單得多:DKT 在預測準確度上比傳統貝氏方法提升了 25%。那不是漸進式的增益,而是「大致了解你的學生的系統」與「真正了解你的學生的系統」之間的差別。

差點讓我們脫軌的那場爭論

我想坦白一件事。當我最初提議建置一套 DKT 系統,而不是在我們的聊天機器人外殼上反覆迭代時,我的團隊反彈了。反彈得很激烈。

「我們已經有一個能用的產品了,」我們的一位工程師說。「使用者喜歡跟它對話。我們為什麼要重建地基?」

一位顧問說得更直白:「就用 GPT 吧。這模型每六個月就變得更好。你那套知識追蹤的玩意兒還沒出貨就過時了。」

我懂那套邏輯。LLM 正在快速進步。上下文視窗正在擴大。既然語言模型或許終究能處理一切,何必再建一套獨立的認知架構?

以下是我告訴他們的話,而我至今仍深信不疑:一個在生成文字上變得更好的 LLM,並不會在理解學習者上變得更好。這是兩種本質截然不同的能力。一種是語言的,另一種是認知的。你可以擁有全世界最能言善道的家教,但如果他們不記得你上週在分數上苦苦掙扎,那份口才就白費了。

團隊後來想通了——不是因為我的論點,而是因為數據。我們做了一個簡單的實驗:讓同一組學生用同一套課程,一半透過我們的外殼、一半透過我們 DKT 導引系統的一個粗糙早期版本。DKT 組的完成率幾乎是三倍。並不是因為解釋更好,而是因為排序更好。系統知道何時該推、何時該搭建鷹架。

你要如何讓學生保持在心流區內?

一張水平機率量尺示意圖,展示 DKT 機率分數如何對應到心理狀態(無聊、心流區、挫折),並驅動問題的選擇。

這裡是心理學與數學交會之處,也是我覺得我們工作中最美的部分。

米哈里·契克森米哈伊(Mihaly Csikszentmihalyi)的「心流」(Flow)概念描述了一種完全沉浸的狀態——當你如此投入於一項任務,以致於時間彷彿消失。它只在挑戰與你的技能水準相匹配時才會發生。太簡單,你會無聊;太難,你會焦慮。那個甜蜜點很狹窄。

在傳統教室裡,要同時為 30 個不同的學生找到那個甜蜜點幾乎是不可能的。在標準的聊天機器人裡,這根本連嘗試都沒有——AI 只是回答你所問的任何問題。但在 DKT 系統中,那個機率向量給了你某種非凡的東西:一張即時的地圖,標示出每個學生的心流區在哪裡。

還記得那個輸出嗎——資料庫中每道問題答對的機率?我們可以把那些機率直接對應到心理狀態:

當預測機率高於 0.75 時,學生大概已經精通那部分內容。把它拿給他們看有讓人無聊的風險。低於 0.35,他們很可能會失敗——在沒有支援的情況下呈現,有造成挫折與退出的風險。但在 0.40 到 0.70 之間那個帶狀區間裡,學生答對的機會大約是 55% 或 60%?那才是那個區域。他們懂得夠多,足以嘗試這道題,卻必須思考才能解出來。那就是被量化的維高斯基「近側發展區」(Zone of Proximal Development)。

我們把一套 1970 年代的心理學理論,變成了一套選題演算法。學生並不知道這一切正在發生。他們只是感覺到教材總是恰到好處。

我們的系統跑著一個持續的循環:學生作答、LSTM 更新大腦狀態、機率隨之移動、下一道題被選出來,好讓他們懸浮在那個最大投入的區域裡。如果他們卡住了,系統會自動提供較簡單的鷹架內容來重建信心,再回到複雜的部分。如果他們正輕鬆過關,它就加大力度。

這就是我說「智慧不該活在語言模型裡」時的意思。LLM 並不決定要教什麼,那是大腦狀態決定的。LLM 只決定該怎麼把它說出來。

為什麼語言模型不能直接把這一切全包了?

一張架構圖,展示 DKT 大腦狀態層如何位於學生互動資料與 LLM 之間,控制 LLM 教什麼,而 LLM 則控制那是怎麼說出來的。

人們不斷這樣問我,而這是個合理的問題。如果 LLM 正變得更聰明、上下文更長、能力更強,何必再建一套獨立的系統?

有三個理由。

第一,成本與延遲。把一名學生的完整互動歷史——潛在是數月間成千上萬次的交流——為了每一次回應都透過 LLM 來處理,在運算上既昂貴又緩慢。DKT 模型能在幾毫秒內處理相同的資料,因為它在架構上就是為序列狀態追蹤而設計的。它是這項工作的正確工具。

第二,幻覺的圍堵。當我們的系統辨識出下一道最佳呈現的題目時,它會限制住 LLM 的範圍。我們不讓 GPT 在整個數學領域裡自由漫遊,而是告訴它:「呈現第 882 號問題。這名學生有 60% 的機會解出它。如果他們猶豫,請提供一個與因式分解相關的提示。」透過限縮搜尋空間,我們大幅降低了模型生成聽起來合理的胡言亂語的機會。

第三——這是策略性的論點——可防禦性。如果你的整個產品就是一段包在公開 API 外面的提示,你就沒有護城河。任何人都能在一個週末內複製它。但一個在成千上萬條學習軌跡上訓練、並由真實學生資料持續精煉的 DKT 模型呢?那是一項專屬資產。愈多學生使用這套系統,它就預測得愈準;而它預測得愈準,就有愈多學生留下來。這是一個競爭對手無法透過一次 API 呼叫就複製的資料飛輪。

若想更深入了解我們是如何架構這一切的——神經符號整合、冷啟動問題、遷移學習策略——我整理了一份互動式導覽,裡頭比我在這裡能講的還要更詳盡。

冷啟動與最初的二十道題

有一個挑戰我們糾結了好幾週:面對一個全新的學生,你該怎麼辦?DKT 模型需要互動資料來建立大腦狀態,但這名學生沒有任何歷史。這就是機器學習中經典的「冷啟動」問題,而在教育裡它尤其棘手,因為那最初的幾次互動決定了學生是否會再回來。

我們的解決方案有三層。我們先在來自成千上萬條歷史學習軌跡的匿名彙總資料上預訓練模型,建立起一個基準線。當一名新學生到來時,我們根據一份簡短的診斷評估把他們分配到一個學習者群集,用相似學習者的形心來為他們的隱藏狀態播下種子。接著——這部分花了最多工夫調校——我們把 LSTM 設計成能在最初的 10 到 20 次互動內,從通用基準線迅速發散到一個個人化的狀態。

最初那二十道題最為重要。我們花了好幾週校準它們——不只是為了診斷準確度,更是為了投入感。如果診斷感覺像一場考試,學生就會落跑。如果它感覺像一場對話,他們就會投入。把這件事做對,既是一個機器學習問題,也同樣是一個設計問題。

完成率實際上揭示了什麼

我不會假裝我們的系統是完美的。我們還處於早期階段。但我們試辦計畫得出的數字,述說著一個難以反駁的故事。

傳統的線上課程——MOOC、標準的 LMS 平台——完成率大約在 15% 到 20% 之間。這個數字十多年來一直頑固地維持穩定。由知識追蹤驅動的自適應系統把它推升到 60% 到 80%。在企業培訓情境中,真正重要的指標是達到熟練所需的時間,自適應系統已展現出總培訓時間 40% 到 50% 的縮減——因為員工得以跳過他們早已精通的內容,只專注在自身真正的不足上。

由教育研究者班傑明·布魯姆(Benjamin Bloom)提出的「兩個標準差」(2 Sigma)問題顯示,一對一家教所產生的學習成效,比課堂教學高出兩個標準差。挑戰始終在於可規模化性——你無法給每個學生一位私人家教。DKT 並沒有完全解決這個問題,但它比我所見過的任何東西都更接近,因為它給了每個學生一套真正對他們自己的知識建模的系統,而不是一套通用課程。

兩個標準差問題從來就不是關於找到更好的解釋。它是關於找到一種能大規模地、個別地認識每一位學習者的方法。那是一個狀態追蹤問題,不是一個語言問題。

關於「個人化學習」那個令人不安的真相

以下是我逐漸相信的事,而我知道這在 EdTech 界並不是個受歡迎的觀點:「個人化學習」以產業目前實踐它的方式而言,大多是一場謊言。

改變字型大小不是個人化。讓學生在影片與文字之間選擇不是個人化。就連根據最後三個答案調整難度,都稱不上是個人化——那是一台恆溫器,不是一位導師。

真正的個人化需要一個關於個別學習者、持久且不斷演進的模型。它需要記得這名學生能迅速掌握視覺概念,卻在符號記法上掙扎。它需要理解她在今天這道比例題上的失敗,與她幾週前在分數理解上的一個不足是相連的。它需要預測的不只是她會不會答對下一道題,更是為什麼她可能會答錯——並據此調整路徑。

那正是大腦狀態所做的事。而那也正是為什麼我相信教育 AI 的未來不在於建置更好的聊天機器人。它在於在它們底下建置更好的認知架構。

LLM 是嘴巴。DKT 模型是大腦。沒有大腦,嘴巴就只是空談。

一套會記得的系統

我不斷回想起我們早期展示中的那名學生——那個在 AI 忘了她時關掉分頁的人。我想著她,是因為她代表了數百萬名學習者,他們被許諾了個人化教育,得到的卻是一個帶著友善系統提示的聊天機器人。

我們正在建置某種不同的東西。不是一套生成更好解釋的系統——那件事 LLM 自己會不斷做得更好。我們正在建置一套會記得的系統。它記得你上週在分數上苦苦掙扎,因而預期到你今天在比例上的掙扎。它讓你保持在那個學習真正發生的狹窄帶區裡——挑戰得足以成長,被支撐得足以不放棄。

實現這一切的技術已經存在。深度知識追蹤並非紙上談兵。LSTM 架構已被驗證。心流區可以被量化並瞄準。問題從來不是它是否可能。問題在於,當在 GPT 上套一層外殼是如此輕鬆得多時,是否有人會費心去建置它。

我們費了那個心。而我認為那些留下來的學生——那些沒有關掉分頁的人——將會是最好的證明。

Related Research

Also Published On