
你的 AI 辅导老师根本不记得你上周被分数难住了
在 Veriprajna 构建我们第一个 AI 辅导原型几个月后,我看了一场本应让我感到自豪的演示。一名学生输入了一个关于二次方程的问题。AI 的回应堪称完美——耐心、循循善诱、令人鼓舞。它以最受欢迎老师般的温暖,带着学生一步步理解因式分解。房间里的每个人都在点头。
然后这名学生第二天回来,问起了比例的问题。AI 完全不知道这就是那个已经在分数上苦苦挣扎了三周的同一名学生。它把她当成了陌生人。它推送的内容假定她掌握了她其实并不具备的知识。不到四分钟,她就关掉了标签页。
那场演示击碎了我心里的某种东西。不是因为技术失败了——它的表现恰恰如设计所愿。它在对话中生成了下一个统计概率最高的词元。它以惊人的流畅度扮演了一位老师。但它并不了解关于这名学生的任何事。它无法把她在分数上的挣扎,与她眼前的比例问题联系起来。它没有记忆,没有模型,没有关于她作为一名学习者是谁的任何理论。
就在那一刻我意识到:大多数 AI 辅导系统根本不是辅导老师。它们只是披着老师外衣的聊天机器人。
而这个领悟,让我的团队走上了一条从根本上改变了我们所构建之物的道路。
是什么让一位老师成为真正的老师?
想想你遇到过的最好的老师。我敢打赌,让他们如此出色的,并不是他们把事情讲清楚的能力——尽管他们大概也做到了这一点。而是他们了解你。他们记得你在口头汇报时会紧张僵住。他们注意到你总是能理解概念,却在压力下犯算术错误。他们一节课一节课地调整,构建起一个关于你的优势与不足的心智模型,并且这个模型能持续数月之久。
那个心智模型才是关键所在。不是讲解。不是苏格拉底式的提问。而是那个随时间演化的关于学习者心智的模型。
现在再看看教育科技行业所谓的"AI 驱动的个性化学习"。几乎无一例外,这些产品都是围绕一个公共 API 的单薄软件外壳——GPT-4、Claude,或者下个季度上市的随便什么模型。整个"智能"都存在于一段系统提示词里,内容大概是这样的:"你是一位乐于助人的数学辅导老师。请保持耐心和鼓励。"
那段提示词控制的是语气,而不是策略。它告诉模型该如何发声,而不是该教什么。而且由于大语言模型是无状态的概率引擎——它们根据当前对话窗口预测下一个词——它们把每一次会话都当作一个孤立的事件。它们无法将三个月前的某个误解与今天的一次失败联系起来,因为它们没有对学习者知识的任何持久表征。
教育不是生成讲解。它是对学习者认知状态随时间的管理。
这正是整个"AI 辅导"市场搞错的地方。
数字讲述另一个故事的那一夜
我得跟你讲一个特定的夜晚,因为它改变了我们公司的方向。
我们当时一直在一小群学生中运行我们基于外壳的原型,某个深夜我在翻看交互日志,本以为会看到那种常见的模式——学生提问,AI 作答,皆大欢喜。可我却发现了一些令人不安的东西。
AI 给了一名学生一道代数题的正确最终答案——但中间的推理步骤是错的。这名学生,一个无法分辨有效逻辑与自信幻觉的十年级学生,吸收了这套有缺陷的推理,并把它应用到了接下来的三道题上。之后每一个错误答案,都能直接追溯到 AI 那套编造的讲解。
研究印证了这一点。针对大语言模型在数学辅导中的研究发现,模型经常通过错误的中间步骤给出正确答案,或者把正确的学生作答标记为错误。一个初学者无法分辨真实讲解与听起来煞有介事的幻觉之间的差别。无论哪种情况,AI 听起来都很权威。
那晚我给我的联合创始人打了电话。"我们做的不是辅导老师,"我说。"我们做的是一个偶尔蒙对的、信心十足的骗子。"
这话很刻薄。但这也是我们开始追问一个不同问题的时刻:如果 AI 辅导系统的智能根本就不该存在于语言模型之中呢?
为什么给大语言模型套壳无法真正实现学习?

这些失败并非边缘个例。它们是架构性的。有三个问题在我们的日志里反复出现,而这正是每一个基于外壳的辅导系统最终都会撞上的同样三个问题:
记忆缺失。一个学生的学习历程跨越数月——包含成千上万次微互动。即便有不断扩展的上下文窗口,为每一次交流都处理学生的全部历史,其成本和延迟在规模化时都是难以承受的。于是 AI 就遗忘了。它忘了这名学生几周前就已经掌握了整数加法、无需再复习。它忘了她在方程中总是犯同样的符号错误。每一次会话都几乎从零开始。
幻觉问题。我已经描述过这一点,但值得强调:当 AI 自信地带着学生走过错误的推理时,损害会不断累积。学生不只是做错一道题——他们会内化一个有缺陷的心智模型,进而腐蚀未来的学习。而 AI 没有任何机制能捕捉到这一点,因为它没有关于学生实际掌握了什么的模型。
策略真空。"像老师一样行事"是关于人设的指令,而不是关于教学法。一位真正的老师每节课都要做出数百个微决策:我该给个提示,还是让他们自己挣扎?我该退回到先修内容,还是继续往前推?我该从视觉讲解切换到语言讲解吗?这些决策需要一套关于学生的理论。外壳没有理论。它只对当前这条消息作出反应。仅此而已。
什么是深度知识追踪,你为什么要在意它?
接下来我得讲得稍微技术一点,但我保证它会回到那个关掉标签页的学生身上。
知识追踪是一项有着明确目标的机器学习任务:对学生的知识随时间建模,以预测未来的表现。它已经存在了几十年,最早始于一种叫贝叶斯知识追踪的东西——一个把知识视为二元的系统。你要么"会"分数,要么不会。每个概念都各自独立成孤岛。每道题都必须由人类专家手工标注。
那种方法在一些关键之处存在局限。学习并不是二元的。你可以理解分数的概念,却在分母不同时始终出错。你可以对上个月掌握的东西变得"生疏"。而且概念之间并不独立——乘法上的挣扎能预示除法上的挣扎,但旧模型无法捕捉这一点,除非有人类明确地把这种关系编码进去。
深度知识追踪由斯坦福的 Piech 等人在一篇里程碑式的论文中提出,把这一切都抛在了脑后。DKT 不用二元标签和手工编码的依赖关系,而是使用循环神经网络——具体来说是长短期记忆网络——直接从学生交互数据中学习知识的结构。无需人工标注。没有二元假设。
关键的创新在于我开始称之为"大脑状态"的东西——一个高维向量,充当系统对学生当前知识全部认知的数字代理。它不是一本记录过往表现的成绩册。它是一个关于当前能力的预测模型,会随着每一次交互而更新。
大脑状态记录的不是你昨天做对了什么。它预测你明天会做对什么——以及为什么。
当学生回答一个问题时,LSTM 就会更新这个向量。其输出是数据库中每一道其他题目的一个概率:这名学生此时此刻答对每道题的可能性有多大?那张概率图,正是真正的魔法发生之处。
关于完整的技术架构——门控机制、梯度消失问题、性能对比数据——我在我们的研究论文中写过。但对本文而言真正重要的洞见更为简单:DKT 在预测准确率上比传统贝叶斯方法提升了 25%。那不是渐进式的收益。那是一个大致了解你学生的系统,与一个真正了解他们的系统之间的差别。
那场差点让我们脱轨的争论
我想坦诚地说件事。当我最初提议构建一个 DKT 系统、而不是在我们的聊天机器人外壳上继续迭代时,我的团队提出了反对。强烈反对。
"我们有一个能用的产品,"我们的一位工程师说。"用户喜欢跟它对话。为什么要重建根基?"
一位顾问说得更直白:"直接用 GPT 就好。模型每六个月就变得更好。你那个知识追踪的东西,还没发布就会过时。"
我理解这个逻辑。大语言模型正在飞速进步。上下文窗口正在扩展。既然语言模型最终或许能处理一切,为什么还要构建一个独立的认知架构?
以下是我当时对他们说的话,我至今仍然相信:一个在生成文本上越来越强的大语言模型,并不会在理解学习者上越来越强。这是两种根本不同的能力。一种是语言层面的。另一种是认知层面的。你可以拥有世界上最能言善辩的辅导老师,但如果他们不记得你上周在分数上遇到了困难,他们的口才就白费了。
团队最终转变了想法——不是因为我的论证,而是因为数据。我们做了一个简单的实验:我们给同一组学生同样的课程,一半通过我们的外壳,另一半通过我们 DKT 引导系统的一个粗糙早期版本。DKT 组的完成率几乎是三倍。不是因为讲解更好。而是因为编排顺序更好。系统知道何时该推进,何时该搭建支架。
如何让学生保持在心流区?

这正是心理学与数学交汇之处,也是我在我们工作中觉得最美的部分。
米哈里·契克森米哈赖提出的"心流"概念,描述的是一种完全沉浸的状态——当你如此投入于一项任务,以至于时间都消失了。它只在挑战与你的技能水平相匹配时才会发生。太简单,你会无聊。太难,你会焦虑。那个恰到好处的甜蜜点非常狭窄。
在传统课堂里,同时为 30 个不同的学生找到那个甜蜜点几乎不可能。在标准的聊天机器人里,它甚至根本没被尝试过——AI 只是回答你问的任何问题。但在 DKT 系统里,概率向量给了你一样非凡的东西:一张实时地图,标出每一个学生的心流区在哪里。
还记得那个输出吗——数据库中每一道题的答对概率?我们可以把这些概率直接映射到心理状态上:
当预测概率高于 0.75 时,学生很可能已经掌握了那部分内容。把它展示给他们有让人无聊的风险。低于 0.35 时,他们很可能会失败——不加支持地呈现出来,就有引发挫败和退出的风险。但在 0.40 到 0.70 之间那个区间里,学生答对的概率也许是 55% 或 60%,那才是那个区。他们懂得足够多,能去尝试这道题,但必须思考才能解出它。那就是维果茨基的最近发展区,被量化了。
我们把一个来自 1970 年代的心理学理论,变成了一个选择算法。学生并不知道这一切正在发生。他们只是感觉这些材料总是恰到好处。
我们的系统运行着一个连续的循环:学生作答,LSTM 更新大脑状态,概率随之变化,然后选出下一道题,让他们悬停在那个投入度最高的区域里。如果他们卡住了,系统会自动推送更简单的支架式内容来重建信心,然后再回到复杂的内容。如果他们轻松通过,系统就加大难度。
这就是我说智能不该存在于语言模型之中时的意思。大语言模型不决定该教什么。大脑状态才决定。大语言模型只决定该怎么说。
为什么语言模型不能把这一切全都做了?

人们不断地问我这个问题,这是个合理的问题。如果大语言模型正变得更聪明、上下文更长、能力更强,为什么还要构建一个独立的系统?
三个原因。
首先,成本与延迟。为每一次响应都通过大语言模型处理学生的整个交互历史——可能是数月间成千上万次交流——在计算上既昂贵又缓慢。DKT 模型能在毫秒级内处理同样的数据,因为它在架构上就是为序列状态追踪而设计的。它是适合这项工作的正确工具。
其次,幻觉遏制。当我们的系统识别出下一道最该呈现的题目时,它就约束了大语言模型的范围。我们不让 GPT 在整个数学领域自由游荡,而是告诉它:"呈现第 882 号题。学生解出它的概率是 60%。如果他们犹豫,就提供一个与因式分解相关的提示。"通过限制搜索空间,我们大幅降低了模型生成听起来煞有介事的胡话的机会。
第三——这是那个战略性的论点——防御力。如果你的整个产品就是围绕一个公共 API 的一段提示词,那你就没有护城河。任何人都能在一个周末复制它。但一个在成千上万条学习轨迹上训练、并由真实学生数据持续打磨的 DKT 模型呢?那是一项专有资产。用系统的学生越多,它预测得越准;它预测得越准,留下的学生就越多。这是一个竞争对手无法通过一次 API 调用克隆的数据飞轮。
想更深入地了解我们是如何构建这套系统的——神经符号集成、冷启动问题、迁移学习策略——我整理了一份交互式演示讲解,它比我在这里所能讲的更为详尽。
冷启动与最初的二十道题
有一个挑战我们纠结了好几周:面对一个全新的学生,你该怎么办?DKT 模型需要交互数据来构建大脑状态,但这个学生没有任何历史记录。这就是机器学习中经典的"冷启动"问题,而在教育中它尤其棘手,因为最初那几次交互决定了学生会不会再回来。
我们的解决方案分为三层。我们在来自成千上万条历史学习轨迹的匿名聚合数据上对模型进行预训练,建立一个基线。当一名新学生到来时,我们根据一次简短的诊断评估把他们分配到一个学习者聚类中,用相似学习者的质心来为他们的隐藏状态播种。然后——这一部分最需要调优——我们设计 LSTM,使其在最初的 10 到 20 次交互内,就从通用基线迅速偏离,收敛到一个个性化的状态。
最初那二十道题是最重要的。我们花了几周去校准它们——不仅仅为了诊断的准确性,还为了投入度。如果诊断感觉像一场考试,学生就会放弃。如果它感觉像一场对话,他们就会更投入。把这一点做对,既是一个机器学习问题,也同样是一个设计问题。
完成率究竟说明了什么
我不会假装我们的系统是完美的。我们仍处于早期阶段。但我们试点项目的数据讲述了一个难以反驳的故事。
传统的在线课程——MOOC、标准的 LMS 平台——完成率大约在 15% 到 20%。这个数字十多年来一直顽固地保持不变。由知识追踪驱动的自适应系统能把它推高到 60% 到 80%。在企业培训的场景中,最重要的指标是达到熟练所需的时间,而自适应系统已展现出总培训时间减少 40% 到 50% 的成效——因为员工可以跳过他们已经掌握的内容,只专注于自己真正的不足。
由教育研究者本杰明·布卢姆提出的"2 西格玛"问题表明,一对一辅导所产生的学习成效比课堂教学高出两个标准差。挑战始终在于可扩展性——你不可能给每个学生都配一位私人辅导老师。DKT 并没有完全解决这个问题,但它比我见过的任何东西都更接近,因为它给了每个学生一个真正为他们自己的知识建模的系统,而不是一套通用的课程。
2 西格玛问题从来都不是关于找到更好的讲解。它是关于找到一种方法,去在规模化的前提下逐一了解每一个学习者。那是一个状态追踪问题,而不是一个语言问题。
关于"个性化学习"的令人不安的真相
以下是我逐渐形成的信念,我知道它在教育科技界并不受欢迎:如今行业所实践的"个性化学习",多半是一个谎言。
改变字体大小不是个性化。让学生在视频和文字之间做选择不是个性化。甚至根据最近三个答案来调整难度,也几乎算不上个性化——那是一个恒温器,而不是一位导师。
真正的个性化需要一个持久的、不断演化的、关于每个学习者个体的模型。它需要记住这名学生能迅速掌握视觉化的概念,却在符号记法上举步维艰。它需要理解她今天在比例题上的失败,与几周前分数理解上的一个不足是相互关联的。它需要预测的不仅是她下一道题会不会做对,还有她为什么可能会做错——并据此相应地调整路径。
那正是大脑状态所做的。也正因如此,我相信教育 AI 的未来不在于构建更好的聊天机器人。而在于在它们之下构建更好的认知架构。
大语言模型是嘴。DKT 模型是大脑。没有大脑,嘴就只是在说话而已。
一个会记住的系统
我一直回想起我们早期演示中的那个学生——就是当 AI 忘了她时关掉标签页的那个。我想着她,因为她代表了数以百万计的学习者,他们被许诺了个性化教育,却只得到了一个带着友好系统提示词的聊天机器人。
我们正在构建一些不同的东西。不是一个生成更好讲解的系统——大语言模型会自己在这方面持续进步。我们正在构建一个会记住的系统。它记得你上周在分数上遇到了困难,因此能预见你今天在比例上的挣扎。它让你保持在那个学习真正发生的狭窄区间里——挑战足以让你成长,支持足以让你不放弃。
实现这一切的技术已经存在。深度知识追踪不是理论上的空谈。LSTM 架构已经过验证。心流区可以被量化和瞄准。问题从来都不是它是否可能。问题在于,当给 GPT 套个壳如此容易得多时,是否会有人愿意费心去构建它。
我们费了这个心。而且我认为,那些留下来的学生——那些没有关掉标签页的学生——将会是最好的证明。