一个视觉隐喻,呈现文章的核心论点——流畅的语言 AI 与精确的逻辑引擎相结合,即贯穿全文的"声音与大脑"概念。
Artificial IntelligenceMachine LearningTechnology

教孩子 2+2=5 的 AI 辅导老师——它揭示了你正在使用的每一款 AI 产品的真相

Ashutosh SinghalAshutosh Singhal2026年2月13日16 min

几个月前,一位家长给我发来一张截图,让我瞬间僵住。

她的女儿——一名七年级学生——一直在用一款最热门的 AI 辅导平台备考数学。孩子正在做一道乘法题:3,750 乘以 7。她输入了 21,690。正确答案是 26,250。她差得很远。

这个 AI 辅导老师回复道:“乘法做得太棒了!你解出了这道题,展现了非常好的思维!”

我盯着那张截图看了很久。不是因为这个错误让我吃惊——我研究大型语言模型的失效模式已经好几年了。真正击中我的是那种热情。这个 AI 不只是答错了。它还为错误答案喝彩。它以一位受爱戴的老师那般的温暖与自信,强化了一个错误的观念。而在某个地方,一个十二岁的女孩走进考场,相信自己已经掌握了乘法,只因为一台机器告诉她她掌握了。

那张截图让我一直在琢磨的一件事变得清晰起来:最危险的 AI 系统并不是那些拒绝回答的系统,而是那些自信满满却答错了的系统。而眼下,这个描述几乎适用于每一款建立在大型语言模型之上的 AI 产品。

我是 Ashutosh,经营着 Veriprajna。我们构建神经符号 AI 系统——一种将神经网络的语言流畅性与符号求解器的逻辑严谨性融合在一起的架构。我写这篇文章,是因为我认为整个行业正在错误的架构上下一个灾难性的赌注,而为此付出代价的将是学生、病人、借款人,以及任何信任 AI 能把事实说对的人。

为什么你的 AI 听起来那么聪明,做数学却错得离谱?

关于像 GPT-4 或 Claude 这样的大型语言模型,有一点大多数人没有意识到:它们并不知道任何东西。至少不是数据库知道你的生日是 3 月 15 日的那种方式,也不是计算器知道 17 乘以 24 等于 408 的那种方式。

大型语言模型是一个预测引擎。当你向它提问时,它并不检索某个事实,也不执行计算。它基于从数十亿页互联网文本中吸收的模式,预测在你的提示之后最有可能出现的词序列。它在做研究者所说的“下一个词元预测”——根据训练中学到的概率分布,选择下一个词(或词的一部分)。

这就是为什么大型语言模型既能写出让你落泪的诗,又会在你以恰当方式引导上下文窗口时告诉你 2+2=5。诗之所以成立,是因为语言就是模式。而数学之所以失败,是因为算术不是一种模式——它是一个拥有精确规则的形式系统,这些规则不会向统计概率妥协。

大型语言模型并不区分在训练数据中出现过一百万次的事实和只出现过一次的事实。它把罕见的事实当作统计噪声——这意味着你需要的信息越冷僻,AI 就越有可能凭空编造。

我是这样想的:想象你有一位同事,读遍了古往今来所有的书,却从未学会使用计算器。你会信任他去总结一部小说,或者起草一封有说服力的邮件。但你绝不会信任他去帮你报税。然而,当我们把未经处理的大型语言模型部署到教育、金融和医疗领域时,做的恰恰就是这件事。

我意识到提示词工程是一条死路的那个夜晚

曾经有一段时间——我现在几乎不好意思承认——我以为我们可以用更好的提示词来解决这个问题。

我和我的团队花了好几周精心设计繁复的思维链指令。“一步一步地思考。”“写出你的推导过程。”“回答前再仔细核对一遍你的算术。”我们在数学题、合规场景、逻辑推理任务中测试了几十种变体。有些提示链长达数百个词元,基本上就是在恳求模型小心一点。

这有帮助。一点点。思维链提示把复杂推理任务的准确率从糟糕透顶提升到了仅仅是不可靠。但反复发生的情况是这样的:模型会铺陈出一条漂亮的逻辑链——第一步正确,第二步正确,第三步正确——然后在第四步犯一个简单的算术错误,这个错误顺着后面的推理链层层扩散,最终给出一个自信而优雅的错误答案。

一天晚上,我在办公桌前审阅测试结果。我们用一套思维链提示的 GPT-4 配置跑了 500 道复利计算题。准确率大约是 87%。我的联合创始人看了看结果,说:“87% 已经挺不错了。”

我打开了一个电子表格。“你会用一个有 13% 的时候会编造数字的电子表格吗?”

一片沉默。

就在那一刻,架构在我脑海里发生了转变。问题不在提示词。问题在于我们在要求一个预测引擎去充当逻辑引擎。我们在对着骰子低声祈祷,指望它们掷出正确的数字。再多的提示词工程也无法改变这个系统根本上的随机本质。

我们需要一个大脑。

什么是神经符号 AI,你又为什么该关心?

一张示意图,将卡尼曼的系统 1 和系统 2 对应到两种 AI 范式(神经网络与符号 AI),展示神经符号 AI 如何将二者融合——让文章的核心概念框架一目了然。

人工智能的历史,是两个部落几十年来拒绝彼此对话的故事。

所谓的符号主义者——从 20 世纪 50 年代一直主导到 80 年代——认为智能就是对显式规则和逻辑的操纵。只要你能把足够多的知识编码为形式化陈述(苏格拉底是人;所有人都会死;因此苏格拉底会死),你就能造出一台会思考的机器。他们的系统精确、透明、可被证明正确。但它们也很脆弱——一旦遇到杂乱的现实世界语言,或遇到规则未涵盖的情形,就会瞬间崩溃。

联结主义者——也就是神经网络这一派——则采取了相反的路径。别写规则;让机器从数据中学习模式。他们的系统能出色地处理歧义、噪声和自然语言。但它们是黑箱。你无法解释为什么它们会给出某个特定的答案,它们也没有真相的概念——只有统计上的可能性。

诺贝尔奖得主丹尼尔·卡尼曼把人类认知描述为两个系统:系统 1快速、直觉、基于模式——你能在人群中认出一位朋友的脸。系统 2缓慢、审慎、有逻辑——你在纸上把 17 乘以 24。当今的大型语言模型是卓越的系统 1 引擎,却被要求去做系统 2 的工作。这就是错配所在。

神经符号 AI 就是这种融合。你保留神经网络作为“声音”——它处理语言、理解意图、生成流畅的回应。但你再加上一个符号化的“大脑”——确定性求解器、逻辑引擎、形式化验证系统——由它来处理一切需要精确性的事务。声音负责与用户交谈。大脑负责做数学。而一座桥梁把两者连接起来。

在一个神经符号系统里,2+2 永远等于 4——不是因为模型预测它应该等于 4,而是因为它在符号层中被定义为一条公理。神经网络根本无法推翻它。

这并非纸上谈兵。这正是我们在 Veriprajna 所构建的东西,我已经把完整的架构蓝图阐述在了我们研究论文的交互版本中。

你如何让一个语言模型去做它做不了的数学?

一张分步示意图,展示 PAL(程序辅助语言模型)流水线如何运作——从用户提问,到大型语言模型生成代码,到确定性执行,再到经过验证的自然语言回应——并与直接猜测答案的标准大型语言模型方法形成对比。

关键机制是一种叫做程序辅助语言模型(简称 PAL)的东西。它的精巧至今仍让我欣喜。

与其要求大型语言模型去求解一个问题,不如要求它编写一个程序来解决这个问题。

在实践中它是这样的。一位用户问:“如果我有一笔 5 万美元的贷款,年利率 5% 按年复利,3 年后我欠多少钱?”

在标准的大型语言模型配置中,模型试图在“脑子里”计算 $50,000 × (1.05)³——用的是词元预测。有时它算对了。有时算错了。你根本无从得知哪个答案可以信任。

在我们的系统里,大型语言模型不做任何计算。它生成几行 Python 代码:principal = 50000,rate = 0.05,years = 3,print(principal * (1 + rate) ** years)。这段代码由一个确定性运行时执行——一台真实的计算机做真实的数学运算。CPU 的算术逻辑单元返回 57,881.25。然后大型语言模型把这个经过验证的数字包裹进一句自然语言回应:“3 年后,你将欠 $57,881.25。”

神经网络做了它擅长的事:理解问题并生成代码。符号引擎做了擅长的事:以完美的精度计算出答案。两者都做不了对方的工作。合在一起,它们就无比强大。

我们把它与标准的思维链提示在复杂算术任务上做了对比。标准的大型语言模型在多步计算上的准确率低于 40%。思维链把它提升到了中等但仍容易出错的水平。我们基于 PAL 的神经符号方法则达到了接近完美的准确率——唯一的限制在于生成的代码逻辑是否正确,而这是一个比概率性词元预测更容易验证和调试的问题。

那场差点让我的团队分裂的争论

我得跟你讲讲我们内部的一次争吵,因为它塑造了我们对这种架构的思考方式。

当我们刚开始整合符号求解器时,我的一位工程师——一个才华横溢、深耕深度学习领域的人——强烈反对。他的论点是:“模型每半年就变得更好一次。GPT-5 会解决数学问题。GPT-6 会解决推理问题。你是在为一栋会自己长出骨架的大楼搭脚手架。”

在趋势这一点上,他没有错。模型确实在进步。但我总是回到一个我无法摆脱的结构性论点上。

对于确定性任务,大型语言模型的改进是渐近的。把一个预测引擎放大 10 倍,并不能让它变得确定——只会让它成为一个更大的预测引擎。一个把复利算对的概率从 87% 提升到 95% 的模型,仍然是一个你无法在金融计算中信任的模型。95% 与 100% 之间的差距,不是你靠扩大规模就能弥合的差距。它是一个需要另一种系统才能填补的差距。

我们为此争论了两天。白板上画满了图表。互相较劲的基准测试。一度有人说:“直接用 GPT,再加一段免责声明不就行了。”我想我当时明显退缩了一下。

最终定音的是一个简单的测试。我们从一家银行客户那里取来 100 个合规场景——带有严格监管阈值的贷款资格审核。我们用精心设计的提示词让一个最先进的大型语言模型来处理它们。它批准了三笔违反债务收入比要求的贷款,只因为申请人写了动人的个人陈述。这个模型被说服了——被那段叙述打动。它在做它被设计来做的事——对语言进行模式匹配——而在这样做的同时,它违了法。

一个有 5% 的时候会撒谎的聊天机器人,并不是 95% 有用。对于关键任务而言,它是 100% 不可用的。

我那位工程师转变了看法。不是因为符号方法更性感——它并不性感——而是因为另一条路的失效模式无法接受。

为什么“AI 套壳”公司陷入了麻烦?

让我退一步谈谈商业格局,因为技术架构有着巨大的经济影响。

眼下,AI 创业生态由我称之为“套壳”的公司主导——这类企业的核心产品,不过是架在第三方基础模型之上的一个用户界面和一些提示词逻辑。它们在转卖对自己并不拥有的能力的使用权。

这个问题是结构性的。每当 OpenAI 或 Anthropic 发布一个新的模型版本,它们就会把套壳公司提供的功能吸收进去。那家卖“AI PDF 摘要”的创业公司,在基础模型加入原生文件上传功能时就被抹平了。那家提供“AI 代码生成”的公司,眼睁睁看着自己的价值主张随着底层模型编程能力的提升而蒸发。你的竞争护城河,正在被你自己的供应商抽干。

企业客户正在看穿这一点。我参加过一些会议,CTO 们直言不讳地说:“我为什么要付钱给你,去套一个我自己就能调用的 API?”他们这么问是对的。把敏感的财务记录或专有代码经由一家创业公司的服务器转发,而这些服务器又把它们转发给一个公有模型提供商,这会制造出一个无法接受的攻击面。“主权 AI”运动——企业要求拥有自己的模型并在自己的基础设施内运行——正在加速。

这就是我们从第一天起就拒绝套壳模式的原因。我们不出售词元的使用权。我们出售的是系统 2 架构——专有的符号推理引擎、特定领域的知识图谱、确定性的合规层。当底层语言模型被商品化时(而它必将被商品化),我们的价值不会缩水。它反而会增长,因为逻辑层将成为唯一真正重要的差异化优势。

当你给一个 AI 辅导老师一个真正的大脑时,会发生什么?

让我把话题拉回教育,因为在这里,利害关系对我而言最为切身。

AI 辅导的前景非同凡响:为每一名学生提供个性化的一对一教学,而且能大规模铺开。布鲁姆著名的“2 西格玛问题”表明,接受一对一辅导的学生,表现要比传统课堂上的学生高出两个标准差。如果 AI 哪怕只能带来这份收益的一小部分,它也将彻底改变教育。

但当前这一代 AI 辅导老师的失败方式,比根本没有辅导老师还要糟糕。除了我前面描述的乘法灾难,还有一些有记录的案例:学生得出了正确的答案,而 AI——幻觉出一条错误的解题路径——却试图说服他们说他们错了。这个模型对学生进行精神操控,诱使他们放弃正确的推理。在信任就是一切的教育情境里,这是毁灭性的。

我们的做法从根本上不同。我们构建了我们称之为教学准确性引擎的东西——它在三个层面上运作。

第一,符号层使用贝叶斯知识追踪来维护每名学生知识状态的模型。它不是在猜测学生是否理解代数;它是在追踪一个随每次互动而更新的概率向量。当学生在几何上遇到困难时,系统会知道——是从数学上知道,而非凭直觉——并据此调整它的引导支架。

第二,当 AI 生成练习题时,它不会随意编造数字。PAL 引擎确保每一道生成的题目都能得出干净、可解的答案。学生在学基础除法时,再也不会出现“计算 7,349 除以 13.7”这样的题目。符号层保证了在教学上恰当的难度。

第三——这也是我最引以为豪的一点——我们把 AI 锚定到具体的课程大纲上。借助属性图索引,我们把真实的教科书解析成一张知识图谱,其中概念是节点,关系是边。如果教科书以某种特定方式定义“质数”,AI 就使用那个定义,而不是大型语言模型训练数据里那个源自维基百科的近似说法。想了解这些层如何相互作用的完整技术拆解,请参阅我们的研究论文

无人愿意谈及的合规问题

一张示意图,展示符号否决层在贷款合规用例中的运作方式——大型语言模型的输出要先经过一道规则检查关卡,由它在回应抵达用户之前予以批准或拦截。

教育是一个领域。金融是另一个——而在某些方面,它的失效模式甚至更令人警觉。

一家区域性银行在其上一家 AI 供应商的系统批准了违反监管放贷标准的贷款之后找到了我们。问题很微妙,而且一旦你理解了架构,就完全可以预料:那个大型语言模型在处理申请人财务数据的同时,也在处理他们的个人陈述。当一名申请人写下一个关于战胜困境的动人故事时,模型的模式匹配——它是在数百万个“有说服力的叙述带来正面结果”的样本上训练出来的——就把这段叙述看得重于那些硬性的债务收入阈值。

这个模型并没有出故障。它做的恰恰是它被设计来做的事:在一段看起来像贷款审批对话的序列中,预测最有可能的下一个词元。问题在于,贷款审批并不是一场对话。它是一个有法律边界的、基于规则的决策。

我们部署了一个 PyReason 层——一个支持在知识图谱上进行逻辑推理的神经符号框架。规则是显式的:如果申请人年龄低于 21 岁且州为纽约州,那么贷款类型不能是商业贷款。在大型语言模型对贷款申请人生成任何回应之前,上下文都要先经过符号引擎。如果拟定的输出违反了某条硬性规则,符号引擎就否决它。没有例外。

结果是:100% 遵守监管放贷标准,同时对申请人保持个性化的、有同理心的沟通。声音依旧温暖。大脑依旧不容变通。这正是关键所在。

我们不构建“大概合规”的 AI。我们构建的 AI 在物理上就不可能批准一笔不合规的交易,无论输入多么有说服力。

“更大的模型难道不会直接解决这个问题吗?”

人们不断问我这个问题,我理解为什么。大型语言模型能力的发展轨迹确实令人印象深刻。每一个新版本都能处理更多的边缘情况,在基准测试上得分更高,犯下的明显错误更少。

但我总是回到这一点:对于确定性任务,改进曲线有一个内建于架构之中的天花板。一个预测引擎,无论多大,生成输出都是概率性的。把它做得更大,会让概率分布更紧凑——但它永远不会变成一种保证。而对于那些最重要的领域——一个孩子的教育、一名病人的诊断、一位借款人的法定权利——“大概正确”并不是一个产品类别。

还有一个务实的论点。即便 GPT-7 在算术上达到 99.9% 的准确率(那将是了不起的成就),那也仍然意味着每一千次计算就有一次出错。一家每天处理一万份贷款申请的银行,每天会产生十次错误的计算。每一次都是一个潜在的监管违规。每一次都是一场蓄势待发的诉讼。符号层不是把错误率降到 99.9%。对于任何经由求解器处理的运算,它把错误率降到零。

我听到的另一个反对意见是:“这不就是在增加复杂性吗?”是的。确实如此。一个神经符号系统比一个套壳要更难构建。它要求同时理解两种范式——统计的和逻辑的——并设计出连接二者的桥梁。但复杂性存在于架构之中,这样它就不必存在于失效模式之中。我宁愿构建一个能运作的复杂系统,也不愿要一个会不可预测地失败的简单系统。

两种智能之间的桥梁

我想给你留下一个画面,自从我们开始这项工作以来,它就一直萦绕在我脑海里。

想一想实际上是怎么思考的。当一位朋友请你推荐一家餐厅时,你用的是直觉——对过往经历、感觉、联想进行模式匹配。系统 1。快速而流畅。但当你的会计请你核对一笔税务计算时,你会掏出一个计算器。系统 2。缓慢而确定。你不会试图去凭直觉判断这些数字加起来对不对。你会去核对。

当今世界上部署的每一个 AI 系统,都只靠系统 1 在运作。这就好比我们造出了一整个由才华横溢却不会用计算器的健谈者组成的文明,然后把银行、医院和学校都交给了他们掌管。

解决之道不是抛弃这些健谈者。他们在自己所做的事情上出类拔萃。解决之道是递给他们一个计算器——并确保他们会用它。

这就是神经符号 AI。它不是大型语言模型的替代品。它是对它们的补全。声音与大脑协同工作,由一座桥梁在其间,它知道何时该交谈、何时该计算。

我们正在建造那座桥梁。而我相信,它是唯一一个配得上被托付以重要之事的架构。

Related Research

Also Published On