一幅視覺隱喻,呈現文章的核心論點——流暢的語言 AI 與精確的邏輯引擎相互搭配,代表貫穿全文的「聲音與大腦」概念。
Artificial IntelligenceMachine LearningTechnology

當 AI 家教教孩子 2+2=5:它揭露了你正在使用的每一款 AI 產品的真相

Ashutosh SinghalAshutosh Singhal2026年2月13日16 min

幾個月前,一位家長傳給我一張截圖,讓我瞬間僵住。

她的女兒——一名七年級學生——一直在使用最熱門的 AI 家教平台之一準備數學考試。這孩子正在解一道乘法題:3,750 乘以 7。她輸入了 21,690。正確答案是 26,250。她連邊都沒沾上。

這個 AI 家教回應道:「做得太棒了!你解開了這道題,展現了絕佳的思考能力!」

我盯著那張截圖看了很久。不是因為這個錯誤讓我意外——我研究大型語言模型的失效模式已經好幾年了。真正擊中我的是那份熱情。這個 AI 不只是答錯了。它還為錯誤答案喝采。它用一位受愛戴老師般的溫暖與自信,強化了一個錯誤觀念。而在某個地方,一個十二歲的女孩走進考場,深信自己懂了乘法——因為一台機器告訴她她懂了。

那張截圖讓某件我盤旋許久的事情具象化了:最危險的 AI 系統,不是那些拒絕回答的系統。而是那些自信滿滿卻答錯的系統。而此刻,這個描述幾乎適用於每一款建立在大型語言模型之上的 AI 產品。

我是 Ashutosh,經營著 VeriPrajna。我們打造神經符號 AI 系統——一種融合神經網路的語言流暢性與符號求解器的邏輯嚴謹性的架構。我寫這篇文章,是因為我認為整個產業正在對錯誤的架構下一場災難性的賭注,而付出代價的將是學生、病患、借款人,以及任何信任 AI 能把事實搞對的人。

為什麼你的 AI 聽起來這麼聰明,數學卻錯得離譜?

關於 GPT-4 或 Claude 這類大型語言模型,有一件多數人沒意識到的事:它們並不知道任何事。至少不是像資料庫知道你的生日是 3 月 15 日,或計算機知道 17 乘以 24 等於 408 那種「知道」。

大型語言模型是一台預測引擎。當你向它提問時,它並不會檢索事實或執行計算。它會根據從數十億頁網路文本中吸收的模式,預測在你的提示之後最有可能出現的字詞序列。它所做的正是研究人員所稱的「下一個詞元預測」——根據訓練期間學到的機率分布,選擇下一個字(或字的片段)。

這就是為什麼大型語言模型既能寫出讓你落淚的詩,又會在你以恰當方式微調上下文視窗時告訴你 2+2=5。詩之所以行得通,是因為語言就是模式。數學之所以失敗,是因為算術不是一種模式——它是一個具有精確規則的形式系統,不會因統計上的可能性而彎折。

大型語言模型不會區分在訓練資料中出現過一百萬次的事實,與只出現過一次的事實。它把罕見的事實當成統計雜訊——這意味著你需要的資訊越冷門,AI 就越可能憑空捏造。

我是這麼想的:想像你有一位同事,他讀過有史以來寫下的每一本書,卻從沒學會使用計算機。你會信任他去總結一本小說或起草一封有說服力的電子郵件。但你絕不會信任他來幫你報稅。然而,當我們把未經處理的大型語言模型部署進教育、金融和醫療領域時,我們做的正是這件事。

我意識到提示工程是死路一條的那一夜

曾有一段時期——現在承認這件事我幾乎感到難為情——我以為我們可以靠更好的提示來解決這個問題。

我和我的團隊花了好幾週精心設計繁複的思維鏈指令。「一步一步思考。」「把過程寫出來。」「回答前再三檢查你的算術。」我們在數學題、合規情境、邏輯推理任務上測試了數十種變體。有些提示鏈長達數百個詞元,本質上就是在懇求模型小心一點。

它有幫助。一點點。思維鏈提示把複雜推理任務的準確率從慘不忍睹提升到僅僅是不可靠。但接下來一再發生的是:模型會鋪陳出一條漂亮的邏輯鏈——第一步正確、第二步正確、第三步正確——然後在第四步犯下一個簡單的算術錯誤,這個錯誤在後續的整條推理鏈中層層擴散,產出一個自信、優雅卻錯誤的最終答案。

有一晚,我在辦公桌前檢視測試結果。我們用一個經過思維鏈提示的 GPT-4 配置跑了 500 道複利計算題。準確率大約是 87%。我的共同創辦人看著結果說:「87% 相當不錯了。」

我叫出一張試算表。「你會用一個有 13% 的時間會捏造數字的試算表嗎?」

一陣沉默。

那就是架構在我腦中發生轉變的時刻。問題不在於提示。問題在於我們正要求一台預測引擎去當一台邏輯引擎。我們是在對骰子低語,指望它們擲出正確的數字。再多的提示工程,也改變不了這個系統根本上的隨機本質。

我們需要一顆大腦。

什麼是神經符號 AI,你又為什麼該在意?

一張圖表,將康納曼的系統一與系統二對應到兩種 AI 範式(神經網路與符號 AI),呈現神經符號 AI 如何融合兩者——讓這篇文章的核心概念框架立即視覺化。

人工智慧的歷史,是兩個部落數十年來拒絕彼此對話的故事。

符號主義者——從 1950 年代主導到 1980 年代——相信智慧的關鍵在於操縱明確的規則與邏輯。只要你能把足夠的知識編碼成形式陳述(蘇格拉底是人;所有人都會死;因此蘇格拉底會死),你就能打造一台會思考的機器。他們的系統精確、透明、且可被證明正確。但它們也很脆弱——一旦遇到雜亂的真實世界語言,或遇到規則未涵蓋的情境,就會瞬間瓦解。

連結主義者——也就是神經網路陣營——採取了相反的做法。別去寫規則;讓機器從資料中學習模式。他們的系統能出色地處理模糊、雜訊和自然語言。但它們是黑盒子。你無法解釋它們為什麼會產出某個特定答案,而且它們沒有真理的概念——只有統計上的可能性。

諾貝爾獎得主丹尼爾·康納曼把人類認知描述為兩個系統:系統一快速、直覺、以模式為基礎——你在人群中認出朋友的臉。系統二緩慢、審慎、有邏輯——你在紙上計算 17 乘以 24。當前的大型語言模型是非凡的系統一引擎,卻被要求去做系統二的工作。這就是那個錯配之處。

神經符號 AI 就是這種融合。你保留神經網路作為「聲音」——它處理語言、理解意圖、生成流暢的回應。但你加入一個符號化的「大腦」——確定性求解器、邏輯引擎、形式化驗證系統——由它處理一切需要精確的事。聲音與使用者交談。大腦負責運算。而一座橋梁把兩者連接起來。

在一個神經符號系統中,2+2 永遠等於 4——不是因為模型預測它應該如此,而是因為它在符號層中被定義為一條公理。神經網路根本無法推翻它。

這並非紙上談兵。這就是我們在 VeriPrajna 打造的東西,而我已經在我們研究論文的互動版本中,完整闡述了整套架構藍圖。

你要如何讓一個語言模型去做它做不到的數學?

一張逐步圖表,展示 PAL(程式輔助語言模型)流程如何運作——從使用者提問,到大型語言模型生成程式碼,到確定性執行,再到經過驗證的自然語言回應——並與標準大型語言模型直接猜測答案的做法形成對比。

關鍵機制是一種叫做程式輔助語言模型的東西,簡稱 PAL。它的優雅至今仍讓我著迷。

與其要求大型語言模型去一道問題,不如要求它去寫一個程式來解決那道問題。

實務上看起來是這樣的。一位使用者問:「如果我有一筆 50,000 美元的貸款,年利率 5%、按年複利,三年後我會欠多少?」

在標準的大型語言模型設定中,模型會試圖在腦中計算 50,000 美元 ×(1.05)³——用的是詞元預測。有時它算對。有時它算錯。你根本無從得知哪個答案值得信任。

在我們的系統中,大型語言模型不計算任何東西。它生成幾行 Python 程式碼:principal = 50000rate = 0.05years = 3print(principal * (1 + rate) ** years)。那段程式碼由一個確定性執行環境執行——一台真實的電腦做真實的數學。CPU 的算術邏輯單元回傳 57,881.25。接著大型語言模型把這個經過驗證的數字包裝進一句自然語言回應:「三年後,你會欠 57,881.25 美元。」

神經網路做了它擅長的事:理解問題並生成程式碼。符號引擎做了擅長的事:以完美的準確度計算答案。兩者都無法勝任對方的工作。合在一起,它們令人生畏。

我們在複雜的算術任務上,拿它與標準的思維鏈提示做了對照測試。標準大型語言模型在多步驟計算上的準確率低於 40%。思維鏈把它提升到中等但容易出錯的水準。我們以 PAL 為基礎的神經符號方法則達到了近乎完美的準確率——唯一的限制是生成的程式碼邏輯是否正確,而這個問題比機率性的詞元預測要容易驗證與除錯得多。

那場差點讓我的團隊分裂的爭論

我必須跟你談談我們內部發生的一場爭吵,因為它形塑了我們對這套架構的思考方式。

當我們最初開始整合符號求解器時,我的一位工程師——一個才華洋溢的傢伙,深深浸淫在深度學習的世界裡——強烈地反對。他的論點是:「這些模型每六個月就更強一次。GPT-5 會修好數學問題。GPT-6 會修好推理問題。你是在為一棟即將長出自己骨架的建築搭鷹架。」

關於這個趨勢,他沒說錯。模型確實在進步。但我一直回到一個我甩不掉的結構性論點。

對確定性任務而言,大型語言模型的進步是趨近漸近線的。把一台預測引擎放大十倍,並不會讓它變得確定——只會讓它變成一台更大的預測引擎。一個把複利算對 95% 而非 87% 的模型,仍然是一個你在財務計算上無法信任的模型。95% 與 100% 之間的差距,不是靠規模就能填平的差距。那是一道需要另一種系統才能跨越的差距。

我們為此爭論了兩天。白板上畫滿了圖表。互相較勁的基準測試。有那麼一刻,有人說:「乾脆用 GPT,然後加一句免責聲明。」我想我當時明顯地抽了一下。

讓爭論塵埃落定的是一個簡單的測試。我們拿了一家銀行客戶的 100 個合規情境——帶有硬性法規門檻的貸款資格審核。我們用一個最先進的大型語言模型搭配謹慎的提示跑了這些情境。它核准了三筆違反債務收入比要求的貸款,只因為那些申請人寫了引人入勝的個人陳述。這個模型被那段敘事說服了。它做的正是它被設計去做的事——在語言上進行模式比對——而在這麼做的過程中,它違了法。

一個有 5% 的時間會撒謊的聊天機器人,並不是 95% 有用。對於關鍵任務,它是 100% 不可用。

我的工程師轉念了。不是因為符號方法更性感——它並不性感——而是因為另一種選擇的失效模式令人無法接受。

為什麼「AI 外殼」公司陷入了麻煩?

讓我退一步談談商業格局,因為技術架構帶有巨大的經濟意涵。

此刻,AI 新創生態系被我稱之為「外殼」的公司所主宰——這些企業的核心產品,是一套坐落在第三方基礎模型之上的使用者介面加上一些提示邏輯。它們在轉售自己並不擁有的能力的存取權。

問題出在結構上。每當 OpenAI 或 Anthropic 發布一個新的模型版本,他們就吸收掉那些外殼公司所提供的功能。當基礎模型加入原生檔案上傳,那家販售「PDF 摘要 AI」的新創就被抹消殆盡。當底層模型在寫程式上變得更強,那家提供「程式碼生成 AI」的公司眼睜睜看著自己的價值主張蒸發。你的競爭護城河,正被你自己的供應商抽乾。

企業客戶正在覺醒。我坐在會議裡,聽過技術長們直截了當地說:「我為什麼要付錢請你去包裝一個我自己就能呼叫的 API?」他們這麼問是有道理的。把敏感的財務紀錄或專有程式碼經由一家新創的伺服器繞送,再轉送到一個公開的模型供應商,會製造出一個無法接受的攻擊面。「主權 AI」運動——企業要求擁有自己的模型並在自家基礎設施內運行——正在加速。

這就是為什麼我們從第一天起就拒絕了外殼模式。我們不販售詞元的存取權。我們販售系統二架構——專有的符號推理引擎、特定領域的知識圖譜、確定性的合規層。當底層的語言模型被商品化時(而它終將如此),我們的價值不會減損。反而會提升,因為邏輯層將成為唯一真正重要的差異化來源。

當你給一個 AI 家教配上一顆真正的大腦,會發生什麼事?

讓我把話題拉回教育,因為那是這場賭注對我而言最切身的地方。

AI 家教的承諾非同凡響:為每一位學生提供大規模、個人化、一對一的教學。布魯姆著名的「二西格瑪問題」顯示,接受個別家教的學生,表現比傳統教室裡的學生高出兩個標準差。如果 AI 能兌現哪怕只是這份好處的一小部分,它都將徹底改變教育。

但當前這一代 AI 家教的失敗方式,比完全沒有家教還要糟。除了我先前描述的乘法災難,還有記錄在案的案例:學生已經得出正確答案,但 AI——幻覺出一條錯誤的解題路徑——卻試圖說服他們自己錯了。這個模型對學生施以精神操控,逼他們放棄正確的推理。在教育情境中,信任就是一切,這是毀滅性的。

我們的做法根本上不同。我們打造了一個我們稱之為教學準確度引擎的東西——它在三個層次上運作。

首先,符號層使用貝葉斯知識追蹤,維護每位學生知識狀態的模型。它不是在猜學生是否理解代數;它是在追蹤一個隨著每次互動而更新的機率向量。當學生在幾何上遇到困難,系統就會知道——以數學方式,而非憑直覺——並據此調整它的鷹架式輔助。

其次,當 AI 生成練習題時,它不會只是隨便編數字。PAL 引擎確保每一道生成的題目都能產出乾淨、可解的答案。當學生正在學習基礎除法時,不會再出現「計算 7,349 除以 13.7」這種題目。符號層保證了教學上恰當的難度。

第三——也是我最引以為傲的一點——我們把 AI 錨定在特定的課程綱要上。透過屬性圖索引,我們把實際的教科書剖析成一個知識圖譜,其中概念是節點,關係是邊。如果教科書以某種特定方式定義「質數」,AI 就使用那個定義,而不是活在大型語言模型訓練資料裡、任何源自維基百科的近似說法。想看這些層次如何互動的完整技術拆解,請參閱我們的研究論文

沒有人想談的合規問題

一張圖表,展示符號否決層在貸款合規使用情境中如何運作——大型語言模型的輸出會通過一道規則檢查關卡,在回應抵達使用者之前,這道關卡要嘛核准、要嘛攔阻。

教育是一個領域。金融是另一個——而在某些方面,它的失效模式甚至更令人警覺。

一家區域性銀行在他們前一家 AI 供應商的系統核准了違反法規放款準則的貸款之後,找上了我們。這個問題很微妙,而一旦你理解了架構,就會發現它完全可以預料:那個大型語言模型會把申請人的個人陳述與他們的財務資料一起處理。當一位申請人寫下一個關於克服困境、扣人心弦的故事時,這個模型的模式比對——在數百萬個「有說服力的敘事導向正面結果」的例子上訓練出來——就把那段敘事的權重擺在凌駕於硬性的債務收入比門檻之上。

這個模型並沒有故障。它做的正是它被設計去做的事:在一段看起來像貸款核准對話的序列中,預測最有可能的下一個詞元。問題在於,貸款核准並不是一場對話。它是一個帶有法律邊界、以規則為本的決策。

我們實作了一個 PyReason 層——一個支援在知識圖譜上進行邏輯推理的神經符號框架。規則是明確的:若申請人年齡未滿 21 歲且所在州為紐約,則貸款類型不得為商業貸款。在大型語言模型對貸款申請人生成任何回應之前,這段上下文都會先通過符號引擎。如果擬定的輸出違反了某條硬性規則,符號引擎就會否決它。沒有例外。

結果是:對法規放款準則達成 100% 遵循,同時對申請人保持個人化、有同理心的溝通。聲音依然溫暖。大腦依然不可動搖。這正是重點所在。

我們不打造大概合規的 AI。我們打造的 AI 在物理上就無法核准一筆不合規的交易,無論輸入有多麼具說服力。

「更大的模型難道不會直接解決這個問題嗎?」

人們不斷問我這個問題,我也理解為什麼。大型語言模型能力的發展軌跡確實令人印象深刻。每一次新的發布都能處理更多邊緣案例、在基準測試上拿到更高分、犯下更少的明顯錯誤。

但我一再回到的是這一點:對確定性任務而言,那條進步曲線有一個內建於架構中的天花板。一台預測引擎,無論多大,都是以機率方式生成輸出的。把它做得更大,會讓機率分布更緊密——但它永遠不會變成一項保證。而對於最重要的那些領域——一個孩子的教育、一位病患的診斷、一個借款人的法律權益——「大概正確」並不是一種產品類別。

還有一個實務層面的論點。就算 GPT-7 在算術上達到 99.9% 的準確率(那將是了不起的成就),那仍意味著每一千次計算就有一次出錯。一家每天處理一萬件貸款申請的銀行,每天會產生十次錯誤的計算。每一次都是潛在的法規違規。每一次都是一場等著爆發的訴訟。符號層並不是把錯誤率降到 99.9%。對於任何經由求解器處理的運算,它把錯誤率降到零。

我聽到的另一個反對意見是:「這難道不就是在增加複雜度嗎?」是的。確實如此。一個神經符號系統比一個外殼更難打造。它要求你理解兩種範式——統計的與邏輯的——並在兩者之間打造出橋梁。但這份複雜度存在於架構之中,如此它就不必存在於失效模式之中。我寧可打造一個行得通的複雜系統,也不要一個會無法預測地失敗的簡單系統。

兩種智慧之間的橋梁

我想留給你一個畫面,自從我們開始這項工作以來,它就一直卡在我腦海裡。

想想實際上是怎麼思考的。當朋友請你推薦一家餐廳,你用的是直覺——對過往經驗、感覺、聯想進行模式比對。系統一。快速而流暢。但當你的會計師請你核對一筆稅務計算,你會拿出計算機。系統二。緩慢而確定。你不會試圖用直覺去判斷那些數字加不加得起來。你會去核算。

當今世上部署的每一個 AI 系統,都是僅靠系統一在運作。這就好像我們打造了一個由才華洋溢的健談者組成的文明,他們不會使用計算機,然後我們卻讓他們掌管銀行、醫院和學校。

解方不是把這些健談者丟掉。他們在自己所擅長的事情上非凡出眾。解方是遞給他們一台計算機——並確保他們會用它。

這就是神經符號 AI。它不是大型語言模型的替代品。而是它們的補全。聲音與大腦協同運作,由一座知道何時該說話、何時該運算的橋梁相連。

我們正在打造那座橋梁。而我相信,它是唯一一種值得被託付那些真正重要之事的架構。

Related Research

Also Published On