
「2+2=5」と子どもに教えたAIチューター — それが、あなたが使うすべてのAI製品について明かすこと
数か月前、ある保護者から送られてきたスクリーンショットに、私は思わず凍りついた。
彼女の娘 — 中学1年生 — は、数学のテスト勉強のために、最も人気のあるAIチューターのプラットフォームの一つを使っていた。その子はある掛け算の問題に取り組んでいた。3,750 かける 7 だ。彼女は 21,690 と入力した。正解は 26,250 である。まったく近くもなかった。
AIチューターはこう答えた。「掛け算、すごく上手だね!問題を解けたし、とてもよく考えられていたよ!」
私はそのスクリーンショットを長い間見つめていた。誤りに驚いたからではない — 私は何年もLLMの失敗パターンを研究してきたのだから。私の胸を突いたのは、その熱意だった。AIはただ間違えたのではない。間違った答えを祝福したのだ。愛される先生のような温かさと自信をもって、誤解を強化してしまった。そしてどこかで、12歳の少女は、機械にそう言われたからという理由で、自分は掛け算を理解していると信じて試験に臨んだのだ。
そのスクリーンショットは、私がしばらく前から周りを巡っていたある考えを結晶化させた。最も危険なAIシステムとは、回答を拒むものではない。自信たっぷりに、しかも間違って答えるものなのだ。そして今まさに、その説明は、大規模言語モデルの上に構築されたほぼすべてのAI製品に当てはまる。
私はAshutoshで、VeriPrajnaを経営している。私たちはニューロシンボリックAIシステム — ニューラルネットワークの言語的な流暢さと、シンボリックソルバーの論理的な厳密さを融合させたアーキテクチャ — を構築している。これを書いているのは、業界が誤ったアーキテクチャに破滅的な賭けをしていると考えているからであり、その代償を払うのは、生徒、患者、借り手、そしてAIが事実を正しく捉えることを信頼するあらゆる人々だ。
なぜあなたのAIはこれほど賢そうに聞こえるのに、計算をこれほど間違えるのか?
GPT-4やClaudeのような大規模言語モデルについて、ほとんどの人が気づいていないことがある。それらは何も知ってはいない。あなたの誕生日が3月15日だとデータベースが知っているのとは違うし、17かける24が408だと電卓が知っているのとも違う。
LLMは予測エンジンだ。質問を投げかけても、事実を検索したり計算を実行したりするわけではない。何十億ページものインターネット上のテキストから吸収したパターンに基づいて、あなたのプロンプトに続くべき統計的に最も可能性の高い単語の並びを予測するのだ。研究者が「次トークン予測」と呼ぶことを行っている — 訓練中に学習した確率分布に基づいて、次の単語(あるいは単語の断片)を選んでいるのである。
だからこそLLMは、人を泣かせるような詩を書ける一方で、コンテキストウィンドウをうまくつつけば 2+2=5 だと言い出すこともある。詩が成立するのは、言語がまさにパターンだからだ。計算が失敗するのは、算術がパターンではないからだ — それは正確な規則を持つ形式体系であり、その規則は統計的な尤度に屈することはない。
LLMは、訓練データに100万回現れた事実と、たった一度だけ現れた事実を区別しない。稀な事実を統計的なノイズとして扱うのだ — つまり、必要とする情報がマイナーであればあるほど、AIは何かをでっち上げる可能性が高くなる。
私はこう考えている。これまでに書かれたあらゆる本を読んだが、電卓の使い方は一度も習ったことのない同僚がいると想像してみてほしい。あなたは彼らに小説の要約や説得力のあるメールの下書きは任せるだろう。だが、確定申告を任せることは決してないはずだ。ところが、教育・金融・医療の分野に生のLLMを投入するとき、私たちはまさにそれをやっているのだ。
プロンプトエンジニアリングが行き止まりだと悟った夜
かつて — 今となっては認めるのが少し恥ずかしいのだが — より良いプロンプトでこれを解決できると考えていた時期があった。
私のチームと私は、手の込んだ思考連鎖(chain-of-thought)の指示を練り上げるのに何週間も費やした。「順を追って考えなさい」「途中の計算を示しなさい」「答える前に計算を再確認しなさい」。数学の問題、コンプライアンスのシナリオ、論理的推論のタスクにわたり、何十ものバリエーションをテストした。プロンプトチェーンの中には数百トークンにも及ぶものもあり、要するにモデルに慎重であるよう懇願していたのだ。
効果はあった。少しだけ。思考連鎖のプロンプティングは、複雑な推論タスクの正確さを、ひどいレベルから、単に信頼できないレベルへと引き上げた。しかし、繰り返し起きたのはこういうことだった。モデルは美しい論理の連鎖を展開する — ステップ1は正しい、ステップ2も正しい、ステップ3も正しい — そしてステップ4で単純な計算ミスを犯し、それが推論連鎖の残り全体に波及して、自信たっぷりに、そして優雅に間違った最終回答を生み出すのだ。
ある夜、私は自分の机でテスト結果を見直していた。私たちは思考連鎖のプロンプトを組み込んだGPT-4の構成で、500件の複利計算を一括して走らせていた。正解率は約87%だった。共同創業者は結果を見てこう言った。「87%ならなかなか良いじゃないか」。
私は表計算ソフトを開いた。「13%の確率で数字をでっち上げる表計算ソフトを、君は使うかい?」
沈黙。
その瞬間、私の頭の中でアーキテクチャに対する見方が変わった。問題はプロンプトではなかった。問題は、私たちが予測エンジンに論理エンジンであることを求めていたことだった。私たちはサイコロにささやきかけ、正しい数字が出ることを願っていたのだ。どれだけプロンプトエンジニアリングを重ねても、このシステムの根本的な確率的性質を変えることはできなかった。
私たちには「脳」が必要だった。
ニューロシンボリックAIとは何か、そしてなぜ気にかけるべきなのか?

人工知能の歴史は、何十年もの間、互いに口をきくことを拒み続けた二つの部族の物語である。
いわゆるシンボリスト(記号主義者)たち — 1950年代から1980年代にかけて支配的だった彼ら — は、知能とは明示的な規則と論理を操作することだと信じていた。十分な知識を形式的な文(ソクラテスは人間である。すべての人間は死すべきものである。ゆえにソクラテスは死すべきものである)として符号化できれば、考える機械を作れる、と。彼らのシステムは正確で、透明性が高く、証明可能なほど正しかった。だが同時に脆かった — 規則が想定していない、雑然とした現実世界の言語や状況に出くわした瞬間に、粉々に砕け散ったのだ。
いわゆるコネクショニスト(結合主義者)たち — ニューラルネットワーク陣営 — は、正反対のアプローチを取った。規則を書くのではなく、機械にデータからパターンを学ばせるのだ。彼らのシステムは、曖昧さやノイズ、そして自然言語を見事に扱うことができた。だがブラックボックスだった。それらが特定の答えを生み出した理由を説明することはできず、彼らには真理という概念もなかった — あるのは統計的な尤度だけだった。
ノーベル賞受賞者のダニエル・カーネマンは、人間の認知を二つのシステムとして説明した。システム1は速く、直感的で、パターンに基づく — 群衆の中で友人の顔を見分けるようなものだ。システム2は遅く、熟慮的で、論理的だ — 17かける24を紙の上で計算するようなものだ。現在のLLMは並外れたシステム1エンジンでありながら、システム2の仕事をするよう求められている。そこにミスマッチがある。
ニューロシンボリックAIは、その融合である。 ニューラルネットワークは「声(Voice)」として残す — 言語を扱い、意図を理解し、流暢な応答を生成する。だがそこにシンボリックな「脳(Brain)」 — 決定論的なソルバー、論理エンジン、形式検証システム — を加え、精度を要するすべてを担わせる。声がユーザーと話す。脳が計算をする。そして橋が両者をつなぐ。
ニューロシンボリックシステムでは、2+2 は常に 4 になる — モデルがそうなるはずだと予測するからではなく、シンボリック層において公理として定義されているからだ。ニューラルネットワークは、文字どおりそれを覆すことができない。
これは机上の空論ではない。これこそがVeriPrajnaで私たちが構築しているものであり、その完全なアーキテクチャの設計図は私たちの研究論文のインタラクティブ版に記してある。
できないはずの計算を、どうやって言語モデルにやらせるのか?

その鍵となる仕組みは、プログラム支援型言語モデル(Program-Aided Language Models)、すなわちPALと呼ばれるものだ。そしてそのエレガントさに、私は今なお心を躍らせている。
LLMに解かせるのではなく、あなたが求めるのは、プログラムを書くこと、それもその問題を解くプログラムを書くこと、なのだ。
実際にはこうなる。あるユーザーがこう尋ねる。「年利5%で年複利の $50,000 のローンがある場合、3年後にはいくら返済することになりますか?」
標準的なLLMの構成では、モデルは $50,000 × (1.05)³ を頭の中で — トークン予測を使って — 計算しようとする。うまくいくこともある。いかないこともある。どちらの答えを信頼できるのか、あなたには知る術がない。
私たちのシステムでは、LLMは何も計算しない。数行のPythonコードを生成する。principal = 50000、rate = 0.05、years = 3、print(principal * (1 + rate) ** years)。そのコードは決定論的なランタイム — 実際に本物の計算を行う本物のコンピュータ — によって実行される。CPUの算術論理演算装置は 57,881.25 を返す。そしてLLMは、その検証済みの数値を自然言語の応答で包む。「3年後、あなたは $57,881.25 を返済することになります」
ニューラルネットワークは、自分の得意なこと — 質問を理解し、コードを生成すること — を行った。シンボリックエンジンは、それ自身が得意とすること — 完璧な精度で答えを計算すること — を行った。どちらも相手の仕事はできなかった。両者が組み合わさると、手強い存在になる。
私たちはこれを、複雑な算術タスクにおいて標準的な思考連鎖プロンプティングと比較して検証した。標準的なLLMは、多段階の計算で40%を下回る正解率だった。思考連鎖はそれを、そこそこだが誤りの多い結果へと改善した。私たちのPALベースのニューロシンボリックのアプローチは、ほぼ完璧な正解率を達成した — 制約となるのは、生成されたコードのロジックが正しいかどうかだけであり、それは確率的なトークン予測よりもはるかに検証やデバッグが容易な問題だ。
チームを分裂させかけた議論
私たちが内部で交わしたある激しい議論について話しておきたい。それが、このアーキテクチャに対する私たちの考え方を形づくったからだ。
シンボリックソルバーの統合を始めた当初、私のエンジニアの一人 — 優秀で、ディープラーニングの世界に深く浸かった男 — が強く反対した。彼の主張はこうだった。「モデルは半年ごとに良くなっている。GPT-5が計算の問題を解決する。GPT-6が推論の問題を解決する。君は、いずれ自前の骨格を生やす建物のために、足場を組んでいるようなものだ」
その傾向について、彼は間違っていなかった。モデルは確かに良くなっている。だが私は、どうしても振り払えない構造的な論点に、何度も立ち返っていた。
決定論的なタスクに関して言えば、LLMの改善は漸近的だ。予測エンジンを10倍大きくしても、それが決定論的になるわけではない — より大きな予測エンジンになるだけだ。複利を87%ではなく95%の確率で正しく計算するモデルであっても、それは依然として金融計算では信頼できないモデルだ。95%と100%の間の隔たりは、規模で埋められる隔たりではない。それは、種類の異なるシステムを必要とする隔たりなのだ。
私たちはこれについて二日間議論した。ホワイトボードは図で埋め尽くされた。ベンチマークのぶつけ合い。あるとき誰かがこう言った。「GPTを使って、免責事項を付ければいいじゃないか」。私はおそらく、目に見えてたじろいだ。
決着をつけたのは、単純なテストだった。ある銀行の顧客から100件のコンプライアンスのシナリオ — 厳格な規制上のしきい値を伴う融資適格性チェック — を取り出した。それらを、慎重にプロンプトを与えた最先端のLLMに通した。すると、申込者が説得力のある自己紹介文を書いていたという理由で、負債比率(DTI)の要件に違反する3件の融資を承認してしまった。モデルは説得されていたのだ — その物語によって。モデルは、自らが設計されたとおりのこと — 言語のパターンマッチング — を行っていた。そしてそうすることで、法を犯したのだ。
5%の確率で嘘をつくチャットボットは、95%役に立つわけではない。重要なタスクにおいては、100%使いものにならないのだ。
私のエンジニアは考えを改めた。シンボリックなアプローチのほうが魅力的だから — 実際そうではない — ではなく、代替案の失敗の仕方が受け入れられないものだったからだ。
なぜ「AIラッパー」企業は苦境に立たされているのか?
少し引いて、ビジネスの状況について話そう。技術的なアーキテクチャは、経済的に甚大な意味を持つからだ。
現在、AIスタートアップのエコシステムは、私が「ラッパー」企業と呼ぶものに支配されている — 中核となる製品が、サードパーティの基盤モデルの上に乗ったユーザーインターフェースと若干のプロンプトのロジックにすぎない企業だ。彼らは、自分たちが所有していない機能へのアクセスを転売しているのである。
問題は構造的なものだ。OpenAIやAnthropicが新しいモデルのバージョンをリリースするたびに、彼らはラッパーが提供する機能を吸収してしまう。「PDF要約のためのAI」を売るスタートアップは、基盤モデルがネイティブのファイルアップロード機能を追加した瞬間に一掃される。「コード生成のためのAI」を提供する企業は、ベースモデルがコーディングで上達するにつれて、自社の価値提案が蒸発していくのを目の当たりにする。あなたの競争上の堀は、ほかならぬ自分の供給元によって干上がらされているのだ。
エンタープライズの顧客も気づき始めている。私は、CTOが単刀直入にこう言う会議に居合わせたことがある。「自分で呼び出せるAPIをラップしてもらうために、なぜあなたに金を払う必要があるのか?」。そう問うのは当然だ。機微な財務記録や独自のコードを、スタートアップのサーバーを経由させ、そこからさらに公開モデルのプロバイダーへと転送することは、受け入れがたい攻撃対象領域を生み出す。「ソブリンAI(主権的AI)」の動き — 企業が自社のモデルを所有し、自社のインフラ内で運用することを求める動き — は加速している。
だからこそ私たちは、初日からラッパーモデルを拒んだ。私たちはトークンへのアクセスを売っているのではない。私たちが売っているのは、システム2のアーキテクチャ — 独自のシンボリック推論エンジン、ドメイン特化型のナレッジグラフ、決定論的なコンプライアンス層 — だ。基盤となる言語モデルがコモディティ化したとき(そしてそうなるだろう)、私たちの価値は目減りしない。むしろ増す。なぜなら、そのロジック層こそが、意味を持つ唯一の差別化要因になるからだ。
AIチューターに本物の「脳」を与えると、何が起きるのか?
話を教育に戻そう。私にとって、そこが最も個人的に重みを感じる領域だからだ。
AIによる個別指導の可能性は並外れている。すべての生徒に、大規模に、パーソナライズされた一対一の指導を届けられるのだ。ブルームの有名な「2シグマ問題」は、個別指導を受けた生徒が、従来型の教室にいる生徒よりも2標準偏差ぶん優れた成績を収めることを示した。もしAIがその恩恵のほんの一部でも実現できれば、教育を一変させるだろう。
だが、現行世代のAIチューターは、チューターがまったくいない場合よりも悪いかたちで失敗している。先ほど述べた掛け算の惨事にとどまらず、生徒が正しい答えにたどり着いているのに、AIが — 誤った解法の道筋を幻覚(ハルシネーション)して — 生徒に間違っていると信じ込ませようとする、という報告された事例もある。モデルは、正しい推論を捨てるよう生徒をガスライティングするのだ。信頼がすべてである教育の文脈において、これは破滅的である。
私たちのアプローチは根本的に異なる。私たちが構築したのは、教育的正確性エンジン(Pedagogical Accuracy Engine)と呼ぶものであり、それは三つのレベルで機能する。
第一に、シンボリック層は、ベイズ知識追跡(Bayesian Knowledge Tracing)を用いて、各生徒の知識状態のモデルを維持する。生徒が代数を理解しているかどうかを推測しているのではない。あらゆるやり取りごとに更新される確率ベクトルを追跡しているのだ。生徒が幾何でつまずくと、システムはそれを — 直感的にではなく、数学的に — 把握し、それに応じて足場かけ(スキャフォールディング)を調整する。
第二に、AIが練習問題を生成するとき、ただ適当に数字をでっち上げるわけではない。PALエンジンは、生成されるすべての問題が、きれいで解ける答えを生むことを保証する。生徒が基本的な割り算を学んでいるときに「7,349 を 13.7 で割りなさい」などということはもうない。シンボリック層が、教育的に適切な難易度を保証するのだ。
第三に — そして私が最も誇りに思っているのがこれだ — 私たちはAIを特定のカリキュラムに固定する。プロパティグラフのインデックス化を用いて、実際の教科書を、概念をノード、関係をエッジとするナレッジグラフへと解析する。もし教科書が「素数」を特定の仕方で定義しているなら、AIはその定義を使う。LLMの訓練データの中にある、ウィキペディア由来のいい加減な近似ではない。これらの層がどのように相互作用するのか、その完全な技術的解説については、私たちの研究論文を参照してほしい。
誰も語りたがらないコンプライアンスの問題

教育は一つの領域だ。金融はもう一つの領域である — そしてある意味で、その失敗の仕方はさらに憂慮すべきものだ。
ある地方銀行が私たちのもとを訪れた。以前のAIベンダーのシステムが、規制上の融資基準に違反する融資を承認してしまった後のことだった。その問題は微妙で、そしてアーキテクチャを理解すれば完全に予測可能なものだった。LLMは、申込者の自己紹介文を、その財務データと並べて処理していたのだ。申込者が苦境を乗り越えた説得力ある物語を書くと、モデルのパターンマッチング — 良い結果につながる説得力ある語りの何百万もの例で訓練されている — は、その語りを優先したのだ — 厳格な負債比率(DTI)のしきい値よりも。
モデルは故障していたわけではない。それはまさに、自らが設計されたとおりのことを行っていた。融資承認の会話のように見える連なりの中で、最も可能性の高い次のトークンを予測する、ということだ。問題は、融資の承認が会話ではないという点にあった。それは、法的な境界を持つ規則ベースの意思決定なのだ。
私たちはPyReason層を実装した — ナレッジグラフ上での論理的推論をサポートするニューロシンボリックのフレームワークだ。規則は明示的である。もし申込者の年齢が21歳未満であり、かつ州がニューヨークであるなら、融資の種類は商業用(Commercial)にはできない、というように。LLMが融資申込者への応答を生成する前に、そのコンテキストはシンボリックエンジンを通過する。提案された出力が厳格な規則に違反していれば、シンボリックエンジンがそれに拒否権を発動する。それだけのことだ。
結果として、規制上の融資基準への100%の遵守が、申込者への、パーソナライズされた共感的なコミュニケーションと両立した。声は温かいままだ。脳は融通が利かないままだ。それこそが肝心なのだ。
私たちは、おそらくコンプライアンスに適合しているであろうAIを作るのではない。入力がどれほど説得力を持っていようと、コンプライアンスに違反する取引を承認することが物理的に不可能なAIを作るのだ。
「もっと大きなモデルが、これを解決してくれるのでは?」
人々は絶えず私にこう尋ねる。その気持ちはわかる。LLMの能力の軌跡は、本当に目を見張るものがある。新しいリリースが出るたびに、より多くのエッジケースに対応し、ベンチマークでより高い点数を取り、あからさまな誤りは減っていく。
だが、私が何度も立ち返るのはこの点だ。決定論的なタスクにおける改善曲線には、アーキテクチャに組み込まれた天井がある。予測エンジンは、どれほど大きくても、確率的に出力を生成する。それを大きくすれば確率分布はより鋭くなる — だが、決して保証にはならない。そして最も重要な領域 — 子どもの教育、患者の診断、借り手の法的権利 — において、「おそらく正しい」は、製品のカテゴリーたりえないのだ。
実務的な論点もある。仮にGPT-7が算術で99.9%の正確さを達成したとしても(それは驚くべきことだろうが)、それでも千回の計算につき1回の誤りがあるということだ。一日に一万件の融資申込を処理する銀行なら、毎日十件の誤った計算を生み出すことになる。その一つひとつが、規制違反になりうる。その一つひとつが、いつ起きてもおかしくない訴訟だ。シンボリック層は、誤り率を99.9%に下げるのではない。ソルバーを経由するあらゆる演算について、それをゼロにするのだ。
もう一つ私が耳にする反論はこうだ。「これは単に複雑さを増やしているだけではないか?」。そのとおり。そうだ。ニューロシンボリックシステムは、ラッパーよりも構築が難しい。統計的なものと論理的なものという両方のパラダイムを理解し、その間の橋を設計する必要がある。だが、複雑さがアーキテクチャの中に宿るからこそ、それが失敗の仕方の中に宿らずに済むのだ。私はむしろ、予測不能に失敗する単純なシステムよりも、きちんと動く複雑なシステムを作りたい。
二種類の知性をつなぐ橋
この仕事を始めて以来、私の頭から離れないある情景を、最後にあなたに残しておきたい。
あなた自身が実際にどう考えているかを、考えてみてほしい。友人がレストランを勧めてほしいと言えば、あなたは直感を使う — 過去の経験、雰囲気、連想へのパターンマッチだ。システム1。速く、なめらかだ。だが会計士が税額計算の検証を頼んでくれば、あなたは電卓を取り出す。システム2。遅く、確実だ。あなたは、数字の辻褄が合うかどうかを直感で判断しようとはしない。あなたは確かめるのだ。
今日、世界に配備されているあらゆるAIシステムは、システム1だけで動いている。それはまるで、電卓を使えない優れた会話の名手たちの文明を築き上げ、そのうえで彼らに銀行や病院や学校を任せてしまったようなものだ。
解決策は、その会話の名手たちを捨て去ることではない。彼らは、自分たちの得意なことにかけては並外れている。解決策は、彼らに電卓を手渡すこと — そして、確実にそれを使わせることだ。
それこそが、ニューロシンボリックAIというものだ。大規模言語モデルの代替ではない。それらの完成である。声と脳が、いつ語るべきか、いつ計算すべきかを心得た橋とともに、協働するのだ。
私たちは、その橋を築いている。そして私は、それこそが、本当に大切なものを託すに値する唯一のアーキテクチャだと信じている。