浅いチャットボットの層と、その下にある深い認知アーキテクチャを対比させた、AIチューティングを表す視覚的メタファー。
Artificial IntelligenceEducationMachine Learning

あなたのAIチューターは、先週あなたが分数につまずいたことを覚えていない

Ashutosh SinghalAshutosh Singhal2026年2月14日16 min

VeriPrajnaで最初のAIチューターの試作品を作り始めて数か月が経った頃、私は本来なら誇らしく思うはずのデモを目にした。ある生徒が二次方程式についての質問を打ち込んだ。AIは見事に応答した——忍耐強く、ソクラテス的で、励ましに満ちていた。お気に入りの先生のような温かさで、生徒に因数分解を丁寧に導いていった。部屋にいた全員がうなずいていた。

ところが翌日、その生徒は戻ってきて、比について質問した。AIは、これが3週間も分数につまずいていた同じ生徒だとはまったく気づかなかった。まるで初対面の相手のように扱った。彼女が持っていない習熟度を前提としたコンテンツを提供した。4分もしないうちに、彼女はタブを閉じた。

あのデモは、私の中の何かを壊した。技術が失敗したからではない——それは設計どおりに正確に機能した。会話の中で統計的に次に来る確率が最も高いトークンを生成した。不気味なほど流暢に教師を演じた。しかし、それはこの生徒について何も知っていなかった。彼女の分数のつまずきを、目の前の比の問題に結びつけることができなかった。記憶もなく、モデルもなく、彼女が学習者として何者なのかという理論も持っていなかった。

そのとき私は気づいた——ほとんどのAIチューターは、そもそもチューターですらない。教師の衣装をまとったチャットボットにすぎないのだ。

そしてその気づきが、私のチームを、私たちが作っているものを根本から変える道へと導いた。

教師を教師たらしめるものは何か?

あなたがこれまで出会った最高の教師のことを思い浮かべてほしい。その教師を偉大にしていたのは、物事を分かりやすく説明する能力ではなかったはずだ——もちろん、それも上手だっただろうが。偉大だったのは、その教師があなたを理解していたことだ。あなたが口頭発表で萎縮してしまうことを覚えていた。あなたが概念はいつも理解するのに、プレッシャーの下では計算ミスをしてしまうことに気づいていた。何か月にもわたって持続する、あなたの強みと弱みの心的モデルを築きながら、授業ごとに調整していった。

その心的モデルこそが本質だ。説明ではない。ソクラテス的な問いかけでもない。時とともに進化していく、学習者の心のモデルこそが、それなのだ。

さて、EdTech業界が『AI搭載のパーソナライズド・ラーニング』と呼ぶものを見てみよう。ほぼ例外なく、これらの製品は公開API——GPT-4、Claude、次の四半期に登場する何であれ——を薄いソフトウェアで包んだだけのものだ。『知能』のすべては、次のようなことを述べたシステムプロンプトの中に存在する。『あなたは親切な数学の家庭教師です。忍耐強く、励ましてください。』

そのプロンプトが制御するのはトーンであって、戦略ではない。それはモデルにどう聞こえるかを指示するのであって、何を教えるかを指示するのではない。そしてLLMはステートレスな確率エンジンであるため——現在の会話ウィンドウに基づいて次の単語を予測する——すべてのセッションを孤立した出来事として扱う。3か月前の誤解を今日の失敗に結びつけることができない。学習者の知識について永続的な表現を持たないからだ。

教育とは、説明の生成ではない。それは、時間をかけて学習者の認知状態を管理することである。

これこそ、『AIチューター』市場全体が取り違えている区別だ。

数字が別の物語を語った夜

ある特定の晩について話しておかなければならない。それが私たちの会社の方向性を変えたからだ。

私たちはラッパーベースの試作品を少人数の生徒グループで運用しており、ある夜遅く、私はいつものパターン——生徒が質問し、AIが答え、みんなが満足する——を見つけるつもりでインタラクションログを見返していた。ところが、私は不穏なものを見つけた。

AIはある生徒に、代数の問題の最終的な答えは正しく与えていた——だが途中の推論ステップは間違っていた。妥当な論理と自信に満ちた幻覚とを区別する術を持たない10年生のその生徒は、その誤った推論を吸収し、次の3問に適用してしまった。その後の答えはどれも、AIがでっち上げた説明に直接たどれる形で間違っていた。

研究もこれを裏付けている。数学指導におけるLLMの研究では、モデルがしばしば誤った途中ステップを経て正しい答えを提示したり、正しい生徒の解答を誤りだと指摘したりすることが分かっている。初心者の生徒には、本物の説明と、もっともらしく聞こえる幻覚との違いが分からない。AIはどちらの場合も権威ありげに聞こえるのだ。

私はその夜、共同創業者に電話をかけた。『私たちが作っているのはチューターじゃない』と私は言った。『時々たまたま正解する、自信満々の嘘つきを作っているんだ。』

それは辛辣だった。だがそれは同時に、私たちが別の問いを立て始めた瞬間でもあった。AIチューターの知能は、そもそも言語モデルの中に存在すべきではないのではないか?

なぜLLMを包むだけでは本物の学習に失敗するのか?

ラッパーベースのAIチューターが抱える3つのアーキテクチャ上の失敗——記憶の欠如、幻覚の蓄積、戦略の空白——を示す3列の比較図。

これらの失敗はエッジケースではない。アーキテクチャに根ざしたものだ。私たちのログには3つの問題が繰り返し現れていた。それは、あらゆるラッパーベースのチューターがいずれ直面する、まさに同じ3つの問題だ。

記憶の欠如。生徒の学習の道のりは何か月にも及び——何千もの微細なインタラクションから成る。コンテキストウィンドウが拡大しているとはいえ、やり取りのたびに生徒の全履歴を処理するコストと遅延は、スケールにおいて許容できないほど大きい。だからAIは忘れる。この生徒が数週間前に整数の足し算を習得しており、復習の必要がないことを忘れる。彼女が方程式で同じ符号の誤りを繰り返していることを忘れる。すべてのセッションが、ほぼゼロから始まるのだ。

幻覚の問題。すでに述べたが、強調する価値がある。AIが自信満々に生徒を誤った推論へと導くと、その被害は複合的に膨らむ。生徒は1つの問題を間違えるだけでは済まない——将来の学習を蝕む、欠陥のある心的モデルを内面化してしまう。そしてAIには、これを捕捉する仕組みがない。生徒が実際に何を知っているかのモデルを持たないからだ。

戦略の空白。『教師のように振る舞え』というのは、教育法ではなくペルソナについての指示だ。本物の教師は1回の授業で何百もの微細な判断を下す。ヒントを与えるべきか、それとも苦労させるべきか?前提となる教材に戻るべきか、それとも先へ進めるべきか?視覚的な説明から言語的な説明に切り替えるべきか?こうした判断には、生徒についての理論が必要だ。ラッパーには理論がない。それは現在のメッセージに反応するだけだ。それだけなのだ。

ディープ・ナレッジ・トレーシングとは何か、そしてなぜあなたが気にかけるべきなのか?

ここから少し技術的な話になるが、タブを閉じたあの生徒の話にちゃんと戻ってくることを約束する。

ナレッジ・トレーシング(Knowledge Tracing)は、特定の目標を持つ機械学習のタスクだ。すなわち、将来のパフォーマンスを予測するために、生徒の知識を時間の経過とともにモデル化することである。これは何十年も前から存在しており、ベイズ型ナレッジ・トレーシング(Bayesian Knowledge Tracing)と呼ばれるもの——知識を二値として扱うシステム——から始まった。あなたは分数を『知っている』か、知らないかのどちらかだ。それぞれの概念は独自のサイロの中に存在する。すべての問題は、人間の専門家によって手動でタグ付けされなければならない。

そのアプローチは、重要な点で限界がある。学習は二値ではない。分数の概念は理解していても、分母が異なると一貫して誤りを犯すことがある。先月習得したことに『さび付いて』しまうこともある。そして概念は独立していない——掛け算につまずくことは割り算のつまずきを予測させるが、古いモデルは、人間が明示的にその関係をコード化しない限り、それを捉えられなかった。

ディープ・ナレッジ・トレーシング(Deep Knowledge Tracing)は、スタンフォードのPiechらによる画期的な論文で発表され、そのすべてを投げ捨てた。二値のラベルや手作業でコード化された依存関係の代わりに、DKTは再帰型ニューラルネットワーク——具体的には長短期記憶(Long Short-Term Memory)ネットワーク——を用いて、生徒のインタラクションデータから知識の構造を直接学習する。手動のタグ付けは不要。二値の前提もない。

重要な革新は、私が『ブレイン・ステート(Brain State)』と呼び始めたものだ——生徒の現在の知識についてシステムが信じているすべての事柄の、デジタルな代理として機能する高次元ベクトルである。これは過去の成績を記録する成績簿ではない。それは、現在の能力の予測モデルであり、一つひとつのインタラクションごとに更新される。

ブレイン・ステートは、あなたが昨日何を正解したかを記録するものではない。あなたが明日何を正解するか——そしてその理由——を予測するのだ。

生徒が質問に答えると、LSTMがこのベクトルを更新する。その出力は、データベース内の他のすべての問題に対する確率だ。今この瞬間、この生徒がそれぞれの問題に正解する可能性はどれくらいか、という確率である。その確率のマップこそ、本当の魔法が起こる場所だ。

完全な技術アーキテクチャ——ゲーティング機構、勾配消失問題、比較パフォーマンスデータ——については、私たちの研究論文で書いた。だが、本稿にとって重要な洞察はもっとシンプルだ。DKTは、従来のベイズ手法に対して予測精度で25%の改善を示した。これは漸進的な向上ではない。あなたの生徒を何となく知っているシステムと、実際に知っているシステムとの違いなのだ。

私たちを危うく脱線させかけた議論

正直に話しておきたいことがある。私が初めて、チャットボットのラッパーを改良し続ける代わりにDKTシステムを作ろうと提案したとき、チームは反発した。激しく。

『私たちには動く製品がある』とエンジニアの一人が言った。『ユーザーはそれと話すのを気に入っている。なぜ土台から作り直すんだ?』

あるアドバイザーはもっと率直だった。『GPTを使えばいい。モデルは半年ごとに良くなる。君のナレッジ・トレーシングとやらは、リリースする前に時代遅れになるぞ。』

私はその論理を理解していた。LLMは急速に改善している。コンテキストウィンドウは拡大している。言語モデルがいずれすべてを処理できるかもしれないのに、なぜ別個の認知アーキテクチャを作るのか?

私が彼らに言ったこと、そして今も信じていることはこうだ。テキスト生成が上手になるLLMは、学習者を理解する能力が向上しているわけではない。これらは根本的に異なる能力だ。一方は言語的なもの。もう一方は認知的なものだ。世界で最も雄弁なチューターを持つことはできるが、あなたが先週分数につまずいたことを覚えていないなら、その雄弁さは無駄になる。

チームは考えを改めた——私の議論のためではなく、データのためだ。私たちは単純な実験を行った。同じ生徒の集団に同じカリキュラムを与え、半分は私たちのラッパーを通して、もう半分はDKTに導かれるシステムの粗い初期版を通して受けさせた。DKTグループの修了率はほぼ3倍だった。説明が優れていたからではない。シーケンシング(出題順序)が優れていたからだ。そのシステムは、いつ押し、いつ足場をかけるべきかを知っていた。

生徒をフロー・ゾーンに保つには、どうすればいいのか?

DKTの確率スコアが心理状態(退屈、フロー・ゾーン、フラストレーション)にどう対応し、問題の選択をどう駆動するかを示す、水平の確率スケール図。

ここが心理学と数学が出会う場所であり、私たちの仕事の中で最も美しいと感じる部分だ。

ミハイ・チクセントミハイの『フロー』という概念は、完全な没入の状態——タスクに没頭するあまり時間が消え去るような状態——を表している。それは、挑戦のレベルがあなたのスキルレベルと釣り合ったときにのみ起こる。簡単すぎれば退屈する。難しすぎれば不安になる。ちょうどいい領域は狭い。

従来の教室では、30人の異なる生徒に対して同時にそのちょうどいい領域を見つけることは、ほぼ不可能だ。標準的なチャットボットでは、それは試みられすらしない——AIは、あなたが尋ねたことに答えるだけだ。だがDKTシステムでは、確率ベクトルが並外れたものを与えてくれる。すべての生徒のフロー・ゾーンがどこにあるかを示す、リアルタイムのマップだ。

あの出力——データベース内のすべての問題に対する正解の確率——を覚えているだろうか?私たちはそれらの確率を、心理状態に直接対応づけることができる。

予測確率が0.75を超えているとき、その生徒はそのコンテンツをすでに習得している可能性が高い。それを見せると、退屈させる危険がある。0.35を下回ると、彼らは失敗する可能性が高い——支援なしにそれを提示すると、フラストレーションと脱落の危険がある。だが、生徒が正解する可能性がおそらく55%か60%程度である0.40から0.70の帯域では?そこがそのゾーンだ。彼らは問題に取り組むのに十分なだけ知っているが、解くためには考える必要がある。それが、ヴィゴツキーの最近接発達領域(Zone of Proximal Development)を定量化したものだ。

私たちは1970年代の心理学理論を、選択アルゴリズムに変えた。生徒はそれが起きていることに気づかない。ただ、教材がいつも自分にちょうど合っていると感じるだけだ。

私たちのシステムは連続的なループを回している。生徒が答え、LSTMがブレイン・ステートを更新し、確率が変化し、そして次の問題が、生徒を最大限のエンゲージメントのゾーンに留め置くように選ばれる。生徒がつまずけば、システムは自動的に、より単純な足場となるコンテンツを提供し、複雑さに戻る前に自信を再構築させる。生徒がすいすい進んでいれば、より強く押す。

知能は言語モデルの中に存在すべきではない、と私が言うのは、こういう意味だ。LLMは何を教えるかを決めない。ブレイン・ステートが決める。LLMはただ、それをどう言うかを決めるだけだ。

なぜ言語モデルがこれらすべてを、単にこなせないのか?

DKTのブレイン・ステート層が、生徒のインタラクションデータとLLMの間に位置し、LLMが何を教えるかを制御する一方で、LLMがそれをどう言うかを制御する様子を示す、アーキテクチャ図。

人々は絶えず私にこう尋ねる。もっともな質問だ。LLMがより賢く、より長いコンテキストを持ち、より高性能になっているのなら、なぜ別個のシステムを作るのか?

理由は3つある。

第一に、コストと遅延だ。生徒のインタラクション履歴の全体——何か月にもわたる何千ものやり取りになりうる——を、応答のたびにLLMを通して処理するのは、計算コストが高く、遅い。DKTモデルは、同じデータをミリ秒単位で処理する。逐次的な状態追跡のためにアーキテクチャ的に設計されているからだ。それは、仕事にふさわしい道具なのだ。

第二に、幻覚の封じ込めだ。私たちのシステムが次に提示すべき最良の問題を特定すると、それはLLMの範囲を制約する。GPTに数学全体を自由に歩き回らせる代わりに、私たちはこう指示する。『問題#882を提示せよ。生徒はそれを解ける確率が60%だ。生徒が躊躇したら、因数分解に関連するヒントを与えよ。』探索空間を制限することで、モデルがもっともらしく聞こえる無意味な内容を生成する機会を、劇的に減らすのだ。

第三に——そしてこれは戦略的な議論だが——防御可能性だ。あなたの製品全体が、公開APIを包んだプロンプトにすぎないなら、あなたには堀がない。誰でも週末のうちに複製できる。だが、何千もの学習軌跡で訓練され、実際の生徒データによって継続的に洗練されるDKTモデルは?それは独自の資産だ。生徒がシステムを使えば使うほど予測が良くなり、予測が良くなればなるほど、より多くの生徒が留まる。それは、競合他社がAPI呼び出しでは複製できない、データのフライホイールなのだ。

これをどう設計したか——ニューロシンボリックな統合、コールドスタート問題、転移学習の戦略——をより深く見たい方のために、インタラクティブな解説を用意した。ここで語れる以上に詳しく踏み込んでいる。

コールドスタートと、最初の20問

私たちが何週間も格闘した課題が一つある。まっさらな新規の生徒を、どう扱うか?DKTモデルはブレイン・ステートを構築するためにインタラクションデータを必要とするが、その生徒には履歴がない。これは機械学習における古典的な『コールドスタート』問題であり、教育においては特に厄介だ。なぜなら、最初の数回のインタラクションが、生徒が戻ってくるかどうかを決めてしまうからだ。

私たちの解決策は3層から成る。まず、何千もの過去の学習軌跡から匿名化・集約されたデータでモデルを事前学習し、ベースラインを確立する。新しい生徒が来ると、短い診断アセスメントに基づいて学習者クラスタに割り当て、似た学習者の重心で隠れ状態を初期化する。それから——そしてこの部分が最も調整を要したのだが——最初の10〜20回のインタラクションのうちに、汎用的なベースラインから個別化された状態へと急速に分岐するように、LSTMを設計した。

最初の20問が最も重要だ。私たちは何週間もかけてそれらを較正した——診断の精度のためだけでなく、エンゲージメントのためにも。診断がテストのように感じられると、生徒は離脱する。会話のように感じられると、身を乗り出してくる。それを正しく設計することは、機械学習の問題であると同時に、デザインの問題でもあった。

修了率が実際に示すもの

私たちのシステムが完璧だと言うつもりはない。まだ初期段階だ。だが、私たちのパイロットから得られた数字は、反論しがたい物語を語っている。

従来のオンラインコース——MOOCや標準的なLMSプラットフォーム——の修了率は、約15〜20%だ。この数字は、10年以上にわたって頑ななほど一定している。ナレッジ・トレーシングを搭載した適応型システムは、それを60〜80%まで引き上げる。企業研修の文脈では、重要な指標が習熟までの時間である場合、適応型システムは総研修時間を40〜50%削減することが示されている——従業員がすでに習得したコンテンツを飛ばし、自分の実際の弱点だけに集中するからだ。

教育研究者のベンジャミン・ブルームが特定した『2シグマ』問題は、1対1の個別指導が、教室での指導よりも2標準偏差高い学習成果を生み出すことを示した。課題は常にスケーラビリティだった——すべての生徒に個人の家庭教師をつけることはできない。DKTはその問題を完全には解決しないが、私が見てきた他のどんなものよりも近づいている。なぜなら、それはすべての生徒に、実際にその生徒自身の知識をモデル化するシステムを与えるからだ。汎用的なカリキュラムではなく。

2シグマ問題は、より良い説明を見つけることでは決してなかった。それは、一人ひとりの学習者を、スケールを保ちながら個別に知る方法を見つけることだった。それは状態追跡の問題であって、言語の問題ではない。

『パーソナライズド・ラーニング』についての不都合な真実

私が信じるに至ったこと、そしてそれがEdTechでは人気のない意見だと承知していることは、こうだ。業界が現在実践しているかたちでの『パーソナライズド・ラーニング』は、そのほとんどが嘘だ。

フォントサイズを変えることは、パーソナライゼーションではない。生徒に動画とテキストのどちらかを選ばせることは、パーソナライゼーションではない。直近の3つの答えに基づいて難易度を調整することさえ、かろうじてパーソナライゼーションと言える程度だ——それはサーモスタットであって、メンターではない。

本物のパーソナライゼーションには、個々の学習者の、永続的で進化するモデルが必要だ。それには、この生徒が視覚的な概念はすぐに習得するが記号的な表記につまずく、ということを覚えておく必要がある。それには、彼女の今日の比の問題での失敗が、数週間前の分数理解のギャップと結びついていることを理解する必要がある。それには、彼女が次の問題に正解するかどうかだけでなく、なぜ彼女が間違えるかもしれないのかを予測し——それに応じて道筋を調整することが必要だ。

それこそが、ブレイン・ステートの役割だ。そしてそれこそ、私が教育AIの未来はより良いチャットボットを作ることではないと信じる理由だ。それは、その下により良い認知アーキテクチャを作ることなのだ。

LLMは口だ。DKTモデルは脳だ。脳がなければ、口はただ喋るだけだ。

記憶するシステム

私は、初期のデモに出てきたあの生徒——AIに忘れられてタブを閉じた、あの生徒——のことに何度も立ち返る。彼女のことを考えるのは、彼女が、パーソナライズド教育を約束されながらフレンドリーなシステムプロンプトを持つチャットボットを受け取った、何百万もの学習者を象徴しているからだ。

私たちは、何か違うものを作っている。より良い説明を生成するシステムではない——LLMはそれについては、自分たちで良くなり続けるだろう。私たちが作っているのは、記憶するシステムだ。あなたが先週分数につまずいたことを知っており、それゆえ今日あなたが比につまずくことを予期するシステム。学習が実際に起こる狭い帯域——成長するのに十分なだけ挑戦させられ、やめてしまわないのに十分なだけ支えられる——に、あなたを留めておくシステムだ。

このための技術は存在する。ディープ・ナレッジ・トレーシングは理論上のものではない。LSTMアーキテクチャは実証済みだ。フロー・ゾーンは定量化し、狙い撃ちすることができる。問題は、それが可能かどうかでは決してなかった。問題は、GPTにラッパーをかぶせるほうがはるかに簡単なときに、誰かがわざわざそれを作るかどうかだった。

私たちは、わざわざ作った。そして、留まる生徒——タブを閉じない生徒——こそが、その証明になると私は思っている。

Related Research

Also Published On