Eine visuelle Metapher, die eine oberflächliche Chatbot-Schicht einer tiefen kognitiven Architektur darunter gegenüberstellt, bezogen auf KI-Tutoring.
Artificial IntelligenceEducationMachine Learning

Ihr KI-Tutor weiß nicht, dass Sie letzte Woche mit Brüchen gekämpft haben

Ashutosh SinghalAshutosh Singhal14. Februar 202616 min

Ein paar Monate nachdem wir bei Veriprajna mit dem Bau unseres ersten KI-Tutoring-Prototyps begonnen hatten, sah ich eine Demo, die mich hätte stolz machen sollen. Eine Schülerin tippte eine Frage zu quadratischen Gleichungen ein. Die KI antwortete wunderbar — geduldig, sokratisch, ermutigend. Sie führte die Schülerin mit der Wärme einer Lieblingslehrkraft durch das Faktorisieren. Alle im Raum nickten.

Am nächsten Tag kam die Schülerin wieder und fragte nach Verhältnissen. Die KI hatte keine Ahnung, dass dies dieselbe Schülerin war, die sich seit drei Wochen mit Brüchen abmühte. Sie behandelte sie wie eine Fremde. Sie lieferte Inhalte, die eine Beherrschung voraussetzten, die sie nicht hatte. Innerhalb von vier Minuten schloss sie den Tab.

Diese Demo hat etwas in mir zerbrochen. Nicht weil die Technologie versagt hätte — sie funktionierte genau wie vorgesehen. Sie generierte das nächste statistisch wahrscheinliche Token in einer Konversation. Sie spielte mit unheimlicher Geläufigkeit eine Lehrkraft. Aber sie wusste nichts über diese Schülerin. Sie konnte ihre Schwierigkeiten mit Brüchen nicht mit dem Verhältnisproblem vor ihr verbinden. Sie hatte kein Gedächtnis, kein Modell, keine Theorie darüber, wer sie als Lernende war.

Da wurde mir klar: Die meisten KI-Tutoren sind überhaupt keine Tutoren. Sie sind Chatbots in einem Lehrerkostüm.

Und diese Erkenntnis führte mein Team auf einen Weg, der grundlegend verändert hat, was wir bauen.

Was macht eine Lehrkraft zu einer Lehrkraft?

Denken Sie an die beste Lehrkraft, die Sie je hatten. Ich wette, das, was sie großartig machte, war nicht ihre Fähigkeit, Dinge klar zu erklären — auch wenn sie das wahrscheinlich ebenfalls konnte. Es war, dass sie Sie kannte. Sie erinnerte sich, dass Sie bei mündlichen Präsentationen erstarrten. Ihr fiel auf, dass Sie das Konzept immer verstanden, unter Druck aber Rechenfehler machten. Sie passte sich an, Sitzung für Sitzung, und baute ein mentales Modell Ihrer Stärken und Lücken auf, das über Monate hinweg Bestand hatte.

Dieses mentale Modell ist der entscheidende Punkt. Nicht die Erklärung. Nicht das sokratische Fragen. Das Modell vom Geist der lernenden Person, das sich im Laufe der Zeit weiterentwickelt.

Schauen Sie sich nun an, was die EdTech-Branche „KI-gestütztes personalisiertes Lernen“ nennt. Fast ausnahmslos sind diese Produkte dünne Software-Wrapper um eine öffentliche API — GPT-4, Claude, was auch immer im nächsten Quartal erscheint. Die gesamte „Intelligenz“ steckt in einem System-Prompt, der etwa sagt: „Du bist ein hilfreicher Mathe-Tutor. Sei geduldig und ermutigend.“

Dieser Prompt steuert den Ton, nicht die Strategie. Er sagt dem Modell, wie es klingen soll, nicht, was es lehren soll. Und weil LLMs zustandslose Wahrscheinlichkeitsmaschinen sind — sie sagen das nächste Wort auf Grundlage des aktuellen Konversationsfensters voraus — behandeln sie jede Sitzung als isoliertes Ereignis. Sie können ein Missverständnis von vor drei Monaten nicht mit einem Scheitern heute verknüpfen, weil sie keine dauerhafte Repräsentation des Wissens der lernenden Person besitzen.

Bildung ist nicht das Generieren von Erklärungen. Sie ist die Steuerung des kognitiven Zustands einer lernenden Person über die Zeit.

Das ist die Unterscheidung, die der gesamte Markt für „KI-Tutoren“ falsch versteht.

Die Nacht, in der die Zahlen eine andere Geschichte erzählten

Ich muss Ihnen von einem bestimmten Abend erzählen, denn er hat die Richtung unseres Unternehmens verändert.

Wir hatten unseren Wrapper-basierten Prototyp mit einer kleinen Gruppe von Schülern laufen lassen, und ich ging spät in einer Nacht die Interaktionsprotokolle durch und erwartete das übliche Muster — Schüler stellen Fragen, die KI beantwortet sie, alle sind zufrieden. Stattdessen fand ich etwas Beunruhigendes.

Die KI hatte einem Schüler eine korrekte Endantwort auf ein Algebra-Problem gegeben — aber die Zwischenschritte der Herleitung waren falsch. Der Schüler, ein Zehntklässler ohne Möglichkeit, gültige Logik von einer selbstbewussten Halluzination zu unterscheiden, hatte die fehlerhafte Herleitung übernommen und auf die nächsten drei Aufgaben angewendet. Jede weitere Antwort war auf eine Weise falsch, die sich direkt auf die erfundene Erklärung der KI zurückführen ließ.

Die Forschung bestätigt das. Studien zu LLMs im Mathe-Tutoring haben ergeben, dass Modelle häufig korrekte Antworten über falsche Zwischenschritte liefern oder korrekte Schülerarbeiten als falsch markieren. Ein Anfänger kann den Unterschied zwischen einer echten Erklärung und einer plausibel klingenden Halluzination nicht erkennen. Die KI klingt in beiden Fällen autoritativ.

Ich rief in jener Nacht meinen Mitgründer an. „Wir bauen keinen Tutor“, sagte ich. „Wir bauen einen selbstbewussten Lügner, der gelegentlich richtigliegt.“

Das war hart. Aber es war auch der Moment, in dem wir anfingen, eine andere Frage zu stellen: Was, wenn die Intelligenz in einem KI-Tutor gar nicht im Sprachmodell stecken sollte?

Warum scheitert das Umhüllen eines LLM beim echten Lernen?

Ein dreispaltiges Vergleichsdiagramm, das die drei architektonischen Schwächen Wrapper-basierter KI-Tutoren zeigt: Gedächtnisdefizit, sich verstärkende Halluzination und Strategievakuum.

Die Schwächen sind keine Randfälle. Sie sind architektonisch bedingt. Drei Probleme tauchten immer wieder in unseren Protokollen auf, und es sind dieselben drei Probleme, auf die jeder Wrapper-basierte Tutor früher oder später stößt:

Das Gedächtnisdefizit. Der Lernweg einer Schülerin erstreckt sich über Monate — Tausende von Mikro-Interaktionen. Selbst mit wachsenden Kontextfenstern sind die Kosten und die Latenz, die gesamte Historie einer Schülerin für jeden einzelnen Austausch zu verarbeiten, im großen Maßstab untragbar. Also vergisst die KI. Sie vergisst, dass diese Schülerin die Addition ganzer Zahlen vor Wochen gemeistert hat und sie nicht wiederholen muss. Sie vergisst, dass sie in Gleichungen immer wieder denselben Vorzeichenfehler macht. Jede Sitzung beginnt bei nahezu null.

Das Halluzinationsproblem. Ich habe das bereits beschrieben, aber es lohnt sich zu betonen: Wenn eine KI eine Schülerin selbstbewusst durch falsche Überlegungen führt, summiert sich der Schaden. Die Schülerin bekommt nicht nur eine Aufgabe falsch — sie verinnerlicht ein fehlerhaftes mentales Modell, das künftiges Lernen verdirbt. Und die KI hat keinen Mechanismus, um das zu erkennen, weil sie kein Modell davon hat, was die Schülerin tatsächlich weiß.

Das Strategievakuum. „Verhalte dich wie eine Lehrkraft“ ist eine Anweisung zur Persona, nicht zur Pädagogik. Eine echte Lehrkraft trifft Hunderte von Mikro-Entscheidungen pro Unterrichtsstunde: Soll ich einen Hinweis geben oder sie ringen lassen? Soll ich zum Voraussetzungsstoff zurückgehen oder vorantreiben? Soll ich von visueller zu verbaler Erklärung wechseln? Diese Entscheidungen erfordern eine Theorie über die Schülerin. Der Wrapper hat keine Theorie. Er reagiert auf die aktuelle Nachricht. Das war's.

Was ist Deep Knowledge Tracing, und warum sollte es Sie interessieren?

Jetzt muss ich etwas technisch werden, aber ich verspreche, es führt zurück zu der Schülerin, die ihren Tab geschlossen hat.

Knowledge Tracing ist eine Aufgabe des maschinellen Lernens mit einem bestimmten Ziel: das Wissen einer Schülerin über die Zeit zu modellieren, um künftige Leistungen vorherzusagen. Es gibt das seit Jahrzehnten, angefangen mit dem sogenannten Bayesian Knowledge Tracing — einem System, das Wissen als binär behandelt. Man „kann“ Brüche entweder oder eben nicht. Jedes Konzept lebt in seinem eigenen Silo. Jede Frage muss von einem menschlichen Experten manuell getaggt werden.

Dieser Ansatz ist auf entscheidende Weise begrenzt. Lernen ist nicht binär. Man kann das Konzept der Brüche verstehen, aber durchgängig Fehler machen, wenn die Nenner unterschiedlich sind. Man kann bei etwas, das man letzten Monat gemeistert hat, „eingerostet“ sein. Und Konzepte sind nicht unabhängig — Schwierigkeiten mit der Multiplikation sagen Schwierigkeiten mit der Division voraus, aber die alten Modelle konnten das nicht erfassen, es sei denn, ein Mensch codierte die Beziehung ausdrücklich.

Deep Knowledge Tracing, vorgestellt in einer wegweisenden Arbeit von Piech et al. in Stanford, warf all das über Bord. Statt binärer Labels und handcodierter Abhängigkeiten nutzt DKT rekurrente neuronale Netze — konkret Long-Short-Term-Memory-Netze — um die Struktur des Wissens direkt aus den Interaktionsdaten der Schüler zu lernen. Kein manuelles Taggen. Keine binären Annahmen.

Die zentrale Innovation ist das, was ich „Brain State“ zu nennen begonnen habe — ein hochdimensionaler Vektor, der als digitaler Stellvertreter für alles dient, was das System über das aktuelle Wissen einer Schülerin annimmt. Er ist kein Notenbuch, das vergangene Leistungen festhält. Er ist ein prädiktives Modell der aktuellen Leistungsfähigkeit, das sich mit jeder einzelnen Interaktion aktualisiert.

Der Brain State hält nicht fest, was Sie gestern richtig gemacht haben. Er sagt voraus, was Sie morgen richtig machen werden — und warum.

Wenn eine Schülerin eine Frage beantwortet, aktualisiert das LSTM diesen Vektor. Die Ausgabe ist eine Wahrscheinlichkeit für jede andere Frage in der Datenbank: Wie wahrscheinlich ist es, dass diese Schülerin jede davon gerade jetzt richtig beantwortet? Auf dieser Wahrscheinlichkeitskarte geschieht die eigentliche Magie.

Über die vollständige technische Architektur — die Gating-Mechanismen, das Problem des verschwindenden Gradienten, die vergleichenden Leistungsdaten — habe ich in unserem Forschungspapier geschrieben. Aber die Erkenntnis, die für diesen Essay zählt, ist einfacher: DKT zeigte eine Verbesserung der Vorhersagegenauigkeit von 25% gegenüber traditionellen Bayesschen Methoden. Das ist kein schrittweiser Zugewinn. Das ist der Unterschied zwischen einem System, das Ihre Schülerin irgendwie kennt, und einem, das sie tatsächlich kennt.

Die Auseinandersetzung, die uns fast aus der Bahn geworfen hätte

Ich möchte in einer Sache ehrlich sein. Als ich zum ersten Mal vorschlug, ein DKT-System zu bauen, statt an unserem Chatbot-Wrapper weiterzuarbeiten, wehrte sich mein Team. Heftig.

„Wir haben ein funktionierendes Produkt“, sagte einer unserer Ingenieure. „Nutzer reden gern damit. Warum bauen wir das Fundament neu?“

Ein Berater war noch direkter: „Nimm einfach GPT. Das Modell wird alle sechs Monate besser. Dein Knowledge-Tracing-Ding ist veraltet, bevor du es überhaupt auslieferst.“

Ich verstand die Logik. LLMs verbessern sich rasant. Kontextfenster werden größer. Warum eine separate kognitive Architektur bauen, wenn das Sprachmodell irgendwann vielleicht alles übernimmt?

Das habe ich ihnen gesagt, und ich glaube es immer noch: Ein LLM, das besser darin wird, Text zu generieren, wird nicht besser darin, eine lernende Person zu verstehen. Das sind grundlegend verschiedene Fähigkeiten. Die eine ist sprachlich. Die andere ist kognitiv. Sie können den eloquentesten Tutor der Welt haben, aber wenn er sich nicht daran erinnert, dass Sie letzte Woche mit Brüchen gekämpft haben, ist seine Eloquenz vergeudet.

Das Team ließ sich überzeugen — nicht wegen meines Arguments, sondern wegen der Daten. Wir führten ein einfaches Experiment durch: Wir gaben derselben Gruppe von Schülern denselben Lehrplan, die eine Hälfte über unseren Wrapper, die andere über eine grobe frühe Version unseres DKT-gesteuerten Systems. Die Abschlussquote der DKT-Gruppe war fast dreimal so hoch. Nicht weil die Erklärungen besser waren. Sondern weil die Abfolge besser war. Das System wusste, wann es antreiben und wann es stützen musste.

Wie hält man eine Schülerin in der Flow-Zone?

Ein horizontales Wahrscheinlichkeitsskala-Diagramm, das zeigt, wie DKT-Wahrscheinlichkeitswerte auf psychologische Zustände (Langeweile, Flow-Zone, Frustration) abgebildet werden und die Fragenauswahl steuern.

Hier trifft die Psychologie auf die Mathematik, und das ist der Teil unserer Arbeit, den ich am schönsten finde.

Mihaly Csikszentmihalyis Konzept des „Flow“ beschreibt einen Zustand völliger Vertiefung — wenn man so in eine Aufgabe versunken ist, dass die Zeit verschwindet. Er tritt nur ein, wenn die Herausforderung dem eigenen Können entspricht. Zu leicht, und man langweilt sich. Zu schwer, und man wird ängstlich. Der optimale Bereich ist schmal.

In einem traditionellen Klassenzimmer ist es nahezu unmöglich, diesen optimalen Bereich für 30 verschiedene Schüler gleichzeitig zu finden. In einem gewöhnlichen Chatbot wird es nicht einmal versucht — die KI beantwortet einfach, was auch immer man fragt. Aber in einem DKT-System liefert der Wahrscheinlichkeitsvektor etwas Außergewöhnliches: eine Echtzeitkarte davon, wo die Flow-Zone jedes Schülers liegt.

Erinnern Sie sich an diese Ausgabe — die Wahrscheinlichkeit der Richtigkeit für jede Frage in der Datenbank? Wir können diese Wahrscheinlichkeiten direkt auf psychologische Zustände abbilden:

Liegt die vorhergesagte Wahrscheinlichkeit über 0.75, hat die Schülerin diesen Inhalt wahrscheinlich gemeistert. Ihn ihr zu zeigen, riskiert Langeweile. Unter 0.35 wird sie wahrscheinlich scheitern — ihn ohne Unterstützung zu präsentieren, riskiert Frustration und Abbruch. Aber in jenem Band zwischen 0.40 und 0.70, wo die Schülerin vielleicht eine Chance von 55% oder 60% hat, es richtig zu machen? Das ist die Zone. Sie weiß genug, um die Aufgabe zu versuchen, muss aber nachdenken, um sie zu lösen. Das ist Vygotskis Zone der proximalen Entwicklung, quantifiziert.

Wir haben eine psychologische Theorie aus den 1970er-Jahren in einen Auswahlalgorithmus verwandelt. Die Schülerin merkt nicht, dass es geschieht. Sie hat einfach das Gefühl, dass der Stoff immer genau passt.

Unser System läuft in einer kontinuierlichen Schleife: Die Schülerin antwortet, das LSTM aktualisiert den Brain State, die Wahrscheinlichkeiten verschieben sich, und die nächste Frage wird so ausgewählt, dass sie in jener Zone maximalen Engagements gehalten wird. Wenn sie stolpert, liefert das System automatisch einfachere Stütz-Inhalte, um das Selbstvertrauen wieder aufzubauen, bevor es zur Komplexität zurückkehrt. Wenn sie mühelos durchkommt, treibt es stärker an.

Das meine ich, wenn ich sage, dass die Intelligenz nicht im Sprachmodell stecken sollte. Das LLM entscheidet nicht, was gelehrt wird. Das tut der Brain State. Das LLM entscheidet nur, wie man es sagt.

Warum kann das Sprachmodell das nicht einfach alles selbst tun?

Ein Architekturdiagramm, das zeigt, wie die DKT-Brain-State-Schicht zwischen den Interaktionsdaten der Schüler und dem LLM sitzt und steuert, was das LLM lehrt, während das LLM steuert, wie es gesagt wird.

Man fragt mich das ständig, und es ist eine berechtigte Frage. Wenn LLMs klüger, kontextreicher und leistungsfähiger werden, warum ein separates System bauen?

Drei Gründe.

Erstens: Kosten und Latenz. Die gesamte Interaktionshistorie einer Schülerin — potenziell Tausende von Austauschen über Monate — für jede einzelne Antwort durch ein LLM zu verarbeiten, ist rechnerisch teuer und langsam. Das DKT-Modell verarbeitet dieselben Daten in Millisekunden, weil es architektonisch für die sequenzielle Zustandsverfolgung ausgelegt ist. Es ist das richtige Werkzeug für die Aufgabe.

Zweitens: Eindämmung von Halluzinationen. Wenn unser System die nächste beste Frage identifiziert, die präsentiert werden soll, schränkt es den Handlungsspielraum des LLM ein. Statt GPT frei durch die gesamte Mathematik streifen zu lassen, sagen wir ihm: „Präsentiere Aufgabe #882. Die Schülerin hat eine Chance von 60%, sie zu lösen. Gib einen Hinweis zum Faktorisieren, falls sie zögert.“ Indem wir den Suchraum einschränken, verringern wir drastisch die Gelegenheit für das Modell, plausibel klingenden Unsinn zu erzeugen.

Drittens — und das ist das strategische Argument — Verteidigungsfähigkeit. Wenn Ihr gesamtes Produkt ein Prompt ist, der um eine öffentliche API gewickelt ist, haben Sie keinen Burggraben. Jeder kann es an einem Wochenende nachbauen. Aber ein DKT-Modell, das auf Tausenden von Lernverläufen trainiert und kontinuierlich durch echte Schülerdaten verfeinert wird? Das ist ein proprietäres Gut. Je mehr Schüler das System nutzen, desto besser sagt es voraus, und je besser es voraussagt, desto mehr Schüler bleiben. Es ist ein Datenschwungrad, das Wettbewerber nicht per API-Aufruf klonen können.

Für einen tieferen Einblick, wie wir das architektonisch umgesetzt haben — die neuro-symbolische Integration, das Cold-Start-Problem, die Transfer-Learning-Strategien — habe ich eine interaktive Führung zusammengestellt, die mehr ins Detail geht, als ich es hier kann.

Der Cold Start und die ersten zwanzig Fragen

Eine Herausforderung, mit der wir wochenlang rangen: Was tut man mit einer brandneuen Schülerin? Das DKT-Modell braucht Interaktionsdaten, um einen Brain State aufzubauen, aber die Schülerin hat keine Historie. Das ist das klassische „Cold-Start“-Problem im maschinellen Lernen, und in der Bildung ist es besonders schmerzhaft, weil diese ersten paar Interaktionen darüber entscheiden, ob die Schülerin wiederkommt.

Unsere Lösung hat drei Ebenen. Wir trainieren das Modell vorab auf anonymisierten Aggregatdaten aus Tausenden historischer Lernspuren und etablieren so eine Ausgangsbasis. Wenn eine neue Schülerin dazukommt, weisen wir sie auf Grundlage einer kurzen diagnostischen Einschätzung einem Lerner-Cluster zu und initialisieren ihren verborgenen Zustand mit dem Schwerpunkt ähnlicher Lernender. Dann — und dieser Teil erforderte das meiste Feintuning — haben wir das LSTM so gestaltet, dass es innerhalb der ersten 10 bis 20 Interaktionen rasch von der generischen Ausgangsbasis zu einem personalisierten Zustand abweicht.

Diese ersten zwanzig Fragen sind die wichtigsten. Wir haben Wochen damit verbracht, sie zu kalibrieren — nicht nur auf diagnostische Genauigkeit, sondern auf Engagement. Fühlt sich das Diagnoseverfahren wie ein Test an, springen Schüler ab. Fühlt es sich wie ein Gespräch an, lassen sie sich darauf ein. Das richtig hinzubekommen, war ebenso ein Design-Problem wie ein Problem des maschinellen Lernens.

Was die Abschlussquoten tatsächlich zeigen

Ich werde nicht so tun, als wäre unser System perfekt. Wir stehen noch am Anfang. Aber die Zahlen aus unseren Pilotprojekten erzählen eine Geschichte, gegen die schwer zu argumentieren ist.

Traditionelle Online-Kurse — MOOCs, gängige LMS-Plattformen — verzeichnen Abschlussquoten von etwa 15 bis 20%. Diese Zahl ist seit über einem Jahrzehnt hartnäckig konstant. Adaptive Systeme, die auf Knowledge Tracing beruhen, treiben sie auf 60 bis 80%. In der betrieblichen Weiterbildung, wo die entscheidende Kennzahl die Zeit bis zur Kompetenz ist, haben adaptive Systeme Verkürzungen der gesamten Schulungszeit um 40 bis 50% gezeigt — weil Mitarbeiter Inhalte überspringen, die sie bereits gemeistert haben, und sich nur auf ihre tatsächlichen Lücken konzentrieren.

Das „2-Sigma“-Problem, das der Bildungsforscher Benjamin Bloom identifiziert hat, zeigte, dass Einzelunterricht Lernergebnisse hervorbringt, die zwei Standardabweichungen über dem Klassenunterricht liegen. Die Herausforderung war immer die Skalierbarkeit — man kann nicht jedem Schüler einen persönlichen Tutor geben. DKT löst dieses Problem nicht vollständig, aber es kommt näher heran als alles andere, was ich gesehen habe, weil es jedem Schüler ein System gibt, das tatsächlich ihr Wissen modelliert, nicht einen generischen Lehrplan.

Beim 2-Sigma-Problem ging es nie darum, bessere Erklärungen zu finden. Es ging darum, einen Weg zu finden, jede lernende Person individuell zu kennen — und das im großen Maßstab. Das ist ein Problem der Zustandsverfolgung, kein Sprachproblem.

Die unbequeme Wahrheit über „personalisiertes Lernen“

Das ist meine Überzeugung geworden, und ich weiß, dass es keine populäre Meinung in der EdTech-Branche ist: „Personalisiertes Lernen“, so wie die Branche es derzeit praktiziert, ist größtenteils eine Lüge.

Die Schriftgröße zu ändern, ist keine Personalisierung. Einer Schülerin die Wahl zwischen Video und Text zu lassen, ist keine Personalisierung. Selbst die Schwierigkeit auf Grundlage der letzten drei Antworten anzupassen, ist kaum Personalisierung — das ist ein Thermostat, kein Mentor.

Echte Personalisierung erfordert ein dauerhaftes, sich entwickelndes Modell der einzelnen lernenden Person. Sie erfordert, sich zu merken, dass diese Schülerin visuelle Konzepte schnell meistert, aber mit symbolischer Notation kämpft. Sie erfordert zu verstehen, dass ihr Scheitern am heutigen Verhältnisproblem mit einer Lücke im Bruchverständnis von vor Wochen zusammenhängt. Sie erfordert vorherzusagen, nicht nur, ob sie die nächste Frage richtig beantwortet, sondern warum sie sie falsch beantworten könnte — und den Weg entsprechend anzupassen.

Genau das tut der Brain State. Und deshalb glaube ich, dass es bei der Zukunft der Bildungs-KI nicht darum geht, bessere Chatbots zu bauen. Es geht darum, bessere kognitive Architekturen darunter zu bauen.

Das LLM ist der Mund. Das DKT-Modell ist das Gehirn. Ohne das Gehirn redet der Mund nur.

Ein System, das sich erinnert

Ich komme immer wieder auf jene Schülerin aus unserer frühen Demo zurück — die, die ihren Tab schloss, als die KI sie vergaß. Ich denke an sie, weil sie Millionen von Lernenden repräsentiert, denen personalisierte Bildung versprochen wurde und die einen Chatbot mit einem freundlichen System-Prompt bekamen.

Wir bauen etwas anderes. Kein System, das bessere Erklärungen generiert — die LLMs werden darin von selbst immer besser. Wir bauen ein System, das sich erinnert. Das weiß, dass Sie letzte Woche mit Brüchen gekämpft haben, und daher heute Ihre Schwierigkeiten mit Verhältnissen vorausahnt. Das Sie in jenem schmalen Band hält, in dem Lernen tatsächlich stattfindet — gefordert genug, um zu wachsen, gestützt genug, um nicht aufzugeben.

Die Technologie dafür existiert. Deep Knowledge Tracing ist nicht theoretisch. Die LSTM-Architekturen sind erprobt. Die Flow-Zone lässt sich quantifizieren und gezielt ansteuern. Die Frage war nie, ob es möglich ist. Die Frage war, ob sich jemand die Mühe machen würde, es zu bauen, wenn es so viel einfacher war, GPT einfach einen Wrapper überzustülpen.

Wir haben uns die Mühe gemacht. Und ich glaube, die Schüler, die bleiben — jene, die den Tab nicht schließen — werden der Beweis sein.

Related Research

Also Published On