Eine visuelle Metapher für die Kernthese — eine sprachgewandte KI gepaart mit einer präzisen Logik-Engine, die das für den Artikel zentrale Konzept von „Stimme und Gehirn“ darstellt.
Artificial IntelligenceMachine LearningTechnology

Der KI-Tutor, der einem Kind beibrachte, dass 2+2=5 ist — und was das über jedes KI-Produkt verrät, das Sie nutzen

Ashutosh SinghalAshutosh Singhal13. Februar 202616 min

Vor einigen Monaten schickte mir eine Mutter einen Screenshot, der mir den Atem stocken ließ.

Ihre Tochter — eine Siebtklässlerin — hatte eine der beliebtesten KI-Nachhilfeplattformen genutzt, um für eine Mathearbeit zu lernen. Das Kind arbeitete an einer Multiplikationsaufgabe: 3.750 mal 7. Sie tippte 21.690 ein. Die richtige Antwort lautet 26.250. Sie lag nicht einmal annähernd richtig.

Der KI-Tutor antwortete: „Großartige Arbeit beim Multiplizieren! Du hast die Aufgabe gelöst und tolles Denken gezeigt!“

Ich starrte lange auf diesen Screenshot. Nicht, weil mich der Fehler überrascht hätte — ich hatte jahrelang die Fehlermodi von LLMs untersucht. Was mich traf, war die Begeisterung. Die KI lag nicht einfach nur falsch. Sie feierte die falsche Antwort. Sie verstärkte einen Irrtum mit der Wärme und dem Selbstvertrauen einer geliebten Lehrkraft. Und irgendwo ging ein zwölfjähriges Mädchen in ihre Prüfung, überzeugt davon, das Multiplizieren verstanden zu haben, weil eine Maschine ihr das gesagt hatte.

Dieser Screenshot brachte etwas auf den Punkt, um das ich schon eine Weile kreiste: Die gefährlichsten KI-Systeme sind nicht die, die sich weigern zu antworten. Es sind die, die selbstbewusst und falsch antworten. Und im Moment trifft diese Beschreibung auf nahezu jedes KI-Produkt zu, das auf großen Sprachmodellen aufbaut.

Ich bin Ashutosh und leite Veriprajna. Wir bauen neuro-symbolische KI-Systeme — Architekturen, die die sprachliche Gewandtheit neuronaler Netze mit der logischen Strenge symbolischer Solver verschmelzen. Ich schreibe das, weil ich glaube, dass die Branche eine katastrophale Wette auf die falsche Architektur eingeht, und die Menschen, die den Preis dafür zahlen werden, sind Schüler, Patienten, Kreditnehmer und alle anderen, die einer KI vertrauen, die Fakten richtig darzustellen.

Warum klingt Ihre KI so schlau, macht aber Mathematik so falsch?

Hier ist etwas, das die meisten Menschen über große Sprachmodelle wie GPT-4 oder Claude nicht wissen: Sie wissen nichts. Nicht so, wie eine Datenbank weiß, dass Ihr Geburtstag der 15. März ist, oder ein Taschenrechner weiß, dass 17 mal 24 gleich 408 ist.

Ein LLM ist eine Vorhersagemaschine. Wenn Sie ihm eine Frage stellen, ruft es keine Tatsache ab und führt keine Berechnung durch. Es sagt die statistisch wahrscheinlichste Wortfolge voraus, die auf Ihre Eingabe folgen sollte, basierend auf Mustern, die es aus Milliarden von Seiten Internettext aufgenommen hat. Es leistet das, was Forscher „Next-Token-Vorhersage“ nennen — die Auswahl des nächsten Wortes (oder Wortfragments) auf Grundlage von Wahrscheinlichkeitsverteilungen, die während des Trainings gelernt wurden.

Deshalb können LLMs Gedichte schreiben, die einen zu Tränen rühren, und Ihnen dann sagen, dass 2+2=5 ist, wenn Sie das Kontextfenster auf die richtige Weise anstoßen. Die Dichtung funktioniert, weil Sprache Muster ist. Die Mathematik scheitert, weil Arithmetik kein Muster ist — sie ist ein formales System mit exakten Regeln, die sich nicht der statistischen Wahrscheinlichkeit beugen.

Ein LLM unterscheidet nicht zwischen einer Tatsache, die millionenfach in seinen Trainingsdaten auftauchte, und einer, die nur ein einziges Mal auftauchte. Es behandelt seltene Fakten als statistisches Rauschen — was bedeutet: Je obskurer die Information ist, die Sie benötigen, desto wahrscheinlicher erfindet die KI etwas.

Ich stelle es mir so vor: Stellen Sie sich vor, Sie hätten einen Kollegen, der jedes jemals geschriebene Buch gelesen hat, aber nie gelernt hat, einen Taschenrechner zu benutzen. Sie würden ihm zutrauen, einen Roman zusammenzufassen oder eine überzeugende E-Mail zu verfassen. Sie würden ihm niemals zutrauen, Ihre Steuererklärung zu machen. Doch genau das tun wir, wenn wir rohe LLMs in Bildung, Finanzwesen und Gesundheitswesen einsetzen.

Die Nacht, in der mir klar wurde, dass Prompt Engineering eine Sackgasse war

Es gab eine Zeit — ich schäme mich fast, das jetzt zuzugeben —, in der ich dachte, wir könnten das mit besseren Prompts beheben.

Mein Team und ich verbrachten Wochen damit, aufwendige Chain-of-Thought-Anweisungen zu formulieren. „Denke Schritt für Schritt.“ „Zeige deinen Rechenweg.“ „Überprüfe deine Arithmetik doppelt, bevor du antwortest.“ Wir testeten Dutzende Varianten über Matheaufgaben, Compliance-Szenarien und logische Denkaufgaben hinweg. Einige der Prompt-Ketten waren Hunderte von Tokens lang und flehten das Modell im Grunde an, sorgfältig zu sein.

Es half. Ein wenig. Chain-of-Thought-Prompting verbesserte die Genauigkeit bei komplexen Denkaufgaben von miserabel auf lediglich unzuverlässig. Aber Folgendes geschah immer wieder: Das Modell legte eine wunderschöne Logikkette dar — Schritt eins korrekt, Schritt zwei korrekt, Schritt drei korrekt — und machte dann in Schritt vier einen simplen Rechenfehler, der sich durch den restlichen Denkprozess fortpflanzte und ein Endergebnis erzeugte, das selbstbewusst und elegant falsch war.

Eines Nachts saß ich an meinem Schreibtisch und wertete Testergebnisse aus. Wir hatten eine Batterie von 500 Zinseszinsberechnungen durch ein Chain-of-Thought-gepromptetes GPT-4-Setup laufen lassen. Die Genauigkeitsrate lag bei rund 87 %. Mein Mitgründer betrachtete die Ergebnisse und sagte: „87 % sind ziemlich gut.“

Ich rief eine Tabellenkalkulation auf. „Würdest du eine Tabellenkalkulation verwenden, die in 13 % der Fälle Zahlen erfindet?“

Schweigen.

Das war der Moment, in dem sich die Architektur in meinem Kopf verschob. Das Problem war nicht der Prompt. Das Problem war, dass wir von einer Vorhersagemaschine verlangten, eine Logikmaschine zu sein. Wir flüsterten Würfeln zu und hofften, sie würden auf der richtigen Zahl landen. Kein noch so gutes Prompt Engineering würde die grundlegend stochastische Natur des Systems ändern.

Wir brauchten ein Gehirn.

Was ist neuro-symbolische KI, und warum sollte Sie das interessieren?

Ein Diagramm, das Kahnemans System 1 und System 2 den beiden KI-Paradigmen (neuronale Netze und symbolische KI) zuordnet und zeigt, wie neuro-symbolische KI beide verschmilzt — wodurch das zentrale konzeptionelle Gerüst des Artikels sofort visuell wird.

Die Geschichte der künstlichen Intelligenz ist die Geschichte zweier Lager, die jahrzehntelang das Gespräch miteinander verweigerten.

Die Symbolisten — vorherrschend von den 1950er- bis in die 1980er-Jahre — glaubten, Intelligenz bestehe darin, explizite Regeln und Logik zu manipulieren. Wenn man genug Wissen als formale Aussagen kodieren könnte (Sokrates ist ein Mensch; alle Menschen sind sterblich; folglich ist Sokrates sterblich), könnte man eine denkende Maschine bauen. Ihre Systeme waren präzise, transparent und nachweislich korrekt. Sie waren aber auch spröde — sie zerbrachen in dem Moment, in dem sie auf unordentliche, reale Sprache oder Situationen trafen, die ihre Regeln nicht abdeckten.

Die Konnektionisten — die Fraktion der neuronalen Netze — verfolgten den entgegengesetzten Ansatz. Schreib keine Regeln; lass die Maschine Muster aus Daten lernen. Ihre Systeme konnten Mehrdeutigkeit, Rauschen und natürliche Sprache wunderbar bewältigen. Aber sie waren Blackboxes. Man konnte nicht erklären, warum sie eine bestimmte Antwort produzierten, und sie hatten kein Konzept von Wahrheit — nur statistische Wahrscheinlichkeit.

Daniel Kahneman, der Nobelpreisträger, beschrieb die menschliche Kognition als zwei Systeme: System 1 ist schnell, intuitiv, musterbasiert — Sie erkennen das Gesicht eines Freundes in einer Menschenmenge. System 2 ist langsam, bedächtig, logisch — Sie multiplizieren 17 mal 24 auf Papier. Aktuelle LLMs sind außergewöhnliche System-1-Maschinen, die aufgefordert werden, System-2-Arbeit zu leisten. Das ist die Diskrepanz.

Neuro-symbolische KI ist die Verschmelzung. Man behält das neuronale Netz als die „Stimme“ bei — es kümmert sich um Sprache, versteht Absichten, erzeugt flüssige Antworten. Aber man fügt ein symbolisches „Gehirn“ hinzu — deterministische Solver, Logik-Engines, formale Verifikationssysteme —, das alles übernimmt, was Präzision erfordert. Die Stimme spricht mit dem Nutzer. Das Gehirn erledigt die Mathematik. Und eine Brücke verbindet sie.

In einem neuro-symbolischen System ist 2+2 immer gleich 4 — nicht, weil das Modell vorhersagt, dass es so sein sollte, sondern weil es als Axiom in der symbolischen Schicht definiert ist. Das neuronale Netz kann es buchstäblich nicht außer Kraft setzen.

Das ist nicht theoretisch. Das ist es, was wir bei Veriprajna bauen, und ich habe den vollständigen architektonischen Bauplan in der interaktiven Version unseres Forschungspapiers dargelegt.

Wie bringt man ein Sprachmodell dazu, Mathematik zu machen, die es gar nicht kann?

Ein Schritt-für-Schritt-Diagramm, das zeigt, wie die PAL-Pipeline (Program-Aided Language Model) funktioniert — von der Nutzerfrage über die Codegenerierung durch das LLM und die deterministische Ausführung bis zur verifizierten Antwort in natürlicher Sprache —, im Gegensatz zum Standard-LLM-Ansatz, der die Antwort errät.

Der zentrale Mechanismus heißt Program-Aided Language Models, kurz PAL. Und die Eleganz davon begeistert mich noch immer.

Anstatt das LLM zu bitten, ein Problem zu lösen, bitten Sie es, ein Programm zu schreiben, das das Problem löst.

So sieht das in der Praxis aus. Ein Nutzer fragt: „Wenn ich einen Kredit über 50.000 $ zu 5 % jährlich verzinst aufnehme, wie viel schulde ich nach 3 Jahren?“

In einem Standard-LLM-Setup versucht das Modell, 50.000 $ × (1,05)³ im Kopf zu berechnen — mittels Token-Vorhersage. Manchmal kommt es richtig heraus. Manchmal nicht. Sie haben keine Möglichkeit zu wissen, welcher Antwort Sie trauen können.

In unserem System berechnet das LLM gar nichts. Es generiert ein paar Zeilen Python-Code: principal = 50000, rate = 0.05, years = 3, print(principal * (1 + rate) ** years). Dieser Code wird von einer deterministischen Laufzeitumgebung ausgeführt — ein echter Computer, der echte Mathematik betreibt. Die arithmetisch-logische Einheit der CPU liefert 57.881,25. Das LLM verpackt diese verifizierte Zahl dann in eine Antwort in natürlicher Sprache: „Nach 3 Jahren würden Sie 57.881,25 $ schulden.“

Das neuronale Netz tat, worin es gut ist: die Frage verstehen und Code generieren. Die symbolische Engine tat, worin sie gut ist: die Antwort mit perfekter Genauigkeit berechnen. Keines von beiden könnte die Arbeit des anderen erledigen. Zusammen sind sie beeindruckend.

Wir testeten dies gegen Standard-Chain-of-Thought-Prompting bei komplexen Rechenaufgaben. Standard-LLMs erreichten bei mehrstufigen Berechnungen eine Genauigkeit von unter 40 %. Chain-of-Thought verbesserte das auf mäßige, aber fehleranfällige Ergebnisse. Unser PAL-basierter neuro-symbolischer Ansatz erreichte nahezu perfekte Genauigkeit — begrenzt nur dadurch, ob die Logik des generierten Codes korrekt war, was ein weitaus einfacher zu verifizierendes und zu debuggendes Problem ist als probabilistische Token-Vorhersage.

Der Streit, der mein Team fast gespalten hätte

Ich muss Ihnen von einem internen Streit erzählen, den wir hatten, denn er prägte, wie wir über diese Architektur denken.

Als wir zum ersten Mal begannen, symbolische Solver zu integrieren, leistete einer meiner Ingenieure — ein brillanter Kopf, tief verwurzelt in der Welt des Deep Learning — heftigen Widerstand. Sein Argument: „Die Modelle werden alle sechs Monate besser. GPT-5 wird die Mathematikprobleme beheben. GPT-6 wird die Denkprobleme beheben. Du baust ein Gerüst für ein Gebäude, das sich sein eigenes Skelett wachsen lassen wird.“

Was den Trend anging, lag er nicht falsch. Modelle werden besser. Aber ich kam immer wieder auf ein strukturelles Argument zurück, das ich nicht abschütteln konnte.

Die Verbesserung von LLMs verläuft bei deterministischen Aufgaben asymptotisch. Eine Vorhersagemaschine 10-mal größer zu machen, macht sie nicht deterministisch — es macht sie zu einer größeren Vorhersagemaschine. Ein Modell, das Zinseszinsen in 95 % statt 87 % der Fälle richtig berechnet, ist immer noch ein Modell, dem man bei Finanzberechnungen nicht trauen kann. Die Lücke zwischen 95 % und 100 % ist keine Lücke, die man mit Skalierung schließt. Es ist eine Lücke, die eine andere Art von System erfordert.

Wir stritten zwei Tage lang darüber. Whiteboards voller Diagramme. Konkurrierende Benchmarks. An einem Punkt sagte jemand: „Nimm einfach GPT und füge einen Haftungsausschluss hinzu.“ Ich glaube, ich zuckte sichtbar zusammen.

Was die Sache entschied, war ein einfacher Test. Wir nahmen 100 Compliance-Szenarien von einem Bankkunden — Kreditwürdigkeitsprüfungen mit harten regulatorischen Schwellenwerten. Wir ließen sie durch ein hochmodernes LLM mit sorgfältigem Prompting laufen. Es genehmigte drei Kredite, die die Anforderungen an das Verhältnis von Schulden zu Einkommen verletzten, weil die Antragsteller überzeugende persönliche Statements geschrieben hatten. Das Modell wurde durch die Erzählung überzeugt. Es tat, wofür es entworfen war — Musterabgleich auf Sprache —, und dabei brach es das Gesetz.

Ein Chatbot, der in 5 % der Fälle lügt, ist nicht zu 95 % nützlich. Bei kritischen Aufgaben ist er zu 100 % unbrauchbar.

Mein Ingenieur ließ sich überzeugen. Nicht, weil der symbolische Ansatz sexier wäre — das ist er nicht —, sondern weil der Fehlermodus der Alternative inakzeptabel war.

Warum stecken „KI-Wrapper“-Unternehmen in Schwierigkeiten?

Lassen Sie mich einen Schritt zurücktreten und über die Geschäftslandschaft sprechen, denn die technische Architektur hat massive wirtschaftliche Implikationen.

Im Moment wird das KI-Start-up-Ökosystem von dem dominiert, was ich „Wrapper“-Unternehmen nenne — Unternehmen, deren Kernprodukt eine Benutzeroberfläche und etwas Prompt-Logik ist, die auf einem Foundation-Modell eines Drittanbieters aufsetzt. Sie verkaufen den Zugang zu Fähigkeiten weiter, die ihnen nicht gehören.

Das Problem ist struktureller Natur. Jedes Mal, wenn OpenAI oder Anthropic eine neue Modellversion veröffentlicht, absorbieren sie die Funktionen, die Wrapper bereitstellen. Das Start-up, das „KI zur PDF-Zusammenfassung“ verkauft, wird ausgelöscht, wenn das Foundation-Modell nativen Datei-Upload hinzufügt. Das Unternehmen, das „KI zur Codegenerierung“ anbietet, sieht sein Wertversprechen verdampfen, während die Basismodelle im Programmieren besser werden. Ihr Wettbewerbsvorsprung wird von Ihrem eigenen Lieferanten abgesaugt.

Unternehmenskunden bekommen das mit. Ich saß in Meetings, in denen CTOs ganz unverblümt sagten: „Warum sollte ich Sie dafür bezahlen, eine API zu umhüllen, die ich selbst aufrufen kann?“ Und sie haben recht, das zu fragen. Sensible Finanzdaten oder proprietären Code durch die Server eines Start-ups zu leiten, die sie dann an einen öffentlichen Modellanbieter weiterleiten, schafft eine inakzeptable Angriffsfläche. Die „Sovereign-AI“-Bewegung — Unternehmen, die verlangen, ihre Modelle zu besitzen und innerhalb ihrer eigenen Infrastruktur zu betreiben — beschleunigt sich.

Deshalb haben wir das Wrapper-Modell vom ersten Tag an abgelehnt. Wir verkaufen keinen Zugang zu Tokens. Wir verkaufen System-2-Architekturen — proprietäre symbolische Reasoning-Engines, domänenspezifische Knowledge Graphs, deterministische Compliance-Schichten. Wenn das zugrunde liegende Sprachmodell zur Massenware wird (und das wird es), verringert sich unser Wert nicht. Er steigt, weil die Logikschicht zum einzigen Unterscheidungsmerkmal wird, das zählt.

Was passiert, wenn man einem KI-Tutor ein echtes Gehirn gibt?

Lassen Sie mich das auf die Bildung zurückführen, denn dort fühlt sich für mich am meisten persönlich an, was auf dem Spiel steht.

Das Versprechen der KI-Nachhilfe ist außergewöhnlich: personalisierter Einzelunterricht für jeden Schüler, in großem Maßstab. Blooms berühmtes „2-Sigma-Problem“ zeigte, dass Schüler, die individuelle Nachhilfe erhalten, um zwei Standardabweichungen besser abschneiden als Schüler in herkömmlichen Klassenzimmern. Wenn KI auch nur einen Bruchteil dieses Nutzens liefern könnte, würde sie die Bildung transformieren.

Aber die aktuelle Generation von KI-Tutoren versagt auf eine Weise, die schlimmer ist als gar kein Tutor. Über das Multiplikationsdesaster hinaus, das ich zuvor beschrieben habe, gibt es dokumentierte Fälle, in denen Schüler auf die richtige Antwort kommen, die KI aber — die einen falschen Lösungsweg halluziniert — versucht, sie davon zu überzeugen, dass sie falsch liegen. Das Modell redet dem Schüler ein, korrektes Denken aufzugeben. In einem Bildungskontext, in dem Vertrauen alles ist, ist das verheerend.

Unser Ansatz ist grundlegend anders. Wir haben etwas gebaut, das wir eine Pedagogical Accuracy Engine nennen — und sie arbeitet auf drei Ebenen.

Erstens hält die symbolische Schicht ein Modell des Wissensstands jedes Schülers mithilfe von Bayesian Knowledge Tracing vor. Sie rät nicht, ob der Schüler Algebra versteht; sie verfolgt einen Wahrscheinlichkeitsvektor, der mit jeder Interaktion aktualisiert wird. Wenn der Schüler mit Geometrie kämpft, weiß das System es — mathematisch, nicht intuitiv — und passt sein Scaffolding entsprechend an.

Zweitens: Wenn die KI Übungsaufgaben generiert, denkt sie sich nicht einfach Zahlen aus. Die PAL-Engine stellt sicher, dass jede generierte Aufgabe saubere, lösbare Antworten liefert. Kein „berechne 7.349 geteilt durch 13,7“ mehr, wenn der Schüler grundlegende Division lernt. Die symbolische Schicht garantiert pädagogisch angemessene Schwierigkeit.

Drittens — und darauf bin ich am stolzesten — verankern wir die KI im spezifischen Lehrplan. Mithilfe von Property-Graph-Indexierung parsen wir das tatsächliche Lehrbuch in einen Knowledge Graph, in dem Konzepte Knoten und Beziehungen Kanten sind. Wenn das Lehrbuch „Primzahl“ auf eine bestimmte Weise definiert, verwendet die KI diese Definition, nicht irgendeine von Wikipedia abgeleitete Näherung, die in den Trainingsdaten des LLM lebt. Für die vollständige technische Aufschlüsselung, wie diese Schichten zusammenwirken, siehe unser Forschungspapier.

Das Compliance-Problem, über das niemand sprechen will

Ein Diagramm, das zeigt, wie die symbolische Veto-Schicht im Anwendungsfall der Kredit-Compliance funktioniert — die LLM-Ausgabe durchläuft ein regelprüfendes Gate, das die Antwort entweder genehmigt oder blockiert, bevor sie den Nutzer erreicht.

Bildung ist eine Domäne. Das Finanzwesen ist eine andere — und in mancher Hinsicht sind die Fehlermodi sogar noch alarmierender.

Eine Regionalbank kam zu uns, nachdem das System ihres vorherigen KI-Anbieters Kredite genehmigt hatte, die gegen regulatorische Kreditvergabekriterien verstießen. Das Problem war subtil und, sobald man die Architektur versteht, völlig vorhersehbar: Das LLM verarbeitete die persönlichen Statements der Antragsteller neben ihren Finanzdaten. Wenn ein Antragsteller eine überzeugende Geschichte über das Überwinden von Widrigkeiten schrieb, gewichtete der Musterabgleich des Modells — trainiert an Millionen von Beispielen überzeugender Erzählungen, die zu positiven Ergebnissen führten — die Erzählung über die harten Schwellenwerte des Schulden-zu-Einkommen-Verhältnisses.

Das Modell funktionierte nicht fehlerhaft. Es tat genau das, wofür es entworfen war: das wahrscheinlichste nächste Token in einer Sequenz vorherzusagen, die wie ein Gespräch zur Kreditgenehmigung aussah. Das Problem war, dass eine Kreditgenehmigung kein Gespräch ist. Es ist eine regelbasierte Entscheidung mit rechtlichen Grenzen.

Wir implementierten eine PyReason-Schicht — ein neuro-symbolisches Framework, das logisches Schlussfolgern über Knowledge Graphs unterstützt. Die Regeln sind explizit: WENN das Alter des Antragstellers unter 21 liegt UND der Bundesstaat New York ist, DANN darf der Kredittyp nicht Commercial sein. Bevor das LLM irgendeine Antwort an einen Kreditantragsteller generiert, durchläuft der Kontext die symbolische Engine. Wenn die vorgeschlagene Ausgabe gegen eine harte Regel verstößt, legt die symbolische Engine ihr Veto ein. Punkt.

Das Ergebnis: 100 % Einhaltung der regulatorischen Kreditvergabekriterien, kombiniert mit personalisierter, einfühlsamer Kommunikation gegenüber den Antragstellern. Die Stimme bleibt warm. Das Gehirn bleibt unbeugsam. Das ist der Punkt.

Wir bauen keine KI, die wahrscheinlich compliant ist. Wir bauen KI, die physisch unfähig ist, eine nicht-konforme Transaktion zu genehmigen, egal wie überzeugend die Eingabe ist.

„Werden größere Modelle das nicht einfach beheben?“

Die Leute fragen mich das ständig, und ich verstehe, warum. Der Verlauf der LLM-Fähigkeiten ist wirklich beeindruckend. Jede neue Version bewältigt mehr Grenzfälle, erzielt höhere Benchmark-Werte, macht weniger offensichtliche Fehler.

Aber hier ist, worauf ich immer wieder zurückkomme: Die Verbesserungskurve für deterministische Aufgaben hat eine Obergrenze, die in die Architektur eingebaut ist. Eine Vorhersagemaschine, egal wie groß, erzeugt Ausgaben probabilistisch. Sie größer zu machen, macht die Wahrscheinlichkeitsverteilung enger — aber sie wird nie zu einer Garantie. Und für die Bereiche, die am wichtigsten sind — die Bildung eines Kindes, die Diagnose eines Patienten, die gesetzlichen Rechte eines Kreditnehmers —, ist „wahrscheinlich korrekt“ keine Produktkategorie.

Es gibt auch ein praktisches Argument. Selbst wenn GPT-7 eine Genauigkeit von 99,9 % in der Arithmetik erreicht (was bemerkenswert wäre), bedeutet das immer noch einen Fehler pro tausend Berechnungen. Eine Bank, die täglich zehntausend Kreditanträge bearbeitet, würde täglich zehn fehlerhafte Berechnungen erzeugen. Jede einzelne ist ein potenzieller Regelverstoß. Jede einzelne ist eine Klage, die nur darauf wartet, zu passieren. Die symbolische Schicht reduziert die Fehlerrate nicht auf 99,9 %. Sie reduziert sie für jede über den Solver geleitete Operation auf null.

Der andere Einwand, den ich höre: „Fügt das nicht einfach Komplexität hinzu?“ Ja. Das tut es. Ein neuro-symbolisches System ist schwieriger zu bauen als ein Wrapper. Es erfordert das Verständnis beider Paradigmen — des statistischen und des logischen — und das Engineering der Brücke zwischen ihnen. Aber die Komplexität lebt in der Architektur, damit sie nicht im Fehlermodus leben muss. Ich baue lieber ein komplexes System, das funktioniert, als ein einfaches System, das unvorhersehbar versagt.

Die Brücke zwischen zwei Arten von Intelligenz

Ich möchte Ihnen ein Bild mit auf den Weg geben, das mir seit Beginn dieser Arbeit im Kopf feststeckt.

Denken Sie darüber nach, wie Sie tatsächlich denken. Wenn ein Freund Sie bittet, ein Restaurant zu empfehlen, nutzen Sie Intuition — Musterabgleich auf vergangene Erfahrungen, Stimmungen, Assoziationen. System 1. Schnell und flüssig. Aber wenn Ihr Buchhalter Sie bittet, eine Steuerberechnung zu überprüfen, holen Sie einen Taschenrechner heraus. System 2. Langsam und sicher. Sie versuchen nicht zu erahnen, ob die Zahlen aufgehen. Sie prüfen es.

Jedes KI-System, das heute in der Welt eingesetzt wird, arbeitet allein mit System 1. Es ist, als hätten wir eine Zivilisation brillanter Gesprächspartner gebaut, die keine Taschenrechner benutzen können, und sie dann für die Banken, die Krankenhäuser und die Schulen verantwortlich gemacht.

Die Lösung besteht nicht darin, die Gesprächspartner wegzuwerfen. Sie sind außergewöhnlich in dem, was sie tun. Die Lösung besteht darin, ihnen einen Taschenrechner in die Hand zu geben — und sicherzustellen, dass sie ihn benutzen.

Das ist es, was neuro-symbolische KI ist. Kein Ersatz für große Sprachmodelle. Eine Vervollständigung von ihnen. Die Stimme und das Gehirn, die zusammenarbeiten, mit einer Brücke, die weiß, wann zu sprechen und wann zu rechnen ist.

Wir bauen diese Brücke. Und ich glaube, sie ist die einzige Architektur, die es verdient, mit den Dingen betraut zu werden, die zählen.

Related Research

Also Published On