
Der Tippfehler für 800.000 $ pro Tag: Wie ein verwirrter KI-Katheter die Arzneimittelforschung tötet
Es war ein Dienstagabend, und ich starrte auf eine Tabelle, die keinen Sinn ergab.
Wir hatten ein Pilotprojekt durchgeführt — wir testeten, wie gut ein großes Sprachmodell Patientenakten gegen die Eignungskriterien für eine Onkologiestudie prüfen konnte. Das Protokoll war unkompliziert, wie es Onkologieprotokolle so sind: ein neuartiges Antikoagulans mit einer Liste von Ausschlusskriterien, von denen eines „vorherige Herzkatheteruntersuchung“ lautete. Herzkatheterisierung. Ein Katheter, der in die Herzkammern eingeführt wird, um die Koronarfunktion zu beurteilen. Ein ernsthafter, invasiver kardialer Eingriff.
Die KI hatte einen Patienten als ungeeignet markiert. Grund: Herzkatheteruntersuchung. Ich rief die Akte des Patienten auf. Der dokumentierte Eingriff war eine zentralvenöse Punktion — ein zentraler Zugang, der zur Medikamentengabe in die Jugularvene gelegt wird. Es ist ein bettseitiger Gefäßzugangseingriff. Pflegekräfte führen ihn auf der Intensivstation durch. Es ist kein Herzeingriff. Nicht einmal annähernd.
Aber das Modell sah „Katheter“, sah „venös“, sah, dass die Notiz auf einer kardiologischen Intensivstation verfasst worden war, und schloss daraus: dasselbe. Der Patient war weg. Ausgeschlossen. Wurde dem Studienkoordinator nie vorgelegt. Und das ist es, was mich verfolgte — niemand hätte es bemerkt. Das System hätte stillschweigend einen geeigneten Patienten verworfen, und die Studie wäre um eine Person kürzer gewesen, und niemand hätte gewusst, warum die Rekrutierung hinterherhinkte.
Das war der Moment, in dem ich aufhörte zu glauben, dass bessere Prompts die Rekrutierung für klinische Studien reparieren würden. Das Problem ist nicht der Wortschatz des Modells. Das Problem ist, dass wir eine Wahrscheinlichkeitsmaschine einsetzen, um die Arbeit der Logik zu erledigen.
Warum bleiben 80 % der Pharma-Pipeline in der Rekrutierung stecken?
Die Pharmaindustrie hat ein schmutziges Geheimnis, bei dem keine Bilanzpressekonferenz gern verweilt: Ungefähr 80 % der klinischen Studien halten ihre Rekrutierungsfristen nicht ein. Nicht weil die Wissenschaft falsch ist. Nicht weil es keine Patienten gibt. Sondern weil der Prozess, geeignete Patienten zu finden und sie mit Studien abzugleichen, auf grundlegender Ebene kaputt ist.
Lassen Sie mich diesem Missstand einen Dollarbetrag geben. Laut dem Tufts Center for the Study of Drug Development kostet ein einziger Tag Verzögerung in der Arzneimittelentwicklung heute grob 800.000 $ an entgangenen Verschreibungsumsätzen für einen umsatzstarken Wirkstoff. Bei kardiovaskulären Erkrankungen und Hämatologie steigt diese Zahl auf über 1,3 Millionen $ pro Tag. Bei einer sechsmonatigen Rekrutierungsverzögerung bei einem konkurrenzfähigen Onkologiemedikament — die Art von Verzögerung, die routinemäßig vorkommt — sprechen wir über eine Zahl, die eine wissenschaftlich überlegene Therapie kommerziell tot auf die Welt kommen lassen kann.
Der Engpass in der Arzneimittelforschung ist nicht mehr die Wissenschaft. Es ist die Syntax.
Und die operative Realität ist noch düsterer als die finanzielle. 37 % der Prüfzentren rekrutieren zu wenig, und 11 % gelingt es nicht, auch nur einen einzigen Patienten zu rekrutieren. Jedes Screening-Versagen — ein Patient, der auf dem Papier geeignet aussieht, es aber nicht ist — kostet etwa 1.200 $. Wenn Ihr KI-Tool 100 „Treffer“ generiert und nur 5 echt sind, haben Sie die Rekrutierung nicht automatisiert. Sie haben einen Denial-of-Service-Angriff auf Ihre eigenen Prüfzentren gestartet.
Ich habe das miterlebt. Studienkoordinatoren, die von unseren frühen Prototypen begeistert gewesen waren, begannen, die Trefferlisten völlig zu ignorieren. „Ihr Tool liefert mir Müll“, sagte mir eine bei einem Telefonat. Sie hatte nicht unrecht. Sie kehrte dazu zurück, PDFs manuell durchzusehen. Strg+F. Der tatsächliche Stand der Technik in der Branche.
Der Katheter, der meinen Glauben an LLMs zerstörte
Lassen Sie mich tiefer in diesen Fehler von jenem Dienstagabend eintauchen, denn er verdeutlicht etwas, worüber die meisten Verkaufsargumente für KI im Gesundheitswesen hinweggehen.
Wenn ein großes Sprachmodell Text verarbeitet, wandelt es Wörter in Vektoren um — Punkte in einem hochdimensionalen mathematischen Raum. Wörter, die in ähnlichen Kontexten vorkommen, landen nahe beieinander. „Herzkatheterisierung“ und „zentralvenöse Katheterisierung“ sind im Vektorraum praktisch Nachbarn. Beide betreffen Katheter. Beide betreffen das Gefäßsystem. Beide erscheinen in klinischen Notizen, umgeben von ähnlichem medizinischem Fachjargon.
Aber sie sind völlig unterschiedliche Eingriffe, die auf verschiedene anatomische Strukturen abzielen, mit unterschiedlichen Risikoprofilen und unterschiedlichen klinischen Auswirkungen. Der eine geht ins Herz. Der andere geht in eine Vene. Das Protokoll schloss den ersten aus. Der Patient hatte den zweiten. Und die KI konnte den Unterschied nicht erkennen, weil sie Anatomie nicht versteht — sie versteht Wortnähe.
Das ist kein Randfall. Studien, die KI-Modelle für das Studien-Matching bewerten, haben genau diesen Fehlermodus identifiziert: Modelle schließen fälschlicherweise, dass eine Herzkatheterisierung dasselbe ist wie eine zentralvenöse Punktion, was zu fälschlichem Ausschluss führt. Es ist eine Fehlerklasse, kein einmaliger Bug.
Ich brachte das am nächsten Morgen meinem Team vor. Einer unserer Ingenieure — brillanter Kerl, Deep-Learning-Hintergrund — schlug vor, wir könnten es mit besserem Fine-Tuning beheben. Mehr medizinische Trainingsdaten. Größere Kontextfenster. Ich erinnere mich an die Diskussion, die folgte, denn es war die Diskussion, die unsere gesamte technische Ausrichtung prägte. Meine Position war einfach, und ich sagte sie wahrscheinlich zu unverblümt: eine fehlende Ontologie lässt sich nicht durch Fine-Tuning kompensieren.
Ein LLM weiß nicht, dass „Herzkatheterisierung“ auf einem anderen Ast des Baums medizinischer Eingriffe sitzt als „zentralvenöse Katheterisierung“. Es hat keinen Baum. Es hat einen Nebel statistischer Assoziationen. Und keine noch so große Menge an Trainingsdaten wird ihm das starre, hierarchische Verständnis geben, das eine medizinische Ontologie liefert — das Wissen, dass Eingriff A ein Untertyp von „Eingriff am Herzen“ ist, während Eingriff B ein Untertyp von „Katheterisierung einer Vene“ ist, und dass diese kategorisch verschieden sind.
Diese Diskussion endete damit, dass wir unsere Architektur von Grund auf neu aufbauten.
Was ist ontologiegetriebene Phänotypisierung, und warum sollte Sie das interessieren?

Hier ist die Idee in einfachen Worten: Statt eine KI zu bitten, Krankenakten zu lesen und zu erraten, was sie bedeuten, zwingen wir die KI, jedes medizinische Konzept, dem sie begegnet, in einen standardisierten Code aus SNOMED CT zu übersetzen — dem umfassendsten klinischen Terminologiesystem der Welt —, bevor sie irgendeine Entscheidung trifft.
SNOMED CT ist kein Wörterbuch. Es ist ein riesiger gerichteter Graph, in dem medizinische Konzepte durch logische Beziehungen verbunden sind. Die wichtigste ist die Is-A-Beziehung. „Koronarangiographie“ is-a „Herzkatheterisierung“ is-a „Eingriff am Herzen“. „Zentralvenöse Katheterisierung“ is-a „Katheterisierung einer Vene“ is-a „Einlegen eines Gefäßkatheters“. Verschiedene Äste. Verschiedene Elternknoten. Verschiedene Bedeutung.
Wenn unser System also auf ein Protokoll stößt, das „Herzkatheterisierung“ ausschließt, und auf eine Patientenakte, die die Anlage eines zentralen Zugangs erwähnt, vergleicht es keine Zeichenketten oder Vektoren. Es fragt die Ontologie: Ist der Eingriff dieses Patienten ein Untertyp des ausgeschlossenen Eingriffs? Der Graph antwortet nein. Der Patient bleibt geeignet. Deterministisch. Jedes Mal.
Wir hörten auf zu fragen „sehen diese Wörter ähnlich aus?“ und begannen zu fragen „sind diese Konzepte logisch verwandt?“. Diese eine Umstellung veränderte alles.
Das funktioniert sogar, wenn Ärzte in Kurzform schreiben. „Herzkatheter“, „Angio“, „LHC“, „zentraler Zugang“, „ZVK-Anlage“ — SNOMED CT ordnet all diese Varianten bestimmten Konzept-IDs zu. Sobald man mit Konzept-IDs statt mit Zeichenketten arbeitet, verschwindet die Mehrdeutigkeit. Man gleicht Bedeutung mit Bedeutung ab, nicht Wort mit Wort.
Über die technische Architektur dahinter — die SNOMED-CT-Hierarchien, die Post-Koordination für Lateralität und Schweregrad, die Konstruktion berechenbarer Phänotypen — habe ich in der interaktiven Version unserer Forschung geschrieben. Aber die Kernerkenntnis ist einfach: Medizinische KI braucht eine Landkarte der Medizin, nicht nur ein statistisches Modell der medizinischen Sprache.
Wie parst man „es sei denn“?

Die Ontologie behandelt das Was — über welche medizinischen Konzepte sprechen wir? Aber Protokolle klinischer Studien haben eine weitere Komplexitätsebene, mit der generische KI schrecklich umgeht: die Logik der Eignung.
Hier ist ein echtes Ausschlusskriterium aus einer Onkologiestudie:
„Patienten mit Bluthochdruck ausschließen, es sei denn, er ist seit mindestens 3 Monaten mit einer stabilen Medikation gut eingestellt.“
Ein Schlüsselwort-Abgleicher sieht „Bluthochdruck“ und schließt den Patienten aus. Ein boolescher Filter sieht Bluthochdruck = WAHR und schließt aus. Beide Ansätze werfen einen Patienten weg, der zwar Bluthochdruck hat, aber vollkommen geeignet ist, weil sein Blutdruck seit Monaten kontrolliert und stabil ist.
Das trieb mich leicht in den Wahnsinn, als ich es erstmals in großem Maßstab erlebte. Wir zogen die Eignungskriterien aus einer Reihe von Onkologieprotokollen der Phasen II und III heran und stellten fest, dass die Mehrheit bedingte Ausschlüsse enthielt — „es sei denn“-Klauseln, „außer wenn“-Klauseln, zeitliche Abhängigkeiten wie „innerhalb von 6 Monaten“ oder „vor mehr als 90 Tagen abgeschlossen“. Das sind keine Randfälle. Sie sind die Norm. Und jede einzelne von ihnen ist eine Falle für Systeme, die nicht über Bedingungen, Erlaubnisse und Zeit schlussfolgern können.
Wir wandten uns der deontischen Logik zu — einem Zweig der formalen Logik, der sich mit Verpflichtungen, Erlaubnissen und Verboten befasst. Es ist die Logik von Normen und Regeln, ursprünglich von Philosophen entwickelt, und sie passt perfekt auf die Kriterien klinischer Studien. Bluthochdruck zu haben ist verboten — es sei denn, man erfüllt zusätzlich die Erlaubnis-Bedingungen eines kontrollierten Blutdrucks und einer stabilen Medikation für die erforderliche Dauer. Das System modelliert dies als formalen logischen Ausdruck, prüft den Zeitverlauf des Patienten und berechnet die Eignung mit mathematischer Präzision.
Ein weiteres Muster, das wir ständig sehen:
„Patienten dürfen keine vorherige Chemotherapie erhalten haben, es sei denn, es handelte sich um eine neoadjuvante Therapie, die vor mehr als 6 Monaten abgeschlossen wurde.“
Die KI muss gleichzeitig drei Dinge überprüfen: Hat der Patient eine Chemotherapie erhalten? War ihr Ziel neoadjuvant? Und endete sie mehr als sechs Monate vor dem Referenzdatum? Wir handhaben dies mit dem, was die Literatur Temporal Ensemble Logic nennt — das System erstellt einen Zeitverlauf der klinischen Vorgeschichte des Patienten und ordnet Ereignisse gültigen Beobachtungsfenstern zu.
Eine Schlüsselwortsuche sieht „Chemotherapie“ in der Akte und gerät in Panik. Unser System sieht Chemotherapie, prüft das Ziel-Attribut, misst den Zeitabstand und stellt die Eignung korrekt fest.
Die Architektur, nach der niemand gefragt hat (die aber jeder braucht)

Wenn ich unseren Ansatz Investoren und Pharmamanagern beschreibe, ernte ich manchmal einen bestimmten Blick — den Blick, der sagt: „Warum machen Sie das so kompliziert? Nutzen Sie doch einfach GPT.“
Diesen Blick bekam ich von einem potenziellen Partner etwa ein Jahr nach Beginn unserer Entwicklung. Er war ein kluger Kopf, leitete das Team für digitale Innovation eines CRO, und er glaubte ernsthaft, dass ein gut geprompteter GPT-4-Wrapper mit ein bisschen angeflanschter Retrieval-Augmented Generation das Problem lösen würde. „Die Modelle werden jedes Quartal besser“, sagte er mir. „Sie überkonstruieren das.“
Ich rief unsere Testergebnisse auf. Derselbe Datensatz, dieselben Eignungskriterien. Der GPT-Wrapper seines Teams: schwankende Genauigkeit zwischen den Durchläufen — buchstäblich unterschiedliche Antworten für denselben Patienten, je nachdem, wann man ihn ausführte. Kein Audit-Trail. Keine Möglichkeit zu erklären, warum ein Patient ein- oder ausgeschlossen wurde. Und eine Genauigkeit, die je nach Komplexität der Kriterien bei etwa 63–87 % ihren Höchstwert erreichte.
Unser neuro-symbolisches System: deterministisch, reproduzierbar, >95 % Genauigkeit, mit einer vollständigen Begründungsspur für jede Entscheidung.
Die FDA akzeptiert „die KI dachte es sich so“ nicht als Begründung. Sie brauchen einen logischen Beweis. Das ist kein Nice-to-have — es ist der Unterschied zwischen einem Werkzeug, das die klinische Forschung ergänzt, und einem Spielzeug, das Demo-Publikum beeindruckt.
So funktioniert die Architektur tatsächlich, ohne Sie in Implementierungsdetails zu ertränken:
Das LLM liest. Es nimmt die chaotische, unstrukturierte Realität von Krankenakten auf — gescannte PDFs, handschriftliche Notizen, ärztliche Berichte — und seine einzige Aufgabe besteht darin, medizinische Entitäten zu extrahieren und zu normalisieren. Es liest „Pat. klagt über Brustschmerzen“ und gibt das SNOMED-Konzept für Brustschmerzen aus. Das war's. Das LLM ist die Wahrnehmungsschicht. Es trifft niemals eine Eignungsentscheidung.
Der Wissensgraph ordnet zu. Extrahierte Entitäten werden SNOMED-CT-Konzept-IDs zugeordnet, kontextbezogen disambiguiert. „Erkältung“ das Virus gegenüber „kalt“ die Temperatur. Die Graphstruktur löst die Mehrdeutigkeit auf.
Der Logiklöser schlussfolgert. Hier findet die eigentliche Eignungsfeststellung statt — ein deterministischer symbolischer Reasoner, der deontische Logikregeln auf den strukturierten Phänotyp des Patienten anwendet. Er prüft Is-A-Beziehungen, berechnet zeitliche Dauern, wertet bedingte Erlaubnisse aus. Bei denselben Eingaben erzeugt er stets dieselbe Ausgabe.
Wir verwenden außerdem GraphRAG statt des standardmäßigen vektorbasierten Retrievals. Standard-RAG ruft Dokumentabschnitte auf Grundlage von Wortähnlichkeit ab. GraphRAG durchläuft Beziehungen. Wenn eine Studie „jedes Medikament, das mit CYP3A4-Enzymen interagiert“ ausschließt und ein Patient Medikament B einnimmt, könnte Standard-RAG die Verbindung verpassen, wenn die Akte des Patienten nie ausdrücklich sagt „Medikament B ist ein CYP3A4-Inhibitor“. GraphRAG weiß es, weil der Wissensgraph die Beziehung enthält: Medikament B hemmt CYP3A4. Multi-Hop-Schlussfolgern. Die Art von Verbindung, die ein Apotheker intuitiv herstellt, ein textabgleichendes System aber nie.
Für die vollständige technische Aufschlüsselung der Architektur — die neuro-symbolische Integration vom Typ 4, das konzeptbewusste Decoding, die FHIR/CDISC-Interoperabilitätsschicht — siehe unser detailliertes Forschungspapier.
„Aber werden die Modelle nicht einfach besser?“
Bei diesem Punkt widersprechen mir die Leute immer, und ich verstehe warum. Die Entwicklung der LLMs ist wirklich beeindruckend. Alle paar Monate erzielt ein neues Modell höhere Werte bei medizinischen Benchmarks. Warum also nicht warten?
Weil das Problem nicht die Leistungsfähigkeit ist — es ist die Architektur. Ein LLM ist ein probabilistischer Token-Prädiktor. Es größer zu machen und mit mehr medizinischem Text zu trainieren, macht es zu einem besseren probabilistischen Token-Prädiktor. Es macht es nicht zu einer Logik-Engine. Es verleiht ihm keinen Determinismus. Es verleiht ihm keinen Audit-Trail. Und in einer regulierten Branche, in der FDA und EMA genau wissen müssen, warum Patient Nr. 4.271 von Studie XYZ-003 ausgeschlossen wurde, ist „das Modell sagte voraus, dass dies die wahrscheinlichste Antwort war“ nicht akzeptabel.
Da ist auch noch das Datenschutzproblem, das mit der Skalierung nicht verschwindet. Das Senden unstrukturierter Patientenakten an cloudbasierte Modell-APIs — selbst Enterprise-Varianten — schafft eine HIPAA- und DSGVO-Angreifbarkeit, die keine noch so große Zahl an BAA-Vereinbarungen vollständig abmildert. Unsere Architektur hält Patientendaten innerhalb sicherer Enklaven. Die symbolische Schlussfolgerungsschicht und der Wissensgraph laufen lokal. Die neuronale Schicht kann ein lokales Open-Source-Modell sein. Geschützte Gesundheitsinformationen verlassen niemals die Firewall.
Und dann ist da noch das Reproduzierbarkeitsproblem, das ich am vernichtendsten finde. Führen Sie dieselbe Patientenakte zweimal mit demselben Prompt durch ein LLM, und Sie können unterschiedliche Antworten erhalten. Ändern Sie die Temperatureinstellung, passen Sie das Kontextfenster an, formulieren Sie die Frage leicht um — ein anderes Ergebnis. Klinische Studien erfordern zu 100 % reproduzierbare Entscheidungen. Der regulatorische Rahmen verlangt es. Die Ethik verlangt es.
Die Patienten, die wir verlieren
Ich habe den größten Teil dieses Essays damit verbracht, über Architektur und Ökonomie zu sprechen, aber ich möchte an einem ehrlicheren Ort enden.
Für Patienten mit metastasiertem Krebs oder AML oder einer seltenen genetischen Erkrankung ist eine sechsmonatige Rekrutierungsverzögerung kein Posten in einem Finanzmodell. Sie ist der Unterschied zwischen dem Zugang zu einer potenziell heilenden Therapie und keinem Zugang. Wenn unser System einen geeigneten Patienten fälschlich ausschließt — weil es zwei Katheter-Eingriffe verwechselt oder eine „es sei denn“-Klausel nicht parsen konnte —, bekommt dieser Patient keine Benachrichtigung, die sagt „Entschuldigung, die KI hat einen Fehler gemacht“. Er erfährt einfach nie von der Studie. Sein Onkologe erhält nie die Meldung. Der Platz bleibt unbesetzt, oder er geht an jemand anderen, und der Patient wird weiter nach dem Behandlungsstandard versorgt, ohne je zu wissen, dass eine Option existiert hätte.
Daran denke ich, wenn mir jemand sagt, ich solle doch einfach eine Wrapper-API nutzen.
Wir haben Veriprajna gegründet, weil die Kluft zwischen dem, was KI im Gesundheitswesen verspricht, und dem, was sie tatsächlich liefert, kein Marketingproblem ist — es ist ein Ingenieursproblem. Die Branche hat die einfache Architektur gewählt (wirf ein LLM darauf) statt der richtigen Architektur (gib dem LLM eine Ontologie und einen Logiklöser und beschränke es darauf, nur das zu tun, worin es gut ist).
Wir werden uns nicht per Prompt-Engineering den Weg zur Präzisionsmedizin bahnen. Wir brauchen Systeme, die schlussfolgern, nicht Systeme, die selbstbewusst raten.
Die Heilung für die Rekrutierungskrise sind nicht bessere Sprachmodelle. Es ist die Erkenntnis, dass Eignung ein Logikproblem im Sprachkostüm ist. Streift man den unstrukturierten Text ab, ordnet ihn einer medizinischen Ontologie zu, wendet formales Schlussfolgern an, dann sehen die 80 % der Studien, die ihre Rekrutierungsfristen verfehlen, plötzlich eher wie ein lösbares Problem aus als wie eine unvermeidliche Branchengegebenheit.
Hören Sie auf, Wörter abzugleichen. Beginnen Sie, Patienten abzugleichen. Der Unterschied ist ein Wissensgraph, ein Logiklöser und die Bereitschaft, etwas Schwierigeres als einen Wrapper zu bauen.