Eine konzeptionelle Gegenüberstellung, die die zentrale Spannung des Artikels zeigt — das Foto eines echten Autoschadens gegenüber einer KI-„verbesserten", makellosen Version, als Sinnbild für das Wahrheitsproblem der Versicherungs-KI.
Artificial IntelligenceInsuranceComputer Vision

Eine KI hat ein Wrack „repariert" und den Anspruch abgelehnt. Da wusste ich: Die Branche hat ein Problem.

Ashutosh SinghalAshutosh Singhal18. Februar 202612 min

Ich starrte auf zwei Fotos desselben Autos.

Das erste stammte von einem Versicherungsnehmer nach einem Auffahrunfall. Zerknautschtes Blech, bis auf das blanke Metall abgeschabter Lack, ein Stoßfänger, der aussah, als hätte man ihn als Bremsschwelle benutzt. Das zweite Foto — angeblich dasselbe Fahrzeug, verarbeitet durch das glänzende neue KI-Tool des Versicherers — zeigte ein makelloses Heck. Glatte Linien, perfekter Lack, kein einziger Kratzer. Die automatisierte Schadenbearbeitungs-Engine betrachtete dieses zweite Bild und tat genau das, was man erwarten würde: Sie lehnte den Anspruch ab. Kein sichtbarer Schaden.

Der Versicherungsnehmer, der in seiner Einfahrt neben einem Auto stand, das ganz offensichtlich einen zerstörten Stoßfänger hatte, verklagte den Versicherer wegen bösgläubigen Verhaltens. Und der Versicherer blieb auf einem digital fabrizierten Beweisstück sitzen, das der physischen Realität widersprach.

Das ist der Vorfall des „makellosen Stoßfängers", und als ich die Details zum ersten Mal las, empfand ich eine Mischung aus Entsetzen und Bestätigung. Entsetzen, weil eine KI faktisch eine Beweismittelvernichtung begangen hatte — die Veränderung eines rechtlichen Dokuments auf eine Weise, die einem echten Menschen schadete. Bestätigung, weil dies genau der Fehlermodus war, vor dem mein Team und ich seit Monaten gewarnt hatten, der Grund, warum wir Veriprajna so gebaut haben, wie wir es getan haben.

Die Versicherungsbranche hat kein KI-Problem. Sie hat ein Wahrheitsproblem. Und die Tools, die die meisten Versicherer überstürzt einführen, verschlimmern es noch.

Die Nacht, in der die Delle verschwand

Lassen Sie mich erklären, was in diesem Stoßfänger-Fall tatsächlich passiert ist, denn der technische Mechanismus ist entscheidend.

Der Versicherer hatte ein generatives KI-Tool in seine mobile Schaden-App integriert. Das erklärte Ziel war harmlos genug: die Qualität der von Kunden hochgeladenen Fotos zu „verbessern", damit Sachbearbeiter Schäden deutlicher erkennen konnten. Besseres Licht, schärfere Details, solche Dinge.

Aber genau das tun generative Bildmodelle tatsächlich. Sie werden mit Milliarden von Bildern trainiert, um zu lernen, wie Dinge aussehen sollten. Im mathematischen Universum des Modells — seinem latenten Raum — wird ein „Auto" überwiegend als glattes, symmetrisches Objekt mit unversehrten Oberflächen dargestellt. So sehen Autos auf der überwiegenden Mehrheit der Fotos im Internet aus.

Als dieses Modell also auf eine Delle stieß, sah es keinen Schaden. Es sah Rauschen. Eine statistische Anomalie. Eine Abweichung vom erwarteten Muster „Auto". Und es tat, wofür es entwickelt worden war: Es entfernte das Rauschen. Das Modell nutzte einen Prozess namens Inpainting, um das zerknautschte Blech Pixel für Pixel digital wieder zu einem perfekten Kotflügel zu glätten.

Für ein Diffusionsmodell sieht eine Delle wie Rauschen aus. Das Modell entfernt sie. In der Kunst ist das ein Feature. In der Versicherung ist es die automatisierte Vernichtung von Beweismitteln.

Das war kein Bug. Das Modell funktionierte genau wie vorgesehen. Das ist der Teil, der mich nachts wachhält.

Warum macht generative KI das immer wieder falsch?

Ein Vergleichsdiagramm, das zeigt, wie generative KI (semantische Plausibilität) und forensische Computer Vision (physische Messung) dasselbe Foto eines beschädigten Autos verarbeiten, und erklärt, warum generative Modelle bei der Schadensbewertung versagen.

Ich erinnere mich an ein Gespräch mit einem potenziellen Investor in der Anfangszeit — vielleicht ein halbes Jahr nach Beginn des Aufbaus von Veriprajna. Er kam gerade von einer Demo eines anderen InsurTech-Startups, das GPT-4 Vision einsetzte, um Fahrzeugschäden anhand von Fotos zu klassifizieren. „Warum wrappen Sie nicht einfach GPT?", fragte er. „Das ist schneller. Das ist günstiger. Die Demo sah großartig aus."

Ich rief zwei Bilder auf meinem Laptop auf. Das eine war ein echtes Foto von Hagelschäden an einer schwarzen Limousine — winzige Vertiefungen, unsichtbar für das ungeschulte Auge, aber die Spiegelungen auf der Motorhaube deutlich verzerrend. Das andere war ein Deepfake, den ich in etwa vier Minuten mit einem Bildbearbeitungstool für Endverbraucher erzeugt hatte: ein makelloses Auto mit einem digital aufgemalten Riss quer über der Windschutzscheibe.

Ich fragte ihn: „Welches hat einen echten Schaden?"

Er zeigte auf den Deepfake.

Das ist das Problem. Generative KI-Modelle — jene, die derzeit die überwiegende Mehrheit der „KI-Schaden"-Startups antreiben — beruhen auf semantischer Plausibilität, nicht auf forensischer Realität. Sie werden darauf trainiert zu verstehen, wie Dinge aussehen, nicht was Dinge sind. Ein Modell, das brillant darin ist, fotorealistische Bilder von Autos zu erzeugen, ist durch genau denselben Mechanismus miserabel darin, zu bestimmen, ob ein Schaden auf einem Foto echt, synthetisch oder digital entfernt worden ist.

Und die Unternehmen, die auf diesen Modellen aufbauen? Die meisten von ihnen sind das, was die Branche Wrapper nennt — dünne Schnittstellenschichten über der API eines anderen. Ihnen gehört das Modell nicht. Sie kontrollieren die Trainingsdaten nicht. Sie können nicht erklären, warum eine Entscheidung getroffen wurde. Wenn OpenAI morgen seine Modellgewichte aktualisiert, damit sie „ästhetisch ansprechender" werden, könnte das Schadensbewertungstool eines Wrappers beginnen, Autos mit größerem Enthusiasmus zu reparieren, und das InsurTech-Unternehmen würde nicht einmal merken, dass es geschehen ist.

Der Versicherer trägt derweil 100 % der Haftung.

Über dieses Abhängigkeitsproblem habe ich ausführlicher in der interaktiven Version unserer Forschungsarbeit geschrieben, aber die Kurzfassung lautet: Wenn Ihnen das Gehirn nicht gehört, das Entscheidungen über Ihre Schadensfälle trifft, kontrollieren Sie Ihr Risiko nicht.

Was passiert, wenn Betrüger dieselben Werkzeuge bekommen?

Hier ist die Wendung, die das Ganze noch schlimmer macht.

Während Versicherer versehentlich KI einsetzen, um Schäden zu löschen, nutzen Betrüger dieselbe Technologie, um sie zu erzeugen. Die Einstiegshürde für Versicherungsbetrug ist im Grunde zusammengebrochen.

Jemand kann heute ein völlig intaktes Fahrzeug fotografieren, ein Bildgenerierungstool für Endverbraucher öffnen und es anweisen, „einen zertrümmerten vorderen Stoßfänger hinzuzufügen" oder „Brandschäden zu simulieren". Modernes Inpainting bewältigt Licht, Schatten und Spiegelungen mit erschreckendem Realismus. Ein Standard-KI-Bildklassifikator — die Art, die die meisten Versicherer verwenden — wird diesen Deepfake betrachten und bestätigen: Ja, das ist ein zertrümmertes Auto. Er versagt, weil er den Inhalt bewertet, nicht den strukturellen Fingerabdruck dessen, wie das Bild erzeugt wurde.

Es wird noch düsterer. Kriminelle Banden nutzen generative KI, um synthetische Identitäten zu erzeugen — hyperrealistische Gesichter von Menschen, die nicht existieren, gefälschte Führerscheine, fabrizierte Krankenakten. Diese digitalen Phantome schließen Policen ab, zahlen einige Monate lang Prämien, um Legitimität aufzubauen, und reichen dann katastrophale Schadensforderungen ein. In der Lebensversicherung KI-generierte Nachrufe und Leichenschauberichte. In der Krankenversicherung Röntgenbilder, die Brüche zeigen, die nie passiert sind.

Und die traditionellen Abwehrmechanismen versagen. KI-generierte Bilder haben oft bereinigte oder synthetisierte Metadaten. Menschliche Prüfer? Studien zeigen, dass sie beim Erkennen hochwertiger Deepfakes kaum besser abschneiden als ein Münzwurf.

Dieselbe Technologie, die es einem Versicherer erlaubt, ein Foto zu „verbessern", erlaubt es einem Betrüger, eines zu fabrizieren. Und die meisten KI-Tools auf dem Markt können den Unterschied nicht erkennen.

Das ist das Wettrüsten, über das in der InsurTech-Branche niemand ehrlich sprechen möchte.

Die Lupe, nicht der Pinsel

Ein dreischichtiges Architekturdiagramm, das Veriprajnas forensische Analyse-Pipeline zeigt — semantische Segmentierung, monokulare Tiefenschätzung und Analyse spiegelnder Reflexionen — mit dem, was jede Schicht erkennt.

Es gab einen bestimmten Moment, in dem sich die Philosophie hinter Veriprajna für mich herauskristallisierte. Mein Team und ich stritten — wir stritten wirklich, mit erhobenen Stimmen — über unseren technischen Ansatz.

Einer unserer Ingenieure wollte ein großes Vision-Language-Modell für die Schadensklassifizierung feinabstimmen. Es wäre schneller zu bauen, leichter zu demonstrieren gewesen, und ehrlich gesagt hätte es auf Investoren beeindruckender gewirkt. „Der Markt will generativ", sagte er. „Da ist das Geld."

Ich rief den Fall des makellosen Stoßfängers auf dem Bildschirm im Konferenzraum auf. „Dahin bringt einen generativ", sagte ich. „Eine Klage und ein fabriziertes Beweisstück."

Der Raum wurde still. Dann sagte unser leitender Computer-Vision-Forscher — der vor seinem Wechsel zu uns Jahre in der industriellen Inspektion verbracht hatte — etwas, das ich nie vergessen habe: „Ein Sachbearbeiter braucht keinen Pinsel. Er braucht eine Lupe."

Das wurde unser Gestaltungsprinzip. Wir generieren nichts. Wir verändern kein einziges Pixel. Wir messen.

Unsere Architektur hat drei Schichten, und jede behandelt das Bild als Beweismittel, nicht als Rohmaterial:

Semantische Segmentierung identifiziert Schäden auf Pixelebene. Nicht „dieses Auto ist beschädigt" — das ist nutzlos. Unsere Modelle klassifizieren jedes einzelne Pixel: Dieses Pixel ist unbeschädigter Lack, dieses Pixel ist ein Kratzer, dieses Pixel ist eine Delle, dieses Pixel ist Rost. Das Ergebnis ist eine präzise Maske, die über das ursprüngliche, unberührte Bild gelegt wird. Weil wir die physischen Abmessungen bestimmter Fahrzeugteile kennen — der Stoßfänger eines Toyota Camry von 2024 ist 180 cm breit —, können wir die exakte Schadensfläche in Quadratzentimetern berechnen. Diese Zahl fließt direkt in die Reparaturkalkulationssoftware ein.

Monokulare Tiefenschätzung löst das Problem, das den Stoßfänger-Fall zum Scheitern brachte: das Verständnis der 3D-Geometrie aus einem flachen Foto. Durch das Training mit riesigen Datensätzen von Fahrzeuggeometrien mit LiDAR-Ground-Truth lernen unsere Modelle, wie die Krümmung eines Radkastens aussehen sollte, was die Ebenheit einer Türverkleidung bedeutet. Eine Delle zeigt sich als Senkloch in der Tiefenkarte. Wir berechnen Gradienten — ein steiler Gradient bedeutet eine scharfe Falte, die wahrscheinlich einen Austausch des Blechteils erfordert; ein flacher Gradient bedeutet eine weiche Delle, die sich mit lackfreier Dellenentfernung reparieren lässt. Wir können das verdrängte Metallvolumen abschätzen. Keine Vermutung. Eine Messung.

Die Analyse spiegelnder Reflexionen ist die Schicht, auf die ich am stolzesten bin, weil sie erkennt, was allem anderen entgeht. Moderne Autos sind glänzend. Ihre Oberflächen wirken wie Spiegel. Eine Delle auf einem glänzend schwarzen Auto verändert die Farbe der Pixel vielleicht überhaupt nicht — aber sie verzerrt die Spiegelung. Gerade Linien in der Umgebung (Horizonte, Stromleitungen, Gebäudekanten) sollten der Karosseriekrümmung des Autos folgen, wenn sie gespiegelt werden. Eine Delle wirkt wie ein Zerrspiegel und lässt diese Linien einknicken, verwirbeln oder abbrechen. Wir haben unsere Modelle darauf trainiert, die Lackfarbe von den Reflexionsmustern zu entkoppeln und die Oberflächennormalen-Karte zu rekonstruieren — einen 3D-Vektor, der den Winkel der Oberfläche an jedem Pixel darstellt. So werden Hagelschäden erkannt, die für das bloße Auge unsichtbar sind, strukturelle Verwerfungen weit entfernt von der Aufprallstelle und sogar frühere Reparaturen, bei denen Schleifspuren die Spiegelung des Klarlacks stören.

Eine vollständige technische Aufschlüsselung aller drei Schichten finden Sie in unserer Forschungsarbeit.

Warum können Versicherer ihre KI-Entscheidungen nicht einfach erklären?

Ein direkter Vergleich dessen, was ein generatives KI-System und was ein forensisches KI-System liefern kann, wenn eine Aufsichtsbehörde oder ein Gericht eine Erklärung für eine Schadensentscheidung verlangt.

Das ist die Frage, die Aufsichtsbehörden jetzt lautstark stellen, und die meisten Versicherer haben keine gute Antwort.

Die NAIC — die National Association of Insurance Commissioners — veröffentlichte ein Model Bulletin, das die Compliance-Landschaft grundlegend veränderte. Es legt die Verantwortung für KI-Ergebnisse eindeutig dem Versicherer auf, selbst wenn die KI ein Tool eines Drittanbieters ist. Sie können sich nicht hinter der Wrapper-Ausrede verstecken. Wenn das Modell Ihres Anbieters halluziniert oder diskriminiert, haften Sie. Das Bulletin schreibt schriftliche Governance-Programme vor, eine Sorgfaltsprüfung der Datenherkunft und Modellarchitektur des Anbieters und — entscheidend — die Fähigkeit, jede KI-gesteuerte Entscheidung gegenüber einem Versicherungsnehmer zu erklären.

Versuchen Sie einmal, eine von einem generativen Modell ausgelöste Anspruchsablehnung zu erklären. „Die Wahrscheinlichkeitsverteilung des Modells bevorzugte einen glatten Stoßfänger" wird einen Gerichtssaal nicht überstehen.

Vergleichen Sie das nun mit dem, was unser System liefert: „Der Anspruch wurde auf Grundlage der Erkennung eines Schadens am hinteren linken Seitenteil bearbeitet. Das System identifizierte einen 14 cm langen Kratzer und eine Delle mit einer Fläche von 45 cm², validiert durch eine Tiefenkartenanalyse." Das ist empirisch überprüfbar. Das ist vor Gericht zulässig.

Der EU AI Act geht weiter. KI, die für die Versicherungsrisikobewertung natürlicher Personen eingesetzt wird, wird als hochriskant eingestuft, was verpflichtende Datenkontrolle, automatische Ereignisprotokollierung und Anforderungen an eine menschliche Aufsicht auslöst. Unsere Masken-Overlay-Technologie — bei der der Sachbearbeiter das Originalfoto mit einer zuschaltbaren Analyseschicht sieht — ist speziell dafür konzipiert. Wir ersetzen den Menschen nicht. Wir erweitern ihn. Er bleibt der Entscheidungsträger, was unter dem Act ein entscheidender „Safe Harbor" ist.

Und dann gibt es noch die Beweismittelvernichtung. Im US-Rechtssystem kann das Verändern von Beweismitteln, die für ein Gerichtsverfahren relevant sind — selbst unbeabsichtigt —, zu Sanktionen, nachteiligen Beweiswürdigungsanweisungen (bei denen die Geschworenen angewiesen werden anzunehmen, dass das verlorene Beweismittel für Sie belastend war) oder einem Urteil im summarischen Verfahren führen. Wenn ein generatives KI-Tool synthetische Pixel in ein Schadensfoto einbringt, ist das technisch gesehen eine Veränderung. Wenn das Original überschrieben wurde, ist das Beweismittelvernichtung.

Wir hashen jedes Originalbild mit SHA-256 in dem Moment, in dem es eintrifft. Unsere KI liest den Bildpuffer, schreibt aber nie in ihn. Sämtliche Analysen — Masken, Tiefenkarten, Berichte — werden als separate Sidecar-Dateien gespeichert, die mit dem ursprünglichen Hash verknüpft sind. Jeder Zugriff wird protokolliert. Das Beweismittel bleibt makellos.

Wenn Ihre KI nicht beweisen kann, dass sie das Beweismittel nicht verändert hat, haben Sie den Fall bereits verloren, bevor er beginnt.

Das Wettrüsten, auf das sich niemand vorbereitet hat

Manchmal fragen mich Leute, ob deterministische Computer Vision „ausreicht" — ob wir zu konservativ sind, weil wir uns weigern, generative Modelle zu verwenden.

Ich glaube, sie stellen die falsche Frage.

Die richtige Frage lautet: Was passiert, wenn Ihr Schadensystem nicht zwischen einem echten und einem synthetischen Foto unterscheiden kann? Was passiert, wenn der Deepfake eines Betrügers Ihren KI-Klassifikator mit höherer Zuversicht besteht als ein legitimer Anspruch? Was passiert, wenn Ihr „Verbesserungs"-Tool klammheimlich Beweismittel in einem Fall fabriziert, der vor einem Bundesgericht landet?

Das sind keine Hypothesen. Sie geschehen jetzt. Und die Versicherer, die generische generative Modelle als ihre erste Verteidigungslinie einsetzen, bringen einen Pinsel zu einer forensischen Untersuchung mit.

Unsere Modelle sind deterministisch. Man kann ein semantisches Segmentierungsnetz nicht per Prompt-Injection manipulieren. Man kann ein Tiefenschätzungsmodell nicht mit schönen Worten dazu bringen, eine Delle zu ignorieren. Diese Systeme arbeiten mit Pixelintensitätsgradienten und Texturanalyse — sie extrahieren Merkmale aus den physikalischen Eigenschaften des Lichts, das auf einen Kamerasensor trifft. Es gibt keinen anweisungsbefolgenden Mechanismus, den man ausnutzen könnte.

Das ist kein Konservatismus. Das ist Engineering für eine Welt, in der der Gegner Zugang zu denselben generativen Werkzeugen hat wie Sie.

Der Bildschirm des Sachbearbeiters

Ich möchte mit einem Bild enden — kein Foto, sondern eine Vorstellung davon, wie die Zukunft meiner Meinung nach aussieht.

Ein Sachbearbeiter öffnet sein Dashboard. Er sieht kein „repariertes" Auto. Er sieht nicht die beste Vermutung einer KI darüber, wie das Auto vor dem Unfall ausgesehen haben könnte. Er sieht das tatsächliche Foto, aufgenommen vom Versicherungsnehmer, mit einer zuschaltbaren Schadensmaske, die genau zeigt, wo die KI Kratzer, Dellen und Rost erkannt hat. Er sieht eine Tiefen-Heatmap, die offenbart, dass die Delle am hinteren Seitenteil 12 mm tief ist und einen steilen Gradienten aufweist — scharfe Falte, benötigt wahrscheinlich einen Austausch. Er sieht die Reflexionsanalyse, die eine subtile Verwerfung drei Zoll von der Aufprallstelle entfernt markiert, die kein menschliches Auge erfassen würde.

Er sieht einen Audit-Trail, der jeden Befund erklärt. Und er trifft die Entscheidung.

Die KI hat nicht entschieden. Sie hat beleuchtet. Das Beweismittel wurde nicht verändert. Es wurde offengelegt.

Das ist der Unterschied zwischen einem System, das plausible Fiktionen erschafft, und einem, das unbequeme Wahrheiten misst. Die Versicherungsbranche wurde auf dem Prinzip aufgebaut, dass man für das bezahlt, was tatsächlich geschehen ist — nicht für das, was ein Modell für wahrscheinlich geschehen hält. Jedes Pixel in einem Schadensfoto ist ein Beweisstück. In dem Moment, in dem Sie eine KI auch nur eines davon verändern lassen, haben Sie den Bereich der Wahrheit verlassen und den Bereich der Wahrscheinlichkeit betreten.

Und Wahrscheinlichkeit ist in einem Gerichtssaal nur ein anderes Wort für begründeten Zweifel.

Related Research

Also Published On