Ihr Archiv ist das Asset. Lassen Sie es nicht länger kostenlos von Google vermieten.

Wir bauen Conversational-AI-Engines auf den Archiven von Verlagen auf. Zitatgestützte Antworten, temporales Schlussfolgern, GraphRAG-Entitätsauflösung und eine parallele Lizenzierungsstrategie, die Umsätze aus den KI-Engines erfasst, die Sie nicht kontrollieren. Für mittelgroße Verlage, die sich kein sechsköpfiges ML-Team leisten können, sich aber auch das Warten nicht leisten können.

Für Verlage, die durch AI Overviews Suchtraffic verlieren

48 %

der Google-Suchanfragen zeigen inzwischen AI Overviews

theStacc / Search Engine Land, März 2026

-33 %

Suchtraffic der Verlage im Jahresvergleich, Stand November 2025

Reuters Institute, 2026

-43 %

weiterer Rückgang, den Medienmanager bis 2029 erwarten

Reuters Institute Trends 2026 Umfrage

Die Referral-Ökonomie ist vorbei. Die Lizenzierungs-Ökonomie ist noch nicht aufgebaut.

Ein konkretes Szenario, kein abstraktes Problem.

Eine regionale Tageszeitung mit 4 Millionen Unique-Besuchern pro Monat und einem 32-jährigen Archiv rechnet die Zahlen in ihrer Vorstandsvorlage vom Februar 2026 durch. Die organischen Suchverweise sind im Jahresvergleich um 41 % gesunken. Die programmatischen CPMs sind um weitere 18 % gefallen. Ihr Affiliate-Umsatz, der das Geschäftsmodell 2023 über Wasser hielt, ist auf ein Drittel seines Höchststands zusammengebrochen. Dieselbe Entwicklung, die Penske Media in seiner Kartellklage gegen Google vom September 2025 anführte. Der CFO stellt die naheliegende Frage: was genau schuldet uns Google, und wie bringen wir es dazu, zu zahlen?

Die Antwort ist unangenehm. Vertraglich schuldet Google ihnen nichts. Der ungeschriebene Deal (ihr crawlt uns, ihr schickt uns Traffic) wurde einseitig umgeschrieben, als AI Overviews bei 48 % der Suchanfragen zu erscheinen begannen. Wenn ein AI Overview oberhalb eines organischen Links erscheint, maß die Daily Mail einen Rückgang der Desktop-Klickrate um 89 %. Das Panel von Pew vom März 2025 stellte fest, dass Nutzer, die auf ein AI Overview stießen, in nur 8 % aller Besuche zu einem herkömmlichen Link weiterklickten. Der Inhalt des Verlags wird weiterhin gelesen. Der Verlag wird nicht mehr bezahlt.

Unterdessen hat die naheliegende Antwort, „bauen wir unsere eigene KI“, ihre eigenen Narben. Die Washington Post startete Ask The Post AI im November 2024. Bis Dezember 2025 wurden interne Slack-Nachrichten der Standards-Redakteurin durchgesickert: Ihr KI-generierter Podcast erfand Zitate, ordnete Quellen falsch zu und fügte Kommentare ein, als wären sie die redaktionelle Position der Zeitung. „Es ist wirklich erstaunlich, dass dies überhaupt zugelassen wurde“, schrieb eine Redakteurin, „nie hätte ich mir vorgestellt, dass die Washington Post ihren eigenen Journalismus absichtlich verzerren und diese Fehler dann in großem Umfang an unser Publikum weitergeben würde.“ Der technische Fehler war ein fehlender Schritt zur Zitatprüfung. Der Reputationsschaden war global.

Das ist die wahre Gestalt des Problems. Mittelgroße Verlage können es sich nicht leisten, nichts zu tun. Die Suchmaschine, die ihre Verbreitung aufgebaut hat, ist nun ihr größter Wettbewerber. Sie können es sich auch nicht leisten, unter ihrem eigenen Zeitungskopf einen halluzinierenden Chatbot auszuliefern. Und sie können die internen ML-Teams nicht nachbilden, die FT, Bloomberg und die New York Times vor dem Absturz aufgebaut haben. Sie brauchen einen Build-Partner, der die unglamouröse Arbeit gemacht hat: Archiv-Ingestion, Entitätsauflösung, Zitatdurchsetzung, redaktionelle Prüfschlangen und eine parallele Lizenzierungsstrategie, die Umsätze aus den KI-Engines erfasst, die ihnen nie gehören werden.

Die KI-Landschaft für Verlage, von Anfang bis Ende

Rufen Sie das in Ihrem nächsten Strategie-Meeting auf. Wir haben versucht, ehrlich darzulegen, was jede Option tut und was nicht.

Option Was sie tatsächlich tut Wo sie an Grenzen stößt
SaaS-Chatbot-Anbieter (Tars, einfache On-Site-Such-Wrapper) Platziert ein Chat-Widget auf Ihrer Website. Vektor-Embeddings Ihrer Artikel. Angeboten zu 60.000–120.000 $, eingesetzt in Wochen. Keine Entitätsauflösung. Kein temporales Schlussfolgern. Keine Zitatprüfung. Halluziniert bei den Anfragen, die zählen (Multi-Hop, longitudinal). Ihr Archiv liegt in deren Cloud.
Inhouse-Build der Big Five (FT, NYT, Bloomberg, WaPo, Guardian) Maßgeschneidertes RAG über ein proprietäres Archiv. Ask FT läuft auf Anthropic Claude mit verpflichtenden Zitaten. Bloomberg hat BloombergGPT und BQL-Übersetzung. Erstellt von ML-Teams mit 6–20 Entwicklern über 12–24 Monate. Die Kosten gehen in den siebenstelligen Bereich. Mittelgroße Verlage können den Personalbestand schlicht nicht nachbilden.
Big 4 / großer SI (Accenture, Deloitte, IBM iX) Werden es bauen. Haben generative KI-Arbeit für benachbarte Branchen geleistet. Aufträge bewegen sich bei 1,5 Mio. $–5 Mio. $+ mit einer Discovery-Phase, die länger dauert als Ihre Liquiditätsreichweite. Sie greifen zum selben Microsoft-GraphRAG- und Neo4j-Stack wie wir, berechnen aber zusätzlich Beratung auf Partner-Niveau. Sie haben nicht fünf Verlagsarchive nacheinander gebaut.
Cloudflare Pay Per Crawl (Jan. 2026) Blockiert KI-Crawler standardmäßig über ~20 % des globalen Web-Traffics. Lässt Sie pro Crawler Allow / Charge / Block zu einem domainweiten Preis pro Anfrage festlegen. Hindert AI Overviews nicht daran, Ihre Inhalte zusammenzufassen (sie rufen zur Anfragezeit ab). Erzeugt keine Bindung. Reine Leckage-Erfassung, und die Preisfindung ist noch unausgereift.
News/Media Alliance + ProRata (März 2026) Kollektiver Lizenzierungs-Pool für 2.200 kleine/mittelgroße Verlage. 50/50-Umsatzbeteiligung an attributionsverfolgten KI-Antworten über Gist.ai. Die NMA übernimmt den Papierkram. Der Umsatz hängt davon ab, ob Gist.ai gegen ChatGPT, Perplexity und Gemini Akzeptanz gewinnt. Frühe Tage. Der parallele NMA+Bria-Deal betrifft nur Enterprise-RAG.
Tollbit / direkte Bot-Gebühren Berechnet pro Crawl-Anfrage, ähnlicher Mechanismus wie Cloudflare, aber Bot für Bot konfigurierbar. Boston Globe, Vox, Future haben es pilotiert. Dieselbe strukturelle Grenze wie Cloudflare: Es erfasst Crawler-Umsätze, nicht Anfrage-Umsätze. Ehrliche Verlage sollten sowohl Tollbit als auch eine anfrageseitige Strategie betreiben.
Veriprajna (wir) Maßgeschneiderter Build der Conversational-Engine auf Ihrem Stack, mit Zitatdurchsetzung, GraphRAG-Entitätsauflösung, temporalem Schlussfolgern und redaktioneller Governance. Plus Integration von ProRata, Bria, Tollbit und Cloudflare in eine einzige Umsatzstrategie. Wir sind eine Beratung, kein SaaS. Wir lösen nicht die Machtasymmetrie der Plattformen. Das kann nur Ihre Regierung. Wir werden nicht vorgeben, dass die Lizenzeinnahmen von ProRata oder Bria 100 % der verlorenen Suchumsätze ersetzen werden. Das werden sie 2026 nicht.

Was wir für Verlage bauen

Jeder Auftrag ist maßgeschneidert. Dies sind die vier Fähigkeitsbereiche, deren Kombination wir immer wieder gefragt werden.

1. Archiv-Ingestion und Entitätsauflösung

Die unglamourösen 60 % jedes Projekts. Layout-bewusstes OCR für gescannte Mikrofilme und PDFs von vor 2005 (Tesseract für saubere Dokumente, Azure Document Intelligence oder Google Document AI für spaltenreiche Zeitungsseiten). Semantisches Chunking, das Überschriften, Vorspänne und Autorenzeilen respektiert, statt alle 500 Wörter zu zerschneiden. Metadaten-Anreicherung mit Veröffentlichungsdatum, Autor, Ressort und Named Entity Recognition für Personen, Organisationen, Orte, Gesetzentwürfe und Fälle.

Dann der Durchlauf zur Entitätsauflösung: das Zusammenführen von „Mr. Musk“, „Elon Musk“, „Tesla-CEO“ zu einem einzigen Knoten und das Unterscheiden von „John Smith dem Stadtrat“ von „John Smith dem Schulleiter“ über 25 Jahre Autorenzeilen hinweg. Wir kombinieren LLM-basierte Extraktion mit deterministischen, auf Ihr Themengebiet abgestimmten Regeln, dann menschliche Prüfung für die 200 nach Artikelanzahl wichtigsten Entitäten. Senzing oder Neo4j Graph Data Science übernehmen die algorithmische Seite. Die Ermessensentscheidungen treffen wir und Sie gemeinsam.

2. GraphRAG mit temporalem Schlussfolgern

Vektorsuche allein kann „Wie hat sich die Wohnungspolitik des Bürgermeisters zwischen 2010 und 2024 verändert“ nicht beantworten, weil die Antwort in keinem einzelnen Chunk steht. Wir verarbeiten das Archiv zu einem Neo4j- oder Amazon-Neptune-Wissensgraphen mit typisierten Kanten (HAS_STANCE, ENDORSED_BY, VOTED_ON) und versehen dann jede Kante mit valid_start- und valid_end-Zeitstempeln, die aus den Veröffentlichungsdaten abgeleitet werden.

Zur Anfragezeit zerlegt ein agentischer Planer die Frage in temporale Teilanfragen, durchläuft den Graphen und stellt eine chronologische Erzählung mit Inline-Zitaten zusammen. Wir verwenden Microsoft GraphRAG als Open-Source-Rückgrat und passen die Entitäts-Extraktions-Prompts an Ihre spezifischen Themengebiete an. Für längere Archive ergänzen wir T-GRAG (arXiv 2510.13590) für zeitsensitives Retrieval. Das ist der Unterschied zwischen einem Chatbot, der Artikel findet, und einem, der die Geschichte über sie hinweg synthetisiert.

3. Zitatdurchsetzung und redaktionelle Prüfung

Der Podcast-Vorfall der Washington Post ist der Mahnfall. Drei Schichten, keine Abkürzungen. Erstens verbietet ein System-Prompt mit strikter Verankerung jede Behauptung, die nicht im abgerufenen Kontext steht. Zweitens prüft ein nachgelagerter Verifizierer (ein separater LLM-Aufruf) jeden generierten Satz gegen seine zitierte Quelle und verwirft jeden Satz, dessen Zitat die Behauptung nicht tatsächlich enthält. Drittens leitet eine Konfidenzschwelle Antworten mit geringer Konfidenz in eine redaktionelle Prüfschlange, bevor sie den Nutzer erreichen, mit konfigurierbaren Schweregrad-Stufen.

Wir instrumentieren das Antwort-Log, damit Ihr Standards-Desk jede Sitzung innerhalb einer Stunde prüfen kann. Wir bauen außerdem einen „Notausschalter“, ein einziges Dashboard-Steuerelement, das das öffentliche Widget deaktiviert, während das Backend für das Engineering weiterläuft. Langweilig, essenziell, in einem SaaS-Chatbot nie vorhanden.

4. Duale Umsatzstrategie: Bindungs-Engine + Leckage-Erfassung

Die meisten Beratungen verkaufen Ihnen eine Strategie. Die ehrliche Antwort ist, dass Sie beide brauchen. Die Bindungsstrategie ist Ihre eigene Conversational-Engine, verpackt als Premium-Abostufe „Intelligence“ (das Ask-FT-Modell: über 1.000 $/Jahr pro professionellem Nutzer mit unbegrenzten agentischen Anfragen). Die Leckage-Erfassungsstrategie ist das Opt-in zu ProRata (50/50-Umsatzbeteiligung über Gist.ai), Bria (interne Enterprise-KI-Nutzung) und Tollbit (direkte Bot-Gebühren), plus eine Cloudflare-Pay-Per-Crawl-Haltung, die GPTBot, ClaudeBot, CCBot und Google-Extended blockiert, während sie Perplexity und Mistral berechnet.

Wir integrieren die Lizenzierungs-Dashboards mit Ihrer bestehenden Umsatzanalyse, sodass Ihr CFO eine Ansicht sieht, nicht fünf. Wir werden nicht versprechen, dass die Lizenzeinnahmen die verlorenen Suchumsätze im Jahr 2026 ersetzen. Wir werden versprechen, dass Sie sie nicht auf dem Tisch liegen lassen.

Wie wir arbeiten

Kein Discovery-Deck, das ein Quartal dauert. Kein 80-seitiges Strategiedokument. Wir liefern in Woche 8 ein funktionierendes Chat-Widget vor Ihrem Redaktionsteam und iterieren von dort aus.

Phase 0: Archiv-Audit (2 Wochen, Festpreis)

Wir nehmen eine Stichprobe von 1 % Ihres Archivs, messen den Ingestion-Schwierigkeitsgrad (sauberer Arc-XP-Export vs. gescannter Mikrofilm vs. defektes 2003er-HTML), entwerfen ein Entitätsinventar Ihrer 200 wichtigsten Personen/Organisationen/Orte und kalkulieren den vollständigen Build mit einem belastbaren Konfidenzintervall. Die Varianz zwischen bestem und schlechtestem Fall allein für die Ingestion liegt beim Aufwand bei etwa 8 zu 1. Wir geben Ihrem CFO eine Zahl, keine Spanne.

Phase 1: Ingestion und hybrider Index (Wochen 3–8)

Aufbau der Ingestion-Pipeline (OCR, semantisches Chunking, Metadaten-Anreicherung). Aufsetzen der hybriden Retrieval-Schicht: BM25-Sparse-Suche für exakte Entitätstreffer plus dichte Vektor-Embeddings für semantische Ähnlichkeit, mit einem Cohere- oder BGE-Reranker obendrauf. Bereitstellung des Chat-Widgets in einer Staging-Umgebung, die Ihre Redakteure im Privaten kaputtmachen können.

Phase 2: Entitätsgraph und temporale Schicht (Wochen 9–18)

Durchführen von Entitäts-Extraktion und -Auflösung über das gesamte Archiv. Aufsetzen von Neo4j mit versionierten Kanten. Hinzufügen des temporalen Anfrage-Zerlegers. Bis zum Ende von Phase 2 kann das Chat-Widget „wie hat sich X über Y Jahre entwickelt“ mit einer chronologisch geordneten, zitatgestützten Antwort beantworten.

Phase 3: Zitatdurchsetzung, redaktionelle Prüfung, Soft Launch (Wochen 19–24)

Bereitstellung des nachgelagerten Zitat-Verifizierers, der Prüfschlange mit Konfidenzschwelle und der Audit-Werkzeuge für den Standards-Desk. Öffnen des Widgets für einen kleinen Prozentsatz authentifizierter Abonnenten hinter einem Feature-Flag. Abstimmung der Antwortlängen-Richtlinie und der Ablehnungsvorlagen anhand echter Anfrage-Logs, nicht synthetischer Benchmarks.

Phase 4: Lizenzierungs-Integration und Intelligence-Stufe (Wochen 25+)

Anbindung der ProRata- und Bria-Attribution an Ihr Umsatz-Dashboard. Konfiguration der Cloudflare-Pay-Per-Crawl-Regeln pro Crawler. Unterstützung von Produkt und Pricing bei der Gestaltung der Intelligence-Stufe und ihres Testablaufs. Übergabe der operativen Verantwortung an Ihr Team mit einer 90-tägigen begleiteten Support-Phase.

Ehrlicher Vorbehalt: Die Zeitpläne setzen ein Archiv mit 100.000–500.000 Artikeln auf Arc XP, Brightspot oder WordPress VIP voraus. Ein wissenschaftliches Archiv mit 5 Millionen Artikeln auf Atypon oder ein Stapel gescannter Mikrofilme aus den 1990ern kann allein Phase 1 um 8–16 Wochen verlängern. Das Phase-0-Audit existiert, um dies abzufangen, bevor Sie eine Zahl unterschreiben.

Bewertung der Archivbereitschaft

Acht Fragen. Sie sagen Ihnen, welche Phase Ihre Build-Kosten dominieren wird und was vor der Angebotseinholung bei einem Anbieter zu beheben ist.

Fragen, die Verlage uns tatsächlich stellen

Wie viel kostet es, einen Verlags-RAG-Chatbot über unser Archiv zu bauen?

Für ein Archiv von 10–25 Jahren mit 100.000–500.000 Artikeln beläuft sich eine produktionsreife Conversational-Engine auf etwa 180.000–450.000 $ für den initialen Build, plus 4.000–15.000 $ monatlich für Inferenz, Vektorspeicher und Reranker-Aufrufe bei typischen Anfragevolumina mittelgroßer Verlage. Die Ingestion-Pipeline ist der größte Posten, üblicherweise 50–60 % der Build-Kosten. Die Varianz hängt von drei Dingen ab: wie sauber das Archiv bereits ist (moderne Arc-XP-Exporte vs. gescannter Mikrofilm aus den 1990ern), ob Sie eine Wissensgraph-Schicht für Multi-Hop-Anfragen benötigen, und der Tiefe der redaktionellen Prüfwerkzeuge. Ein SaaS-Chatbot-Wrapper, den ein Plattformanbieter verkauft, wird Ihnen 60.000 $ anbieten, aber er wird bei den Anfragen halluzinieren, die zählen, weil er nie eine entitätsaufgelöste Sicht auf Ihr spezifisches Archiv aufgebaut hat.

Wenn wir unsere eigene Conversational AI bauen, wird sie unsere Abonnement-Seitenaufrufe kannibalisieren?

Die frühen Daten von FT Professional und Bloomberg Terminal deuten in die andere Richtung. Ask FT steigerte das, was FT intern Actual Core Reader Engagement nennt, indem es immergrüne Archivinhalte zutage förderte, die Abonnenten andernfalls nie finden würden. Die Kannibalisierungsangst setzt einen statischen Pool an Intentionen voraus. In Wirklichkeit ziehen konversationelle Anfragen die Nutzer in tiefere Sitzungen zu Themen, die sie nach dem flüchtigen Überfliegen eines Suchergebnisses abgebrochen hätten. Das Risiko ist real für dünne allgemeine Nachrichteninhalte, bei denen der Chatbot einen einzelnen Artikel in einem Absatz zusammenfassen kann. Es ist viel geringer bei analytischen, longitudinalen und investigativen Inhalten, bei denen das Chat-Erlebnis ein Recherche-Assistent ist, kein TL;DR. Wir dimensionieren die Preisstufe und die Antwortlängen-Richtlinie passend zur Tiefe Ihrer Inhalte, nicht um eine Vorlage eines anderen Verlags zu kopieren.

Sollten wir KI-Crawler mit Cloudflare Pay Per Crawl blockieren, und wird Google uns deindexieren, wenn wir das tun?

Cloudflare Pay Per Crawl, im Januar 2026 über etwa 20 Prozent des globalen Web-Traffics gestartet, lässt Sie pro Crawler zu einem domainweiten Preis Allow, Charge oder Block festlegen. Die technisch korrekte Antwort lautet, dass Sie GPTBot, ClaudeBot, CCBot und PerplexityBot blockieren können, während Sie Googlebot und Bingbot weiterhin zulassen, weil Google das Crawling durch Googlebot öffentlich von Google-Extended (dem Trainings-Fetcher für Gemini) trennt. Das Blockieren von Google-Extended beeinflusst das Suchranking nicht. Die politische Sorge ist, dass Google AI Overviews weiterhin Inhalte aus indexierten Seiten zutage fördern, selbst wenn Google-Extended blockiert ist, weil sie zur Anfragezeit abrufen. Das Blockieren hindert Ihre Inhalte also nicht daran, in AIO zusammengefasst zu werden, es hindert sie nur daran, zum Training künftiger Gemini-Versionen verwendet zu werden. Eine vertretbare Haltung für die meisten mittelgroßen Verlage im Jahr 2026 ist: GPTBot, ClaudeBot, CCBot und Google-Extended blockieren. PerplexityBot und Mistral berechnen. Googlebot und Bingbot zulassen. Dann Lizenzeinnahmen über ProRata, Bria und Tollbit leiten, um Umsätze aus den KI-Engines zu erfassen, die Sie nicht kontrollieren.

Wer haftet, wenn unser KI-Assistent ein Zitat erfindet oder eine Geschichte falsch zuordnet?

Sie. Der KI-Podcast-Vorfall der Washington Post vom Dezember 2025 (fiktive Zitate, das Einfügen von Kommentaren als redaktionelle Position der Zeitung) ist der Mahnfall, der dies von einer Hypothese zu einer Frage auf Vorstandsebene für Verlage machte. Es gibt keinen Section-230-Schutz für Inhalte, die Ihr eigenes System aus Ihrem eigenen Archiv generiert; die KI-Ausgabe wird als Ihr redaktionelles Arbeitsergebnis behandelt. Die Abhilfemaßnahmen sind architektonisch, nicht vertraglich. Wir setzen drei Schichten durch: einen System-Prompt mit strikter Verankerung, der die Nutzung jeglichen Wissens außerhalb der abgerufenen Chunks verbietet, eine nachgelagerte Zitatprüfung, die jeden Satz verwirft, dessen zitierte Quelle die Behauptung nicht enthält, und eine Konfidenzschwelle, die Antworten mit geringer Konfidenz in eine redaktionelle Prüfschlange leitet, bevor sie den Nutzer erreichen. Wir instrumentieren außerdem das Antwort-Log, damit Ihr Standards-Desk jede Sitzung innerhalb einer Stunde nach ihrem Auftreten prüfen kann. Nichts davon existiert in einem SaaS-Chatbot-Wrapper.

Wie hilft GraphRAG bei einem Nachrichtenarchiv tatsächlich im Vergleich zu einem normalen Vektor-RAG?

Vektor-RAG ruft Chunks ab, die der Anfrage semantisch ähnlich sind. Das funktioniert für das Nachschlagen von Fakten. Es versagt bei den Anfragen, die ein Nachrichtenarchiv wertvoll machen: Wie hat sich die Wohnungspolitik des Bürgermeisters über 12 Jahre entwickelt. Wer verbindet Person X über welche zwischengeschalteten Organisationen mit Skandal Z. Welche wiederkehrenden Quellen wurden in der Berichterstattung über die Schulbehörden-Kontroverse zitiert. Das sind Multi-Hop-, longitudinale und entitätsgetriebene Anfragen. GraphRAG verarbeitet das Archiv im Vorfeld zu einem Entitätsgraphen (Personen, Organisationen, Orte, Ereignisse) mit typisierten Beziehungen und durchläuft den Graphen dann zur Anfragezeit. Der schwierige Teil ist nicht die Graphdatenbank (Neo4j oder Amazon Neptune bewältigen das). Der schwierige Teil ist die Entitätsauflösung: das Zusammenführen von „Mr. Musk“, „Elon Musk“, „Tesla-CEO“ und „X-Eigentümer“ zu einem einzigen Knoten und das Unterscheiden von „John Smith dem Stadtrat“ von „John Smith dem Oberschuldirektor“ über 25 Jahre Autorenzeilen und Tippfehler freier Mitarbeiter hinweg. Wir verwenden eine Kombination aus LLM-basierter Extraktion, deterministischen, auf Ihr Themengebiet abgestimmten Entitätsauflösungsregeln und menschlicher Prüfung für die 200 nach Artikelanzahl wichtigsten Entitäten. Das ist der Teil, den sonst niemand für Sie tun wird.

Wir nutzen Arc XP / WordPress VIP / Brightspot. Wie integriert sich das in unser CMS?

Die Conversational-Engine ist ein separater Dienst, der einen Feed aus Ihrem CMS konsumiert und eine Chat-API zurück an Ihre Website bereitstellt. Das Integrationsmuster unterscheidet sich je nach Stack. Arc XP stellt eine Content API und Webhooks bereit, aber keine Embedding-Hooks, daher betreiben wir einen Sync-Job, der alle fünf Minuten neue und aktualisierte Geschichten abruft und neu einbettet. WordPress VIP unterstützt benutzerdefinierte REST-Endpunkte, und wir setzen typischerweise einen separaten Microservice plus einen Gutenberg-Block für das Chat-Widget ein. Brightspot ist dank seines Content-Type-Modells am flexibelsten, was die Extraktion strukturierter Metadaten viel sauberer macht. Atypon-Verlage (meist wissenschaftlich) stehen neben der Literatum-Suche, statt sie zu ersetzen. In jedem Fall ist das Chat-Widget ein JS-Embed, das Ihre Redakteure auf jeder Seite einfügen können, und das Backend läuft in Ihrem Cloud-Konto, nicht in unserem. Wir binden Sie nicht an einen gehosteten Dienst.

Sollten wir der News/Media Alliance ProRata oder Bria beitreten, oder unsere eigene Engine bauen, oder beides?

Beides, und sie lösen unterschiedliche Probleme. Der im März 2026 angekündigte NMA-+-ProRata-Deal ist ein kollektiver Lizenzierungs-Pool: 2.200 Verlage können sich entscheiden, RAG-getriebene Enterprise-Nachfrage gegen eine 50/50-Umsatzbeteiligung zu monetarisieren, attributionsverfolgt. Bria ist der parallele Deal, der auf die interne Enterprise-KI-Nutzung abzielt. Das ist Leckage-Erfassung, sie zahlen Ihnen, wenn eine KI-Engine, die Ihnen nicht gehört, Ihre Inhalte nutzt. Ihre eigene Conversational-Engine ist die Bindungsstrategie: Sie vertieft das Engagement mit Ihrem bestehenden Publikum und schafft eine Premium-Stufe. ProRata zahlt Ihnen einen Bruchteil eines Bruchteils pro Anfrage. Ihre eigene Intelligence-Stufe (Ask FT berechnet über 1.000 $/Jahr pro professionellem Nutzer) ist margenstark und potenziert sich mit dem Wert Ihres Archivs. Betreiben Sie beides. Die Kosten der ProRata-Teilnahme liegen nahe null (die NMA übernimmt den Papierkram), und der Umsatz ist zusätzlich zur Engineering-Investition, die Sie ohnehin bereits tätigen.

Wie lange dauert der Build vom Kickoff bis zu einem Chat-Widget auf unserer Website?

Für ein sauberes Arc-XP- oder Brightspot-Archiv mit 100.000–500.000 Artikeln wird ein zitatgestütztes Chat-Widget mit hybrider Suche und grundlegender temporaler Filterung in 14–18 Wochen ausgeliefert. GraphRAG mit Entitätsauflösung kommen weitere 10–14 Wochen hinzu. Eine agentische Recherche-Assistenz-Stufe fügt obendrauf 8–12 Wochen hinzu. Der längste einzelne Posten ist immer die Archiv-Ingestion, besonders wenn Sie Inhalte von vor 2005 mit defektem HTML, fehlenden Fotos oder gescannten PDFs aus einem Mikrofilm-Digitalisierungsprojekt haben. Wir beginnen mit einem 2-wöchigen Archiv-Audit, bevor wir einen festen Zeitplan nennen, weil die Varianz zwischen „Export aus dem CMS“ und „OCR einer Million gescannter Seiten“ beim Aufwand 8 zu 1 beträgt. Das Audit gibt Ihnen eine belastbare Zahl, die Sie Ihrem CFO vorlegen können.

Technische Forschung

Das interaktive Whitepaper, das dieser Lösungsseite zugrunde liegt.

Ihr Archiv ist mehr wert als Ihr Werbeinventar. Beweisen wir es.

Beginnen Sie mit dem 2-wöchigen Archiv-Audit. Festpreis, keine Verpflichtung zum vollständigen Build.

Wir nehmen eine Stichprobe von 1 % Ihrer Inhalte, messen den Ingestion-Schwierigkeitsgrad, entwerfen Ihre 200 wichtigsten Entitäten und geben Ihrem CFO eine belastbare Zahl für den vollständigen Build. Wenn das Audit sagt, baut nicht, dann sagen wir Ihnen das.

Phase 0: Archiv-Audit

  • ✓ Ingestion-Test mit 1 %-Stichprobe (echtes OCR, echtes Chunking)
  • ✓ Top-200-Entitätsinventar und Disambiguierungs-Durchlauf
  • ✓ CMS-Integrations-Spike (Arc XP, WordPress VIP, Brightspot, Atypon)
  • ✓ Festpreis-Angebot für den vollständigen Build der Phasen 1–4

Auftrag für den vollständigen Build

  • ✓ GraphRAG + temporales Schlussfolgern + Zitatdurchsetzung
  • ✓ Redaktionelle Prüfschlange und Audit-Werkzeuge für den Standards-Desk
  • ✓ Integration von ProRata, Bria, Tollbit, Cloudflare Pay Per Crawl
  • ✓ Unterstützung bei Pricing und Produktdesign der Intelligence-Stufe