Een redactioneel beeld dat de ineenstorting van een gerenommeerd media-instituut door AI-gegenereerde nepidentiteiten oproept — een tijdschriftcover die oplost in verzonnen auteursprofielen.
Artificial IntelligenceTechnologyMachine Learning

Sports Illustrated had geen AI-probleem. Het had een waarheidsarchitectuur-probleem.

Ashutosh SinghalAshutosh Singhal7 februari 202614 min

Ik herinner me het exacte moment waarop ik stopte met lezen en begon te ijsberen.

Het was eind november 2023, en Futurism had zojuist zijn onderzoek naar Sports Illustrated gepubliceerd. De details waren bijna te absurd om waar te zijn: een 70 jaar oud media-instituut had productrecensies gepubliceerd die geschreven waren door mensen die niet bestonden. "Drew Ortiz", een man die werd omschreven als iemand die van de buitenlucht hield, had een profielfoto die gekocht was op een marktplaats die AI-gegenereerde gezichten verkoopt. "Sora Tanaka", een zogenaamde fitnessgoeroe, had een verzonnen achtergrondverhaal over haar liefde voor eten en drinken. De inhoud die aan deze fantomen werd toegeschreven, bevatte pareltjes als "Volleybal is een van de populairste sporten ter wereld, en met goede reden" — een zin zo leeg dat hij praktisch een echo geeft.

Ik ijsbeerde niet omdat ik geschokt was. Ik ijsbeerde omdat ik zakelijke klanten al maandenlang precies voor deze faalmodus had gewaarschuwd. Niet dat AI gevaarlijk is in een abstracte, Terminator-achtige zin — maar over een zeer specifieke, zeer voorspelbare architecturale ineenstorting. Sports Illustrated werd niet betrapt op het gebruik van AI. Het werd betrapt op het gebruik van AI zonder een waarheidssysteem eronder. En dat onderscheid is belangrijker dan de meeste mensen beseffen.

De nasleep was snel en meedogenloos. De aandelen van de Arena Group daalden 27% op één dag. Authentic Brands Group trok de uitgeverslicentie van SI in. De SI Union meldde dat mogelijk al het personeel werd ontslagen. Een redactie die verslag had gedaan van Muhammad Ali, het Miracle on Ice, en tientallen jaren Amerikaanse sport werd uitgehold — niet omdat AI de journalisten verving, maar omdat het management koos voor de goedkoopst mogelijke AI-architectuur en dat een strategie noemde.

Die architectuur heeft een naam. Wij noemen het de "LLM Wrapper". En na jarenlang aan het alternatief te hebben gebouwd, ben ik ervan overtuigd dat het vandaag de dag de grootste bedreiging voor het vertrouwen in ondernemingen is.

Wat is een "LLM Wrapper" precies — en waarom faalt hij?

Wanneer ik dit uitleg aan niet-technische leidinggevenden, gebruik ik een analogie. Stel je voor dat je 's werelds meest welbespraakte spreker inhuurt — iemand die over alles kan praten, in elke stijl, voor elk publiek. Indrukwekkend, toch? Stel je nu voor dat die spreker geen geheugen heeft, geen afdeling voor feitencontrole, en een pathologisch onvermogen om "ik weet het niet" te zeggen. In plaats daarvan, wanneer ze op een leemte in hun kennis stuiten, verzinnen ze gewoon... iets. Vol vertrouwen. Vloeiend. In perfect proza.

Dat is een Large Language Model zonder verankering. Het is een probabilistische redeneermachine — hij voorspelt het volgende meest waarschijnlijke woord op basis van patronen in zijn trainingsgegevens. Hij "weet" niet dat Drew Ortiz niet bestaat. Hij weet dat het patroon van een productrecensie doorgaans een auteursnaam en biografie bevat, dus vult hij het sjabloon in met statistisch plausibele details. Voor het model is "Drew Ortiz" geen leugen. Het is een succesvolle patroonaanvulling.

Een LLM Wrapper is wat je krijgt wanneer een bedrijf die welbespraakte, confabulerende spreker neemt en hem op het podium zet met niets anders dan een microfoon en een lijst met trefwoorden. Geen aantekeningen. Geen redacteur in de coulissen. Niemand die controleert of wat er uit hun mond komt waar is. De softwarelaag rond het model is dun — hij geeft een prompt door, krijgt tekst terug, en publiceert die. Dat is het.

AdVon Commerce, de externe leverancier achter de nepinhoud van SI, opereerde precies op deze manier. Ze hadden een intern hulpmiddel genaamd "MEL" — in wezen een wrapper die productzoekwoorden inlas, ze door een basismodel haalde, en gestructureerde recensies uitspuwde. De "menselijke schrijvers" werden voor een schijntje betaald om de output te kopiëren en plakken in contentmanagementsystemen. Ze redigeerden niet. Ze controleerden geen feiten. Ze waren menselijke middleware.

Wanneer de AI de motor is en de mens slechts het smeermiddel, is een ineenstorting van de kwaliteit geen risico — het staat in de planning.

De nacht waarop ik besefte dat "goed genoeg" AI niet goed genoeg was

Er was een nacht — ik denk dat het begin 2024 was, een paar weken nadat het SI-verhaal naar buiten kwam — waarop mijn team en ik een pijplijn voor contentgeneratie voor een klant aan het stresstesten waren. We hadden een standaard Retrieval-Augmented Generation (RAG)-systeem opgezet, het soort dat de "verantwoorde" manier zou moeten zijn om LLM's in te zetten. Je haalt relevante documenten op, injecteert ze in het contextvenster van het model, en zegt hem alleen die bronnen te gebruiken.

We draaiden een batch van 500 productbeschrijvingen. De resultaten zagen er schoon uit. Vloeiend. Professioneel. Mijn hoofdingenieur was klaar om er een punt achter te zetten voor die avond.

Ik zei: "Draai de hallucinatiecontrole nog één keer."

Hij zuchtte. Maar hij draaide hem.

Achttien van de 500 beschrijvingen bevatten beweringen die in geen enkel brondocument stonden. Dat is een foutpercentage van 3,6% — precies in het bereik dat onderzoek aantoont voor state-of-the-art modellen, die tussen de 1,5% en 6,4% hallucineren afhankelijk van het domein. In gespecialiseerde vakgebieden zoals het recht is het nog erger.

Achttien klinkt niet als veel. Maar schaal het op. Als je een uitgever bent die 10.000 artikelen per jaar publiceert — en contentfarms opereren absoluut op dat volume — betekent een hallucinatiepercentage van 4% dat 400 artikelen verzonnen beweringen bevatten. Vierhonderd potentiële rechtszaken, reputatiecrises, of vertrouwensvernietigende momenten. We hebben al advocaten gezien die gesanctioneerd werden omdat ze niet-bestaande rechtszaken citeerden die ChatGPT had verzonnen. De rekensom is niet in jouw voordeel.

Die nacht zei ik tegen mijn team: "We leveren niets wat alleen op waarschijnlijkheid werkt. We hebben een systeem nodig dat ongeverifieerde beweringen behandelt zoals een database null-waarden behandelt — als de afwezigheid van kennis, niet als een uitnodiging om te improviseren."

Waarom kun je hallucinaties niet gewoon oplossen met betere prompts?

Mensen vragen me dit voortdurend. "Kun je het model niet gewoon zeggen voorzichtiger te zijn? Een systeemprompt toevoegen die zegt 'verzin niets'?"

Nee. En hier is waarom die vraag een fundamenteel misverstand over de technologie onthult.

Hallucinatie is geen bug die je met instructies kunt patchen. Het is een structurele eigenschap van hoe deze modellen werken. Een LLM slaat statistische relaties tussen tokens op — woorden en subwoorden — afgeleid uit trainingsgegevens. Hij heeft geen interne database van feiten. Hij heeft geen concept van "waar" versus "onwaar". Hij heeft een concept van "waarschijnlijk" versus "onwaarschijnlijk". Wanneer de waarschijnlijke aanvulling van een patroon een feit vereist dat het model niet heeft, genereert het er een dat bij het patroon past. Hem zeggen "hallucineer niet" is als water zeggen "wees niet nat".

Er is ook het probleem van het contextvenster. Zelfs moderne modellen met enorme contextvensters lopen tegen een muur aan wanneer je ze een volledige zakelijke kennisbank probeert te voeren. Je kunt niet de volledige redactionele richtlijnen, productdatabase, auteursregister en merkbeleid van je bedrijf in elke prompt plakken. De interne kennis van het model — statisch, verouderd, oncontroleerbaar — vult de leemtes op.

En dan is er de veiligheidsdimensie waar bijna niemand in het "gebruik gewoon GPT"-kamp over praat. Prompt injection-aanvallen kunnen inputs manipuleren om veiligheidsfilters te omzeilen. Datavergiftiging kan de webbronnen aantasten waaruit RAG-systemen ophalen. Een nieuwe bedreiging genaamd "slopsquatting" buit het feit uit dat LLM's namen van softwarepakketten hallucineren — aanvallers registreren die nepnamen en leveren malware aan ontwikkelaars die codesuggesties kopiëren en plakken. Het aanvalsoppervlak van een dunne wrapper is enorm.

Ik heb uitgebreid over deze architecturale faalmodi geschreven in de interactieve versie van ons onderzoek, maar de kern is eenvoudig: je kunt je niet naar de waarheid prompt-engineeren.Je hebt een volledig andere architectuur nodig.

Het argument dat veranderde hoe we bouwen

We hadden hier een echte ruzie over binnen Veriprajna. Geen beleefd meningsverschil — een echte ruzie, het soort waarbij mensen hun stem verheffen en iemand uiteindelijk zegt "Kunnen we even een stap terug doen?"

Eén kamp in mijn team — slimme mensen, ervaren ingenieurs — betoogde dat we ons moesten richten op het beter maken van RAG. Geavanceerdere retrieval. Betere chunking-strategieën. Fijn afgestemde embeddingmodellen. De incrementele aanpak. "RAG werkt goed genoeg voor 96% van de gevallen", zeiden ze. "Laten we de laatste 4% optimaliseren."

Het andere kamp — en daar zat ik stevig in — betoogde dat "goed genoeg" een doodvonnis is voor het vertrouwen in ondernemingen. Die 4% is niet willekeurig verdeeld over onschuldige typfouten. Het clustert zich rond precies de beweringen die het meest belangrijk zijn: namen, cijfers, data, causale verbanden. De dingen die, als ze fout zijn, de geloofwaardigheid vernietigen.

Het keerpunt kwam toen iemand van het team de SI-tijdlijn op een whiteboard zette. November 2023: Futurism publiceert het onderzoek. De aandelen van de Arena Group dalen 27%. Nepprofielen worden stilletjes verwijderd — een zet die journalistiek-ethiekprofessoren "een vorm van liegen" noemden. De "verdediging via derden" stort in wanneer voormalige AdVon-medewerkers bevestigen dat "MEL" de inhoud genereerde. Authentic Brands Group trekt de licentie in. Personeel wordt ontslagen. Een 70 jaar oud instituut wordt uitgehold.

"Dat", zei ik, wijzend naar het whiteboard, "is hoe 4% eruitziet op schaal."

Die dag stopten we met ruziën over incrementele RAG-verbeteringen. We begonnen iets fundamenteel anders te bouwen.

Hoe ziet een systeem dat niet kan liegen er eigenlijk uit?

Een architecturale vergelijking naast elkaar die de dunne "LLM Wrapper"-architectuur (prompt erin → tekst eruit, geen verificatie) toont tegenover de neuro-symbolische architectuur (LLM + Knowledge Graph + verificatielaag), waardoor het structurele verschil onmiddellijk zichtbaar wordt.

Het antwoord is wat de AI-onderzoeksgemeenschap neuro-symbolische AI noemt — een hybride architectuur die twee zeer verschillende soorten intelligentie samensmelt.

Zie het als twee hersensystemen die samenwerken. De neurale component — de LLM — verzorgt de taal. Hij is briljant in het ontleden van rommelige tekst, het begrijpen van nuance, het genereren van vloeiend proza. Hij is je intuïtiemotor. Maar hij heeft geen relatie met de waarheid.

De symbolische component — een Knowledge Graph — verzorgt de feiten. Hij slaat de werkelijkheid op als gestructureerde relaties: entiteiten verbonden door predicaten. Wilson AVP → is_certified_by → FIVB. Jane Smith → is_author_of → Article_4521. Dit zijn geen waarschijnlijkheden. Het zijn deterministische beweringen. Wanneer je een Knowledge Graph bevraagt en het antwoord er niet is, krijg je null. Geen creatieve improvisatie. Stilte.

In het geval van SI zou een neuro-symbolisch systeem de LLM hebben gebruikt om de recensie te schrijven — daar is hij oprecht goed in — maar zou het hebben vertrouwd op de Knowledge Graph om de auteur te valideren. Als de graph geen geverifieerde entiteit voor "Drew Ortiz" bevatte, blokkeert het systeem de auteursvermelding. Punt uit. De ontologie — de structurele regels die de graph beheersen — zou afdwingen dat een productrecensie moet verbonden zijn met een geverifieerde auteur. Waardoor het schandaal van de nep-auteursvermelding architecturaal onmogelijk wordt.

Een Knowledge Graph "verzint" geen auteur om de stilte op te vullen. Hij behandelt de afwezigheid van kennis als de afwezigheid van kennis. Die ene eigenschap is een firewall tegen hallucinatie.

Het prestatieverschil is meetbaar. Onderzoek toont aan dat het integreren van Knowledge Graphs in de generatiepijplijn hallucinaties met 6% vermindert en het tokengebruik met 80% verlaagt in vergelijking met conventionele RAG. In het medische domein hebben neuro-symbolische systemen 100% precisie bereikt in het extraheren van klinische gegevens, vergeleken met 63–95% voor standalone GPT-4. Het model hoeft zich niet door rommelige documenten heen te worstelen — het consumeert precieze, geverifieerde triples.

De kunstmatige redactie bouwen

Een procesdiagram dat de multi-agent redactionele pijplijn toont — Onderzoeker-, Schrijver- en Criticus-agenten met hun aparte permissies en gegevensstromen, inclusief de Reflectie-terugkoppellus.

Hier wordt het interessant — en waar het Sports Illustrated-verhaal niet slechts een waarschuwend voorbeeld wordt, maar een ontwerpspecificatie.

Wat SI ontbrak was geen AI-capaciteit. Het was redactionele architectuur. Een echte redactie heeft onderzoekers die feiten verzamelen, schrijvers die verhalen vormgeven, redacteuren die beweringen verifiëren, en een coördinerend redacteur die de workflow overziet. AdVon's "MEL"-hulpmiddel bracht al die rollen samen in één enkele prompt. Eén model dat alles deed. Geen controles. Geen tegenwichten. Geen verantwoording.

We herbouwden die hele redactionele keten als een multi-agent systeem. Niet één AI die alles doet, maar gespecialiseerde agenten met aparte rollen en — dit is cruciaal — aparte permissies.

De Onderzoeker-agent heeft toegang tot de Knowledge Graph en vertrouwde externe API's. Zijn enige taak is het verzamelen van geverifieerde feiten. Hij produceert gestructureerde gegevens, geen proza. De Schrijver-agent neemt die feiten en stelt het verhaal op. Cruciaal is dat hij geen toegang heeft tot externe hulpmiddelen of het web. Hij kan geen nieuwe "feiten" hallucineren omdat hij niet verder kan reiken dan wat de Onderzoeker heeft aangeleverd. De Criticus-agent beoordeelt het concept op adversariële wijze — controleert elke bewering tegen de Knowledge Graph, markeert ongefundeerde beweringen, en evalueert toon en logica.

En dan is er de Reflectie-lus. De meeste wrapper-architecturen nemen het eerste concept dat de AI produceert. Wij niet. Onze Criticus vraagt de Schrijver: "Bekijk je vorige antwoord. Heb je bronnen geciteerd? Zijn er logische leemtes? Heb je iets verzonnen?" De Schrijver genereert een zelfkritiek, en gebruikt die kritiek vervolgens om een beter concept te produceren. Onderzoek bevestigt dat deze "Self-Refine"-aanpak de prestaties op complexe taken met meer dan 20% verbetert en hallucinatie aanzienlijk vermindert.

Het resultaat is een systeem waarin elke zin in de uiteindelijke output kan worden herleid tot een knooppunt in de Knowledge Graph of een specifiek brondocument. Klik op een bewering, en zie de gegevensbron. Dat is geen functie — het is het hele punt.

Voor de volledige technische uiteenzetting van deze architectuur, inclusief de GraphRAG-pijplijn en het Critic-Actor-verificatiemodel, zie onze gedetailleerde onderzoekspaper.

"Maar vertraagt dit AI niet gewoon?"

Ik krijg deze tegenwerping van investeerders en zakelijke leiders die zijn ingepalmd door het snelheidsverhaal. AI wordt verondersteld snel te zijn. Verificatie klinkt als wrijving.

Mijn antwoord: de aandelen van de Arena Group verloren 80% van hun waarde in de loop van het jaar waarin het schandaal zich ontvouwde. Personeel werd ontslagen. De merklicentie werd ingetrokken. Vertel me nog eens hoe "snel" hen geld heeft bespaard.

Snelheid zonder verificatie is geen efficiëntie. Het is een uitgestelde catastrofe. De vraag is niet of je je de overhead van een waarheidsarchitectuur kunt veroorloven. De vraag is of je je de aansprakelijkheid van het niet hebben ervan kunt veroorloven.

Er is een concept in de informatie-economie dat een "lemons market" wordt genoemd — wanneer kopers kwaliteit niet van rommel kunnen onderscheiden, gaan ze ervan uit dat alles rommel is en stoppen ze met het betalen van premieprijzen. Dat is wat er nu met digitale content gebeurt. Wanneer een vertrouwd merk als Sports Illustrated wordt betrapt op het verzinnen van mensen, bevestigt dat de cynische aanname dat alle online content potentieel nep is. Het hele ecosysteem verliest waarde. Hoogwaardige journalistiek wordt niet meer te onderscheiden van de slop van een contentfarm.

Als je bouwt op LLM Wrappers, bouw je op zand. De snelheid die je vandaag wint, is het vertrouwen dat je morgen verliest.

De ondernemingen die dit zullen overleven, zijn niet degene die het snelst content genereren. Het zijn degene wier content een verifieerbare keten van bewaring draagt — van brongegevens naar Knowledge Graph naar gegenereerde tekst naar menselijke goedkeuring. Die keten is de nieuwe concurrentiële slotgracht.

Wat de ineenstorting van SI daadwerkelijk bewees

Ik denk veel aan de SI-journalisten. Degenen die, zoals hun vakbond het verwoordde, "samen vochten om de standaard van deze roemruchte publicatie te handhaven." Ze werden niet vervangen door AI. Ze werden geofferd door een architectuurbeslissing — het management dat koos voor de goedkoopst mogelijke implementatie van een technologie die, correct ingezet, hun werk had kunnen versterken in plaats van hun banen weg te vagen.

Dat is de tragedie die mensen missen wanneer ze dit framen als "AI versus mensen." Het was nooit AI versus mensen. Het was luie AI-architectuur versus institutioneel vertrouwen. De AI faalde niet. De architectuur faalde. De governance faalde. De beslissing om verificatie als optioneel te behandelen faalde.

Het Sports Illustrated-schandaal bewees iets wat ik had vermoed maar niet helder kon verwoorden totdat ik het zich zag ontvouwen: de waarde van een onderneming in het tijdperk van AI is recht evenredig met haar vermogen om te verifiëren wat haar systemen produceren.Niet het volume. Niet de snelheid. De verifieerbaarheid.

Elke zakelijke leider die dit leest, zet op dit moment AI in, of is dat van plan. De vraag is niet of je het moet gebruiken — die trein is vertrokken. De vraag is of jouw architectuur de waarheid behandelt als een structurele randvoorwaarde of als een bijzaak. Of jouw systeem kan uitleggen waarom het genereerde wat het genereerde. Of je, wanneer iemand vraagt "Wie heeft dit geschreven en is het waar?", een antwoord hebt dat niet luidt "Nou, het model zei het zo."

Drew Ortiz bestond niet. Maar de schade die hij aanrichtte was zeer reëel. De volgende Drew Ortiz wordt op dit moment ergens gegenereerd, door een wrapper-architectuur die geen mechanisme heeft om het te stoppen. De enige vraag is of het op jouw platform wordt gegenereerd.

Related Research

Also Published On