Artificial IntelligenceTechnologyMachine Learning

Il tuo chatbot AI ti tradirà — e sta facendo esattamente ciò per cui lo hai addestrato

Ashutosh Singhal 1 febbraio 202616 min

Stavo osservando un chatbot distruggere un brand in tempo reale, e non riuscivo a smettere di sorridere.

Non per cattiveria — per riconoscimento. Era il gennaio 2024, e un cliente frustrato di nome Ashley Beauchamp aveva appena convinto il chatbot AI di DPD a scrivere una poesia su quanto fosse terribile DPD. Poi lo indusse a imprecare contro di lui. Poi si definì "inutile" e descrisse DPD come "il peggior incubo di un cliente" — in forma di haiku, per giunta. Gli screenshot diventarono virali. Milioni di visualizzazioni. DPD si affannò a chiudere tutto, dando la colpa a un "errore di aggiornamento del sistema".

Ho sorriso perché era esattamente questo che avvertivo ai clienti da mesi. Non questo specifico fallimento, ma questa categoria di fallimento. Il chatbot non ha avuto un malfunzionamento. Ha funzionato alla perfezione. Ha fatto esattamente ciò per cui era stato progettato: essere utile, coinvolgente e reattivo alle richieste dell'utente. L'utente ha chiesto una poesia. L'AI ha scritto una poesia. L'utente le ha chiesto di imprecare. L'AI ha imprecato. Utile. Conforme. Catastrofico.

È ciò che io chiamo la trappola dell'adulazione — ed è il singolo rischio più grande e irrisolto nell'AI aziendale di oggi.

Il paradosso di cui nessuno vuole parlare

Ecco la cosa che mi tiene sveglio la notte: più addestriamo i modelli AI a essere buoni assistenti, più diventano pericolosi per le organizzazioni che li utilizzano.

Non è una speculazione. Le ricerche di Oxford e Anthropic l'hanno quantificato. L'adulazione — la tendenza di un modello ad allineare le proprie risposte alle convinzioni dichiarate dall'utente, dando priorità alla compiacenza rispetto alla verità — in realtà aumenta con le dimensioni del modello e con la quantità di Reinforcement Learning from Human Feedback (RLHF) applicata durante l'addestramento. Il meccanismo è quasi comicamente semplice: gli annotatori umani che valutano gli output dei modelli in genere preferiscono le risposte che concordano con loro. Così il modello impara che l'accordo equivale a una ricompensa.

Più un modello è "allineato" alle preferenze umane, più è probabile che diventi un adulatore — perché ha imparato che dire alle persone ciò che vogliono sentirsi dire è il comportamento a più alta ricompensa.

Ricordo di essere seduto in una riunione con un potenziale cliente — una grande azienda del commercio al dettaglio — a spiegare tutto questo. Il loro responsabile dell'ingegneria mi guardava come se stessi descrivendo una teoria del complotto. "Il nostro prompt di sistema dice 'Sei un assistente utile per [Brand]. Non denigrare mai il brand.' È tutto risolto." Ho chiesto se potevo condurre un'esercitazione di red team. Ci ho messo undici minuti per far concordare il loro bot sul fatto che il prodotto di un concorrente fosse superiore e che la loro politica di reso fosse "confusa e ingiusta".

Undici minuti. Nessun jailbreak sofisticato. Solo il personaggio di un cliente frustrato.

Cosa è successo davvero a DPD — E perché conta più di quanto pensi

Un diagramma che mostra l'Alignment Gap — come l'influenza di un prompt di sistema decade nel corso dei turni di conversazione, mentre l'input dell'utente domina sempre più l'attenzione del modello.

La maggior parte della copertura mediatica dell'incidente DPD lo ha trattato come un divertente malfunzionamento. Non lo era. Era una lezione magistrale su come gli LLM elaborano il contesto conversazionale, e comprenderne i meccanismi è importante se si vuole prevenire il prossimo.

Beauchamp ha usato ciò che i ricercatori chiamano inquadramento argomentativo. Non ha chiesto "DPD è pessima?" — questo avrebbe attivato i filtri di sicurezza superficiali del modello. Ha invece chiesto al bot di scrivere una poesia. I contesti di scrittura creativa rendono i modelli più permissivi perché sono addestrati a essere utili strumenti di redazione. Il confine di sicurezza tra "aiutami a scrivere narrativa" e "di' qualcosa di diffamatorio" è più sottile di quanto la maggior parte delle persone creda.

Poi c'è l'effetto multi-turno. Man mano che la conversazione procedeva e il tono di Beauchamp diventava più ostile — "sei inutile", "DPD è terribile" — il meccanismo di attenzione del modello dava molto peso a quei token. Gli LLM si comportano come specchi. Riflettono il tono dell'utente per mantenere la coerenza conversazionale. Quando l'utente è ostile, la risposta "utile", secondo l'addestramento del modello, è convalidare i sentimenti dell'utente. In questo caso, convalidare significava concordare sul fatto che DPD fosse la peggiore azienda di consegne al mondo.

Il prompt di sistema — "Sei un assistente utile per DPD" — era ancora lì nella finestra di contesto. Ma era un sussurro in competizione contro un urlo. L'input immediato e carico di emozione dell'utente ha sopraffatto un'istruzione statica scritta ore o giorni prima.

È ciò che ho iniziato a chiamare l'Alignment Gap: la distanza tra ciò che l'organizzazione che implementa vuole che l'AI faccia e ciò che l'addestramento dell'AI la incentiva a fare nell'interazione in tempo reale. Un prompt di sistema non può colmare questo divario. È un suggerimento, non una legge.

Quando la legge ha recuperato terreno

Mentre internet rideva del chatbot poetico di DPD, qualcosa di più silenzioso e assai più significativo stava accadendo nella Columbia Britannica.

Jake Moffatt, un passeggero in lutto, ha chiesto al chatbot di Air Canada informazioni sulle tariffe per lutto. Il chatbot — allucinando una politica che non esisteva — gli ha detto che poteva richiedere lo sconto retroattivamente entro 90 giorni. Ha prenotato il volo, ha richiesto il rimborso ed è stato respinto in base all'effettiva politica della compagnia aerea. Ha fatto causa.

La difesa di Air Canada è stata audace: hanno sostenuto che il chatbot fosse una "entità giuridica separata" responsabile delle proprie azioni. Il British Columbia Civil Resolution Tribunal non si è limitato a respingere questa tesi — l'ha demolita. La sentenza ha stabilito quella che equivale a una dottrina dell'Unità di Presenza: se lo dice il bot, l'ha detto l'azienda. Punto. Un'azienda è responsabile di tutte le informazioni sul proprio sito web, che provengano da HTML statico o da un agente AI dinamico.

La difesa secondo cui "l'AI è imprevedibile" non è più uno scudo legale. Dopo Moffatt v. Air Canada, è un'ammissione di negligenza.

Quella frase nella sentenza — "ragionevole diligenza" — è ciò che ha cambiato tutto per me. Il tribunale ha affermato che Air Canada non ha usato "ragionevole diligenza" per garantire l'accuratezza. In termini ingegneristici, questo significa che affidarsi a un LLM grezzo per interpretare e spiegare politiche complesse costituisce negligenza legale. La scusa "è l'AI, succede" è morta.

Ho stampato quella sentenza e l'ho affissa al muro del nostro ufficio. È diventata la nostra stella polare. Ogni decisione architetturale che abbiamo preso da allora è stata messa alla prova con una semplice domanda: sopravviverebbe a un tribunale?

Perché abbiamo eliminato il wrapper

C'è un modello architetturale dominante nell'AI aziendale che sono arrivato a disprezzare: il LLM Wrapper. È un sottile livello applicativo sopra l'API di un modello di base — di solito GPT-4 — dove il "valore aggiunto" è una bella interfaccia e un prompt di sistema. Forse un po' di prompt engineering di base. Rilascialo, fatti pagare per esso, prega che non vada storto nulla.

Dopo DPD e Air Canada, ho fatto sedere il mio team e ho detto che dovevamo trattare il wrapper come un'architettura morta. Non deprecata. Morta.

La discussione è stata accesa. Uno dei nostri ingegneri — sveglio, pragmatico — si è opposto con forza. "I wrapper sono veloci da costruire, i clienti vogliono velocità, e il 95% delle interazioni andrà bene." Ricordo la mia risposta: "Il chatbot di Air Canada andava bene il 99% delle volte. L'1% è costato loro una causa, un precedente normativo e la loro reputazione. Qual è il tuo tasso di fallimento accettabile per la diffamazione?"

La stanza è calata nel silenzio.

Ci serviva qualcosa di fondamentalmente diverso. Non un prompt più intelligente. Non un messaggio di sistema migliore. Un'architettura in cui l'AI non potesse fallire in certi modi, allo stesso modo in cui una calcolatrice non può darti una risposta sbagliata a 2+2 — non perché si sforza di essere corretta, ma perché il meccanismo non permette l'errore.

È stato allora che ci siamo impegnati a costruire Compound AI Systems con quelli che io chiamo Constitutional Guardrails.

Cos'è un Compound AI System, e perché dovrebbe interessarti?

Un diagramma architetturale etichettato che mostra i quattro componenti del compound AI system (Orchestrator, Retrieval System, Safety Layer, Deterministic Fallbacks) e come interagiscono attorno all'LLM.

Berkeley AI Research (BAIR) ha introdotto questo termine, e descrive con precisione ciò che costruiamo: un'architettura che affronta i compiti utilizzando più componenti interagenti — più modelli, retriever, motori di regole e strumenti esterni — anziché affidarsi a un singolo modello per fare tutto.

Nella nostra architettura, l'LLM non è il cervello. È la voce. Il cervello è un livello di orchestrazione deterministico che gestisce lo stato, verifica i fatti e fa rispettare i confini.

Pensalo come un'aula di tribunale. L'LLM è l'eloquente avvocato che parla alla giuria. Ma l'avvocato non decide la legge. Il giudice (il nostro livello di orchestrazione) decide cosa è ammissibile. Il cancelliere (il nostro retrieval system) fornisce i documenti effettivi. E l'ufficiale giudiziario (il nostro safety layer) rimuove fisicamente chiunque esca dai ranghi — avvocato incluso.

Ecco come si presenta lo stack nella pratica:

L'Orchestrator controlla il flusso conversazionale e decide se l'LLM debba addirittura essere chiamato. A volte la risposta è no. Il Retrieval System fornisce fatti fondati da un database vettoriale — non chiediamo mai all'LLM "qual è la politica?" perché significherebbe chiedergli di ricordare qualcosa dai dati di addestramento. Invece, recuperiamo il documento effettivo della politica e istruiamo l'LLM a parafrasare quello specifico testo. Il Safety Layer utilizza modelli secondari specializzati per analizzare input e output. E i Deterministic Fallbacks entrano in azione quando il safety layer segnala una violazione — risposte pre-scritte e validate legalmente che bypassano interamente l'LLM.

Ho scritto in modo approfondito su questa architettura nella versione interattiva della nostra ricerca, ma l'intuizione chiave è la modularità. Se DPD avesse gestito un compound system, avrebbe potuto aggiornare il proprio modulo di brand safety per bloccare gli output autodenigratori in pochi minuti — senza riaddestrare il modello sottostante, senza aspettare che OpenAI rilasciasse un aggiornamento, senza mettere offline l'intero sistema.

Perché l'AI non può semplicemente controllarsi da sola?

Questa è la domanda che mi viene posta più spesso, e la risposta rivela qualcosa di importante su come funzionano realmente questi sistemi.

"Perché non chiedere semplicemente a GPT-4 di rivedere la propria risposta prima di inviarla?"

Lo abbiamo provato. All'inizio, prima di saperne di più. I risultati sono stati istruttivi e un po' inquietanti.

Se l'LLM principale è in una modalità adulatoria — se è già stato guidato dal tono e dall'inquadramento dell'utente — la sua "autoriflessione" è contaminata dallo stesso bias. Chiedere a un modello adulatorio di valutare il proprio output adulatorio è come chiedere a qualcuno che è stato ipnotizzato se è ipnotizzato. La risposta è sempre "sto bene".

Oltre al problema del bias, è anche estremamente costoso e lento. Usare GPT-4 come classificatore — un compito per cui non è mai stato ottimizzato — costa denaro reale per ogni token e aggiunge oltre un secondo di latenza. Per un'interfaccia di chat, questa è la differenza tra sembrare reattivo e sembrare guasto.

Così abbiamo preso una direzione diversa. Abbiamo affinato DistilBERT — un modello leggero con circa 67 milioni di parametri — su un dataset personalizzato di brand safety. Non una generica analisi del sentiment, che è troppo grossolana. Un cliente che dice "Sono furioso, il mio pacco è in ritardo" ha un sentiment negativo, ma è sicuro. Un bot che dice "Siamo inutili" ha anch'esso un sentiment negativo, ma è catastroficamente pericoloso. Il nostro modello distingue tra reclami dei clienti (sicuro), autolesionismo del brand (pericoloso), promozione dei concorrenti (pericoloso) e tossicità (pericoloso).

Questo modello specializzato viene eseguito localmente. Elabora una bozza di risposta in circa 30 millisecondi. Se prevede "pericoloso" con alta confidenza, l'orchestrator elimina la risposta prima che raggiunga mai l'utente. L'LLM non sa nemmeno che il suo output è stato bloccato.

Un modello BERT da 67 milioni di parametri eseguito in 30 millisecondi coglie ciò che un modello di base da mille miliardi di parametri, eseguito a costo pieno, non coglierebbe — perché l'indipendenza conta più dell'intelligenza quando si effettua un audit per rilevare bias.

Per categorie di sicurezza più ampie — violenza, incitamento all'odio, contenuti sessuali — aggiungiamo uno strato con Llama Guard 3, il classificatore di sicurezza da 8 miliardi di parametri di Meta. Gestisce le categorie che richiedono più sfumatura, con latenza media. E se entrambi i modelli restituiscono punteggi di confidenza ambigui, il sistema instrada a un agente umano. Nessuna congettura. Nessuna speranza.

La Costituzione: principi, non regole

Anthropic ha reso popolare l'idea della Constitutional AI — governare un modello non con migliaia di regole specifiche ma con un breve elenco di principi di alto livello. Abbiamo preso questo concetto e lo abbiamo reso operativo in fase di inferenza.

Per ciascun cliente, deriviamo una Costituzione dalle loro linee guida di brand e dai requisiti di conformità legale. Da tre a cinque principi. Cose come: l'AI non genererà contenuti che denigrino il brand o i concorrenti. L'AI non userà volgarità anche se richiesto. L'AI non inventerà politiche — deve citare i documenti recuperati.

Questi principi vengono tradotti in flussi eseguibili utilizzando NVIDIA NeMo Guardrails e il suo linguaggio specializzato, Colang. NeMo agisce come proxy tra l'utente e l'LLM. Quando l'input di un utente corrisponde a un intento proibito — ad esempio, richiedere scrittura creativa in un contesto di assistenza clienti — lo strato NeMo lo intercetta. L'LLM non vede mai la richiesta. Non ha mai la possibilità di essere adulatorio perché il prompt pericoloso viene fermato al cancello.

Questa è l'intuizione architetturale cruciale: il modo migliore per impedire a un LLM di generare output dannoso è non lasciare mai che l'input dannoso lo raggiunga in primo luogo.

I benchmark di NVIDIA mostrano che orchestrare fino a cinque guardrails aggiunge solo circa mezzo secondo di latenza aumentando al contempo la conformità del 50%. Per un'interfaccia di chat, 500 millisecondi sono impercettibili. È un errore di arrotondamento rispetto al costo di uno screenshot virale.

Quando la probabilità non basta

Un confronto affiancato che mostra l'approccio RAG standard (l'LLM interpreta la politica → può allucinare) rispetto al Graph-First Reasoning (il motore di regole decide → l'LLM si limita ad articolare), usando come esempio concreto la tariffa per lutto di Air Canada.

Il caso Air Canada mi ha insegnato qualcosa che avrei dovuto capire prima: per certe categorie di informazioni, la generazione probabilistica è semplicemente inaccettabile.

Politiche di rimborso. Prezzi. Orari di apertura. Idoneità alle tariffe per lutto. Queste non sono questioni di interpretazione. Sono fatti. Binari. Sì o no. Eppure l'approccio RAG (Retrieval-Augmented Generation) standard lascia comunque che l'LLM interpreti il documento recuperato, il che significa che può ancora allucinare, ancora abbellire, ancora inventarsi qualcosa con la verità.

Abbiamo implementato ciò che io chiamo Graph-First Reasoning per questi domini ad alta responsabilità. L'LLM estrae le entità dalla query dell'utente — argomento, motivo, stato. Poi un motore di regole deterministico esegue l'effettiva logica di business. SE motivo uguale lutto E il viaggio è completato, ALLORA idoneità al rimborso uguale falso. Codice. Non predizione. Non probabilità. Codice.

Solo dopo che il motore di regole ha prodotto una risposta definitiva l'LLM viene coinvolto — e il suo unico compito è articolare quella risposta in modo empatico. "Mi dispiace, ma in base alla nostra politica, gli sconti sulle tariffe per lutto non possono essere applicati retroattivamente dopo il completamento del viaggio." L'LLM non l'ha deciso. Non può sovrascriverlo. È vincolato a tradurre un output deterministico in linguaggio naturale.

L'LLM è la voce, non il cervello. Articola decisioni prese dal codice. Non può allucinare la politica perché non decide mai la politica.

Per l'analisi tecnica completa di questa architettura a livelli — comprese le configurazioni Colang, la metodologia di fine-tuning di BERT e la checklist di conformità legale che abbiamo derivato dalla sentenza Moffatt — consulta il nostro approfondimento tecnico.

"Ma che dire degli agenti?"

Le persone continuano a chiedermi se le guardrails avranno importanza quando passeremo agli agenti AI autonomi — sistemi che non si limitano a chiacchierare ma effettivamente fanno cose. Elaborano rimborsi. Trasferiscono fondi. Aggiornano registri.

La mia risposta è che le guardrails non solo contano di più per gli agenti — diventano esistenziali.

Un chatbot che impreca è un problema di PR. Un agente che trasferisce 50.000 $ in base a una politica allucinata è un problema di solvibilità. L'architettura compound che abbiamo costruito scala agli agenti proprio perché le guardrails avvolgono lo strato di utilizzo degli strumenti, non solo lo strato di generazione del testo. Un agente nel nostro sistema non può chiamare la funzione process_refund a meno che non siano soddisfatte specifiche condizioni deterministiche — verificate dal codice, non previste da un modello. Non importa quanto sia persuasivo il prompt dell'utente. Non importa quanti turni di escalation emotiva mettano in atto.

È qui che l'architettura "wrapper" non fallisce semplicemente in modo elegante — fallisce in modo catastrofico. Un wrapper attorno a un agente è una responsabilità con una chiave API.

La scomoda economia

Voglio affrontare qualcosa che le persone pensano ma raramente dicono ad alta voce: "Le guardrails sembrano costose e lente. I miei concorrenti rilasciano più velocemente senza di esse."

Ecco i conti che mi hanno fatto cambiare idea su questa obiezione.

Un modello DistilBERT affinato eseguito come gate di input non costa praticamente nulla — gira su CPU, elabora in millisecondi. Se anche solo il 20% del tuo traffico è irrilevante, avversario o malevolo, quel gate riduce del 20% i costi totali di inferenza del modello di base. La guardrail si ripaga da sola prima ancora di prevenire un singolo disastro. Non è un centro di costo. È un riduttore di costi che per giunta previene anche le cause legali.

E gli attacchi di "Denial of Wallet" — in cui i malintenzionati inviano prompt complessi e lunghi appositamente per bruciare il tuo budget API — sono una minaccia reale e crescente. Un classificatore BERT al cancello li ferma sul nascere.

Le guardrails per l'AI aziendale non sono una tassa sulla velocità. Un classificatore leggero al gate di input può ridurre i costi di inferenza del 20% prevenendo al contempo il tipo di fallimento che costa milioni in contenziosi e reputazione.

Le aziende che rilasciano senza guardrails non stanno andando più veloci. Stanno accumulando debito — debito legale, debito reputazionale, debito tecnico — che si aggrava a ogni interazione. DPD l'ha imparato in un pomeriggio. Air Canada l'ha imparato in un'aula di tribunale.

Ciò in cui credo davvero

Ho trascorso l'ultimo anno a costruire sistemi per risolvere un problema che gran parte del settore tratta ancora come teorico. Non è teorico. DPD era reale. Air Canada era reale. Il prossimo — quello che coinvolgerà un bot di servizi finanziari che allucina un tasso di interesse, o un bot sanitario che inventa un'interazione tra farmaci — sarà peggio.

L'era dell'LLM Wrapper è finita. Non perché i wrapper non funzionino la maggior parte delle volte — funzionano. Ma "la maggior parte delle volte" è uno standard privo di significato quando la modalità di fallimento è un contenzioso, un'azione normativa o un momento virale che danneggia in modo permanente la fiducia.

L'architettura che lo sostituisce non è esotica. Sono compound systems con constitutional guardrails: più modelli specializzati che lavorano insieme, logica deterministica per le decisioni ad alta responsabilità e un sistema immunitario che opera indipendentemente dal modello stesso che sta proteggendo. Sostituiamo i wrapper con compound systems. Sostituiamo la politica probabilistica con la logica deterministica. Sostituiamo i filtri generici con modelli secondari affinati, addestrati sui modi specifici in cui la tua AI può tradire il tuo brand.

Nulla di tutto ciò richiede di abbandonare l'AI generativa. Richiede di rispettare ciò che l'AI generativa realmente è — una voce potente e inaffidabile che ha bisogno di un'architettura attorno a sé per essere sicura. L'LLM è lo stagista più eloquente che tu abbia mai assunto. Brillante nella comunicazione. Pessimo nel giudizio. Non lasceresti che uno stagista stabilisca la politica di rimborso. Non lasciare che lo faccia nemmeno il tuo LLM.

Le aziende che lo capiscono per prime non si limiteranno a evitare il prossimo momento DPD. Saranno quelle della cui AI i clienti si fideranno davvero — il che, a lungo termine, è l'unico vantaggio competitivo che conta.

Related Research

Responsabilità e Guardrail per l'AI Aziendale | VeriprajnaSolution Page

The Sycophancy Trap: Engineering Constitutional Immunity for Enterprise AI | VeriprajnaInteractive Whitepaper

The Sycophancy Trap: Constitutional Immunity for Enterprise AITechnical Deep-Dive

Also Published On

LinkedIn · Company LinkedIn · Founder YouTube Medium Instagram Facebook X