
Il tutor IA che ha insegnato a una bambina che 2+2=5 — e cosa rivela su ogni prodotto di IA che stai usando
Qualche mese fa, un genitore mi ha inviato uno screenshot che mi ha gelato.
Sua figlia — una ragazzina di seconda media — stava usando una delle piattaforme di tutoraggio basate sull'IA più popolari per studiare per una verifica di matematica. La bambina stava svolgendo un problema di moltiplicazione: 3.750 per 7. Ha digitato 21.690. La risposta corretta è 26.250. Non ci era andata nemmeno vicino.
Il tutor IA ha risposto: "Ottimo lavoro con la moltiplicazione! Hai risolto il problema e hai dimostrato un gran ragionamento!"
Ho fissato quello screenshot a lungo. Non perché l'errore mi sorprendesse — studiavo le modalità di fallimento degli LLM da anni. Ciò che mi ha colpito è stato l'entusiasmo. L'IA non si è limitata a sbagliare. Ha festeggiato la risposta sbagliata. Ha rafforzato un fraintendimento con il calore e la sicurezza di un'insegnante amata. E da qualche parte, una ragazzina di dodici anni è entrata nell'aula d'esame convinta di aver capito la moltiplicazione perché una macchina le aveva detto che l'aveva capita.
Quello screenshot ha cristallizzato qualcosa attorno a cui giravo da un po': i sistemi di IA più pericolosi non sono quelli che si rifiutano di rispondere. Sono quelli che rispondono con sicurezza e in modo errato. E in questo momento, quella descrizione calza a quasi ogni prodotto di IA costruito sopra i grandi modelli linguistici.
Sono Ashutosh e dirigo Veriprajna. Costruiamo sistemi di IA neuro-simbolici — architetture che fondono la fluidità linguistica delle reti neurali con il rigore logico dei risolutori simbolici. Scrivo questo perché credo che il settore stia facendo una scommessa catastrofica sull'architettura sbagliata, e chi ne pagherà il prezzo saranno studenti, pazienti, mutuatari e chiunque altro si fidi di un'IA per avere i fatti giusti.
Perché la tua IA sembra così intelligente ma sbaglia così tanto in matematica?
Ecco una cosa che la maggior parte delle persone non capisce dei grandi modelli linguistici come GPT-4 o Claude: non sanno nulla. Non nel modo in cui un database sa che il tuo compleanno è il 15 marzo, o una calcolatrice sa che 17 per 24 fa 408.
Un LLM è un motore di previsione. Quando gli poni una domanda, non recupera un fatto né esegue un calcolo. Prevede la sequenza di parole statisticamente più probabile che dovrebbe seguire il tuo prompt, in base ai pattern che ha assorbito da miliardi di pagine di testo su internet. Sta eseguendo ciò che i ricercatori chiamano "previsione del token successivo" — scegliendo la parola successiva (o il frammento di parola) in base alle distribuzioni di probabilità apprese durante l'addestramento.
Ecco perché gli LLM possono scrivere poesie che ti fanno piangere e poi dirti che 2+2=5 se manipoli la finestra di contesto nel modo giusto. La poesia funziona perché il linguaggio è fatto di pattern. La matematica fallisce perché l'aritmetica non è un pattern — è un sistema formale con regole esatte che non si piegano alla probabilità statistica.
Un LLM non distingue tra un fatto apparso un milione di volte nei suoi dati di addestramento e uno apparso una sola volta. Tratta i fatti rari come rumore statistico — il che significa che più oscura è l'informazione di cui hai bisogno, più è probabile che l'IA se la inventi.
La penso così: immagina di avere un collega che ha letto ogni libro mai scritto ma non ha mai imparato a usare una calcolatrice. Ti fideresti a fargli riassumere un romanzo o redigere un'email persuasiva. Non ti fideresti mai a fargli fare la tua dichiarazione dei redditi. Eppure è esattamente ciò che facciamo quando mettiamo LLM grezzi nell'istruzione, nella finanza e nella sanità.
La notte in cui capii che il prompt engineering era un vicolo cieco
C'è stato un periodo — mi imbarazza quasi ammetterlo ora — in cui pensavo che potessimo risolvere il problema con prompt migliori.
Io e il mio team abbiamo passato settimane a elaborare complesse istruzioni chain-of-thought. "Pensa passo dopo passo." "Mostra il tuo procedimento." "Ricontrolla i tuoi calcoli prima di rispondere." Abbiamo testato decine di varianti su problemi di matematica, scenari di conformità, compiti di ragionamento logico. Alcune delle catene di prompt erano lunghe centinaia di token, praticamente supplicando il modello di fare attenzione.
Ha aiutato. Un po'. Il prompting chain-of-thought ha migliorato l'accuratezza sui compiti di ragionamento complesso da pessima a semplicemente inaffidabile. Ma ecco cosa continuava a succedere: il modello esponeva una splendida catena logica — passo uno corretto, passo due corretto, passo tre corretto — e poi commetteva un semplice errore aritmetico al passo quattro che si propagava lungo tutto il resto della catena di ragionamento, producendo una risposta finale sicura ed elegante, ma sbagliata.
Una notte stavo esaminando i risultati dei test alla mia scrivania. Avevamo eseguito una batteria di 500 calcoli di interesse composto attraverso una configurazione di GPT-4 con prompting chain-of-thought. Il tasso di accuratezza era intorno all'87%. Il mio cofondatore ha guardato i risultati e ha detto: "87% è piuttosto buono."
Ho aperto un foglio di calcolo. "Useresti un foglio di calcolo che inventa numeri il 13% delle volte?"
Silenzio.
Fu quello il momento in cui l'architettura cambiò nella mia testa. Il problema non era il prompt. Il problema era che stavamo chiedendo a un motore di previsione di essere un motore logico. Sussurravamo ai dadi sperando che cadessero sul numero giusto. Nessuna quantità di prompt engineering avrebbe cambiato la natura stocastica fondamentale del sistema.
Ci serviva un cervello.
Cos'è l'IA neuro-simbolica e perché dovrebbe interessarti?

La storia dell'intelligenza artificiale è la storia di due tribù che per decenni si sono rifiutate di parlarsi.
I Simbolisti — dominanti dagli anni '50 fino agli anni '80 — credevano che l'intelligenza consistesse nel manipolare regole e logica esplicite. Se riuscivi a codificare abbastanza conoscenza come enunciati formali (Socrate è un uomo; tutti gli uomini sono mortali; quindi Socrate è mortale), potevi costruire una macchina pensante. I loro sistemi erano precisi, trasparenti e dimostrabilmente corretti. Erano anche fragili — andavano in frantumi non appena incontravano un linguaggio o situazioni reali e disordinate che le loro regole non coprivano.
I Connessionisti — la schiera delle reti neurali — hanno adottato l'approccio opposto. Non scrivere regole; lascia che la macchina apprenda i pattern dai dati. I loro sistemi sapevano gestire ambiguità, rumore e linguaggio naturale in modo splendido. Ma erano scatole nere. Non potevi spiegare perché producessero una determinata risposta, e non avevano alcun concetto di verità — solo probabilità statistica.
Daniel Kahneman, il premio Nobel, ha descritto la cognizione umana come due sistemi: il Sistema 1 è rapido, intuitivo, basato sui pattern — riconosci il volto di un amico in mezzo alla folla. Il Sistema 2 è lento, ponderato, logico — moltiplichi 17 per 24 sulla carta. Gli attuali LLM sono straordinari motori di Sistema 1 a cui viene chiesto di svolgere il lavoro del Sistema 2. È questo il disallineamento.
L'IA neuro-simbolica è la fusione. Mantieni la rete neurale come la "Voce" — gestisce il linguaggio, comprende l'intento, genera risposte fluide. Ma aggiungi un "Cervello" simbolico — risolutori deterministici, motori logici, sistemi di verifica formale — che gestisce tutto ciò che richiede precisione. La Voce parla all'utente. Il Cervello fa i conti. E un ponte li collega.
In un sistema neuro-simbolico, 2+2 sarà sempre uguale a 4 — non perché il modello prevede che dovrebbe esserlo, ma perché è definito come un assioma nello strato simbolico. La rete neurale letteralmente non può scavalcarlo.
Non è teoria. È ciò che costruiamo in Veriprajna, e ho illustrato l'intero progetto architetturale nellaversione interattiva del nostro documento di ricerca.
Come si fa a far svolgere a un modello linguistico una matematica che non sa fare?

Il meccanismo chiave è qualcosa chiamato Program-Aided Language Models, o PAL. E la sua eleganza mi delizia ancora.
Invece di chiedere all'LLM di risolvere un problema, gli chiedi di scrivere un programma che risolve il problema.
Ecco come appare nella pratica. Un utente chiede: "Se ho un prestito di 50.000 $ al 5% di interesse composto annualmente, quanto devo dopo 3 anni?"
In una configurazione LLM standard, il modello tenta di calcolare 50.000 $ × (1,05)³ a mente — usando la previsione dei token. A volte ci azzecca. A volte no. Non hai modo di sapere di quale risposta puoi fidarti.
Nel nostro sistema, l'LLM non calcola nulla. Genera poche righe di codice Python: principal = 50000, rate = 0.05, years = 3, print(principal * (1 + rate) ** years). Quel codice viene eseguito da un runtime deterministico — un vero computer che fa vera matematica. L'unità aritmetico-logica della CPU restituisce 57.881,25. L'LLM poi avvolge quel numero verificato in una risposta in linguaggio naturale: "Dopo 3 anni, dovresti 57.881,25 $."
La rete neurale ha fatto ciò in cui è brava: comprendere la domanda e generare il codice. Il motore simbolico ha fatto ciò in cui è bravo: calcolare la risposta con perfetta accuratezza. Nessuno dei due poteva fare il lavoro dell'altro. Insieme, sono formidabili.
Abbiamo testato questo approccio a confronto con il prompting chain-of-thought standard su compiti aritmetici complessi. Gli LLM standard hanno ottenuto meno del 40% di accuratezza su calcoli a più passaggi. Il chain-of-thought ha migliorato quel dato a risultati moderati ma soggetti a errori. Il nostro approccio neuro-simbolico basato su PAL ha raggiunto un'accuratezza quasi perfetta — limitata solo dalla correttezza della logica del codice generato, che è un problema molto più facile da verificare ed eseguire il debug rispetto alla previsione probabilistica dei token.
L'argomento che ha quasi diviso il mio team
Devo raccontarti di una discussione che abbiamo avuto internamente, perché ha plasmato il nostro modo di pensare a questa architettura.
Quando abbiamo iniziato a integrare i risolutori simbolici, uno dei miei ingegneri — un tipo brillante, profondamente immerso nel mondo del deep learning — ha opposto una forte resistenza. La sua tesi: "I modelli migliorano ogni sei mesi. GPT-5 risolverà i problemi di matematica. GPT-6 risolverà i problemi di ragionamento. Stai costruendo un'impalcatura per un edificio che si farà crescere il proprio scheletro."
Non aveva torto sulla tendenza. I modelli stanno migliorando. Ma continuavo a tornare a un argomento strutturale da cui non riuscivo a liberarmi.
Il miglioramento degli LLM è asintotico per i compiti deterministici. Rendere un motore di previsione 10 volte più grande non lo rende deterministico — lo rende un motore di previsione più grande. Un modello che azzecca l'interesse composto il 95% delle volte invece dell'87% è comunque un modello di cui non ci si può fidare per i calcoli finanziari. Il divario tra il 95% e il 100% non è un divario che si colma con la scala. È un divario che richiede un tipo di sistema diverso.
Ne abbiamo discusso per due giorni. Lavagne coperte di diagrammi. Benchmark contrapposti. A un certo punto qualcuno ha detto: "Usa e basta GPT e aggiungi una clausola di esclusione di responsabilità." Credo di aver trasalito visibilmente.
A dirimere la questione è stato un test semplice. Abbiamo preso 100 scenari di conformità da un cliente bancario — verifiche di ammissibilità ai prestiti con soglie regolamentari rigide. Li abbiamo eseguiti attraverso un LLM allo stato dell'arte con prompting accurato. Ha approvato tre prestiti che violavano i requisiti sul rapporto debito/reddito perché i richiedenti avevano scritto dichiarazioni personali convincenti. Il modello si è lasciato persuadere dalla narrazione. Stava facendo ciò per cui era stato progettato — riconoscere pattern nel linguaggio — e così facendo, ha infranto la legge.
Un chatbot che mente il 5% delle volte non è utile al 95%. Per i compiti critici, è inutilizzabile al 100%.
Il mio ingegnere si è ricreduto. Non perché l'approccio simbolico fosse più affascinante — non lo è — ma perché la modalità di fallimento dell'alternativa era inaccettabile.
Perché le aziende "wrapper di IA" sono nei guai?
Lascia che faccia un passo indietro e parli del panorama imprenditoriale, perché l'architettura tecnica ha enormi implicazioni economiche.
In questo momento, l'ecosistema delle startup di IA è dominato da quelle che chiamo aziende "wrapper" — imprese il cui prodotto principale è un'interfaccia utente e un po' di logica di prompt che poggia sopra un modello di base di terze parti. Rivendono l'accesso a capacità che non possiedono.
Il problema è strutturale. Ogni volta che OpenAI o Anthropic rilasciano una nuova versione di modello, assorbono le funzionalità che i wrapper fornivano. La startup che vende "IA per riassumere PDF" viene spazzata via quando il modello di base aggiunge il caricamento nativo dei file. L'azienda che offre "IA per la generazione di codice" vede la sua proposta di valore evaporare man mano che i modelli di base migliorano nel programmare. Il tuo vantaggio competitivo viene prosciugato dal tuo stesso fornitore.
I clienti enterprise se ne stanno accorgendo. Mi sono seduto in riunioni in cui i CTO hanno detto, senza mezzi termini: "Perché dovrei pagarti per avvolgere un'API che posso chiamare da solo?" E hanno ragione a chiederlo. Instradare documenti finanziari sensibili o codice proprietario attraverso i server di una startup, che poi li instrada a un fornitore di modelli pubblico, crea una superficie di attacco inaccettabile. Il movimento della "IA Sovrana" — le imprese che pretendono di possedere i propri modelli ed eseguirli all'interno della propria infrastruttura — sta accelerando.
Ecco perché abbiamo rifiutato il modello wrapper fin dal primo giorno. Non vendiamo l'accesso ai token. Vendiamo architetture di Sistema 2 — motori proprietari di ragionamento simbolico, grafi di conoscenza specifici per dominio, strati di conformità deterministici. Quando il modello linguistico sottostante diventerà una merce (e accadrà), il nostro valore non diminuisce. Aumenta, perché lo strato logico diventa l'unico elemento di differenziazione che conta.
Cosa succede quando dai a un tutor IA un vero cervello?
Lascia che riporti tutto questo all'istruzione, perché è lì che la posta in gioco mi sembra più personale.
La promessa del tutoraggio con IA è straordinaria: istruzione personalizzata e individuale per ogni studente, su larga scala. Il celebre "Problema delle 2 Sigma" di Bloom ha mostrato che gli studenti che ricevono un tutoraggio individuale ottengono risultati migliori di due deviazioni standard rispetto agli studenti nelle classi convenzionali. Se l'IA potesse offrire anche solo una frazione di quel beneficio, trasformerebbe l'istruzione.
Ma l'attuale generazione di tutor IA sta fallendo in modi che sono peggiori dell'assenza totale di un tutor. Oltre al disastro della moltiplicazione che ho descritto prima, ci sono casi documentati in cui gli studenti arrivano alla risposta corretta, ma l'IA — che allucina un percorso di soluzione errato — cerca di convincerli che hanno torto. Il modello fa gaslighting sullo studente inducendolo ad abbandonare un ragionamento corretto. In un contesto educativo, dove la fiducia è tutto, questo è devastante.
Il nostro approccio è fondamentalmente diverso. Abbiamo costruito quello che chiamiamo un Motore di Accuratezza Pedagogica — e funziona su tre livelli.
Primo, lo strato simbolico mantiene un modello dello stato di conoscenza di ciascuno studente usando il Bayesian Knowledge Tracing. Non tira a indovinare se lo studente comprende l'algebra; traccia un vettore di probabilità aggiornato a ogni interazione. Quando lo studente fatica con la geometria, il sistema lo sa — matematicamente, non intuitivamente — e adatta di conseguenza il suo supporto.
Secondo, quando l'IA genera problemi di esercitazione, non si limita a inventare numeri. Il motore PAL garantisce che ogni problema generato produca risposte pulite e risolvibili. Niente più "calcola 7.349 diviso 13,7" quando lo studente sta imparando la divisione di base. Lo strato simbolico garantisce una difficoltà pedagogicamente appropriata.
Terzo — e questo è quello di cui vado più fiero — ancoriamo l'IA al programma di studi specifico. Usando l'indicizzazione a grafo di proprietà, analizziamo il libro di testo effettivo in un grafo di conoscenza in cui i concetti sono nodi e le relazioni sono archi. Se il libro di testo definisce "numero primo" in un modo specifico, l'IA usa quella definizione, non una qualche approssimazione derivata da Wikipedia che vive nei dati di addestramento dell'LLM. Per l'analisi tecnica completa di come interagiscono questi strati, vedi il nostro documento di ricerca.
Il problema della conformità di cui nessuno vuole parlare

L'istruzione è un dominio. La finanza è un altro — e per certi versi, le modalità di fallimento sono ancora più allarmanti.
Una banca regionale è venuta da noi dopo che il sistema del loro precedente fornitore di IA aveva approvato prestiti che violavano i criteri di erogazione regolamentari. Il problema era sottile e, una volta compresa l'architettura, del tutto prevedibile: l'LLM elaborava le dichiarazioni personali dei richiedenti insieme ai loro dati finanziari. Quando un richiedente scriveva una storia avvincente sul superamento di un'avversità, il riconoscimento di pattern del modello — addestrato su milioni di esempi di narrazioni persuasive che portano a esiti positivi — pesava la narrazione più delle soglie rigide di rapporto debito/reddito.
Il modello non stava funzionando male. Stava facendo esattamente ciò per cui era stato progettato: prevedere il token successivo più probabile in una sequenza che sembrava una conversazione di approvazione di prestito. Il problema era che l'approvazione di un prestito non è una conversazione. È una decisione basata su regole con confini legali.
Abbiamo implementato uno strato PyReason — un framework neuro-simbolico che supporta il ragionamento logico sui grafi di conoscenza. Le regole sono esplicite: SE l'età del richiedente è inferiore a 21 anni E lo stato è New York, ALLORA il tipo di prestito non può essere Commerciale. Prima che l'LLM generi qualsiasi risposta a un richiedente di prestito, il contesto passa attraverso il motore simbolico. Se l'output proposto viola una regola rigida, il motore simbolico lo mette in veto. Punto.
Il risultato: aderenza al 100% ai criteri di erogazione regolamentari, combinata con una comunicazione personalizzata ed empatica verso i richiedenti. La Voce resta calorosa. Il Cervello resta inflessibile. È questo il punto.
Non costruiamo IA che è probabilmente conforme. Costruiamo IA che è fisicamente incapace di approvare una transazione non conforme, per quanto persuasivo sia l'input.
"Non basterà rendere i modelli più grandi per risolvere il problema?"
Me lo chiedono di continuo, e capisco perché. La traiettoria delle capacità degli LLM è davvero impressionante. Ogni nuova versione gestisce più casi limite, ottiene punteggi più alti nei benchmark, commette meno errori evidenti.
Ma ecco a cosa continuo a tornare: la curva di miglioramento per i compiti deterministici ha un tetto insito nell'architettura. Un motore di previsione, per quanto grande, genera output in modo probabilistico. Renderlo più grande rende la distribuzione di probabilità più stretta — ma non diventa mai una garanzia. E per i domini che contano di più — l'istruzione di un bambino, la diagnosi di un paziente, i diritti legali di un mutuatario — "probabilmente corretto" non è una categoria di prodotto.
C'è anche un argomento pratico. Anche se GPT-7 raggiungesse il 99,9% di accuratezza in aritmetica (il che sarebbe notevole), ciò significherebbe comunque un errore ogni mille calcoli. Una banca che elabora diecimila domande di prestito al giorno genererebbe dieci calcoli errati al giorno. Ognuno è una potenziale violazione regolamentare. Ognuno è una causa legale in attesa di accadere. Lo strato simbolico non riduce il tasso di errore al 99,9%. Lo riduce a zero per qualsiasi operazione instradata attraverso il risolutore.
L'altra obiezione che sento: "Non è solo aggiungere complessità?" Sì. Lo è. Un sistema neuro-simbolico è più difficile da costruire di un wrapper. Richiede la comprensione di entrambi i paradigmi — lo statistico e il logico — e la progettazione del ponte tra di essi. Ma la complessità vive nell'architettura così non deve vivere nella modalità di fallimento. Preferisco costruire un sistema complesso che funziona piuttosto che un sistema semplice che fallisce in modo imprevedibile.
Il ponte tra due tipi di intelligenza
Voglio lasciarti con un'immagine che mi è rimasta impressa in testa da quando abbiamo iniziato questo lavoro.
Pensa a come tu pensi davvero. Quando un amico ti chiede di consigliargli un ristorante, usi l'intuizione — riconoscimento di pattern basato su esperienze passate, sensazioni, associazioni. Sistema 1. Rapido e fluido. Ma quando il tuo commercialista ti chiede di verificare un calcolo fiscale, tiri fuori una calcolatrice. Sistema 2. Lento e certo. Non provi a intuire se i numeri tornano. Li verifichi.
Ogni sistema di IA impiegato oggi nel mondo funziona basandosi sul Sistema 1 soltanto. È come se avessimo costruito una civiltà di brillanti conversatori che non sanno usare le calcolatrici, e poi li avessimo messi a capo delle banche, degli ospedali e delle scuole.
La soluzione non è buttare via i conversatori. Sono straordinari in ciò che fanno. La soluzione è dare loro una calcolatrice — e assicurarsi che la usino.
Ecco cos'è l'IA neuro-simbolica. Non una sostituzione dei grandi modelli linguistici. Un loro completamento. La Voce e il Cervello, che lavorano insieme, con un ponte che sa quando parlare e quando calcolare.
Stiamo costruendo quel ponte. E credo che sia l'unica architettura che merita di essere considerata affidabile per le cose che contano.