Un'immagine editoriale concettuale che mostra lo schermo di un'audizione orchestrale come metafora di una valutazione alla cieca ed equa — l'analogia centrale dell'articolo.
Artificial IntelligenceHiringMachine Learning

Lo strumento di IA per le assunzioni che ha imparato a essere sessista — e cosa mi ha insegnato sul costruirne di equi

Ashutosh SinghalAshutosh Singhal12 febbraio 202616 min

Qualche mese fa, mi sono trovato di fronte a un CHRO di un'azienda tecnologica di medie dimensioni che mi disse, con genuino orgoglio, di aver "risolto il problema dei bias" nella loro pipeline di assunzioni. Avevano acquistato uno strumento di screening basato sull'IA. Analizzava i curriculum, classificava i candidati e aveva ridotto il loro tempo di copertura delle posizioni del 40%.

Feci una sola domanda: "Che cosa sta prevedendo lo strumento?"

Silenzio. Poi: "Che cosa intende? Prevede chi assumere."

"No," dissi. "Prevede chi avreste assunto. Sulla base di un decennio di dati in cui il vostro team di ingegneri era all'84% maschile."

Il colore gli sparì dal volto. Aveva speso una cifra a sei cifre per uno strumento che automatizzava esattamente il bias che credeva di stare eliminando.

Questa conversazione mi perseguita perché non è un caso isolato. È la norma. Un'intera prima generazione di strumenti di IA per il reclutamento — e intendo la stragrande maggioranza di ciò che oggi è sul mercato — è costruita su una premessa così fondamentalmente errata che sarebbe risibile se le conseguenze non fossero i mezzi di sostentamento delle persone. Questi strumenti usano l'IA predittiva addestrata su dati storici di assunzione. Imparano chi è stato assunto in passato. E poi replicano quel modello su larga scala, con spietata efficienza, eliminando l'unica cosa che avrebbe potuto salvarci: quel recruiter umano occasionale che guardava un candidato non ovvio e pensava: sai che ti dico, proviamoci.

In Veriprajna costruiamo i sistemi di IA per le assunzioni in modo diverso. Usiamo l'IA causale — non per prevedere chi sarebbe stato assunto, ma per prevedere chi otterrà effettivamente buone prestazioni. E poi mettiamo alla prova quella previsione ponendo una domanda che la maggior parte dei sistemi di IA non riesce nemmeno a interpretare: Se questo candidato appartenesse a un gruppo demografico diverso, la nostra risposta cambierebbe?

Se cambierebbe, il modello fallisce. Torniamo indietro e lo correggiamo.

Questa è la storia del perché quella distinzione conti più di qualsiasi altra cosa stia accadendo oggi nella tecnologia HR.

Il "Culture Fit" è solo omofilia con un marketing migliore

Prima di entrare nella tecnologia, devo parlare del problema umano — perché il problema dell'IA ne è la conseguenza.

C'è un concetto in sociologia chiamato omofilia: la tendenza delle persone ad associarsi, legarsi e preferire chi è simile a loro. È uno dei fenomeni più solidamente documentati nelle scienze sociali. Ed è il motore invisibile che guida la maggior parte delle decisioni di assunzione nel mondo.

L'omofilia è il motivo per cui un responsabile delle assunzioni che ha giocato a rugby valuta inconsciamente più in alto il candidato che menziona il rugby. È il motivo per cui il "culture fit" — quella frase sacra e inattaccabile nel vocabolario di ogni recruiter — si traduce quasi sempre in "questa persona mi ricorda me stesso." Ricercatori di Berkeley hanno scoperto che gli intervistatori confondono abitualmente le "capacità comunicative" con il "parla come me." Un candidato proveniente da un contesto socioeconomico diverso che usa un registro linguistico diverso viene penalizzato per "mancanza di raffinatezza." Il contenuto delle sue risposte a malapena registra.

Ricordo un'accesa discussione con un consulente senior all'inizio della vita di Veriprajna. Insisteva sul fatto che il culture fit fosse un criterio di assunzione legittimo — che i team hanno bisogno di coesione, valori condivisi, un linguaggio comune. Non ero in disaccordo con il principio. Ero in disaccordo con l'esecuzione. Perché quando i ricercatori studiano davvero cosa accade nelle organizzazioni che ottimizzano per il "culture fit," trovano qualcosa di inquietante: quelle organizzazioni cadono in ciò che gli scienziati delle reti chiamano trappole dell'omofilia. Una volta che la rappresentanza delle minoranze scende sotto circa il 25%, la maggioranza assume la maggioranza, e la composizione demografica si cristallizza. L'innovazione si blocca. Il pensiero di gruppo prende il sopravvento. L'organizzazione diventa una sala di specchi.

Il "culture fit" suona come un criterio di assunzione. Nella pratica, è un meccanismo per clonare il team esistente — chiamandolo strategia.

La soluzione non è abolire il concetto di allineamento culturale. È passare dal "culture fit" al "culture add" — assumere persone che sfidano le assunzioni anziché confermarle. Ma quel passaggio richiede qualcosa che la maggior parte dei recruiter umani non è in grado di fare in modo affidabile: valutare il potenziale contributo di un candidato restando genuinamente cieca ai suoi segnali demografici.

Il che ci porta all'audizione alla cieca.

Cosa capirono le orchestre negli anni '70

Negli anni '70, le principali orchestre sinfoniche americane erano composte in stragrande maggioranza da uomini. La saggezza prevalente era che le donne mancassero della "potenza polmonare" o del "temperamento" per certi strumenti. Poi le orchestre iniziarono a mettere i candidati dietro uno schermo. I giudici potevano sentire la musica — l'effettivo fattore causale della prestazione — ma non potevano vedere il musicista.

Le assunzioni femminili aumentarono vertiginosamente.

Lo schermo non cambiò la qualità della musica. Cambiò la qualità dell'ascolto. Costrinse i valutatori a rispondere al segnale (il suono) anziché al rumore (l'aspetto).

Questa analogia è diventata fondamentale per il modo in cui penso a ciò che stiamo costruendo. Nell'era digitale, non puoi mettere ogni candidato dietro uno schermo fisico. Ma puoi costruire un'IA che funzioni come uno schermo matematico — che valuta i fattori causali della prestazione lavorativa restando dimostrabilmente cieca ad attributi protetti come genere, razza o età.

Il problema è che l'IA standard fa l'opposto. Agisce come una finestra trasparente. Ogni bias presente nei dati storici la attraversa dritto.

Perché l'IA di Amazon penalizzava la parola "women's"?

Il monito più famoso nel reclutamento tramite IA è lo strumento di assunzione interno di Amazon, abbandonato nel 2018. Il sistema era stato addestrato su un decennio di curriculum inviati all'azienda. Poiché il settore tecnologico è fortemente sbilanciato verso gli uomini, i dati di addestramento riflettevano quello sbilanciamento.

L'IA, facendo esattamente ciò per cui era stata progettata — trovare schemi che prevedono l'"essere assunti" — apprese che i segnali codificati come maschili erano correlati al successo nell'assunzione. Penalizzava i curriculum che contenevano la parola "women's," come in "women's chess club captain". Declassava le laureate di due college esclusivamente femminili. Nessuno l'aveva programmata per essere sessista. Aveva semplicemente scoperto che essere uomo era un forte predittore dell'essere assunto in Amazon, e aveva ottimizzato per quello schema.

Essere fedeli al passato significa essere ingiusti verso il futuro. Se "accuratezza" significa prevedere la decisione umana, allora una "buona" IA è necessariamente un'IA distorta.

Questo è il fallimento centrale dell'apprendimento per imitazione — addestrare l'IA a imitare i recruiter umani. Se i recruiter erano distorti (e a causa dell'omofilia lo erano), l'IA diventa ciò che ho iniziato a chiamare una "capsula di bias." Cristallizza un decennio di pregiudizi e li applica a velocità di macchina a ogni nuovo candidato.

Amazon almeno ebbe l'integrità di chiudere il progetto. La maggior parte delle aziende che usano strumenti simili non sa nemmeno di avere il problema.

E GPT? La trappola del wrapper sugli LLM

Dopo che lo scandalo Amazon emerse, davo per scontato che il settore avrebbe corretto la rotta. Invece, il boom dell'IA generativa ha prodotto qualcosa probabilmente di peggiore: un'ondata di strumenti di reclutamento "basati sull'IA" che sono interfacce sottili — wrapper — costruite sopra grandi modelli linguistici generici come GPT-4 o Claude.

Ho perso il conto del numero di investitori e potenziali partner che mi hanno detto: "Usa e basta GPT. Fai fine-tuning su qualche dato di assunzione. Mettilo sul mercato." Ogni volta, ho la stessa risposta: sai su cosa è stato addestrato GPT?

L'internet aperto. La somma totale del testo umano — inclusi i suoi bias, stereotipi e pregiudizi. Ricercatori dell'Università di Washington hanno scoperto che quando gli LLM esaminano i curriculum, i nomi associati ai bianchi vengono preferiti l'85% delle volte, anche quando le qualifiche sono identiche. In alcune iterazioni dei test, i nomi maschili neri non venivano mai classificati al primo posto. Il modello associa certi nomi alla "competenza" sulla base di schemi statistici nei suoi dati di addestramento. Un wrapper non può facilmente disattivarlo perché il bias è intessuto nella comprensione fondamentale del linguaggio del modello.

E questo prima ancora di arrivare alle allucinazioni. Gli LLM sono generatori di testo probabilistici, non motori logici. Possono inventare competenze che un candidato non possiede, o tralasciarne di reali, perché il modello sta ottimizzando per un testo dal suono plausibile, non per l'accuratezza fattuale. In un contesto di compliance — dove un candidato respinto potrebbe fare causa — "l'IA ha allucinato che ti mancasse una certificazione richiesta" non è una difesa legale sostenibile.

Poi c'è il problema della scatola nera. Chiedi a un wrapper perché ha classificato il Candidato A al di sopra del Candidato B, ed è in grado di generare una spiegazione dal suono convincente. Ma quella spiegazione è una razionalizzazione a posteriori, non un resoconto causale della decisione. Ai sensi della NYC Local Law 144 e dell'EU AI Act, quell'opacità è sempre più non conforme.

Ho scritto di questo problema — e del nostro approccio per risolverlo — nella versione interattiva della nostra ricerca.

La domanda sbagliata contro la domanda giusta

Un diagramma di confronto affiancato che mostra la differenza fondamentale tra l'IA basata sull'imitazione (prevedere chi viene assunto) e l'IA basata sui risultati (prevedere chi ottiene buone prestazioni), incluso su cosa si addestra ciascun approccio e cosa produce.

Ecco il nocciolo di tutto.

L'IA di reclutamento standard chiede: "Sulla base della storia, questa persona verrà assunta?"

Noi chiediamo: "Questa persona otterrà buone prestazioni?"

Suonano simili. Sono mondi distanti.

La prima domanda si addestra sulla decisione del recruiter — una decisione contaminata da omofilia, bias di affinità e pattern-matching sulla demografia del team esistente. La seconda domanda si addestra sui risultati aziendali: permanenza oltre i 18 mesi, raggiungimento dei KPI, valutazioni delle prestazioni, miglioramento del rendimento del team.

Quando ti addestri sui risultati anziché sulle decisioni, accade qualcosa di notevole. Se candidati diversificati hanno storicamente ottenuto buone prestazioni ma venivano raramente assunti — che è esattamente ciò che i dati mostrano in molte organizzazioni — un modello basato sui risultati impara a valorizzarli. Un modello basato sull'imitazione impara a ignorarli.

Non è una distinzione sottile. È la differenza tra automatizzare il passato e progettare il futuro.

Come si rende un'IA dimostrabilmente equa?

Un diagramma che mostra come un Modello Causale Strutturale gestisce l'esempio del codice postale — illustrando il percorso legittimo contro il percorso spurio, e come il percorso spurio venga matematicamente bloccato.

Bene. Quindi ci addestriamo sui risultati anziché sulle decisioni. È necessario, ma non sufficiente. Perché anche i dati sui risultati possono portare tracce di bias strutturale — se ai dipendenti diversificati sono state date meno risorse, incarichi peggiori o meno mentoring, i loro risultati potrebbero risultare artificialmente soppressi.

È qui che passiamo dall'IA predittiva all'IA causale, e nello specifico a un framework chiamato equità controfattuale.

L'idea, radicata nella "Scala della Causalità" di Judea Pearl, è ingannevolmente semplice. Il machine learning standard opera al Livello 1 della scala di Pearl: l'associazione. Vede schemi. "Le persone con il tratto X tendono a ottenere il risultato Y." Utile, ma cieco alla differenza tra correlazione e causalità.

L'IA causale opera al Livello 3: i controfattuali. Può immaginare realtà alternative. "Se questo candidato fosse stato uomo invece che donna, con tutto il resto mantenuto costante, la previsione del modello cambierebbe?"

Se la risposta è sì, il modello è iniquo. Punto e basta.

Lo implementiamo usando i Modelli Causali Strutturali — grafi trasparenti che mappano le relazioni causa-effetto tra le variabili. A differenza delle reti neurali a scatola nera, un SCM ci permette di vedere esattamente quali percorsi collegano gli input agli output, e perché.

Ecco un esempio concreto che tenne sveglio fino a tardi il mio team una notte. Stavamo costruendo un modello e notammo che il "codice postale" era un forte predittore della permanenza. Ha senso — i lunghi tragitti casa-lavoro logorano le persone. Ma il codice postale è anche correlato alla razza nella maggior parte delle città americane. Un modello standard userebbe il codice postale in modo indiscriminato, discriminando di fatto in base alla razza pur sembrando usare una variabile "neutra."

Il nostro SCM mappa entrambi i percorsi:

  • Percorso legittimo: Codice postale → Tempo di percorrenza → Permanenza
  • Percorso spurio: Codice postale → Demografia → Bias storico

Blocchiamo matematicamente il secondo percorso preservando il primo. Il modello può usare il codice postale solo nella misura in cui prevede il tempo di percorrenza. Se inizia a usare il codice postale per dedurre la razza, scatta la penalità.

La domanda non è se la tua IA usa direttamente attributi protetti. È se usa proxy che reintroducono di nascosto quegli attributi dalla porta di servizio.

Insegnare al modello a disimparare i propri pregiudizi

Un diagramma che mostra l'architettura del debiasing avversariale — il modello principale che ottimizza per la previsione delle prestazioni mentre il modello avversario cerca di rilevare la demografia, creando un ciclo di penalità in competizione.

Come lo imponiamo concretamente durante l'addestramento? Attraverso una tecnica chiamata debiasing avversariale — essenzialmente, una penalità di equità integrata nel processo di apprendimento del modello.

Durante l'addestramento, il modello ottimizza simultaneamente rispetto a due obiettivi in competizione. Primo: massimizzare l'accuratezza nella previsione delle prestazioni lavorative. Secondo: minimizzare la capacità di prevedere gli attributi protetti del candidato (razza, genere, età) a partire dalla rappresentazione interna del modello.

Introduciamo un "avversario" — un modello secondario il cui unico compito è cercare di indovinare la demografia del candidato dagli output del modello principale. Se il modello principale inizia ad appoggiarsi a caratteristiche proxy come il "lacrosse" (un proxy dello status socioeconomico, che correla con la razza) o certi nomi di università, l'avversario rileva che ora può indovinare la demografia più facilmente. Questo attiva una penalità, aumentando il costo dello stato attuale del modello principale.

Per minimizzare la perdita totale, il modello è costretto a trovare caratteristiche che prevedono la prestazione senza rivelare la demografia. Competenze. Esperienza. Punteggi oggettivi dei test. Gli effettivi fattori causali.

A volte lo spiego con un'analogia sciocca che il mio team detesta: è come addestrare un cane a riportare il giornale. Se il cane riporta il giornale ma lo strappa, niente premietto. Alla fine, il cane impara a riportarlo senza strapparlo. Il nostro modello impara a prevedere senza discriminare.

Prima del rilascio, eseguiamo migliaia di simulazioni controfattuali. Prendiamo il curriculum di un candidato reale, generiamo un "gemello sintetico" con nome e pronomi diversi ma competenze ed esperienza identiche, e diamo entrambi in pasto al modello. Se i punteggi divergono, il modello fallisce l'audit. Iteriamo finché non convergono. Per l'analisi tecnica completa di questo processo, consulta il nostro paper di ricerca.

Perché tutto questo conta dal punto di vista legale?

Perché i muri normativi si stanno chiudendo, e la maggior parte delle aziende non è pronta.

NYC Local Law 144, in vigore dal 2023, vieta l'uso di strumenti di assunzione automatizzati a meno che non siano stati sottoposti a un audit indipendente sui bias entro l'anno precedente. La legge impone il calcolo degli impact ratio — confrontando i tassi di selezione tra gruppi demografici. Molti fornitori a scatola nera non superano questi audit perché non riescono a controllare come i loro modelli pesano le diverse caratteristiche. Corrono a rappezzare il bias a posteriori, il che è come cercare di scuocere una torta.

L'EU AI Act si spinge oltre, classificando l'IA per il reclutamento come "ad alto rischio" — lo stesso livello normativo dei dispositivi medici. Ciò impone requisiti stringenti in materia di governance dei dati, supervisione umana e dimostrabile assenza di bias. Le soluzioni wrapper che elaborano i dati tramite API di terze parti affrontano qui un problema esistenziale: i dati lasciano la tua infrastruttura, il modello è opaco, e non puoi garantire la conformità.

I nostri modelli sono pronti per l'audit fin dalla progettazione. Poiché la penalità di equità durante l'addestramento è matematicamente più severa di quanto richieda la legge, la conformità è un sottoprodotto naturale, non un ripensamento. E poiché il grafo causale è trasparente, possiamo mostrare a un auditor — o a un tribunale — esattamente quali fattori hanno guidato una data decisione e dimostrare che gli attributi protetti avevano peso zero.

A volte mi chiedono se tutta questa ingegneria dell'equità avvenga a scapito delle prestazioni. È l'obiezione più comune che sento, di solito formulata così: "Non c'è un compromesso tra equità e accuratezza?"

Non c'è. O più precisamente: c'è un compromesso tra equità e l'illusione dell'accuratezza. Un modello "accurato" nel prevedere decisioni umane distorte non è in realtà accurato nel prevedere le prestazioni lavorative. È accurato nel prevedere il pregiudizio. Quando elimini il bias e ti addestri su risultati reali, non perdi potere predittivo — lo reindirizzi verso ciò che conta davvero.

Il principio Moneyball applicato alle assunzioni

In un caso di studio riguardante il turnover dei dipendenti, l'inferenza causale rivelò che la "mancanza di opportunità di formazione" — non lo stipendio — era il vero fattore trainante del turnover. L'azienda intervenne con programmi di formazione anziché con aumenti generalizzati, riducendo il turnover del 23,9% a una frazione del costo. Questo è il potere di chiedere perché invece di limitarsi a cosa.

Aziende come Unilever e Hilton che sono passate a modelli di assunzione data-driven e basati sui risultati hanno riferito di aver ridotto il tempo di assunzione fino al 90% aumentando al contempo la diversità. Equità ed efficienza non sono in tensione. Sono risultati correlati di un sistema che misura davvero le cose giuste.

Penso a questo come al principio Moneyball applicato alle risorse umane. I recruiter tradizionali sopravvalutano il pedigree — le lauree della Ivy League, i datori di lavoro di marca — allo stesso modo in cui gli osservatori di baseball erano soliti sopravvalutare la media battuta. L'IA causale trova l'equivalente della percentuale di arrivo in base: i segnali sottovalutati che prevedono davvero esiti vincenti. Rimuovendo il bias del "culture fit," allarghi il bacino di talenti fino a includere i grandi performer che ogni altra azienda sta sistematicamente trascurando.

L'equità non è una tassa sulle prestazioni. È l'aspetto che assumono le prestazioni quando smetti di confondere il pedigree con il potenziale.

La parte in cui ammetto ciò che è difficile

Mentirei se dicessi che tutto questo è stato facile da costruire, o facile da vendere.

La tecnologia è difficile. I modelli causali richiedono competenza di dominio per essere costruiti — devi capire l'effettiva struttura causale della prestazione lavorativa in un dato ruolo, non limitarti a lanciare dati contro un algoritmo. Sbagliare quella struttura significa bloccare percorsi legittimi o lasciarne aperti di spurii. Abbiamo avuto dibattiti interni durati giorni sul fatto che una particolare variabile fosse un predittore legittimo o un proxy. Non ci sono scorciatoie. Devi pensare.

Anche il ciclo di vendita è difficile. I responsabili delle assunzioni si fidano del proprio istinto. Credono di essere buoni giudici del carattere. Dire a qualcuno che il suo "istinto" è in realtà pattern-matching sul proprio profilo demografico non ti rende popolare alle cene. Abbiamo imparato a posizionare la tecnologia non come un'accusa ma come uno strumento di supporto decisionale — un "controllo dei bias" analogo a un correttore ortografico. Non scrive il libro al posto tuo. Fa sì che tu non commetta errori evitabili.

E la prontezza dei dati è una sfida reale. L'IA causale ha bisogno di dati robusti, e i gruppi minoritari sono spesso sottorappresentati nei dataset storici. Affrontiamo il problema con la generazione di dati sintetici — usando le GAN per creare punti dati sicuri per la privacy che imitano le proprietà statistiche dei gruppi sottorappresentati, garantendo al modello un numero sufficiente di esempi per apprendere confini decisionali equi per tutti.

Niente di tutto questo è semplice come avvolgere una chiamata API a GPT e spedire un prodotto. Ma la versione semplice non funziona. Fallisce semplicemente in silenzio, su larga scala, in modi che danneggiano la vita di persone reali.

Lo schermo, non lo specchio

La prima generazione di IA nel reclutamento era uno specchio. Rifletteva i nostri bias verso di noi, amplificati dall'automazione, e lo chiamavamo intelligenza.

La prossima generazione deve essere uno schermo — come quello di quelle audizioni orchestrali. Non uno strumento che guarda i candidati e vede la demografia. Uno strumento che ascolta la musica.

Come settore non ci siamo ancora arrivati. Il mercato è ancora dominato da strumenti che ottimizzano per l'obiettivo sbagliato, costruiti su modelli che non sanno spiegare se stessi, venduti ad aziende che non sanno quali domande porre. Ma il contesto normativo sta cambiando. Le prove si stanno accumulando. E le organizzazioni che risolveranno questo per prime avranno accesso a un bacino di talenti che i loro concorrenti stanno escludendo algoritmicamente.

Non ho fondato Veriprajna perché pensavo che l'equità fosse un optional. L'ho fondata perché ho guardato i dati e ho capito che il bias non è solo un fallimento etico — è un fallimento di previsione. Ogni volta che un modello respinge un candidato qualificato a causa di un nome, di un codice postale o di un hobby che correla con la demografia "sbagliata," sta facendo una previsione sbagliata. Sta lasciando prestazioni sul tavolo. Sta scegliendo la comodità al posto dell'accuratezza.

La domanda non è se l'IA trasformerà le assunzioni. È se la useremo per scalare i nostri istinti migliori o quelli peggiori.

Io so per quale schieramento sto costruendo.

Related Research

Also Published On