
La herramienta de contratación con IA que aprendió a ser sexista — y lo que me enseñó sobre construir sistemas justos
Hace unos meses, me senté frente a un director de Recursos Humanos (CHRO) de una empresa tecnológica de tamaño mediano que me dijo, con genuino orgullo, que habían "resuelto el sesgo" en su proceso de contratación. Habían comprado una herramienta de selección impulsada por IA. Analizaba currículums, clasificaba candidatos y había reducido su tiempo de cobertura de vacantes en un 40%.
Le hice una sola pregunta: "¿Qué predice la herramienta?"
Silencio. Luego: "¿Qué quieres decir? Predice a quién contratar."
"No", dije. "Predice a quién habrías contratado. Basándose en una década de datos en la que tu equipo de ingeniería era 84% masculino."
El color abandonó su rostro. Había gastado seis cifras en una herramienta que automatizaba exactamente el sesgo que creía estar eliminando.
Esta conversación me persigue porque no es un caso aislado. Es la norma. Toda la primera generación de herramientas de reclutamiento con IA — y me refiero a la abrumadora mayoría de lo que hay en el mercado ahora mismo — se construye sobre una premisa tan fundamentalmente defectuosa que resultaría risible si las consecuencias no fueran el sustento de las personas. Estas herramientas usan IA predictiva entrenada con datos históricos de contratación. Aprenden a quién se contrató en el pasado. Y luego replican ese patrón a escala, con implacable eficiencia, eliminando lo único que podría habernos salvado: el reclutador humano ocasional que miraba a un candidato poco obvio y pensaba: ¿sabes qué?, arriesguémonos.
En Veriprajna, construimos sistemas de contratación con IA de manera diferente. Usamos IA causal — no para predecir a quién se habría contratado, sino para predecir quién realmente va a rendir bien. Y luego sometemos esa predicción a una prueba de estrés haciendo una pregunta que la mayoría de los sistemas de IA ni siquiera pueden procesar: Si este candidato fuera de un grupo demográfico diferente, ¿cambiaría nuestra respuesta?
Si cambiara, el modelo falla. Volvemos atrás y lo corregimos.
Esta es la historia de por qué esa distinción importa más que cualquier otra cosa que esté ocurriendo en la tecnología de RR. HH. en este momento.
El "encaje cultural" no es más que homofilia con mejor marketing
Antes de entrar en la tecnología, necesito hablar del problema humano — porque el problema de la IA es una consecuencia de él.
Existe un concepto en sociología llamado homofilia: la tendencia de las personas a asociarse, vincularse y preferir a otros que son similares a ellas mismas. Es uno de los fenómenos mejor documentados de las ciencias sociales. Y es el motor invisible que impulsa la mayoría de las decisiones de contratación en el mundo.
La homofilia es la razón por la que un responsable de contratación que jugó al rugby valora inconscientemente más al candidato que menciona el rugby. Es la razón por la que "encaje cultural" — esa frase sagrada e incuestionable en el vocabulario de todo reclutador — casi siempre se traduce como "esta persona me recuerda a mí mismo". Investigadores de Berkeley descubrieron que los entrevistadores confunden habitualmente "habilidades de comunicación" con "habla como yo". A un candidato de un origen socioeconómico diferente que usa un registro lingüístico distinto se le penaliza por "falta de pulido". El contenido de sus respuestas apenas se registra.
Recuerdo una acalorada discusión con un asesor senior en los primeros tiempos de Veriprajna. Insistía en que el encaje cultural era un criterio de contratación legítimo — que los equipos necesitan cohesión, valores compartidos, un lenguaje común. No estaba en desacuerdo con el principio. Estaba en desacuerdo con la ejecución. Porque cuando los investigadores estudian de verdad lo que ocurre en las organizaciones que optimizan para el "encaje cultural", encuentran algo inquietante: esas organizaciones caen en lo que los científicos de redes llaman trampas de homofilia. Una vez que la representación de las minorías cae por debajo de aproximadamente el 25%, la mayoría contrata a la mayoría, y la composición demográfica queda fijada en su lugar. La innovación se estanca. El pensamiento de grupo se impone. La organización se convierte en un salón de espejos.
"Encaje cultural" suena como un criterio de contratación. En la práctica, es un mecanismo para clonar al equipo existente — y llamarlo estrategia.
La solución no es abolir el concepto de alineación cultural. Es pasar del "encaje cultural" al "aporte cultural" — contratar a personas que desafían las suposiciones en lugar de confirmarlas. Pero ese cambio requiere algo que la mayoría de los reclutadores humanos no puede hacer de forma fiable: evaluar la contribución potencial de un candidato siendo genuinamente ciego a sus señales demográficas.
Lo cual nos lleva a la audición a ciegas.
Lo que las orquestas descubrieron en los años 70
En la década de 1970, las grandes orquestas sinfónicas estadounidenses eran abrumadoramente masculinas. La sabiduría imperante sostenía que las mujeres carecían de la "capacidad pulmonar" o el "temperamento" para ciertos instrumentos. Entonces las orquestas empezaron a colocar a los candidatos detrás de una mampara. Los jueces podían oír la música — el verdadero motor causal del desempeño — pero no podían ver al músico.
La contratación de mujeres se disparó.
La mampara no cambió la calidad de la música. Cambió la calidad de la escucha. Obligó a los evaluadores a responder a la señal (el sonido) en lugar del ruido (la apariencia).
Esta analogía se volvió fundamental para mi forma de pensar sobre lo que estamos construyendo. En la era digital, no puedes poner a cada candidato de un puesto detrás de una mampara física. Pero puedes construir una IA que funcione como una mampara matemática — una que evalúe los motores causales del desempeño laboral siendo demostrablemente ciega a atributos protegidos como el género, la raza o la edad.
El problema es que la IA estándar hace lo contrario. Actúa como una ventana transparente. Cada sesgo de los datos históricos fluye directamente a través de ella.
¿Por qué la IA de Amazon penalizaba la palabra "women's"?
El caso aleccionador más famoso en el reclutamiento con IA es la herramienta interna de contratación de Amazon, descartada en 2018. El sistema se entrenó con una década de currículums enviados a la empresa. Como la industria tecnológica se inclina fuertemente hacia lo masculino, los datos de entrenamiento reflejaban ese sesgo.
La IA, haciendo exactamente aquello para lo que fue diseñada — encontrar patrones que predicen "ser contratado" — aprendió que las señales codificadas como masculinas se correlacionaban con el éxito en la contratación. Penalizaba los currículums que contenían la palabra "women's", como en "women's chess club captain". Rebajaba la puntuación de las graduadas de dos universidades exclusivamente femeninas. Nadie lo programó para ser sexista. Simplemente descubrió que ser hombre era un fuerte predictor de ser contratado en Amazon, y optimizó para ese patrón.
Ser fiel al pasado es ser injusto con el futuro. Si "precisión" significa predecir la decisión humana, entonces una "buena" IA es necesariamente una IA sesgada.
Este es el fallo central del aprendizaje por imitación — entrenar una IA para imitar a los reclutadores humanos. Si los reclutadores estaban sesgados (y debido a la homofilia, lo estaban), la IA se convierte en lo que he empezado a llamar una "cápsula de sesgo". Cristaliza una década de prejuicios y los aplica a velocidad de máquina a cada nuevo solicitante.
Amazon al menos tuvo la integridad de cancelar el proyecto. La mayoría de las empresas que usan herramientas similares ni siquiera saben que tienen el problema.
¿Y qué hay de GPT? La trampa del envoltorio (wrapper) de LLM
Después de que estallara la historia de Amazon, di por sentado que la industria corregiría el rumbo. En cambio, el auge de la IA generativa produjo algo posiblemente peor: una avalancha de herramientas de reclutamiento "impulsadas por IA" que son interfaces superficiales — envoltorios (wrappers) — construidas sobre grandes modelos de lenguaje de propósito general como GPT-4 o Claude.
He perdido la cuenta del número de inversores y socios potenciales que me han dicho: "Simplemente usa GPT. Ajústalo (fine-tune) con algunos datos de contratación. Lánzalo." Cada vez, tengo la misma respuesta: ¿sabes con qué se entrenó GPT?
Con el internet abierto. La suma total del texto humano — incluyendo sus sesgos, estereotipos y prejuicios. Investigadores de la Universidad de Washington descubrieron que cuando los LLM seleccionan currículums, los nombres asociados a personas blancas son preferidos el 85% de las veces, incluso cuando las cualificaciones son idénticas. En algunas iteraciones de prueba, los nombres de hombres negros nunca se clasificaron en primer lugar. El modelo asocia ciertos nombres con "competencia" basándose en patrones estadísticos de sus datos de entrenamiento. Un envoltorio no puede desactivar eso fácilmente porque el sesgo está entretejido en la comprensión fundamental del lenguaje del modelo.
Y eso es antes de llegar a las alucinaciones. Los LLM son generadores probabilísticos de texto, no motores de lógica. Pueden inventar habilidades que un candidato no tiene, o pasar por alto habilidades que sí tiene, porque el modelo está optimizando para el texto de sonido plausible, no para la precisión factual. En un contexto de cumplimiento normativo — donde un candidato rechazado podría demandar — "la IA alucinó que carecías de una certificación requerida" no es una defensa legal viable.
Luego está el problema de la caja negra. Pregúntale a un envoltorio por qué clasificó al Candidato A por encima del Candidato B, y puede generar una explicación que suena convincente. Pero esa explicación es una racionalización a posteriori, no una explicación causal de la decisión. Bajo la Ley Local 144 de Nueva York y la Ley de IA de la UE, esa opacidad es cada vez más incompatible con el cumplimiento normativo.
Escribí sobre este problema — y nuestro enfoque para resolverlo — en la versión interactiva de nuestra investigación.
La pregunta equivocada frente a la pregunta correcta

Aquí está el meollo de todo.
La IA de reclutamiento estándar pregunta: "Basándose en el historial, ¿será contratada esta persona?"
Nosotros preguntamos: "¿Rendirá bien esta persona?"
Suenan similares. Están a mundos de distancia.
La primera pregunta se entrena con la decisión del reclutador — una decisión contaminada por la homofilia, el sesgo de afinidad y la coincidencia de patrones con los datos demográficos del equipo existente. La segunda pregunta se entrena con resultados de negocio: la retención más allá de los 18 meses, el logro de KPI, las evaluaciones de desempeño, la mejora del rendimiento del equipo.
Cuando entrenas con resultados en lugar de decisiones, ocurre algo notable. Si los candidatos diversos históricamente rendían bien pero rara vez eran contratados — que es exactamente lo que muestran los datos en muchas organizaciones — un modelo basado en resultados aprende a valorarlos. Un modelo basado en la imitación aprende a ignorarlos.
Esta no es una distinción sutil. Es la diferencia entre automatizar el pasado y diseñar el futuro.
¿Cómo se logra que una IA sea demostrablemente justa?

De acuerdo. Así que entrenamos con resultados en lugar de decisiones. Eso es necesario pero no suficiente. Porque incluso los datos de resultados pueden llevar rastros de sesgo estructural — si a los empleados diversos se les dieron menos recursos, peores asignaciones o menos mentoría, sus resultados podrían estar artificialmente suprimidos.
Aquí es donde pasamos de la IA predictiva a la IA causal, y específicamente a un marco llamado equidad contrafactual.
La idea, arraigada en la "Escalera de la Causalidad" de Judea Pearl, es engañosamente simple. El aprendizaje automático estándar opera en el Nivel 1 de la escalera de Pearl: asociación. Ve patrones. "Las personas con el rasgo X tienden a obtener el resultado Y." Útil, pero ciego a la diferencia entre correlación y causalidad.
La IA causal opera en el Nivel 3: contrafactuales. Puede imaginar realidades alternativas. "Si este candidato hubiera sido hombre en lugar de mujer, con todo lo demás constante, ¿cambiaría la predicción del modelo?"
Si la respuesta es sí, el modelo es injusto. Punto final.
Implementamos esto usando Modelos Causales Estructurales — grafos transparentes que mapean las relaciones de causa y efecto entre variables. A diferencia de las redes neuronales de caja negra, un MCE nos permite ver exactamente qué rutas conectan las entradas con las salidas, y por qué.
Aquí hay un ejemplo concreto que mantuvo a mi equipo despierto hasta tarde una noche. Estábamos construyendo un modelo y notamos que el "código postal" era un fuerte predictor de la retención. Tiene sentido — los trayectos largos agotan a la gente. Pero el código postal también se correlaciona con la raza en la mayoría de las ciudades estadounidenses. Un modelo estándar usaría el código postal indiscriminadamente, discriminando de hecho por raza mientras aparenta usar una variable "neutral".
Nuestro MCE mapea ambas rutas:
- Ruta legítima: Código Postal → Tiempo de Trayecto → Retención
- Ruta espuria: Código Postal → Datos Demográficos → Sesgo Histórico
Bloqueamos matemáticamente la segunda ruta mientras preservamos la primera. El modelo puede usar el código postal solo en la medida en que predice el tiempo de trayecto. Si empieza a usar el código postal para inferir la raza, la penalización se activa.
La pregunta no es si tu IA usa atributos protegidos directamente. Es si usa proxies que reintroducen esos atributos por una puerta lateral.
Enseñar al modelo a desaprender su propio prejuicio

¿Cómo hacemos cumplir esto realmente durante el entrenamiento? Mediante una técnica llamada eliminación de sesgo adversarial — esencialmente, una penalización de equidad incorporada al proceso de aprendizaje del modelo.
Durante el entrenamiento, el modelo optimiza contra dos objetivos en competencia simultáneamente. Primero: maximizar la precisión en la predicción del desempeño laboral. Segundo: minimizar la capacidad de predecir los atributos protegidos del candidato (raza, género, edad) a partir de la representación interna del modelo.
Introducimos un "adversario" — un modelo secundario cuyo único trabajo es intentar adivinar los datos demográficos del candidato a partir de las salidas del modelo principal. Si el modelo principal empieza a apoyarse en características proxy como "lacrosse" (un proxy del estatus socioeconómico, que se correlaciona con la raza) o ciertos nombres de universidades, el adversario detecta que ahora puede adivinar los datos demográficos con mayor facilidad. Esto activa una penalización, aumentando el costo del estado actual del modelo principal.
Para minimizar la pérdida total, el modelo se ve forzado a encontrar características que predicen el desempeño sin revelar los datos demográficos. Habilidades. Experiencia. Puntuaciones objetivas de pruebas. Los verdaderos motores causales.
A veces explico esto con una analogía tonta que mi equipo detesta: es como entrenar a un perro para que traiga el periódico. Si el perro trae el periódico pero lo rompe, no hay premio. Con el tiempo, el perro aprende a traerlo sin romperlo. Nuestro modelo aprende a predecir sin discriminar.
Antes del despliegue, ejecutamos miles de simulaciones contrafactuales. Tomamos el currículum de un candidato real, generamos un "gemelo sintético" con un nombre y pronombres diferentes pero con habilidades y experiencia idénticas, y pasamos ambos por el modelo. Si las puntuaciones divergen, el modelo no supera la auditoría. Iteramos hasta que convergen. Para el desglose técnico completo de este proceso, consulta nuestro artículo de investigación.
¿Por qué importa legalmente todo esto?
Porque los muros regulatorios se están cerrando, y la mayoría de las empresas no están preparadas.
La Ley Local 144 de Nueva York, en vigor desde 2023, prohíbe el uso de herramientas automatizadas de contratación a menos que hayan sido sometidas a una auditoría de sesgo independiente durante el último año. La ley exige el cálculo de ratios de impacto — comparando las tasas de selección entre grupos demográficos. Muchos proveedores de caja negra no superan estas auditorías porque no pueden controlar cómo sus modelos ponderan las diferentes características. Se apresuran a parchear el sesgo después de los hechos, lo cual es como intentar deshornear un pastel.
La Ley de IA de la UE va más allá, clasificando la IA de reclutamiento como "alto riesgo" — el mismo nivel regulatorio que los dispositivos médicos. Esto impone requisitos estrictos en torno a la gobernanza de datos, la supervisión humana y la ausencia demostrable de sesgo. Las soluciones de tipo envoltorio que procesan datos a través de API de terceros se enfrentan aquí a un problema existencial: los datos salen de tu infraestructura, el modelo es opaco y no puedes garantizar el cumplimiento normativo.
Nuestros modelos están listos para auditoría por diseño. Como la penalización de equidad durante el entrenamiento es matemáticamente más estricta que lo que la ley exige, el cumplimiento normativo es un subproducto natural, no una idea de última hora. Y como el grafo causal es transparente, podemos mostrar a un auditor — o a un tribunal — exactamente qué factores impulsaron cualquier decisión dada y demostrar que los atributos protegidos tuvieron un peso nulo.
A veces me preguntan si toda esta ingeniería de equidad tiene el costo del rendimiento. Es la objeción más común que escucho, generalmente formulada como: "¿No hay una disyuntiva entre equidad y precisión?"
No la hay. O más precisamente: hay una disyuntiva entre la equidad y la ilusión de precisión. Un modelo que es "preciso" al predecir decisiones humanas sesgadas no es en realidad preciso al predecir el desempeño laboral. Es preciso al predecir el prejuicio. Cuando eliminas el sesgo y entrenas con resultados reales, no pierdes capacidad predictiva — la rediriges hacia lo que realmente importa.
El principio de Moneyball aplicado a la contratación
En un estudio de caso sobre la rotación de empleados, la inferencia causal reveló que la "falta de oportunidades de formación" — no el salario — era el verdadero motor de la fuga de personal. La empresa intervino con programas de formación en lugar de aumentos generalizados, reduciendo la rotación en un 23,9% a una fracción del costo. Ese es el poder de preguntar por qué en lugar de simplemente qué.
Empresas como Unilever y Hilton que se pasaron a modelos de contratación basados en datos y en resultados informaron haber reducido el tiempo de contratación hasta en un 90% a la vez que aumentaban la diversidad. La equidad y la eficiencia no están en tensión. Son resultados correlacionados de un sistema que realmente mide las cosas correctas.
Pienso en esto como el principio de Moneyball aplicado a RR. HH. Los reclutadores tradicionales sobrevaloran el pedigrí — títulos de la Ivy League, empleadores de marca reconocida — de la misma manera que los ojeadores de béisbol solían sobrevalorar el promedio de bateo. La IA causal encuentra el equivalente del porcentaje de embasado: las señales infravaloradas que realmente predicen resultados ganadores. Al eliminar el sesgo del "encaje cultural", amplías la reserva de talento para incluir a los de alto rendimiento que todas las demás empresas están pasando por alto sistemáticamente.
La equidad no es un impuesto sobre el rendimiento. Es cómo se ve el rendimiento cuando dejas de confundir el pedigrí con el potencial.
La parte donde admito lo que es difícil
Estaría mintiendo si dijera que esto fue fácil de construir, o fácil de vender.
La tecnología es difícil. Los modelos causales requieren experiencia en el dominio para construirse — necesitas comprender la estructura causal real del desempeño laboral en un rol determinado, no simplemente lanzar datos a un algoritmo. Equivocarse en esa estructura significa bloquear rutas legítimas o dejar abiertas las espurias. Hemos tenido debates internos que duraron días sobre si una variable en particular era un predictor legítimo o un proxy. No hay atajos. Tienes que pensar.
El ciclo de ventas también es difícil. Los responsables de contratación confían en su instinto. Creen que son buenos jueces del carácter. Decirle a alguien que su "instinto" es en realidad una coincidencia de patrones con su propio perfil demográfico no te hace popular en las cenas. Hemos aprendido a posicionar la tecnología no como una acusación sino como una herramienta de apoyo a la decisión — una "verificación de sesgo" análoga a un corrector ortográfico. No escribe el libro por ti. Se asegura de que no cometas errores evitables.
Y la preparación de los datos es un desafío real. La IA causal necesita datos robustos, y los grupos minoritarios suelen estar infrarrepresentados en los conjuntos de datos históricos. Abordamos esto con la generación de datos sintéticos — usando GAN para crear puntos de datos respetuosos con la privacidad que imitan las propiedades estadísticas de los grupos infrarrepresentados, asegurando que el modelo tenga suficientes ejemplos para aprender fronteras de decisión justas para todos.
Nada de esto es tan simple como envolver una llamada a la API de GPT y lanzar un producto. Pero la versión simple no funciona. Simplemente falla silenciosamente, a escala, de maneras que dañan la vida de personas reales.
La mampara, no el espejo
La primera generación de IA en el reclutamiento fue un espejo. Reflejaba nuestros sesgos hacia nosotros, magnificados por la automatización, y lo llamábamos inteligencia.
La próxima generación necesita ser una mampara — como la de aquellas audiciones de orquesta. No una herramienta que mira a los candidatos y ve datos demográficos. Una herramienta que escucha la música.
Como industria, aún no hemos llegado allí. El mercado sigue dominado por herramientas que optimizan para el objetivo equivocado, construidas sobre modelos que no pueden explicarse a sí mismos, vendidas a empresas que no saben qué preguntas hacer. Pero el entorno regulatorio está cambiando. La evidencia se acumula. Y las organizaciones que descubran esto primero tendrán acceso a una reserva de talento que sus competidores están excluyendo algorítmicamente.
No fundé Veriprajna porque pensara que la equidad era algo deseable pero prescindible. La fundé porque miré los datos y me di cuenta de que el sesgo no es solo un fracaso ético — es un fracaso de predicción. Cada vez que un modelo rechaza a un candidato cualificado por un nombre, un código postal o un pasatiempo que se correlaciona con el grupo demográfico "equivocado", está haciendo una predicción errónea. Está dejando rendimiento sobre la mesa. Está eligiendo la comodidad por encima de la precisión.
La pregunta no es si la IA transformará la contratación. Es si la usaremos para escalar nuestros mejores instintos o los peores.
Sé para qué lado estoy construyendo.