
学会歧视女性的AI招聘工具——以及它教会我如何打造真正公平的AI
几个月前,我与一家中型科技公司的首席人力资源官(CHRO)面对面而坐,他带着由衷的自豪告诉我,他们已经"解决了"招聘流程中的偏见问题。他们购买了一款AI驱动的筛选工具。它能解析简历、为候选人排名,并将职位填补周期缩短了40%。
我问了一个问题:"这个工具在预测什么?"
一阵沉默。然后:"你什么意思?它预测该雇用谁。"
"不,"我说。"它预测的是你本来会雇用的人。这基于长达十年的数据,而那期间你的工程团队有84%是男性。"
他的脸色变了。他花了六位数的价钱买了一款工具,而这款工具正在将他以为自己在消除的那种偏见自动化。
这段对话一直萦绕在我心头,因为它并非个例。它就是常态。整个第一代AI招聘工具——我指的是当下市场上绝大多数的产品——都建立在一个根本性错误的前提之上,若不是后果关乎人们的生计,这简直可笑至极。这些工具使用的是预测式AI,它们基于历史招聘数据训练。它们学习的是谁在过去被雇用了。然后它们以无情的高效大规模复制这一模式,剔除了那唯一可能拯救我们的东西:偶尔会有那么一位人类招聘官,看着一个不那么显眼的候选人,心想,你知道吗,我们冒个险试试。
在Veriprajna,我们以不同的方式构建AI招聘系统。我们使用因果AI——不是为了预测谁本来会被雇用,而是为了预测谁真正会表现出色。然后我们通过提出一个大多数AI系统甚至无法理解的问题,来对这一预测进行压力测试:如果这位候选人来自一个不同的人口群体,我们的答案会改变吗?
如果会改变,那么这个模型就是失败的。我们会回头修正它。
这篇文章讲述的正是,为什么这一区别比当下人力资源技术领域发生的任何其他事情都更重要。
"文化契合"不过是包装得更好听的同质相吸
在谈技术之前,我需要先谈谈人的问题——因为AI问题是它的下游产物。
社会学中有一个概念,叫做同质相吸:即人们倾向于与和自己相似的人交往、结成纽带并给予偏好。这是社会科学中被最扎实地记录下来的现象之一。它也是驱动全世界大多数招聘决策的隐形引擎。
正因为同质相吸,一位打过橄榄球的招聘经理才会不自觉地给提到橄榄球的候选人加分。也正因为如此,"文化契合"——每位招聘官词汇表中那个神圣、不容置疑的短语——几乎总是等同于"这个人让我想起了我自己"。伯克利的研究人员发现,面试官经常把"沟通能力"与"说话方式跟我一样"混为一谈。一位来自不同社会经济背景、使用不同语言表达方式的候选人,会因"不够老练"而被扣分。他们回答的实际内容几乎无人在意。
我记得在Veriprajna创立初期,我曾与一位资深顾问激烈争论。他坚持认为文化契合是一个合理的招聘标准——团队需要凝聚力、共同的价值观、共同的语言。我并不反对这个原则,我反对的是它的执行方式。因为当研究人员真正去研究那些以"文化契合"为优化目标的组织中发生了什么时,他们发现了一些令人不安的现象:这些组织陷入了网络科学家所称的同质相吸陷阱。一旦少数群体的比例降至约25%以下,多数群体就会雇用多数群体,人口构成便被锁定。创新停滞。群体思维占据上风。整个组织变成了一座镜厅。
"文化契合"听起来像是一个招聘标准。但实际上,它是一种克隆现有团队的机制——却被冠以"战略"之名。
解决办法不是废除文化一致性这个概念,而是从"文化契合"转向"文化增益"——雇用那些挑战既有假设而非印证它们的人。但这种转变需要大多数人类招聘官都无法可靠做到的一点:在评估候选人的潜在贡献时,真正对其人口特征信号视而不见。
这就引出了盲选试奏。
交响乐团在20世纪70年代想明白的事
在20世纪70年代,美国主要的交响乐团几乎清一色是男性。当时普遍的看法是,女性缺乏演奏某些乐器所需的"肺活量"或"气质"。后来,乐团开始让应试者站在一道帘幕后面。评委能听到音乐——也就是演奏水平真正的因果驱动因素——却看不到演奏者。
女性的录用率大幅飙升。
帘幕并没有改变音乐的质量。它改变的是聆听的质量。它迫使评委去回应信号(声音),而不是噪声(外表)。
这个类比成了我思考我们所构建之物的根基。在数字时代,你无法让每一位求职者都站在一道实体帘幕后面。但你可以构建一种发挥着数学帘幕作用的AI——它评估工作表现的因果驱动因素,同时可被证明地对性别、种族或年龄等受保护属性视而不见。
问题在于,标准AI的做法恰恰相反。它就像一扇透明的窗户。历史数据中的每一种偏见都径直穿透而过。
为什么亚马逊的AI会给"女性"这个词扣分?
AI招聘领域最著名的警世故事,是亚马逊那款于2018年被弃用的内部招聘工具。该系统基于该公司十年间收到的简历进行训练。由于科技行业严重偏向男性,训练数据也反映了这种偏斜。
这款AI严格按照它被设计的目的行事——寻找能预测"被录用"的模式——从而学会了男性化的信号与招聘成功相关联。它给包含"女性"一词的简历扣分,比如"女子国际象棋俱乐部队长"。它给两所女子学院的毕业生降级。没有人给它编写歧视女性的程序。它只是发现,身为男性是在亚马逊被录用的一个强有力的预测因素,于是它便针对这一模式进行了优化。
对过去精准,就意味着对未来不公。如果"准确性"意味着预测人类的决定,那么一个"优秀"的AI必然是一个带有偏见的AI。
这正是模仿学习的核心败笔——训练AI去模仿人类招聘官。如果招聘官带有偏见(而由于同质相吸,他们确实如此),AI就变成了我开始称之为"偏见胶囊"的东西。它把十年的成见结晶封存起来,并以机器的速度施加于每一位新的申请者身上。
亚马逊至少还有正视问题的诚信,叫停了这个项目。而大多数使用类似工具的公司,甚至都不知道自己存在这个问题。
那GPT呢?大语言模型套壳陷阱
亚马逊的事情曝光后,我以为整个行业会纠偏。结果恰恰相反,生成式AI的热潮催生了一种可以说更糟糕的东西:大量"AI驱动"的招聘工具,它们不过是薄薄的界面——套壳——搭建在GPT-4或Claude这类通用大语言模型之上。
已经记不清有多少投资人和潜在合作伙伴对我说过:"直接用GPT就行。拿一些招聘数据微调一下,发布出去。"每一次,我的回答都一样:你知道GPT是用什么训练出来的吗?
是开放的互联网。是人类文本的总和——包括其中的偏见、刻板印象和成见。华盛顿大学的研究人员发现,当大语言模型筛选简历时,与白人相关联的名字在85%的情况下更受青睐,即便资历完全相同。在某些测试迭代中,黑人男性的名字从未被排在第一位。该模型根据其训练数据中的统计模式,将某些名字与"能力"相关联。套壳产品无法轻易关掉这一点,因为偏见已经编织进了模型对语言的根本理解之中。
而这还没算上幻觉问题。大语言模型是概率性的文本生成器,而非逻辑引擎。它们可能会凭空捏造候选人并不具备的技能,或者遗漏候选人确实具备的技能,因为该模型优化的目标是听起来合情合理的文本,而非事实的准确性。在合规的语境下——一个被拒的候选人可能会提起诉讼——"AI产生幻觉,认为你缺少某项必需的认证"并不是一个站得住脚的法律抗辩。
接下来还有黑箱问题。去问一个套壳产品为什么它把候选人A排在候选人B之前,它能生成一段听起来信心十足的解释。但那段解释只是事后的合理化说辞,而非对该决定的因果性说明。在《纽约市第144号地方法》和《欧盟人工智能法案》之下,这种不透明性正日益变得不合规。
我曾撰文论述过这个问题——以及我们解决它的方法——见我们研究成果的交互式版本。
错误的问题 vs. 正确的问题

这就是一切的关键所在。
标准的招聘AI问的是:"根据历史,这个人会被录用吗?"
我们问的是:"这个人会表现出色吗?"
这两者听起来相似,实则天差地别。
第一个问题的训练依据是招聘官的决定——一个被同质相吸、亲和偏见以及对现有团队人口构成的模式匹配所污染的决定。第二个问题的训练依据是业务成果:18个月以上的留存率、KPI达成情况、绩效评分、团队产出的提升。
当你以结果而非决定作为训练依据时,一件非凡的事情发生了。如果多元化的候选人在历史上表现良好却很少被录用——而这正是许多组织的数据所显示的情形——那么一个基于结果的模型就会学着去重视他们。而一个基于模仿的模型则会学着去忽视他们。
这并非细微的区别。它是"将过去自动化"与"设计未来"之间的差别。
如何让一个AI被证明是公平的?

好。所以我们以结果而非决定作为训练依据。这是必要的,但还不够。因为即便是结果数据,也可能带有结构性偏见的痕迹——如果多元化的员工被分配到更少的资源、更差的任务或更少的指导,他们的成果可能会被人为地压低。
正是在这里,我们从预测式AI转向了因果AI,尤其是转向一个被称为反事实公平的框架。
这个理念植根于朱迪亚·珀尔(Judea Pearl)的"因果之梯",看似简单实则不然。标准的机器学习运行在珀尔之梯的第一层:关联。它能看到模式。"具有特征X的人往往会得到结果Y。"这很有用,但它对相关性与因果性之间的区别一无所知。
因果AI则运行在第三层:反事实。它能设想各种替代性的现实。"如果这位候选人是男性而非女性,在其他一切条件保持不变的情况下,模型的预测会改变吗?"
如果答案是肯定的,那么这个模型就是不公平的。没有任何余地。
我们通过结构因果模型来实现这一点——它是一种透明的图,用来映射各变量之间的因果关系。与黑箱神经网络不同,结构因果模型让我们能够精确地看到哪些路径将输入连接到输出,以及为什么。
这里有一个曾让我的团队熬夜到深夜的具体例子。我们当时在构建一个模型,注意到"邮政编码"是留存率的一个强有力的预测因素。这说得通——长途通勤会把人耗垮。但在大多数美国城市,邮政编码也与种族相关。一个标准模型会不加区分地使用邮政编码,在表面上使用一个"中性"变量的同时,实际上却在按种族进行歧视。
我们的结构因果模型对两条路径都进行了映射:
- 合理路径: 邮政编码 → 通勤时间 → 留存率
- 虚假路径: 邮政编码 → 人口特征 → 历史偏见
我们在数学上阻断第二条路径,同时保留第一条。这个模型可以使用邮政编码——但仅限于它能用于预测通勤时间的范围内。一旦它开始利用邮政编码来推断种族,惩罚机制就会启动。
问题不在于你的AI是否直接使用受保护属性,而在于它是否使用了那些从侧门把这些属性偷偷带回来的代理变量。
训练模型去反学习它自身的成见

我们在训练过程中究竟是如何强制执行这一点的?靠的是一种被称为对抗性去偏的技术——本质上,就是一种嵌入到模型学习过程中的公平性惩罚。
在训练过程中,模型同时针对两个相互竞争的目标进行优化。第一:最大化预测工作表现的准确性。第二:最小化从模型内部表征中预测候选人受保护属性(种族、性别、年龄)的能力。
我们引入一个"对抗者"——一个次级模型,它唯一的任务就是尝试从主模型的输出中猜测候选人的人口特征。如果主模型开始依赖诸如"长曲棍球"(一种社会经济地位的代理变量,而后者与种族相关)或某些大学名称之类的代理特征,对抗者就会察觉到它现在能更容易地猜出人口特征。这就会触发一次惩罚,增加主模型当前状态的代价。
为了将总损失降到最低,模型被迫去寻找那些能够预测绩效却不泄露人口特征的特征。技能。经验。客观的测试分数。真正的因果驱动因素。
我有时会用一个我团队都讨厌的蠢比喻来解释这一点:这就像训练一只狗去叼报纸。如果狗把报纸叼来了,却把它撕破了,那就没有奖励。最终,这只狗学会了叼报纸而不把它撕破。我们的模型学会了在预测的同时不加以歧视。
在部署之前,我们会运行数千次反事实模拟。我们拿一份真实候选人的简历,生成一个"合成双胞胎"——它有着不同的名字和代词,但技能和经验完全相同——然后将两者都输入模型。如果两者的分数出现分歧,模型就无法通过审计。我们不断迭代,直到它们收敛一致。有关这一过程的完整技术剖析,请参见我们的研究论文。
这一切在法律上究竟为何重要?
因为监管的高墙正在合拢,而大多数公司还没有做好准备。
《纽约市第144号地方法》,自2023年起生效,该法禁止使用自动化招聘工具,除非它们在过去一年内接受过独立的偏见审计。该法强制要求计算影响比率——即比较不同人口群体之间的录用率。许多黑箱供应商都通不过这些审计,因为它们无法控制自己的模型如何为不同特征赋予权重。它们手忙脚乱地在事后修补偏见,这就好比试图把一个已经烤好的蛋糕还原成生面糊。
《欧盟人工智能法案》则更进一步,将招聘AI归类为"高风险"——与医疗器械处于同一监管层级。这就在数据治理、人为监督以及可证明的无偏见方面提出了严格要求。那些通过第三方API处理数据的套壳方案在这里面临一个生死攸关的问题:数据离开了你的基础设施,模型是不透明的,而你无法保证合规。
我们的模型在设计之初就为审计做好了准备。由于训练过程中的公平性惩罚在数学上比法律所要求的更为严格,合规便成了一种自然的副产品,而非事后的补救。而且由于因果图是透明的,我们可以向审计员——或法庭——精确地展示是哪些因素驱动了任何一项给定的决定,并证明受保护属性的权重为零。
人们有时会问我,所有这些公平性工程是否以牺牲性能为代价。这是我听到的最常见的异议,通常被表述为:"公平与准确之间难道不存在一种取舍吗?"
并不存在。或者更确切地说:存在的是公平与准确性的假象之间的取舍。一个能"准确"预测带偏见的人类决定的模型,在预测工作表现方面其实并不准确。它准确的是对成见的预测。当你剔除偏见并以真实结果作为训练依据时,你并不会失去预测能力——你只是把它重新导向了真正重要的东西。
应用于招聘的"点球成金"原则
在一个涉及员工流失的案例研究中,因果推断揭示出,"缺乏培训机会"——而非薪资——才是员工流失的真正驱动因素。该公司以培训项目进行干预,而非全面加薪,将流失率降低了23.9%,而成本只是全面加薪的一小部分。这就是提问为什么、而非仅仅追问是什么的力量。
像联合利华(Unilever)和希尔顿(Hilton)这样转向数据驱动、基于结果的招聘模型的公司,据报告将招聘周期缩短了最多90%,同时还提升了多样性。公平与效率并不相互矛盾。它们是一个真正在衡量正确事物的系统所带来的相互关联的结果。
我把这看作是"点球成金"原则在人力资源领域的应用。传统的招聘官过度看重出身背景——常春藤名校学位、知名雇主——就像过去棒球球探过度看重打击率一样。因果AI找到的是相当于上垒率的东西:那些真正能预测胜利结果、却被低估的信号。通过消除"文化契合"的偏见,你把人才库扩大到囊括那些每一家其他公司都在系统性地忽视的高绩效者。
公平并不是对绩效征收的税。它就是当你不再把出身背景与潜力相混淆时,绩效本该有的样子。
该是我坦白难处的部分了
如果我说这东西构建起来很容易、销售起来也很容易,那我就是在撒谎。
技术很难。因果模型需要领域专业知识才能构建——你需要理解某个特定岗位上工作表现的真实因果结构,而不是把数据一股脑丢给算法。把这个结构搞错,就意味着阻断了合理路径,或者让虚假路径敞开着。为了判断某个特定变量究竟是一个合理的预测因素还是一个代理变量,我们曾进行过持续数天的内部辩论。没有捷径可走。你必须去思考。
销售周期同样艰难。招聘经理相信自己的直觉。他们相信自己善于判断人的品性。告诉某人他的"直觉"其实是在对他自己的人口特征画像做模式匹配,并不会让你在晚宴上受欢迎。我们学会了把这项技术定位为一种决策支持工具,而非一种指控——一种类似于拼写检查器的"偏见检查"。它不会替你把书写出来,但它能确保你不犯那些本可避免的错误。
而且数据的就绪程度是一个实实在在的挑战。因果AI需要稳健的数据,而少数群体在历史数据集中往往代表性不足。我们通过合成数据生成来解决这个问题——使用生成对抗网络(GANs)来创建保护隐私的数据点,这些数据点模仿代表性不足群体的统计特性,从而确保模型有足够的样本去为每一个人学习出公平的决策边界。
这一切都不像给GPT套一个API调用然后发布一款产品那么简单。但那个简单的版本行不通。它只会悄无声息地、大规模地失败,并以损害真实人们生活的方式失败。
是帘幕,而非镜子
招聘领域的第一代AI是一面镜子。它把我们的偏见反射回我们身上,并经由自动化被放大,而我们却称之为智能。
下一代AI需要成为一道帘幕——就像那些交响乐团试奏中的帘幕一样。它不是一种看着候选人、看到的却是人口特征的工具。而是一种聆听音乐的工具。
作为一个行业,我们还没有走到那一步。市场仍然被这样一些工具主导:它们为错误的目标进行优化,建立在无法解释自身的模型之上,卖给那些不知道该问什么问题的公司。但监管环境正在改变。证据正在积累。而那些最先想明白这一点的组织,将得以接触到一个被其竞争对手用算法排除在外的人才库。
我创立Veriprajna,并不是因为我认为公平只是一个可有可无的加分项。我创立它,是因为我审视了数据后意识到,偏见不仅仅是一种伦理上的失败——它是一种预测上的失败。每当一个模型因为一个名字、一个邮政编码,或一项与"错误"人口特征相关联的爱好而拒绝一位合格的候选人时,它就是在做出一个错误的预测。它把绩效白白丢在了桌上。它选择了安逸而非准确。
问题不在于AI是否会变革招聘,而在于我们将用它来放大我们最好的本能,还是最坏的本能。
我清楚自己是在为哪一边而构建。