
學會歧視女性的 AI 招聘工具——以及它教會我如何打造公平的 AI
幾個月前,我坐在一家中型科技公司的人力資源長對面,他滿懷自豪地告訴我,他們已經「解決了」招聘流程中的偏見。他們購買了一款 AI 驅動的篩選工具。它能剖析履歷、為候選人排名,並將職缺填補時間縮短了 40%。
我只問了一個問題:「這個工具在預測什麼?」
一片沉默。接著他說:「你什麼意思?它預測該僱用誰。」
我說:「不對。它預測的是你當初會僱用的人。基於過去十年的資料,而你們工程團隊有 84% 是男性。」
他臉色瞬間發白。他花了六位數的錢,買了一款正在自動化他自以為正在消除的那種偏見的工具。
這段對話一直縈繞在我心頭,因為它不是特例,而是常態。整整第一代的 AI 招聘工具——我指的是目前市面上絕大多數的產品——都建立在一個根本上有缺陷的前提之上,若不是後果攸關人們的生計,這簡直荒唐可笑。這些工具使用以歷史招聘資料訓練的預測式 AI。它們學習過去誰被錄取,然後以殘酷無情的效率大規模複製這個模式,剔除了那個或許能拯救我們的唯一因素:偶爾會有人類招聘專員看著一位並不起眼的候選人,心想,你知道嗎,我們就冒個險試試看吧。
在 Veriprajna,我們用不同的方式打造 AI 招聘系統。我們使用因果 AI——不是為了預測誰當初會被錄取,而是為了預測誰真正會表現優異。然後我們透過提出一個大多數 AI 系統甚至無法理解的問題,來對這個預測進行壓力測試:如果這位候選人來自不同的人口族群,我們的答案會改變嗎?
如果會改變,那這個模型就不合格。我們回頭把它修正。
這就是為什麼這個區別比現在 HR 科技界正在發生的任何事都更重要的故事。
「文化契合度」只是包裝更精美的同類相聚
在深入談技術之前,我必須先談談人的問題——因為 AI 的問題是由它衍生而來的。
社會學裡有個概念叫做同質性(homophily):人們傾向於與跟自己相似的人來往、建立情誼並偏好對方。這是社會科學中最有力、最扎實記錄的現象之一。而它正是驅動世上大多數招聘決策的隱形引擎。
同質性正是為什麼一位打過橄欖球的招聘主管,會不自覺地高看提到橄欖球的候選人。它也是為什麼「文化契合度」——這個在每位招聘專員字典裡都神聖不可侵犯的詞——幾乎總是被翻譯成「這個人讓我想起我自己」。柏克萊的研究人員發現,面試官經常把「溝通能力」與「說話像我一樣」混為一談。一位來自不同社經背景、使用不同語言腔調的候選人,會因為「不夠圓熟」而被扣分。他們回答的內容幾乎完全不被在意。
我記得在 Veriprajna 創立初期,我與一位資深顧問有過一場激烈的爭論。他堅稱文化契合度是一項正當的招聘標準——團隊需要凝聚力、共同的價值觀、共通的語言。我並不反對這個原則,我反對的是執行方式。因為當研究人員真正去研究那些為「文化契合度」而最佳化的組織裡究竟發生了什麼,他們發現了令人不安的事:那些組織會陷入網絡科學家所稱的同質性陷阱。一旦少數族群的代表比例低於約 25%,多數族群就會僱用多數族群,人口組成便就此定型。創新停滯,群體迷思接管,整個組織變成一座鏡廳。
「文化契合度」聽起來像一項招聘標準。但實務上,它是一種複製現有團隊的機制——而且還美其名為策略。
解方不是廢除文化契合這個概念,而是從「文化契合(culture fit)」轉向「文化增益(culture add)」——僱用那些挑戰既有假設而非印證假設的人。但這個轉變需要大多數人類招聘專員無法可靠做到的一件事:在評估候選人潛在貢獻的同時,能真正對其人口特徵訊號視而不見。
這就把我們帶到了盲聽甄選。
1970 年代管弦樂團想通的道理
在 1970 年代,美國主要交響樂團絕大多數都是男性。當時的主流觀點認為,女性缺乏演奏某些樂器所需的「肺活量」或「性情氣質」。後來,樂團開始讓候選人待在一面屏風後面。評審能聽見音樂——也就是演奏表現真正的因果驅動因素——卻看不見演奏者。
女性錄取率大幅上升。
屏風並沒有改變音樂的品質。它改變的是聆聽的品質。它迫使評審回應訊號(聲音),而不是雜訊(外表)。
這個類比成為我思考我們正在打造之物的基石。在數位時代,你無法讓每一位求職者都待在一面實體屏風後面。但你可以打造一種 AI,讓它發揮數學屏風的作用——在可被證明對性別、種族或年齡等受保護屬性視而不見的同時,評估工作表現的因果驅動因素。
問題在於,標準 AI 做的恰恰相反。它扮演的是一扇透明的窗。歷史資料中的每一個偏見都直接穿透而過。
為什麼 Amazon 的 AI 會懲罰「女子(women's)」這個詞?
AI 招聘領域最著名的警世故事,是 Amazon 那款於 2018 年被廢棄的內部招聘工具。這套系統以公司過去十年收到的履歷訓練而成。由於科技產業嚴重偏向男性,訓練資料反映了這種偏斜。
這個 AI 完全按照它被設計去做的事去做——尋找能預測「被錄取」的模式——結果學到了男性相關的訊號與錄取成功之間存在關聯。它會懲罰含有「女子(women's)」一詞的履歷,例如「女子西洋棋社社長」。它會給兩所女子學院的畢業生降級。沒有人把它寫成性別歧視的樣子。它只是發現,身為男性是在 Amazon 被錄取的一項強力預測因子,於是它便為這個模式進行了最佳化。
忠實於過去,就是對未來不公。如果「準確」意味著預測人類的決策,那麼一個「好」的 AI 必然是一個有偏見的 AI。
這正是模仿學習(imitation learning)的核心失敗——訓練 AI 去模仿人類招聘專員。如果招聘專員有偏見(而由於同質性,他們確實有),這個 AI 就變成了我開始稱之為「偏見膠囊」的東西。它把十年的偏見結晶化,並以機器的速度施加在每一位新的應徵者身上。
Amazon 至少還有終止這個專案的操守。大多數使用類似工具的公司甚至不知道自己有這個問題。
那 GPT 呢?大型語言模型套殼陷阱
在 Amazon 的故事爆發後,我以為整個產業會修正方向。結果,生成式 AI 的熱潮反而催生出可以說更糟糕的東西:一大批「AI 驅動」的招聘工具,它們只是薄薄的介面——套殼——架在 GPT-4 或 Claude 這類通用大型語言模型之上。
我已經數不清有多少投資人和潛在合作夥伴對我說:「直接用 GPT 就好。拿些招聘資料微調一下。上線就行。」每一次,我的回應都一樣:你知道 GPT 是用什麼訓練出來的嗎?
開放的網際網路。人類文本的總和——包括其中的偏見、刻板印象與成見。華盛頓大學的研究人員發現,當大型語言模型篩選履歷時,與白人相關的名字在 85% 的情況下被優先選擇,即使資歷條件完全相同。在某些測試回合中,黑人男性的名字從未被排在第一位。這個模型基於其訓練資料中的統計模式,將某些名字與「能力」聯繫在一起。套殼工具無法輕易關掉這一點,因為這種偏見已被編織進模型對語言的根本理解之中。
而這還是在你觸及幻覺問題之前。大型語言模型是機率式的文本生成器,而非邏輯引擎。它們可能捏造出候選人並不具備的技能,或漏掉候選人確實具備的技能,因為這個模型最佳化的目標是聽起來合理的文本,而非事實準確性。在合規情境中——被拒絕的候選人可能提告——「AI 幻覺出你缺少某項必要證照」並不是一個站得住腳的法律辯護。
接著還有黑箱問題。你問一個套殼工具,它為什麼把候選人 A 排在候選人 B 之前,它能生成一段聽起來信心十足的解釋。但那段解釋是事後合理化,而非對該決策的因果說明。在紐約市《第 144 號地方法》與《歐盟 AI 法案》之下,這種不透明性正日益不合規。
我曾在我們研究的互動版本中撰文探討過這個問題——以及我們解決它的方法。
錯的問題 vs. 對的問題

以下就是這一切的關鍵所在。
標準招聘 AI 問的是:「根據歷史,這個人會被錄取嗎?」
我們問的是:「這個人會表現優異嗎?」
這兩個問題聽起來很相似,實則天差地遠。
第一個問題訓練於招聘專員的決策——一個被同質性、親和偏見,以及對現有團隊人口結構進行模式配對所污染的決策。第二個問題訓練於業務結果:18 個月後的留任率、KPI 達成度、績效評等、團隊產出的提升。
當你訓練於結果而非決策時,一件了不起的事就發生了。如果多元背景的候選人在過去表現優異卻很少被錄取——而這正是許多組織的資料所顯示的情況——那麼一個以結果為基礎的模型就會學著重視他們。一個以模仿為基礎的模型則會學著忽視他們。
這不是微妙的區別。這是自動化過去與打造未來之間的差異。
你要怎麼讓 AI 可被證明是公平的?

好。所以我們訓練於結果而非決策。這是必要的,但還不夠。因為即使是結果資料,也可能帶有結構性偏見的痕跡——如果多元背景的員工被分配到較少的資源、較差的任務,或較少的指導,他們的結果可能會被人為壓低。
這就是我們從預測式 AI 邁向因果 AI的地方,具體來說是邁向一個名為反事實公平性(counterfactual fairness)的框架。
這個構想根植於 Judea Pearl 的「因果階梯」,看似簡單到有些迷惑人。標準的機器學習運作於 Pearl 階梯的第一層:關聯。它看見模式。「具有特徵 X 的人往往得到結果 Y。」有用,但對相關與因果之間的差異視而不見。
因果 AI 運作於第三層:反事實。它能想像另一種現實。「如果這位候選人當初是男性而非女性,在其他一切維持不變的情況下,模型的預測會改變嗎?」
如果答案是會,那這個模型就不公平。就這麼簡單。
我們使用結構因果模型(Structural Causal Models)來實作這一點——這是一種透明的圖,用以描繪變數之間的因果關係。與黑箱神經網路不同,結構因果模型讓我們能清楚看見哪些路徑將輸入連結到輸出,以及為什麼。
這裡有個具體的例子,曾讓我的團隊某晚熬到很晚。當時我們正在建立一個模型,注意到「郵遞區號」是留任率的一個強力預測因子。這說得通——漫長的通勤會把人耗盡。但在大多數美國城市,郵遞區號也與種族相關。一個標準模型會不加區別地使用郵遞區號,實際上是在以種族進行歧視,同時看起來卻在使用一個「中立」的變數。
我們的結構因果模型描繪出兩條路徑:
- 正當路徑: 郵遞區號 → 通勤時間 → 留任率
- 虛假路徑: 郵遞區號 → 人口特徵 → 歷史偏見
我們在數學上阻斷第二條路徑,同時保留第一條。這個模型只能在郵遞區號用於預測通勤時間的範圍內使用它。如果它開始利用郵遞區號來推斷種族,懲罰機制就會啟動。
問題不在於你的 AI 是否直接使用受保護屬性,而在於它是否使用那些從側門把這些屬性偷渡回來的代理變數。
訓練模型去卸除它自己的偏見

我們在訓練過程中究竟是如何落實這一點的?透過一種名為對抗式去偏見(adversarial debiasing)的技術——本質上,就是把一項公平性懲罰內建進模型的學習過程中。
在訓練期間,模型同時針對兩個相互競爭的目標進行最佳化。第一:把預測工作績效的準確度最大化。第二:把從模型內部表徵中預測候選人受保護屬性(種族、性別、年齡)的能力最小化。
我們引入一個「對抗者」——一個次要模型,它唯一的任務就是試圖從主模型的輸出中猜出候選人的人口特徵。如果主模型開始倚賴像「長曲棍球」(一種社經地位的代理變數,而社經地位又與種族相關)或某些大學名稱這類代理特徵,對抗者便會偵測到它現在能更容易地猜出人口特徵。這會觸發一項懲罰,提高主模型當前狀態的代價。
為了把總損失最小化,模型被迫去尋找那些能在不洩露人口特徵的情況下預測績效的特徵。技能。經驗。客觀的測驗分數。真正的因果驅動因素。
我有時會用一個我團隊很討厭的蠢類比來解釋這件事:這就像訓練一隻狗去叼報紙。如果狗把報紙叼回來卻咬破了,就沒有零食吃。最終,這隻狗學會了不咬破就把報紙叼回來。我們的模型則學會了不帶歧視地進行預測。
在部署之前,我們會執行數以千計的反事實模擬。我們拿一位真實候選人的履歷,生成一個名字與代名詞不同、但技能與經驗完全相同的「合成雙胞胎」,並將兩者都餵進模型。如果分數出現分歧,這個模型就沒通過稽核。我們反覆迭代,直到分數收斂為止。關於這個流程的完整技術剖析,請見我們的研究論文。
為什麼這一切在法律上很重要?
因為監管的高牆正在逼近,而大多數公司都還沒準備好。
紐約市《第 144 號地方法》自 2023 年起生效,禁止使用自動化招聘工具,除非這些工具在過去一年內接受過獨立的偏見稽核。該法要求計算影響比率——比較各人口族群之間的錄取率。許多黑箱供應商都無法通過這些稽核,因為它們無法控制自己的模型如何權衡不同的特徵。它們正手忙腳亂地事後修補偏見,這就像想把已經烤好的蛋糕還原成生麵團一樣。
《歐盟 AI 法案》走得更遠,把招聘 AI 歸類為「高風險」——與醫療器材相同的監管層級。這對資料治理、人為監督,以及可被證實的無偏見狀態,施加了嚴格的要求。那些透過第三方 API 處理資料的套殼解決方案在此面臨一個存亡問題:資料離開了你的基礎架構,模型不透明,你也無法保證合規。
我們的模型從設計之初就已為稽核做好準備。因為訓練期間的公平性懲罰在數學上比法律要求的更為嚴格,合規便成了一種自然而然的副產品,而非事後補救。而且由於因果圖是透明的,我們能向稽核人員——或法庭——精確展示是哪些因素驅動了任何一項既定決策,並證明受保護屬性的權重為零。
人們有時會問我,這一切的公平性工程是否是以犧牲績效為代價換來的。這是我最常聽到的反對意見,通常會被這樣措辭:「公平與準確之間難道沒有取捨嗎?」
並沒有。或者更精確地說:取捨存在於公平與準確的假象之間。一個「準確」預測有偏見之人類決策的模型,其實並不能準確預測工作績效。它準確預測的是偏見。當你剔除偏見、訓練於真實的結果時,你並不會失去預測能力——你只是把它重新導向真正重要的事物。
應用於招聘的「魔球」原則
在一個涉及員工流失的案例研究中,因果推論揭示出「缺乏培訓機會」——而非薪資——才是離職的真正驅動因素。這家公司以培訓計畫進行介入,取代了全面加薪,將員工流失率降低了23.9%,而成本只是零頭。這就是問為什麼而非只問是什麼的威力。
像 Unilever 和 Hilton 這類轉向資料驅動、以結果為基礎之招聘模型的公司,據報將招聘所需時間縮短了高達90%,同時還提升了多元性。公平與效率並不衝突。它們是一套真正在衡量正確事物的系統所產生的、相互關聯的結果。
我把這想成是應用於 HR 的「魔球原則」。傳統招聘專員高估出身背景——常春藤名校學位、知名企業任職經歷——就像棒球球探過去高估打擊率一樣。因果 AI 找出的是相當於上壘率的東西:那些真正能預測致勝結果、卻被低估的訊號。透過移除「文化契合度」的偏見,你擴大了人才庫,把那些每一家其他公司都在系統性忽略的高績效者也納入其中。
公平並不是對績效課徵的稅。當你不再把出身背景與潛力混為一談時,公平正是績效該有的樣子。
承認困難之處的段落
如果我說這東西打造起來很容易、或很好賣,那我就是在說謊。
技術很難。建構因果模型需要領域專業——你必須理解某個特定職位中工作績效的實際因果結構,而不只是把資料丟給演算法。把那個結構搞錯,就意味著阻斷了正當的路徑,或放任虛假的路徑敞開著。我們曾為了某個特定變數究竟是一個正當的預測因子還是一個代理變數,進行過持續數天的內部辯論。沒有捷徑可走。你必須思考。
銷售週期也很難。招聘主管相信自己的直覺。他們認為自己很會看人。告訴某人他的「直覺」其實是在對他自己的人口輪廓進行模式配對,並不會讓你在晚宴上受歡迎。我們學會了不把這項技術定位成一種指控,而是定位成一種決策輔助工具——一種類比於拼字檢查器的「偏見檢查」。它不會替你把書寫好,它只是確保你不犯那些可避免的錯誤。
而資料準備度是一項實實在在的挑戰。因果 AI 需要穩健的資料,而少數族群在歷史資料集中往往代表性不足。我們以合成資料生成來因應這一點——使用 GAN 來創造出符合隱私安全的資料點,這些資料點模擬了代表性不足族群的統計特性,以確保模型擁有足夠的範例,來為每一個人學習出公平的決策邊界。
這一切都不像對 GPT 包一個 API 呼叫再把產品上架那麼簡單。但那個簡單的版本行不通。它只會靜悄悄地、大規模地失敗,以那些會傷害真實人們生活的方式。
屏風,而非鏡子
招聘領域第一代的 AI 是一面鏡子。它把我們的偏見反射回我們身上,並被自動化放大,而我們卻稱之為智慧。
下一代必須是一面屏風——就像那些管弦樂團甄選裡的那面屏風。不是一種看著候選人卻只看見人口特徵的工具,而是一種聆聽音樂的工具。
作為一個產業,我們還沒走到那一步。市場仍由那些為錯誤目標而最佳化、建立在無法解釋自身之模型上、賣給那些不知道該問什麼問題之公司的工具所主導。但監管環境正在轉變。證據正在累積。而最先想通這件事的組織,將能接觸到一個被其競爭對手以演算法排除在外的人才庫。
我創立 Veriprajna,不是因為我認為公平是一種「有也不錯」的東西。我創立它,是因為我看著資料,領悟到偏見不只是一種倫理上的失敗——它是一種預測上的失敗。每一次模型因為一個名字、一個郵遞區號,或一個與「錯誤」人口特徵相關的嗜好而拒絕一位合格的候選人時,它就是在做出一個錯誤的預測。它是在把績效白白留在桌上。它是在選擇安逸而非準確。
問題不在於 AI 是否會徹底改變招聘。問題在於,我們究竟會用它來擴展我們最好的直覺,還是我們最壞的直覺。
我知道我正在為哪一邊而打造。