生物安全 AI 防護

你的生成式化學流程，只差一個設定變更就能被用來設計武器

2022 年，Collaborations Pharmaceuticals 在 MegaSyn 中翻轉了單一個獎勵符號，便在不到 6 小時內生成了 40,000 種有毒分子，其中包含 VX 類似物。2025 年，GeneBreaker 透過同源性導引的束搜尋（beam search）越獄 Evo 2-40B，達到 60% 的攻擊成功率。如今多數藥廠團隊所倚賴的防禦機制，是為一個已不復存在的威脅樣貌所打造的。

40,000

透過獎勵反轉於 6 小時內生成的有毒分子（MegaSyn，2022）

60% ASR

透過 GeneBreaker 同源性攻擊在 Evo 2-40B 上的攻擊成功率（NeurIPS 2025）

€35M

對被禁止之 AI 行為的歐盟 AI 法案最高罰則（全球營業額的 7%）

您目前的防護層無法阻擋的三大攻擊向量

拒答訓練、RLHF 對齊與結構警示過濾器，都是為「幫我設計一種神經毒劑」這類攻擊看起來的世界所設計的。2025 年的攻擊面更為隱微、更自動化，並運作於這些防禦所監控的層級之下。

獎勵反轉（MegaSyn 模式）

一個生成式化學模型會針對某個獎勵函數進行最佳化。在藥物探索中，該函數會為療效特性評分。翻轉符號，同一個模型就會轉而為致命性進行最佳化。MegaSyn 實驗只需更改單一個 Python 設定值。多數建立於 REINVENT 4、AutoDesigner 或自訂獎勵塑形模型之上的藥廠生成式流程，都具有完全相同的架構性弱點：獎勵函數是一個設定參數，而非硬編碼的約束條件。

為何目前的防禦會漏掉它：毒效團過濾器（Chemistry42 的 460 多個 MCF、Chemaxon 結構警示）會在輸出中攔截已知的有毒子結構。它們並不會約束最佳化目標。一個朝化學武器（CWA）流形最佳化的模型，可以生成能通過每一項已知毒效團檢查的全新結構，因為它們在結構上是全新的。

同源性導引的束搜尋（GeneBreaker）

GeneBreaker 不會向生物學模型索取「一種病原體」。它索取的是一種與某個良性參考序列同源、但恰好在結構上與某種列管病原（Select Agent）蛋白質相似的蛋白質。一個 LLM 代理會協調生物資訊工具，使用 PathoLM 與對數機率啟發法來導引束搜尋，並以 BLAST 評估候選序列。該攻擊在 6 個病毒類別中對 Evo 2-40B 達到高達 60% 的成功率，並在 SARS-CoV-2 棘蛋白與 HIV-1 套膜蛋白上展現出結構與序列的保真度。

為何目前的防禦會漏掉它：以關鍵字為基礎的安全過濾器與拒答訓練尋找的是明確的請求。同源性攻擊從不提及目標病原體。在你分析所生成序列的功能特性之前，該請求看起來就像一項合法的比較基因體學研究。

惡意微調與重新學習復原

對於任何在本地端運行的開放權重模型：10 至 50 個微調範例與幾百美元的 GPU 運算時間，便可剝除安全對齊，並將預訓練的生物能力恢復至接近前沿水準（arXiv 2508.03153）。對於已進行機器遺忘（RMU）的模型：在鬆散相關的公開資料（醫學文章、生物學教科書）上進行良性重新學習，可使模型回想起、朝遺忘前的表現靠攏（CMU/ICLR 2025）。截至 2025 年，「知識已消失」這個強烈主張，其實更接近「知識被深度混淆」。

為何目前的防禦會漏掉它： RLHF 拒答是一種行為約束，而非能力約束。它教導模型拒絕，而非遺忘。MFT 移除了拒答，同時保留了能力。即使是遺忘（一種能力約束）也只是部分可逆。防禦需要多個獨立的層，而非單一技術。

2026 年的監管真空

藥廠合規團隊原本規劃因應至 2024 年的美國行政框架已被撤銷。歐盟框架則持續收緊。一家在歐盟有業務的藥廠，無論美國的態度如何，都必須遵守歐盟標準。ISO 42001 認證日益成為保險公司與合作夥伴所期待的基準。

框架	狀態（2026 年 4 月）	其要求內容
歐盟 AI 法案（GPAI）	2026 年 8 月起執法	對用於生物學的 GPAI 模型進行系統性風險評估、對抗性測試、事件通報。罰則：€15M／營業額的 3%。
歐盟 AI 法案（高風險）	2026 年 8 月起執法	風險管理系統、資料治理、人為監督、準確性／穩健性。罰則：對被禁止之行為處 €35M／營業額的 7%。
ISO/IEC 42001:2023	現行有效，自願性	具備與風險相稱之控制措施的 AI 管理系統。對於與 CBRN 相鄰的 AI：需採行消除型控制措施，而不僅是行政型控制措施。保險公司日益對此有所期待。
NIST AI 600-1	2024 年 7 月發布	生成式 AI 風險概況明確將 CBRN 列為 12 項獨特風險之一。對應至 AI RMF 各項職能（治理、對應、量測、管理）。
FDA 指引草案	草案，2025 年 1 月	針對藥物／生物製品開發中 AI 的情境特定可信度評估。最終指引預計於 2026 年發布。
美國行政命令框架	已撤銷	EO 14110（AI 安全）於 2025 年 1 月撤銷。EO 14081（生物經濟）於 2025 年 3 月撤銷。EO 14292（生物研究安全）於 2025 年 5 月發布，但 90 天的實施期限已過，仍無替代框架。
BIOSECURE 法案	2026 年生效	限制美國聯邦合約與某些外國生技公司往來。為聯邦資助生態系中的任何一方創設了新的供應鏈合規義務。

如今誰負責什麼

供內部討論參考。每一列都坦誠地說明缺口，包括我們同樣無法彌補的缺口。

類別	範例	他們做什麼	他們漏掉什麼
前沿實驗室	Anthropic（ASL-3）、OpenAI	模型層級的 CBRN 評估、憲法式分類器、在 API 邊界進行拒答訓練	無法保護你內部的微調模型、生成式化學流程或 RAG 工作流程。ASL-3 保護的是 Claude，而非你的 REINVENT 實例。
生成式化學平台	Chemistry42、REINVENT 4、Schrödinger	結構警示過濾（毒效團、PAINS、反應性官能基）、ADMET 評分、基於物理的對接	過濾的是輸出，而非目標。無法偵測在潛在空間中與 CWA 流形的鄰近性。REINVENT 的獎勵函數是一個帶有 MegaSyn 弱點的設定檔。
DNA 篩查	IGSC、SecureDNA、IBBIS	針對列管病原（Select Agent）清單進行基於同源性的篩查。SecureDNA 加上了密碼學雜湊。後 Paraphrase Project 修補程式於 2025 年底部署。	篩查發生在你下訂單之後。對你的生成式模型內部所提出的內容毫無可見性。對於新穎骨架的功能預測仍然有限。
學界／CAIS	CAIS（WMDP）、CMU、Stanford	發表基準（WMDP）、開發遺忘技術（RMU、UIPE）、執行評估	不做部署、整合、維運或認證。研究成果需要工程化才能成為可運作的控制措施。
四大會計師事務所／大型系統整合商	Deloitte、Accenture、EY、KPMG	AI 治理框架、政策撰寫、風險評估、紙上的 ISO 42001 缺口分析	落實的是治理，而非技術控制措施。不會打造潛在空間批判器、執行重新學習攻擊，或將 SAE 特徵消融整合進你的 MLOps。專案費用為 $500K-$5M+，交付的是文件，而非已部署的系統。
內部 ML 團隊	貴藥廠的 AI／ML 團隊	領域專業、模型訓練、流程工程，以及對你特定資料與工作流程的深入了解	鮮少具備對抗性穩健性、LLM 遺忘、用於流形偵測的拓撲資料分析，或 CBRN 特定威脅建模等專業背景。這不是他們的職責。

我們同樣無法彌補的坦誠缺口：若你的研發領導層不希望生物安全審查拖慢迭代速度，任何技術層都無法長久。若對手竊取了權重，且擁有一份經整理的生物武器資料集，無論是否經過遺忘，能力都可被重建。未知的未知威脅（尚未在 WMDP 中列舉的能力）仍超出任何基準所能觸及的範圍。上游資料投毒則需要我們無法強制的合作。

我們建構什麼

五項能力，各自因應當前防禦樣貌中的一個特定缺口。我們疊加在你既有的任何技術堆疊之上。不是一項產品，而是每個專案的客製化建構。

生成式化學安全中介軟體

在你生成式流程的 SMILES、SELFIES 與圖形輸出抵達研究人員之前先行攔截。這不是針對已知不良結構的過濾器，而是一個潛在空間鄰近性評分器，運用拓撲資料分析量測與化學武器劑（CWA）流形的距離。

技術選擇：我們之所以採用持續同調（Vietoris-Rips 過濾）來刻劃潛在空間的 CWA 區域，是因為它對那些能擊敗較簡單距離度量的座標變換具有穩健性。再結合針對邊界候選的活性懸崖（activity-cliff）偵測。每一次攔截都會產生一筆 ISO 42001 稽核日誌記錄。

生物學 LLM 的知識缺口工程

對你特定的生物學模型施以 RMU + SAE 特徵消融 + UIPE。我們鎖定那些促成病原相關生成的能力電路，同時保留你的研究人員每日所需的療效探索能力。

技術選擇： SAE（稀疏自編碼器）特徵辨識可定位出負責 CBRN 相關生成的特定神經元與注意力頭。消融是外科手術式的：我們驗證療效效能基準維持在介入前基線的 2% 之內。每月重新認證可捕捉重新學習的漂移。這並非設定後就放手不管。

隨需生物安全紅隊演練

涵蓋完整 2025-2026 攻擊面的季度對抗性測試：針對你生物學模型的 GeneBreaker 式同源性攻擊、針對你化學流程的 SMILES 提示越獄、在你開放權重模型上的惡意微調模擬，以及對已遺忘系統的重新學習復原測試。

交付成果：對應至 NIST AI 600-1 控制措施（治理、對應、量測、管理）的書面報告。每項發現皆依可利用性、衝擊與修補難度進行評分。不是滲透測試報告格式，而是你的 ISO 稽核員可直接閱讀的控制措施缺口分析。

合成前的內部篩查

將 DNA 篩查檢核點從你的供應商（下訂後）移至你的流程（下訂前）。與 SecureDNA 的密碼學協定整合，並加入功能預測評分，以捕捉單憑同源性會遺漏的 AI 改寫變體。

為何此事至關重要： Paraphrase Project（Microsoft/Twist/IDT，Science 2025）生成了數千種 AI 改寫的蓖麻毒素變體，這些變體溜過了每一道商用篩查。修補程式已部署，但當你在序列進入你的電子實驗記錄本（ELN）之前就先行篩查，而非等到供應商標記某筆訂單之後，你的合規態勢便會有可量測的改善。

合規證據包

將所有技術控制措施對應至 ISO 42001、NIST AI RMF、歐盟 AI 法案 GPAI 義務、NIH DURC 政策，以及 ISO 20688-2:2024。交付成果是一份控制措施矩陣，你的合規團隊可直接交給 ISO 稽核員、歐盟指定機構，或網路責任保險公司。不是一份政策與程序文件，而是技術控制措施已部署、已測試且持續驗證的證據。

與保險的關聯：網路責任保險公司（Munich Re Specialty，2025 年 11 月起）正在針對那些運行開放權重模型卻無書面化風險控制的公司調高保費或排除「AI 生成之損害」。這份證據包正是你的風險團隊回答核保問卷時所需的東西。

一次專案如何進行

四個階段。實際可行的時程。明確說明每個階段無法達成什麼。

流程流形稽核

3-4 週

盤點你流程中的每一個生成式模型：化學（REINVENT、Chemistry42、自訂）、生物學（Evo 2、ESM-3、微調的 Llama）、蛋白質設計（RFdiffusion、ProteinMPNN）。對每個模型：刻劃潛在空間、辨識與 CWA 相鄰的區域、評估獎勵函數的可操弄性、測試拒答邊界、評估權重存取控制。

侷限：稽核能辨識弱點，但不會修復它們。一家為了保險目的想要稽核報告、卻不承諾進行修補的藥廠，將會留下一份書面化的責任。

防禦層建構

8-12 週

建構並整合稽核中辨識出的特定防禦層：化學流程的安全中介軟體、生物學模型的知識缺口工程、合成前篩查整合。每個組件都部署進你既有的 MLOps 基礎架構，而非另建一套平行系統。

侷限：在一個 70B 參數的模型上進行知識缺口工程，需要可觀的 GPU 運算時間。視模型大小而定，請為一次完整的 RMU + SAE 消融過程編列 $50K-$150K 的運算預算。SAE 鎖定式消融相較於全模型遺忘可降低此成本，但無法將其消除。

對抗性紅隊

3-4 週

針對已部署的防禦層進行全光譜攻擊模擬。GeneBreaker 同源性攻擊、SMILES 提示變體、MFT 模擬（在沙箱副本上）、對已遺忘模型的重新學習復原嘗試。記錄什麼會被攻破、什麼能守住，以及什麼需要持續監控。

侷限：紅隊測試的是已知的攻擊類別。新穎攻擊（未知的未知）需要持續監控與季度重新評估。一次通過的紅隊演練並不意味著「安全」，它意味著「對當前最先進的對抗技術具有穩健性」。

認證與持續監控

2-3 週 + 持續性顧問留任

彙編合規證據包。將控制措施對應至 ISO 42001、NIST AI 600-1、歐盟 AI 法案 GPAI 義務。建立每月重新認證的節奏：重新學習攻擊、中介軟體效能驗證、新威脅整合。連同操作手冊（runbook）移交給你的合規團隊。

持續性： $8K-$15K/月的顧問留任費涵蓋每月重新認證、季度紅隊更新，以及威脅情報整合（新論文、新攻擊技術、監管更新）。

藥廠合規團隊問我們的問題

機器遺忘真的能從生物學 LLM 中移除危險知識嗎？

部分可以，而坦誠的答案很重要。RMU（用於遺忘的表徵誤導）可將模型的 WMDP-Bio 分數從 75% 降至接近隨機機率（26%）。但 CMU 的重新學習研究（ICLR 2025）證明，已遺忘的模型可使用像公開醫學文章這類鬆散相關的資料，被回想起、朝遺忘前的表現靠攏。

UIPE（ACL 2025）藉由移除與遺忘目標相關的知識來提升持久性，而 SAE 特徵消融則鎖定特定的能力電路。我們將遺忘視為一個帶有每月重新認證週期的防禦層。每 30 天，我們便對已遺忘的模型執行重新學習攻擊。若復原超過某個門檻，我們便以更新後的參數重新施加一次遺忘過程。

這並非一個設定後就放手不管的解決方案。它是一項持續的維護承諾，通常每月週期需 2-3 個工程人日。

對一家中型藥廠而言，生物安全 AI 防護的成本是多少？

一次涵蓋流形稽核、安全中介軟體建構、知識缺口工程、紅隊與合規證據包的完整專案，費用範圍落在 $180K-$450K，視範圍內模型的數量、它們屬於開放權重或基於 API，以及你所營運的監管管轄區而定。持續性的紅隊與重新認證顧問留任費通常為每月 $8K-$15K。

提供一些背景：歐盟 AI 法案對 GPAI 供應商的違規罰則高達 €15M 或全球營業額的 3%。一起登上頭條的生物安全事件，其在商譽損害、監管審查與保費上漲方面的成本，將是該專案費用的數倍。這項專案是一份附帶交付成果的保險。

我們已經在使用具備 ASL-3 防護的 Claude。我們還需要對自己的模型施加生物安全控制嗎？

需要。Anthropic 的 ASL-3 憲法式分類器保護的是 Claude API 邊界。它們會針對一類已定義的 CBRN 相關生成監控輸入與輸出。這很有價值，並代表了目前可取得的最強商用態勢。

但 ASL-3 並不保護你內部的微調生物學模型（Evo 2、ESM-3，或自訂的蛋白質擴散模型）、你的生成式化學流程（REINVENT、Chemistry42）、你那些由生物學模型從內部資料庫擷取資料的檢索增強工作流程，或任何運行於你自有基礎架構上的開放權重模型的輸出。

若一名研究人員為一項合法的藥物探索任務，在內部資料上微調一個開放權重模型，ASL-3 對該模型的輸出毫無可見性。GeneBreaker 攻擊作用於 Evo 2，而非 Claude。你的生物安全態勢需要涵蓋完整的流程，而不僅是你為文字生成所呼叫的前沿 API。

當我們基於智慧財產權因素而在本地端運行模型時，你們如何處理開放權重的問題？

這是生物安全 AI 防護中最棘手的問題，而我們對殘餘風險誠實以告。一個權重可被任何具備檔案系統存取權者取得的模型，能以 10 至 50 個範例與幾百美元的 GPU 運算時間被惡意微調（arXiv 2508.03153）。任何對齊都無法挺過 MFT。

我們的做法分為三層。第一，知識缺口工程（RMU + SAE 消融）在部署前先從權重中移除危險能力，使 MFT 復原更加困難。第二，推論時的安全中介軟體無論模型內部狀態如何，皆攔截其輸出。第三，操作性控制：權重檔完整性監控、存取記錄，以及對生成模式的異常偵測。

我們無法消除的殘餘風險：若對手竊取了權重，且能取得一份經整理的生物武器資料集，他們便能重建能力。沒有任何顧問能阻止這一點。我們能做的，是讓它在可被偵測的前提下變得更難，並確保你的書面化控制措施滿足 ISO 42001 與歐盟 AI 法案的盡職調查要求。

合成前的內部篩查會取代我們 DNA 供應商的篩查嗎？

不會。它是互補的。你的 DNA 合成供應商（Twist、IDT、Genscript）執行 IGSC 統一篩查協定 v3.0，並日益採行符合 ISO 20688-2:2024 的檢查。截至 2025 年底，供應商已修補了 Microsoft Paraphrase Project 所揭露的特定 AI 改寫弱點。

但篩查發生在你下訂單之後。這造成兩個問題：篩查失敗意味著浪費的時間，以及你帳戶上的一個合規標記；而且在訂單送出之前，你對自己內部生成式模型所提出的內容毫無可見性。

內部的合成前篩查在生成當下就捕捉有問題的序列——在它們進入你的電子實驗記錄本之前、在研究人員決定訂購它們之前，以及在你供應商的篩查觸發一項調查之前。我們與 SecureDNA 的密碼學雜湊協定整合，並加入一個功能預測層，以捕捉那一類單憑同源性會遺漏的 AI 改寫變體。可將其想成是把檢核點從供應商往上游移至流程。