生物安全 AI 防护

你的生成式化学流水线，距离设计出武器只差一次配置改动

2022 年，Collaborations Pharmaceuticals 在 MegaSyn 中翻转了一个奖励符号，在不到 6 小时内生成了 40,000 个有毒分子，其中包括 VX 类似物。2025 年，GeneBreaker 通过同源性引导的束搜索（beam search）对 Evo 2-40B 越狱，攻击成功率达到 60%。如今大多数药企团队所依赖的防御措施，是为一个已不复存在的威胁格局而构建的。

40,000

通过奖励反转在 6 小时内生成的有毒分子数（MegaSyn，2022）

60% ASR

通过 GeneBreaker 同源性攻击对 Evo 2-40B 的攻击成功率（NeurIPS 2025）

€35M

对违禁 AI 行为的欧盟《AI 法案》最高罚款（全球营业额的 7%）

你当前的安全层无法阻止的三种攻击向量

拒绝训练、RLHF 对齐和结构警示（structural-alert）过滤器，是为一个攻击看起来像“给我设计一种神经毒剂”的世界而设计的。2025 年的攻击面更隐蔽、更自动化，并在这些防御所监控的层级之下运作。

奖励反转（MegaSyn 模式）

一个生成式化学模型会针对某个奖励函数进行优化。在药物发现中，该函数对治疗特性进行评分。翻转符号，同一个模型就会针对致命性进行优化。MegaSyn 实验只需更改一个 Python 配置值。大多数构建在 REINVENT 4、AutoDesigner 或自定义奖励塑形（reward-shaped）模型之上的药企生成式流水线，都存在完全相同的架构性漏洞：奖励函数是一个配置参数，而非硬编码的约束。

当前防御为何会漏掉它：毒效团（toxicophore）过滤器（Chemistry42 的 460 多个 MCF、Chemaxon 结构警示）能在输出中捕捉已知的有毒子结构。它们并不约束优化目标。一个朝着化学战剂（CWA）流形优化的模型，可以生成能够通过所有已知毒效团检查的新颖结构，因为这些结构在结构上是新颖的。

同源性引导的束搜索（GeneBreaker）

GeneBreaker 不会向生物学模型索要“一种病原体”。它索要的是一种与某个良性参考序列同源、但恰好在结构上类似于某种特定管制剂（Select Agent）蛋白的蛋白质。一个 LLM 智能体（agent）编排各种生物信息学工具，使用 PathoLM 和对数概率启发式方法来引导束搜索，并对照 BLAST 评估候选项。该攻击在 6 个病毒类别上对 Evo 2-40B 实现了高达 60% 的成功率，并在 SARS-CoV-2 刺突蛋白和 HIV-1 包膜蛋白上展示出结构与序列的保真度。

当前防御为何会漏掉它：基于关键词的安全过滤器和拒绝训练寻找的是明确的请求。同源性攻击从不提及目标病原体。在你分析所生成序列的功能特性之前，该请求看起来就像合法的比较基因组学研究。

恶意微调与重学恢复

对于任何在本地（on-premise）运行的开放权重模型：10-50 个微调示例和几百美元的 GPU 时间，就能剥离安全对齐，并将预训练的生物学能力恢复到接近前沿的水平（arXiv 2508.03153）。对于经历过机器遗忘（RMU）的模型：在松散相关的公开数据（医学文章、生物学教科书）上进行良性重学，可以使模型重新趋向遗忘前的性能（CMU/ICLR 2025）。截至 2025 年，“知识已消失”这一强有力的说法，更接近于“知识被深度混淆”。

当前防御为何会漏掉它： RLHF 拒绝是一种行为约束，而非能力约束。它教会模型去拒绝，而非去遗忘。恶意微调（MFT）会移除拒绝行为，同时保留能力。即便是遗忘（一种能力约束）也是部分可逆的。防御需要多个相互独立的层，而非单一技术。

2026 年的监管真空

药企合规团队曾据以规划至 2024 年的美国行政框架已被撤销。欧盟框架则不断收紧。在欧盟有业务的药企，无论美国立场如何，都必须遵守欧盟标准。ISO 42001 认证正日益成为保险公司和合作伙伴所期望的基线。

框架	状态（2026 年 4 月）	其要求内容
欧盟《AI 法案》（GPAI）	2026 年 8 月起执行	针对用于生物学的 GPAI 模型的系统性风险评估、对抗性测试和事件报告。罚款：€15M / 营业额的 3%。
欧盟《AI 法案》（高风险）	2026 年 8 月起执行	风险管理体系、数据治理、人工监督、准确性/稳健性。违禁行为罚款：€35M / 营业额的 7%。
ISO/IEC 42001:2023	生效中，自愿性	具备与风险相称之控制措施的 AI 管理体系。对于与 CBRN 相邻的 AI：需要消除性（elimination）控制，而不仅仅是行政性控制。保险公司日益对此有所期望。
NIST AI 600-1	2024 年 7 月发布	生成式 AI 风险概况明确将 CBRN 列为 12 项独特风险之一。映射到 AI RMF 各项职能（治理、映射、度量、管理）。
FDA 指南草案	草案，2025 年 1 月	针对药物/生物制品开发中 AI 的特定情境可信度评估。最终指南预计于 2026 年发布。
美国行政命令框架	已撤销	EO 14110（AI 安全）于 2025 年 1 月撤销。EO 14081（生物经济）于 2025 年 3 月撤销。EO 14292（生物研究安全）于 2025 年 5 月发布，但 90 天的实施期限届满时仍无替代框架。
BIOSECURE 法案	2026 年生效	限制美国联邦合同与某些外国生物技术公司的合作。为联邦资助生态系统中的所有相关方设立新的供应链合规义务。

如今谁在做什么

供内部讨论参考。每一行都诚实面对差距，包括我们也无法弥合的差距。

类别	示例	他们做什么	他们遗漏了什么
前沿实验室	Anthropic（ASL-3）、OpenAI	模型层面的 CBRN 评估、宪法式分类器（constitutional classifiers）、API 边界处的拒绝训练	无法保护你内部经过微调的模型、生成式化学流水线或 RAG 工作流。ASL-3 保护的是 Claude，而不是你的 REINVENT 实例。
生成式化学平台	Chemistry42、REINVENT 4、Schrödinger	结构警示过滤（毒效团、PAINS、活性基团）、ADMET 评分、基于物理的对接（docking）	过滤的是输出，而非目标。无法检测潜在空间（latent space）中与 CWA 流形的邻近度。REINVENT 的奖励函数是一个配置文件，带有 MegaSyn 漏洞。
DNA 筛查	IGSC、SecureDNA、IBBIS	针对特定管制剂清单的基于同源性的筛查。SecureDNA 增加了加密哈希。后《释义计划》（Paraphrase Project）的补丁于 2025 年末部署。	筛查发生在你下单之后。对你的生成式模型内部所提出的内容毫无可见性。对于新颖支架（scaffold）的功能预测仍然有限。
学术界 / CAIS	CAIS（WMDP）、CMU、斯坦福	发布基准测试（WMDP），开发遗忘技术（RMU、UIPE），运行评估	不进行部署、集成、维护或认证。研究成果需要工程化才能成为可运行的控制措施。
四大 / 大型系统集成商	Deloitte、Accenture、EY、KPMG	AI 治理框架、政策撰写、风险评估、纸面上的 ISO 42001 差距分析	实施的是治理，而非技术控制。不会构建潜在空间评判器（latent-space critic）、运行重学攻击，或将 SAE 特征消融集成到你的 MLOps 中。项目费用为 $500K-$5M+，交付的是文档，而非已部署的系统。
内部 ML 团队	你药企的 AI/ML 小组	领域专长、模型训练、流水线工程、对你特定数据与工作流的深入了解	很少具备对抗性稳健性、LLM 遗忘、用于流形检测的拓扑数据分析，或针对 CBRN 的威胁建模方面的专家背景。这本就不是他们的职责。

我们也无法弥合的诚实差距：如果你的研发领导层不愿让生物安全审查拖慢迭代，那么任何技术层都无法落地。如果攻击者窃取了权重并拥有一个经过精心整理的生物武器数据集，那么无论遗忘与否，能力都可以被重建。未知的未知威胁（尚未在 WMDP 中枚举的能力）仍处于任何基准测试的覆盖范围之外。上游数据投毒需要我们无法强制的配合。

我们构建什么

五项能力，每一项都针对当前防御格局中的某个具体差距。我们位于你已在运行的任何技术栈之上。这不是一个产品。而是每个项目的定制构建。

生成式化学安全中间件

在你的生成式流水线的 SMILES、SELFIES 和图（graph）输出到达研究员之前对其进行拦截。这不是针对已知不良结构的过滤器。而是一个潜在空间邻近度评分器，使用拓扑数据分析来度量与化学战剂（CWA）流形的距离。

技术选择：我们采用持续同调（persistent homology，Vietoris-Rips 过滤）来刻画潜在空间的 CWA 区域，因为它对那些能击败更简单距离度量的坐标变换具有稳健性。并结合针对临界候选项的活性悬崖（activity-cliff）检测。每次拦截都会生成一条 ISO 42001 审计日志记录。

面向生物学 LLM 的知识缺口工程

将 RMU + SAE 特征消融 + UIPE 应用于你特定的生物学模型。我们针对那些能够启用病原体相关生成的能力电路，同时保留你的研究员日常所需的治疗发现能力。

技术选择： SAE（稀疏自编码器）特征识别能定位负责 CBRN 相关生成的特定神经元和注意力头。消融是外科手术式的：我们会验证治疗性能基准维持在干预前基线的 2% 以内。每月的重新认证可捕捉重学漂移。这不是一劳永逸的方案。

按需生物安全红队

覆盖完整 2025-2026 攻击面的季度对抗性测试：针对你生物学模型的 GeneBreaker 式同源性攻击、针对你化学流水线的 SMILES 提示越狱、针对你开放权重模型的恶意微调模拟，以及对已遗忘系统的重学恢复测试。

交付物：映射到 NIST AI 600-1 控制项（治理、映射、度量、管理）的书面报告。每项发现都按可利用性、影响和修复难度进行评分。这不是渗透测试报告格式。而是一份你的 ISO 审计员可直接阅读的控制差距分析。

合成前内部筛查

将 DNA 筛查检查点从你的供应商处（下单后）前移到你的流水线中（下单前）。与 SecureDNA 的加密协议集成，并增加功能预测评分，以捕捉仅靠同源性会漏掉的 AI 释义变体。

为何这很重要：《释义计划》（Microsoft/Twist/IDT，《科学》2025）生成了数千个 AI 释义的蓖麻毒素变体，它们绕过了每一道商业筛查。补丁已部署，但当你在序列进入电子实验记录本（ELN）之前就进行筛查，而非在供应商对订单发出警示之后，你的合规态势会得到可衡量的改善。

合规证据包

将所有技术控制项映射到 ISO 42001、NIST AI RMF、欧盟《AI 法案》GPAI 义务、NIH DURC 政策和 ISO 20688-2:2024。该交付物是一份控制矩阵，你的合规团队可直接交给 ISO 审计员、欧盟指定机构（notified body）或网络责任险承保人。这不是一份政策与流程文档。而是技术控制已部署、已测试并持续验证的证据。

保险相关性：网络责任险承保人（Munich Re Specialty，自 2025 年 11 月起）正在对那些运行开放权重模型却没有书面风险控制的公司提高保费或排除“AI 生成的危害”。这个证据包正是你的风险团队回答核保问卷所需要的。

一次合作如何展开

四个阶段。切合实际的时间表。明确说明每个阶段无法实现什么。

流水线流形审计

3-4 周

梳理你流水线中的每一个生成式模型：化学（REINVENT、Chemistry42、自定义）、生物学（Evo 2、ESM-3、微调的 Llama）、蛋白质设计（RFdiffusion、ProteinMPNN）。对每个模型：刻画其潜在空间，识别与 CWA 相邻的区域，评估奖励函数的可操纵性，测试拒绝边界，评估权重访问控制。

局限：审计能识别漏洞。但它不会修复漏洞。一家为保险目的想要审计报告、却不承诺进行修复的药企，将留下一份有据可查的责任记录。

防御层构建

8-12 周

构建并集成审计中识别出的特定防御层：化学流水线的安全中间件、生物学模型的知识缺口工程、合成前筛查集成。每个组件都部署到你现有的 MLOps 基础设施中，而非一个并行系统。

局限：在一个 70B 参数模型上进行知识缺口工程需要大量 GPU 时间。视模型规模而定，完整的一遍 RMU + SAE 消融需预算 $50K-$150K 的算力。SAE 定向消融相比全模型遗忘可降低这一成本，但无法将其消除。

对抗性红队

3-4 周

针对已部署的防御层进行全频谱攻击模拟。GeneBreaker 同源性攻击、SMILES 提示变体、MFT 模拟（在沙箱副本上）、对已遗忘模型的重学恢复尝试。记录什么被攻破、什么守住了，以及什么需要监控。

局限：红队测试的是已知的攻击类别。新颖攻击（未知的未知）需要持续监控和季度重新评估。一次通过的红队测试并不意味着“安全”。它意味着“对当前最先进的对抗性技术具有稳健性”。

认证与持续监控

2-3 周 + 持续的聘用服务

汇编合规证据包。将控制项映射到 ISO 42001、NIST AI 600-1、欧盟《AI 法案》GPAI 义务。建立每月的重新认证节奏：重学攻击、中间件性能验证、新威胁集成。连同操作手册一并交接给你的合规团队。

持续阶段： $8K-$15K/月的聘用服务涵盖每月重新认证、季度红队刷新，以及威胁情报集成（新论文、新攻击技术、监管更新）。

药企合规团队向我们提出的问题

机器遗忘真的能从生物学 LLM 中移除危险知识吗？

部分能够，而诚实的答案很重要。RMU（用于遗忘的表征误导，Representation Misdirection for Unlearning）能将模型的 WMDP-Bio 分数从 75% 降至接近随机水平（26%）。但来自 CMU 的重学研究（ICLR 2025）表明，使用公开医学文章这类松散相关的数据，可以使已遗忘的模型重新趋向遗忘前的性能。

UIPE（ACL 2025）通过移除与遗忘目标相关的知识来提升持久性，而 SAE 特征消融则针对特定的能力电路。我们将遗忘视为一个具有每月重新认证周期的防御层。每隔 30 天，我们就对已遗忘的模型运行重学攻击。如果恢复程度超过某个阈值，我们就用更新后的参数重新执行一遍遗忘。

这不是一劳永逸的解决方案。它是一项持续的维护承诺，通常为每个月度周期 2-3 个工程师工作日。

对于一家中型药企，生物安全 AI 防护的成本是多少？

一次涵盖流形审计、安全中间件构建、知识缺口工程、红队和合规证据包的完整合作，费用在 $180K-$450K 区间，具体取决于纳入范围的模型数量、它们是开放权重还是基于 API，以及你所运营的监管辖区。持续的红队与重新认证聘用服务通常为每月 $8K-$15K。

供参考：欧盟《AI 法案》对 GPAI 提供方的不合规罚款高达 €15M 或全球营业额的 3%。一起登上头条的生物安全事件，在声誉损害、监管审查和保费上涨方面的代价，将是该合作费用的数倍。这次合作是一份带交付物的保险。

我们已经在使用带有 ASL-3 防护的 Claude。我们还需要在自己的模型上加生物安全控制吗？

需要。Anthropic 的 ASL-3 宪法式分类器保护的是 Claude API 边界。它们针对一类已定义的 CBRN 相关生成监控输入和输出。这很有价值，代表了目前可获得的最强商业态势。

但 ASL-3 无法保护你内部经过微调的生物学模型（Evo 2、ESM-3，或自定义的蛋白质扩散模型）、你的生成式化学流水线（REINVENT、Chemistry42）、你的检索增强工作流（其中生物学模型从内部数据库中拉取数据），或在你自己基础设施上运行的任何开放权重模型的输出。

如果一名研究员为某个合法的药物发现任务在内部数据上微调一个开放权重模型，ASL-3 对该模型的输出毫无可见性。GeneBreaker 攻击对 Evo 2 有效，而非对 Claude。你的生物安全态势需要覆盖整条流水线，而不仅仅是你调用来生成文本的那个前沿 API。

当我们出于知识产权原因在本地运行模型时，你们如何处理开放权重问题？

这是生物安全 AI 防护中最棘手的问题，我们对其残余风险保持诚实。一个权重可被任何拥有文件系统访问权限者获取的模型，可以用 10-50 个示例和几百美元的 GPU 时间被恶意微调（arXiv 2508.03153）。再多的对齐也无法在 MFT 中幸存。

我们的方法有三层。第一，知识缺口工程（RMU + SAE 消融）在部署前从权重中移除危险能力，使 MFT 恢复更困难。第二，推理时安全中间件无论模型内部状态如何都会拦截输出。第三，操作性控制：权重文件完整性监控、访问日志记录，以及对生成模式的异常检测。

我们无法消除的残余风险：如果攻击者窃取了权重并能访问一个经过精心整理的生物武器数据集，他们就能重建能力。没有任何顾问能阻止这一点。我们能做的是让它在可检测的意义上更难，并确保你书面记录的控制项满足 ISO 42001 和欧盟《AI 法案》的尽职调查要求。

合成前的内部筛查会取代我们 DNA 供应商的筛查吗？

不会。它是对后者的补充。你的 DNA 合成供应商（Twist、IDT、Genscript）运行 IGSC 协调筛查协议（Harmonized Screening Protocol）v3.0，并日益执行符合 ISO 20688-2:2024 的检查。截至 2025 年末，供应商已对微软《释义计划》所暴露的那个特定 AI 释义漏洞打了补丁。

但筛查发生在你下单之后。这造成两个问题：一次未通过的筛查意味着浪费时间并在你的账户上留下合规标记；而且你对自己内部生成式模型在订单发出前所提出的内容毫无可见性。

内部合成前筛查能在生成时就捕捉到有问题的序列——在它们进入你的电子实验记录本之前、在研究员决定订购它们之前，以及在你供应商的筛查触发调查之前。我们与 SecureDNA 的加密哈希协议集成，并增加一个功能预测层，以捕捉仅靠同源性会漏掉的那一类 AI 释义变体。可以把它理解为将检查点从供应商处上移到流水线中。