製薬・バイオテック向けバイオセキュリティAIセーフティ

現在の安全層では止められない3つの攻撃ベクトル

拒否トレーニング、RLHFアライメント、構造アラートフィルターは、攻撃が「神経剤を設計して」のように見える世界向けに設計されていました。2025年の攻撃対象領域はより巧妙で、より自動化されており、これらの防御策が監視するレベルの下で動作します。

報酬反転（MegaSynパターン）

生成化学モデルは報酬関数を最適化します。創薬において、その関数は治療特性をスコアリングします。符号を反転させると、同じモデルが致死性を最適化します。MegaSynの実験では、Pythonの設定値を1つ変更するだけで済みました。REINVENT 4、AutoDesigner、またはカスタムの報酬整形モデルに基づいて構築されたほとんどの製薬向け生成パイプラインは、同一のアーキテクチャ上の脆弱性を抱えています。すなわち、報酬関数はハードコードされた制約ではなく、設定パラメータなのです。

現在の防御策が見逃す理由：毒性団フィルター（Chemistry42の460以上のMCF、Chemaxonの構造アラート）は、出力に含まれる既知の毒性部分構造を捕捉します。これらは最適化目的を制約しません。CWA多様体に向けて最適化するモデルは、構造的に新規であるため、既知の毒性団チェックをすべて通過する新規構造を生成できます。

相同性誘導ビームサーチ（GeneBreaker）

GeneBreakerは生物学モデルに「病原体」を求めるのではありません。それは、選定病原体（Select Agent）タンパク質に構造的に類似していることが判明している無害な参照に相同なタンパク質を求めます。LLMエージェントがバイオインフォマティクスツールを統括し、PathoLMと対数確率ヒューリスティクスを用いてビームサーチを誘導し、候補をBLASTに照らして評価します。この攻撃は6つのウイルスカテゴリにわたってEvo 2-40Bで最大60%の成功率を達成し、SARS-CoV-2スパイクタンパク質とHIV-1エンベロープタンパク質において構造的・配列的忠実性を実証しました。

現在の防御策が見逃す理由：キーワードベースの安全フィルターと拒否トレーニングは、明示的な要求を探します。相同性攻撃は対象の病原体に一切言及しません。生成された配列の機能特性を分析するまで、その要求は正当な比較ゲノミクス研究のように見えます。

悪意あるファインチューニングと再学習による回復

オンプレミスで稼働するあらゆるオープンウェイトモデルにおいて、10〜50件のファインチューニング例と数百ドル分のGPU時間があれば、安全アライメントを剥ぎ取り、事前学習時の生物学的能力をフロンティアに近いレベルまで復元できます（arXiv 2508.03153）。機械的アンラーニング（RMU）を施したモデルでは、緩やかに関連する公開データ（医学論文、生物学の教科書）での無害な再学習によって、モデルをアンラーニング前の性能へと引き戻すことができます（CMU/ICLR 2025）。「知識は消えた」という強い主張は、2025年時点では「知識は深く難読化されている」に近いものです。

現在の防御策が見逃す理由： RLHFによる拒否は、能力の制約ではなく挙動の制約です。それはモデルに拒否することを教えるのであって、忘れることを教えるのではありません。MFTは能力を保ったまま拒否を取り除きます。アンラーニング（能力の制約）でさえ部分的に可逆です。防御には単一の手法ではなく、複数の独立した層が必要です。

2026年の規制空白

2024年まで製薬コンプライアンスチームが対策の前提としていた米国の大統領令フレームワークは撤回されました。EUのフレームワークは引き締めを続けています。EUで事業を展開する製薬会社は、米国の姿勢にかかわらずEU基準に準拠しなければなりません。ISO 42001認証は、保険会社やパートナーが期待する基準としてますます機能しています。

フレームワーク	状況（2026年4月）	要求事項
EU AI Act（GPAI）	2026年8月施行	生物学に使用されるGPAIモデルに対するシステミックリスク評価、敵対的テスト、インシデント報告。制裁金：€15M／売上高の3%。
EU AI Act（高リスク）	2026年8月施行	リスク管理システム、データガバナンス、人間による監督、正確性／堅牢性。制裁金：禁止された慣行に対して€35M／売上高の7%。
ISO/IEC 42001:2023	有効、任意	リスクに見合った管理策を備えたAIマネジメントシステム。CBRN隣接のAIには、管理的措置だけでなく除去型の管理策が必要。保険会社からの期待がますます高まっています。
NIST AI 600-1	2024年7月公開	GenAIリスクプロファイルは、CBRNを12の固有リスクの1つとして明示的に挙げています。AI RMF機能（統治、マップ、測定、管理）にマッピングされます。
FDAドラフトガイダンス	ドラフト、2025年1月	医薬品／生物学的製剤の開発におけるAIに対する文脈固有の信頼性評価。最終ガイダンスは2026年に予定。
米国大統領令フレームワーク	撤回済み	EO 14110（AIセーフティ）は2025年1月に撤回。EO 14081（バイオエコノミー）は2025年3月に撤回。EO 14292（生物研究の安全）は2025年5月に発令されたが、90日間の実施期限が代替フレームワークなしで経過しました。
BIOSECURE Act	2026年に有効	特定の外国バイオテクノロジー企業との米国連邦契約を制限します。連邦資金エコシステムに関わるすべての者に対し、新たなサプライチェーン・コンプライアンス義務を生み出します。

今日、誰が何をしているか

社内での議論のための参照資料。各行は、私たち自身が埋められないギャップも含め、ギャップについて正直です。

カテゴリ	例	彼らが行うこと	彼らが見逃すこと
フロンティアラボ	Anthropic（ASL-3）、OpenAI	モデルレベルのCBRN評価、constitutional classifier、API境界での拒否トレーニング	貴社の社内ファインチューニング済みモデル、生成化学パイプライン、RAGワークフローを保護できません。ASL-3はClaudeを保護するのであって、貴社のREINVENTインスタンスではありません。
生成化学プラットフォーム	Chemistry42、REINVENT 4、Schrödinger	構造アラートフィルタリング（毒性団、PAINS、反応性基）、ADMETスコアリング、物理ベースのドッキング	目的ではなく出力をフィルタリングします。CWA多様体への潜在空間上の近接を検出できません。REINVENTの報酬関数はMegaSyn脆弱性を抱えた設定ファイルです。
DNAスクリーニング	IGSC、SecureDNA、IBBIS	選定病原体（Select Agent）リストに対する相同性ベースのスクリーニング。SecureDNAは暗号学的ハッシュ化を追加します。Paraphrase Project後のパッチは2025年後半に展開されました。	スクリーニングは発注後に行われます。貴社の生成モデルが社内で何を提案しているかは見えません。新規の足場構造に対する機能予測は依然として限定的です。
学術界／CAIS	CAIS（WMDP）、CMU、Stanford	ベンチマーク（WMDP）の公開、アンラーニング手法（RMU、UIPE）の開発、評価の実施	デプロイ、統合、保守、認証は行いません。研究成果が運用上の管理策になるには、エンジニアリングが必要です。
Big 4／大手SI	Deloitte、Accenture、EY、KPMG	AIガバナンスフレームワーク、ポリシー策定、リスク評価、紙面上のISO 42001ギャップ分析	技術的管理策ではなくガバナンスを実装します。潜在空間クリティックの構築、再学習攻撃の実行、SAE特徴アブレーションの貴社MLOpsへの統合は行いません。契約は50万〜500万ドル超に及び、デプロイ済みシステムではなく文書を提供します。
社内MLチーム	貴社製薬会社のAI/MLグループ	ドメイン専門知識、モデル訓練、パイプラインエンジニアリング、貴社固有のデータとワークフローに関する深い知見	敵対的堅牢性、LLMアンラーニング、多様体検出のための位相的データ解析、CBRN固有の脅威モデリングに関する専門的バックグラウンドを持つことは稀です。それは彼らの仕事ではありません。

私たち自身も埋められない正直なギャップ：貴社のR&D指導部がバイオセキュリティレビューによる反復の遅延を望まないのであれば、いかなる技術層も定着しません。敵対者がウェイトを流出させ、かつ整備された生物兵器データセットを保有しているなら、アンラーニングにかかわらず能力は再構築され得ます。未知の未知の脅威（WMDPにまだ列挙されていない能力）は、いかなるベンチマークの射程外にも留まります。上流のデータポイズニングには、私たちが強制できない協力が必要です。

私たちが構築するもの

5つの能力。それぞれが現在の防御環境における特定のギャップに対処します。私たちは貴社がすでに稼働させているどんなスタックの上にも位置します。製品ではありません。契約ごとのカスタムビルドです。

生成化学セーフティミドルウェア

貴社の生成パイプラインからのSMILES、SELFIES、グラフ出力を、研究者に届く前に傍受します。既知の不正構造に対するフィルターではありません。位相的データ解析を用いて化学兵器剤多様体までの距離を測定する、潜在空間近接スコアラーです。

技術的選択：私たちは、より単純な距離尺度を無効化する座標変換に対して頑健であるため、潜在空間のCWA領域を特徴付けるのにパーシステントホモロジー（Vietoris-Rips濾過）を採用します。境界線上の候補に対する活性クリフ検出と組み合わせます。すべての傍受はISO 42001監査ログのエントリを生成します。

生物学LLMのための知識ギャップ・エンジニアリング

RMU＋SAE特徴アブレーション＋UIPEを貴社固有の生物学モデルに適用します。私たちは、研究者が日々必要とする治療探索能力を維持しつつ、病原体関連の生成を可能にする能力回路を標的とします。

技術的選択： SAE（スパースオートエンコーダ）特徴の同定により、CBRN関連の生成を担う特定のニューロンとアテンションヘッドを突き止めます。アブレーションは外科的です。治療性能のベンチマークが介入前ベースラインの2%以内に収まることを検証します。月次の再認証で再学習ドリフトを捕捉します。これは設定して放置できるものではありません。

オンデマンドのバイオセキュリティ・レッドチーム

2025〜2026年の攻撃対象領域全体をカバーする四半期ごとの敵対的テスト：貴社の生物学モデルに対するGeneBreaker方式の相同性攻撃、貴社の化学パイプラインに対するSMILESプロンプティングのジェイルブレイク、貴社のオープンウェイトモデルに対する悪意あるファインチューニングのシミュレーション、アンラーニング済みシステムに対する再学習回復テスト。

成果物： NIST AI 600-1の管理策（統治、マップ、測定、管理）にマッピングされた報告書。各発見事項は、悪用可能性、影響、修復の難易度でスコアリングされます。ペネトレーションテストの報告書形式ではありません。貴社のISO監査人が直接読める管理策ギャップ分析です。

合成前の社内スクリーニング

DNAスクリーニングのチェックポイントを、ベンダー（発注後）から貴社のパイプライン（発注前）へと移します。SecureDNAの暗号学的プロトコルと統合し、相同性だけでは見逃すAIによるパラフレーズ変異体を捕捉する機能予測スコアリングを追加します。

これが重要な理由： Paraphrase Project（Microsoft/Twist/IDT、Science 2025）は、あらゆる商用スクリーニングをすり抜ける数千ものAIパラフレーズ済みリシン変異体を生成しました。パッチは展開されていますが、ベンダーが発注にフラグを立てた後ではなく、配列が貴社のELNに入る前にスクリーニングを行えば、貴社のコンプライアンス姿勢は測定可能なほど改善します。

コンプライアンス・エビデンスパッケージ

すべての技術的管理策を、ISO 42001、NIST AI RMF、EU AI Act GPAI義務、NIH DURCポリシー、ISO 20688-2:2024にマッピングします。成果物は、貴社のコンプライアンスチームがISO監査人、EU認証機関、またはサイバー賠償責任保険会社に直接手渡せる管理策マトリクスです。ポリシー・手順書ではありません。技術的管理策がデプロイされ、テストされ、継続的に検証されていることのエビデンスです。

保険上の関連性：サイバー賠償責任保険会社（Munich Re Specialty、2025年11月以降）は、文書化されたリスク管理策なしにオープンウェイトモデルを稼働させる企業に対して、保険料を引き上げるか「AIが生成した損害」を補償対象から除外しています。このパッケージは、貴社のリスクチームが引受審査の質問票に回答するために必要なものです。

契約はどのように進むか

4つのフェーズ。現実的なタイムライン。各フェーズが達成できないことについて明示的です。

パイプライン多様体監査

3〜4週間

貴社パイプラインのすべての生成モデルをマッピングします：化学（REINVENT、Chemistry42、カスタム）、生物学（Evo 2、ESM-3、ファインチューニング済みLlama）、タンパク質設計（RFdiffusion、ProteinMPNN）。各モデルについて：潜在空間を特徴付け、CWA隣接領域を特定し、報酬関数の操作可能性を評価し、拒否境界をテストし、ウェイトアクセス制御を評価します。

限界：監査は脆弱性を特定します。それを修正するものではありません。保険目的で監査報告書を望むものの修復にコミットしない製薬会社は、文書化された責任を負うことになります。

防御層の構築

8〜12週間

監査で特定された具体的な防御層を構築・統合します：化学パイプライン向けのセーフティミドルウェア、生物学モデル向けの知識ギャップ・エンジニアリング、合成前スクリーニングの統合。各コンポーネントは、並行システムではなく、貴社の既存MLOpsインフラにデプロイされます。

限界： 700億パラメータのモデルに対する知識ギャップ・エンジニアリングには相当なGPU時間が必要です。完全なRMU＋SAEアブレーションのパスには、モデルサイズに応じて5万〜15万ドルの計算費用を見込んでください。SAEを標的としたアブレーションは、全モデルのアンラーニングと比べてこれを削減しますが、なくすことはできません。

敵対的レッドチーム

3〜4週間

デプロイされた防御層に対する全領域の攻撃シミュレーション。GeneBreaker相同性攻撃、SMILESプロンプティングの変種、MFTシミュレーション（サンドボックス化されたコピー上で）、アンラーニング済みモデルに対する再学習回復の試み。何が破綻し、何が持ちこたえ、何が監視を要するかを文書化します。

限界：レッドチームは既知の攻撃クラスをテストします。新規の攻撃（未知の未知）には、継続的な監視と四半期ごとの再評価が必要です。レッドチームに合格しても「安全」を意味しません。それは「現在の最先端の敵対的手法に対して堅牢である」ことを意味します。

認証と継続的監視

2〜3週間＋継続的なリテイナー

コンプライアンス・エビデンスパッケージを編纂します。管理策をISO 42001、NIST AI 600-1、EU AI Act GPAI義務にマッピングします。月次の再認証サイクルを確立します：再学習攻撃、ミドルウェア性能の検証、新たな脅威の統合。ランブックとともに貴社のコンプライアンスチームへ引き継ぎます。

継続：月額8千〜1万5千ドルのリテイナーで、月次の再認証、四半期ごとのレッドチーム更新、脅威インテリジェンスの統合（新しい論文、新しい攻撃手法、規制の更新）をカバーします。

製薬コンプライアンスチームが私たちに尋ねる質問

機械的アンラーニングは、生物学LLMから危険な知識を本当に取り除けますか？

部分的には可能で、正直な答えが重要です。RMU（アンラーニングのための表現誤誘導）は、モデルのWMDP-Bioスコアを75%からほぼランダムな水準（26%）まで低下させることができます。しかし、CMUの再学習研究（ICLR 2025）は、公開された医学論文のような緩やかに関連するデータを用いて、アンラーニング済みモデルをアンラーニング前の性能へと引き戻せることを実証しました。

UIPE（ACL 2025）は、忘却対象に関連する知識を取り除くことで耐久性を向上させ、SAE特徴アブレーションは特定の能力回路を標的とします。私たちはアンラーニングを、月次の再認証サイクルを伴う1つの防御層として扱います。30日ごとに、アンラーニング済みモデルに対して再学習攻撃を実行します。回復が閾値を超えた場合、更新されたパラメータでアンラーニングのパスを再適用します。

これは設定して放置できる解決策ではありません。継続的な保守へのコミットメントであり、通常は月次サイクルあたり2〜3エンジニアリング日を要します。

中規模の製薬会社にとって、バイオセキュリティAIセーフティの費用はどのくらいですか？

多様体監査、セーフティミドルウェアの構築、知識ギャップ・エンジニアリング、レッドチーム、コンプライアンス・エビデンスパッケージをカバーする完全な契約は、対象モデルの数、それらがオープンウェイトかAPIベースか、事業を展開する規制管轄区域に応じて、18万〜45万ドルの範囲となります。継続的なレッドチームと再認証のリテイナーは、通常は月額8千〜1万5千ドルです。

参考までに：GPAIプロバイダーに対するEU AI Act違反の制裁金は、€15Mまたは全世界売上高の3%に達します。見出しを飾るような単一のバイオセキュリティ・インシデントは、評判の損害、規制当局の精査、保険料の引き上げにおいて、契約費用の何倍ものコストをもたらします。この契約は、成果物付きの保険です。

当社はすでにASL-3保護付きでClaudeを使用しています。それでも自社モデルにバイオセキュリティ管理策は必要ですか？

はい。AnthropicのASL-3 constitutional classifierはClaude APIの境界を保護します。それらは、定義されたクラスのCBRN関連生成について入力と出力を監視します。これは価値があり、利用可能な商用上の最も強固な姿勢を表しています。

しかしASL-3は、貴社の社内ファインチューニング済み生物学モデル（Evo 2、ESM-3、またはカスタムのタンパク質拡散モデル）、貴社の生成化学パイプライン（REINVENT、Chemistry42）、生物学モデルが社内データベースから取得する検索拡張ワークフロー、あるいは貴社自身のインフラで稼働するあらゆるオープンウェイトモデルの出力は保護しません。

研究者が正当な創薬タスクのために社内データでオープンウェイトモデルをファインチューニングした場合、ASL-3はそのモデルの出力を見ることができません。GeneBreaker攻撃はClaudeではなくEvo 2で機能します。貴社のバイオセキュリティ姿勢は、テキスト生成のために呼び出すフロンティアAPIだけでなく、パイプライン全体をカバーする必要があります。

IP上の理由でモデルをオンプレミスで稼働させている場合、オープンウェイトの問題にどう対処しますか？

これはバイオセキュリティAIセーフティにおいて最も難しい問題であり、私たちは残存リスクについて正直です。ファイルシステムへのアクセス権を持つ誰もがウェイトにアクセスできるモデルは、10〜50件の例と数百ドル分のGPU時間で悪意をもってファインチューニングされ得ます（arXiv 2508.03153）。いかなるアライメントもMFTには耐えられません。

私たちのアプローチには3つの層があります。第一に、知識ギャップ・エンジニアリング（RMU＋SAEアブレーション）が、デプロイ前にウェイトから危険な能力を取り除き、MFTによる回復をより困難にします。第二に、推論時のセーフティミドルウェアが、モデルの内部状態にかかわらず出力を傍受します。第三に、運用上の管理策：ウェイトファイルの完全性監視、アクセスログ記録、生成パターンの異常検知です。

私たちが排除できない残存リスク：敵対者がウェイトを流出させ、かつ整備された生物兵器データセットにアクセスできる場合、彼らは能力を再構築できます。いかなるコンサルタントもこれを防げません。私たちができるのは、それを検知可能なほど困難にし、貴社の文書化された管理策がISO 42001とEU AI Actのデューデリジェンス要件を満たすようにすることです。

合成前の社内スクリーニングは、当社のDNAベンダーのスクリーニングを置き換えますか？

いいえ。それを補完します。貴社のDNA合成ベンダー（Twist、IDT、Genscript）は、IGSC Harmonized Screening Protocol v3.0を実行し、ISO 20688-2:2024準拠のチェックをますます行っています。2025年後半時点で、ベンダーはMicrosoftのParaphrase Projectが暴露した特定のAIパラフレーズ脆弱性にパッチを適用しています。

しかしスクリーニングは発注後に行われます。これは2つの問題を生みます。スクリーニングの不合格は、時間の浪費と貴社アカウントへのコンプライアンス・フラグを意味し、また発注前に貴社の社内生成モデルが何を提案しているかについての可視性がありません。

社内の合成前スクリーニングは、問題のある配列を生成時点で捕捉します。それが貴社の電子実験ノート（ELN）に入る前、研究者が発注を決定する前、そして貴社ベンダーのスクリーニングが調査を引き起こす前にです。私たちはSecureDNAの暗号学的ハッシュ化プロトコルと統合し、相同性だけでは見逃すAIパラフレーズ済み変異体のクラスを捕捉する機能予測層を追加します。チェックポイントをベンダーからパイプラインへと上流に移すものだとお考えください。

貴社の生成化学パイプラインは、設定を1つ変えるだけで兵器を設計してしまう