AIセキュリティエンジニアリング
あなたのモデルは実行可能なコードです。ほとんどの組織はそれをデータファイルのように扱っています。そのギャップこそが、侵害が起こる場所です。
$4.63M
シャドーAIが関与する侵害の平均コスト
IBM データ侵害コスト 2025
83%
自動化されたAIセキュリティ統制を欠く組織の割合
Kiteworks 2025
352K
公開レジストリ上の51,700件のモデルで発見された安全でない問題
Protect AI 2025
AIモデルは静的な成果物ではありません。それらは読み込み、トレーニング、推論、エージェント実行の際に動作するコードです。脅威モデルを支配するのは4つの攻撃カテゴリーです。
torch.load() は逆シリアル化中に任意のPythonを実行します。これはバグではありません。pickleシリアル化の設計された挙動であり、MLモデルの80%以上がこれを使用しています。
Hugging Face上の「baller423」という名前のモデルが、Kreonetへのリバースシェルを確立していることが判明しました。そのモデルは正常に見えました。基本的なスキャンを通過しました。誰かが読み込んだ瞬間に任意のコードを実行したのです。
最も広く使われている防御策であるPickleScanには、少なくとも3つの既知のゼロデイバイパス(CVE-2025-10155)があります。攻撃者がシリアル化フォーマットを制御するため、ブラックリストベースのスキャンは根本的に破綻しています。
Llama 3.1 8Bは 0.95 から 0.15 へとプロンプトインジェクション耐性が低下します。これはたった1ラウンドのファインチューニング後のことです。これは通常の、敵対的でないトレーニングによる安全性アラインメントの84%の劣化です。
ファインチューニング後に安全性を再評価する組織はほとんどありません。モデルは初期の安全性評価を通過し、ドメインデータでファインチューニングされ、ガードレールが事実上取り除かれた状態で本番環境へ送られます。これは特殊な攻撃ではありません。ほとんどの組織におけるデフォルトのワークフローなのです。
組織の98%に無許可のAI利用が存在します。この数字は誤植ではありません。シャドーAIインシデントによる$670Kの追加侵害コストは、単純な現実を反映しています。見えないものは守れないのです。
セキュリティチームの62%は、自社環境のどこにLLMが展開されているかを特定できません。開発者はHugging Faceからモデルをダウンロードし、個人のキーでOpenAI APIを呼び出し、ファインチューニングされたモデルを個人のクラウドアカウントに展開します。現在のセキュリティツールが可視化できるのは、こうした活動のおよそ38%です。
GitHub CopilotのRCE脆弱性(CVE-2025-53773、CVSS 7.8)は、リポジトリのドキュメント内のプロンプトインジェクションを、YOLOモードを介してシステム全体の侵害に変えました。エージェントは悪意ある指示を読み取り、それをコードとして実行し、ユーザーのマシンが乗っ取られたのです。
Amazon Qの cleaner.md ファイルは、エージェントのコンテキストウィンドウを通じて95万人以上のユーザーに破壊的なコマンドを配布しました。OpenClawのマーケットプレイスは63日間で138件のCVEを蓄積し、提出されたスキルの12%が悪意あるものであることが判明しました。
エージェントは、従来のLLMが持たないツールアクセス、認証情報、実行権限を持つため、プロンプトインジェクションをシステムレベルの侵害へと変えてしまいます。
ベンダーエコシステムは急速に成熟しています。ここでは、各プレイヤーがカバーする範囲と残るギャップについて、率直な見解を示します。
| プロバイダー | 提供すること | 提供しないこと | 最適な対象 |
|---|---|---|---|
| Palo Alto / Protect AI | モデルスキャン、AI-BOM生成、Prisma AIRSプラットフォームへの統合 | アーキテクチャ設計、カスタムパイプラインエンジニアリング、組織変革マネジメント | すでにPANWプラットフォームを利用している企業 |
| HiddenLayer | ランタイムAI検知・対応、エージェンティックセキュリティ監視 | サプライチェーンアーキテクチャ、ML-BOM実装、コンプライアンスマッピング | AI可視性を追加するSOCチーム |
| JFrog | MLSecOps、モデルレジストリセキュリティ、Hugging Face統合 | 敵対的レッドチーミング、安全性アラインメント検証、ガバナンス設計 | モデル成果物を管理するDevOpsチーム |
| Wiz | クラウドセキュリティの文脈でのAI-BOM、モデルスキャン | オンプレミスのモデルセキュリティ、ファインチューニングの安全性、エージェンティックアーキテクチャ | クラウドファーストの組織 |
| NVIDIA NeMo Guardrails | LLM向けのオープンソースランタイムガードレール | モデルスキャン、サプライチェーンセキュリティ、来歴追跡 | カスタムLLMアプリケーションを構築するチーム |
| Big 4 / 大手SIer | ガバナンスフレームワーク、コンプライアンス文書、取締役会向け資料 | 実装。スキャンパイプラインの構築、ML-BOMの設定、モデル署名の展開。エンゲージメントは$500Kの戦略策定から始まり、$3-10Mまで拡大します。 | 監査対応可能な文書を必要とする組織 |
| オープンソース(ModelScan、PickleScan、SafeTensors) | 無料の基本的なスキャンとより安全なシリアル化フォーマット | エンタープライズグレードのオーケストレーション、挙動サンドボックス化、来歴、ポリシー適用 | 強力な社内セキュリティエンジニアリングを持つチーム |
誰もうまく埋められないギャップ。 組織文化の変革が最も困難な部分です。どのようなツールやコンサルティングも、スピードのためにガバナンスを回避しようとする人間の傾向を排除することはできません。私たちは技術的な統制を構築しますが、CISOにはなお経営層の支持が必要です。データサイエンティストが30秒でHugging Faceからモデルをダウンロードできるとき、30分かかるセキュリティゲートはすべて回避されてしまいます。統制は、コンプライアンスが回避よりも容易になるほど高速である必要があります。
6つのケイパビリティ。それぞれが既存のセキュリティスタックおよびCI/CDパイプラインと統合するよう設計されています。
私たちは、公開モデルリポジトリと社内レジストリの間に位置する自動化された審査を構築します。すべてのモデルは、挙動サンドボックス化(隔離されたコンテナ内で読み込み、システムコールを監視)、マルチフォーマットの深層分析(pickle、PyTorch、GGUF、Keras、SafeTensors)、そして企業のPKIによる暗号署名を通過します。
私たちは静的スキャンよりも挙動分析を選びます。なぜなら、PickleScanのゼロデイバイパスが、ブラックリストアプローチが根本的に破綻していることを証明しているからです。静的スキャンは「このファイルに既知の悪質なパターンが含まれているか?」を問います。挙動サンドボックス化は「このコードは実行されたとき実際に何をするのか?」を問います。2つ目の問いが新種の攻撃を捕捉するのです。
CI/CDに統合されたCycloneDX ML-BOM生成。すべてのモデルに、トレーニングデータの来歴、フレームワークのバージョン、依存関係ツリー、ファインチューニング履歴を文書化した部品表が付与されます。
私たちはSPDXよりもCycloneDXを使用します。ML-BOMのツールがより成熟しているためですが、両方を必要とする組織のためにSPDX 3.0エクスポートも確保します。ML-BOMはコンプライアンスのチェックボックスではありません。それは他のすべてのセキュリティ統制を可能にするデータ構造です。インベントリ化できないものは署名できず、追跡できないものは監査できません。
無許可のモデルダウンロードとAI API呼び出しのネットワークレベルでの検知。既存のSIEM/SOARとの統合。私たちはシャドー展開を含むすべてのAI接点をマッピングし、イノベーションを妨げることなくリスクをブロックするポリシー適用を構築します。
目標は、セキュリティチームが現在のツールが可視化する38%ではなく、AI利用の100%を把握することです。検知は、Hugging Faceのダウンロード、OpenAI/Anthropic/GoogleのAPI呼び出し、HTTP/S経由のモデル重みの転送、管理対象エンドポイントでのプロセス監視によるローカルモデル実行をカバーします。
すべてのファインチューニング実行後の自動化された安全性再評価。OWASP LLM Top 10ベンチマークスイート、バックドアトリガーの敵対的プロービング、安全性アラインメントのリグレッションテスト。
私たちがこれを構築するのは、ファインチューニング後に安全性を再評価する組織がほとんどないからです。上のセクションの安全性劣化データがその根拠を示しています。検証パイプラインはCI/CDゲートとして実行されます。安全性リグレッションに失敗したモデルは、そのタスク性能にかかわらず本番環境へ昇格できません。
AIエージェントのための権限分離。プロンプトからRCEへのエスカレーション(CVE-2025-53773における正確な攻撃ベクトル)を防ぐ決定論的ポリシーレイヤー。ツール利用のポリシー適用、高リスク操作のためのヒューマン・イン・ザ・ループ・ゲート、そしてランタイム挙動監視。
このアーキテクチャは、連鎖反応を起こす前に異常なエージェントの行動を検知します。突然サンドボックス外のファイルシステムパスへの書き込みを始めたり、これまで呼び出したことのないAPIを呼び出したり、権限昇格を試みたりするエージェントは、停止され、レビュー対象としてフラグ付けされます。
機能をゼロから構築するCISOのために。NIST AI 100-2の統制マッピング、EU AI法コンプライアンスアーキテクチャ、取締役会レベルのリスク定量化、そしてAI固有の攻撃に対するインシデント対応プレイブック。
私たちは、技術的リスクを取締役会が承認する予算根拠へと翻訳する手助けをします。「公開モデルレジストリ全体で35.2万件の安全でない問題を発見した」はデータポイントです。「当社のエンジニアは前四半期に47件の未審査モデルをダウンロードし、そのうち3件はシリアル化レイヤーに実行可能なコードを含んでいたが、現在の統制ではそのいずれも検知できなかった」は予算根拠です。
3つのフェーズ。それぞれに明確な成果物と、何を期待すべきかについての率直な注意点があります。
第1〜3週
成果物: 優先順位付けされたリスク登録簿を備えたAIセキュリティ態勢レポート
注意点: このフェーズでは、CISOが予想していたよりも3〜5倍多いAI利用が表面化することがよくあります。それは正常なことです。シャドーAIの発見は、エンゲージメントの中で最も価値があり、最も居心地の悪い部分です。
第4〜10週
成果物: 既存のワークフローに統合された本番対応のセキュリティ統制
注意点: タイムラインはCI/CDの成熟度に依存します。成熟したDevOpsパイプラインを持つチームはより速く展開できます。いまだにUSBドライブや共有フォルダ経由でモデルを移動している組織(予想以上に一般的です)には、追加のインフラ作業が必要です。
第11〜14週
成果物: 文書化されたランブックを備えた自立的なAIセキュリティ運用
注意点: 最初の敵対的レッドチームは必ず何かを見つけます。それが狙いです。何も見つけないレッドチームは、十分に努力していなかったか、スコープが狭すぎたかのどちらかです。
8つの質問に答えて、あなたのAIセキュリティ態勢をベンチマークしてください。データは一切収集されません。すべてはお使いのブラウザ内で実行されます。
静的スキャンと署名検証をカバーする基本的なパイプラインで4〜6週間。CI/CD統合を伴う完全な挙動サンドボックス化で8〜12週間です。ボトルネックがスキャン技術そのものであることはまれです。それは既存のモデルレジストリ(MLflow、Weights & Biases、JFrog ML)との統合と、ポリシーロジックの定義です。すなわち、何がブロックされ、何がフラグ付けされ、何が隔離されるか。私たちは、ポリシーの決定がエンジニアリングよりも時間がかかることを見出してきました。
フォーマットの複雑さは時間を追加します。pickle、PyTorch、GGUF、Keras、SafeTensorsはそれぞれ異なる分析アプローチを必要とします。pickleが依然として最も高リスクなフォーマットであるのは、 torch.load() が逆シリアル化中に任意のPythonを実行するためであり、だからこそそのフォーマットには静的スキャンよりも挙動サンドボックス化がより重要なのです。SafeTensorsは最も安全なシリアル化オプションであり、スキャンも最も簡単ですが、本番モデルで使用しているのは今日20%未満です。アップストリームのモデルプロバイダーがどのフォーマットを選ぶかは制御できないため、あなたのパイプラインはそれらすべてを扱える必要があります。
それらのプラットフォームは、その役割において優れています。Palo AltoのProtect AI統合(Prisma AIRS経由)は、既存のセキュリティスタック内でモデルスキャンを提供します。JFrogのMLSecOpsはモデルレジストリガバナンスを扱います。WizはクラウドのvisibilityにAI-BOMを追加します。それらが提供しないこと:エンドツーエンドのアーキテクチャ設計、あなた固有のCI/CDパイプラインでのML-BOM生成の設定、あなたの規制環境のためのポリシーロジックの構築、あるいはモデル展開ワークフローの再設計。それらはスキャンツールです。私たちは、それらを連携させて機能させる実装チームです。
多くのエンゲージメントは、すでにこれらのプラットフォームを持っているものの、それらを運用化する手助けが必要な組織から始まります。よくあるパターン:セキュリティチームが半年前にProtect AIを購入し、スキャンを実行し、400件の検出結果を得たものの、誰もそれらの検出結果を是正ワークフローにマッピングしたり、スキャンをモデル昇格パイプラインに統合したりしなかったため、停滞してしまった、というものです。
モデルポイズニングの技術的障壁は、ほとんどのCISOが想定するよりも低いものです。研究は、トレーニングコーパス内のわずか250件のポイズニングされた文書が13Bパラメータのモデルにバックドアを仕込めることを実証しています。Microsoftは2026年2月に画期的な検知手法を発表しましたが、ほとんどの組織は検知能力をまったく展開していません。ファインチューニングの安全性劣化の問題はより差し迫っており、より一般的です。Llama 3.1 8Bは、たった1ラウンドのファインチューニング後にプロンプトインジェクション耐性が0.95から0.15へ低下します。それは攻撃ではありません。安全性の再評価を伴わない通常のファインチューニングなのです。
意図的なモデルポイズニングの文書化された本番インシデントは依然としてまれです。しかし条件は揃っています。MLモデルの80%以上がpickleシリアル化を使用し、セキュリティチームの62%はモデルがどこに展開されているか特定できず、Hugging Face上の「baller423」という名前のモデルがKreonetへのリバースシェルを確立していることが判明しました。FTCのモデル供出の先例(Weight Watchers/Kurbo、2022年)は、ポイズニングされたモデルがあなたに削除とゼロからの再トレーニングを強制し、そのコストが侵害そのものを矮小化させかねないことを意味します。
EU AI法は2026年8月2日に完全適用されます。高リスクAIシステムについては、トレーニングデータの来歴、範囲、特性、クレンジング手法をカバーする技術文書が必要です。サプライチェーン義務は、輸入者と販売者に適合性評価、技術文書、CEマーキングの検証を求めます。実務的には、これはパイプライン内のすべてのモデルのML-BOM、来歴のための署名済み証明、そしてファインチューニングの決定に関する監査証跡を意味します。
CycloneDX ML-BOMは最も実装準備の整った標準です。SPDX 3.0は2024年にAI/MLプロファイルを追加し、一部の組織は異なる規制対象者のために両方のフォーマットを必要とします。私たちは、来歴追跡が手動のコンプライアンス作業ではなく自動化されるよう、文書化パイプラインを構築します。よくある間違いは、これを一度きりの文書化プロジェクトとして扱うことです。すべてのファインチューニング実行、すべてのモデル更新、すべてのデータセット変更が、更新された来歴記録を生成する必要があります。あなたのML-BOMが静的であれば、それは数週間以内に誤ったものになります。
権限分離が基盤です。すべてのエージェントには、どのツールを呼び出せるか、どのAPIにアクセスできるか、どのファイルシステムパスに触れられるかを定義する最小権限プロファイルが付与されます。これはLinuxのケイパビリティモデルをAIエージェントに適用したものを反映しています。GitHub CopilotのRCE(CVE-2025-53773、CVSS 7.8)が発生したのは、YOLOモードがエージェントに無制限のシステムアクセスを与え、リポジトリのドキュメント内のプロンプトインジェクションが完全なリモートコード実行へとエスカレートしたためです。決定論的ポリシーレイヤーは、そのエスカレーション経路を完全に防ぎます。
ランタイム監視は、通常の操作に遅延を加えることなく、異常なエージェントの行動(予期しないツール呼び出し、異常なAPIパターン、権限昇格の試み)を検知する挙動ベースラインを追加します。高リスク操作(ファイルシステムへの書き込み、クラウドAPI呼び出し、認証情報アクセス)のセキュリティチェックには、わずかな遅延コストが確かにあります。ほとんどのエンタープライズ展開では、これはゲート対象の操作あたり50〜200msです。低リスク操作(承認済みのデータソースの読み取り、テキスト生成、事前承認済みAPIの呼び出し)は、遅延の追加ゼロで通過します。問題は、高リスク呼び出しでの50〜200msが、完全なシステムアクセスを持ちガードレールのないエージェントと比べて許容できるかどうかです。
AIセキュリティインシデントは、ネットワーク侵入とは異なるフォレンジックを必要とします。モデルレベルの攻撃(ポイズニング、バックドア)については、対応シーケンスは次のとおりです。本番環境からモデルを隔離し、トレーニングパイプラインの完全性を検証し、モデル出力を通じたデータ流出をチェックし(モデルは盗まれたデータを重みにエンコードし、巧妙に作られたプロンプトを介して漏洩させることができます)、既知のクリーンなチェックポイントから再トレーニングする必要があるかを判断します。
エージェンティックAIインシデントについては、エージェントが行ったすべてのツール呼び出しとアクションを追跡し、そのメモリとコンテキストウィンドウの完全性を検証し(コンテキストが保存されていれば、プロンプトインジェクションはセッションをまたいで持続しうる)、エージェントの権限を介したラテラルムーブメントをチェックする必要もあります。汎用的なIRプロセスは、成果物が異なるため、モデルレベルのフォレンジックをカバーしません。あなたが分析するのはネットワークログやメモリダンプではありません。モデルの重み、トレーニングデータの来歴、ファインチューニング履歴、エージェントのアクションログを分析するのです。私たちは、これらのシナリオに固有のプレイブックを構築します。これには、モデルの重み(数百ギガバイトに及ぶことがあります)の証拠保全手順、トレーニングデータのチェーン・オブ・カストディ文書、そしてモデル供出を要求しうる規制当局向けのコミュニケーションテンプレートが含まれます。
このソリューションの背後にある技術的基盤を、詳細なホワイトペーパーとして公開しています。
WP-91
エンタープライズMLパイプラインのためのML-BOM、モデルスキャン、暗号署名、シャドーAI検知、機密コンピューティング。
WP-18
多層AI検証、敵対的堅牢性テスト、NIST AI RMFコンプライアンスフレームワーク。
WP-89
2025年の侵害分析、ニューロシンボリックガードレール、本番システムのための憲法的AI安全アーキテクチャ。
WP-93
データポイズニング検知、来歴追跡、高保証環境のためのソブリンAIインフラ。
セキュリティチームの62%は、自社の環境内のどこにAIモデルが展開されているかを特定できません。
ほとんどの組織は、インシデントの後にAIセキュリティのギャップを発見します。私たちは、それが起こる前に見つける手助けをします。