物理制約付きコンピュータビジョン

汎用コンピュータビジョンが本番環境で破綻する理由

テクスチャバイアスと禿げた線審

2020年10月、Inverness Caledonian ThistleにおけるPixellotの自動カメラシステムは、ボールではなく線審の禿げた頭を試合全体にわたって追跡しました。このシステムは、各フレームを独立して処理する標準的なCNN検出器（おそらくYOLO系）を使用していました。スタジアムの照明下で、線審の頭は、白いサッカーボールと統計的に区別がつかないピクセル勾配を持つ鏡面ハイライトを生成しました。検出器は頭の「ボール」に98%の信頼度を割り当て、実際のボール（高速で移動し、影の中でブレている）は80%でした。システムは最も高い信頼度の信号に従いました。垂直の円筒状物体に付随し、1.7メートルの一定の高さで時速3マイルで移動する「ボール」が、プレー中のサッカーボールのあらゆる運動学的制約に違反していることを確認する仕組みがありませんでした。解決策はより良い学習データではありません。物理です。

半導体ファブにおけるニューサンス欠陥の罠

KLAは63%の市場シェアで半導体検査を支配しており、同社の2900シリーズは10nmという小さな特徴も検出できます。しかし、検出はボトルネックではありません。問題はニューサンス欠陥です。先端プロセスノードでは、広帯域スキャンがウエハーごとに数千の異常を捕捉します。そのほとんどは、歩留まりに影響しない表面アーティファクト、ほこりの粒子、またはパターンノイズです。それぞれに分類が必要です。先端ノードでの1%の歩留まり損失は、1枚のウエハーが数万ドルかかることもあるため、数百万ドルの収益損失につながります。業界標準は過去の欠陥ライブラリで学習させたディープラーニング分類器ですが、これらの分類器には、光がピット、汚れ、プロセス残渣とどのように物理的に相互作用するかのモデルがありません。ファブが新しいプロセスノード（たとえば2nmのゲートオールアラウンド）に移行すると、分類器の学習データは陳腐化し、ニューサンス率が急増します。視差、材料の反射率、地形的散乱を理解する物理ベースの欠陥モデルは、プロセスノードに関係なく、実際の欠陥をノイズから分離します。

生産ラインでのサイレントドリフト

AIベースの品質管理を使用する生産ラインでは、CVモデルがいつ間違っているかを知ることはめったにありません。リアルタイムのグラウンドトゥルースラベルがなければ、生産が続行される間、ドリフトは静かに蓄積します。メンテナンス後に照明角度がずれます。数週間でレンズが曇ります。治具が摩耗します。誤棄却が増加し（手直しループ、スループットの摩擦）、または誤受容が忍び込みます（流出リスク、保証エクスポージャー）。品質流出が表面化する頃には、広範な封じ込め、隔離範囲の拡大、再検査、手作業によるレビューが引き起こされます。低品質のコストは、平均的なメーカーで総売上の約20%に達します。物理制約は不変のアンカーとして機能します。正しく製造された部品の物理的特性は、照明が変化しても変わりません。物理情報に基づくシステムは、過去の学習画像と比較して単に良い部品に「見える」かどうかではなく、観測された画像が既知の幾何学的形状と材料特性と整合しているかどうかを測定します。

今日、コンピュータビジョンで誰が何を構築しているか

プロバイダー	ドメイン	提供するもの	物理統合	不足している点
Pixellot	スポーツ放送	AI自動カメラ、自動追跡、マルチアングル。150以上のリーグ、GameChangerとのパートナーシップ。	トラックの平滑化のための基本的なカルマンフィルタリング。V4のマルチ仮説追跡により、禿げた頭のクラスのエラーは概ね修正されました。	新たな障害モード：モーションブラー下でのジャージーのOCR、平坦でないピッチでのオフサイド投影。物理は事後的な平滑化であり、制約レイヤーではありません。
Hawk-Eye（Sony）	スポーツ審判	マルチカメラ三角測量、骨格追跡（選手あたり29ポイント）。NFL、MLB、ATP。	マルチカメラキャリブレーションによる強力な幾何学的制約。	高価（会場あたり100万ドル以上）。プロプライエタリでクローズド。専用インフラが必要（会場あたり6～8台の4K/8Kカメラ）。
KLA Corporation	半導体検査	2900シリーズ広帯域検査、10nm感度。プロセス制御で63%の市場シェア。	特定のプロセスノードに組み込まれたルールベースの欠陥物理モデル。	モデルはプロセスノード固有です。新ノードへの移行はニューサンス率の急増を引き起こします。23億ドルのR&D投資は、彼らがギャップの存在を認識していることを示しています。
Cognex	製造QA	VisionPro ViDiディープラーニング、カメラ上でのエッジ学習（5～10枚の学習画像）。	推論時にはなし。従来のマシンビジョンが測定/計測を処理します。	データ駆動のみ。サイレントドリフトの影響を受けやすい。セットアップ時間を90%削減するが、物理的な根拠はなし。
NVIDIA	プラットフォーム/インフラ	Metropolisエコシステム（1,000社以上）、デジタルツインシミュレーション用のOmniverse、合成データ用のCosmos。	学習時（レンダリング）の物理であり、推論時ではありません。Omniverseは合成データ生成のために物理をシミュレートします。	プラットフォームであり、ソリューションではありません。物理は学習で止まります。デプロイされたモデルは依然として純粋にデータ駆動です。
Veo	スポーツ（草の根）	D2C AIカメラ、40,000以上のクラブ、100カ国、400万試合以上を撮影。	最小限。コンシューマグレードの追跡。	物理制約なし。コンシューマ価格帯のため、制約レイヤーのための計算能力が限られています。
ビッグ4 / 大手SI	業界横断	プラットフォーム実装（NVIDIA、クラウドAPI）、統合サービス、変更管理。	ベンダーの物理ツールを実装。カスタム制約レイヤーは構築しません。	彼らはプラットフォームをデプロイします。お客様固有の物理に合わせて調整されたカスタムカルマンフィルタパイプラインの構築は、彼らの定石にありません。エンゲージメントは50万ドル～500万ドル以上、6～18カ月かかります。
クラウドAPI	汎用	事前学習済みの検出/分類、容易なAPI統合、従量課金。	なし。設計上、フレーム独立の推論。	時間的一貫性なし。物理制約なし。「90%の罠」：90%の精度には速く到達するが、ドメイン固有の物理なしには最後の10%を埋めることは不可能。

ギャップはあらゆるセグメントで一貫しています。物理は存在しないか、学習に限定されているか、プロプライエタリなシステムに閉じ込められています。既存のパイプラインに統合され、お客様固有のドメイン物理に合わせて調整されたカスタム物理制約レイヤーをサービスとして提供する者はいません。それが当社が構築するものです。

お客様のドメイン向けに構築された物理制約付きビジョンシステム

物理ゲート付き追跡パイプライン

当社は、検出器とアクションシステムの間に決定論的検証レイヤーを追加します。すべての検出は、受け入れられる前に3つのゲートを通過します：カルマンフィルタ運動学ゲート（この動きは物体の質量と時間差を考慮して物理的に可能か？）、オプティカルフローゲート（バウンディングボックス内のピクセルの動きは期待される速度プロファイルと一致するか？）、幾何ゲート（物体のサイズはカメラ位置に対する3D遠近制約を満たすか？）。当社は物理モデルをお客様のドメインに合わせて調整します。ボール追跡のための放物運動力学。ウエハー検査のための視差幾何学。自律ナビゲーションのための路面平面制約。これらのゲートは、視覚的信頼度だけでは捕捉できない誤検出を棄却します。

ニューサンス欠陥分類

半導体ファブと精密製造のために、当社は光が表面異常とどのように物理的に相互作用するかをモデル化する欠陥分類器を構築します。実際のピットは、ほこりの粒子とは異なる光の散乱をします。プロセス残渣は、短絡とは異なる反射率を持ちます。当社はマルチビュー幾何学と物理ベースのレンダリングモデルを使用して、各異常を単なる視覚的外観ではなく、その物理的特性によって特徴づけます。これは、光と材料の相互作用の物理がFinFETからゲートオールアラウンドに移行しても変わらないため、分類器がプロセスノードを越えて汎化することを意味します。

ドリフト耐性アーキテクチャ

モデルドリフトは本番CVのサイレントキラーです。当社は、物理不変量を安定アンカーとして使用するアーキテクチャを構築します。正しく製造された部品の物理的幾何学的形状は、照明角度がずれたりレンズが曇ったりしても変わりません。当社はこれらの不変量をシステムにエンコードし、環境の変動が生の信号に影響を与えても、物理検証された出力には影響しないようにします。これにより、緊急再学習サイクルが月次から四半期以下に削減され、品質流出を引き起こす前にドリフトを捕捉します。

物理情報に基づく学習パイプライン

物理情報に基づくニューラルネットワーク（PINN）がお客様のアプリケーションに適している場合、当社は学習パイプラインを構築します。PINNは、標準的なデータ損失に物理損失項を追加します。ネットワークは、ターゲットを外したことだけでなく、支配方程式（ナビエ・ストークス、放物運動、エネルギー保存）に違反したことに対しても罰せられます。その結果、より少ない学習データで済み、未知の条件によりよく汎化し、物理的に妥当な出力を生成するモデルが得られます。当社は難しい部分を処理します：ラムダ調整（物理損失の重み）、収束安定化、そして単純なPINN実装が失敗する原因となる不連続性の処理（ボールがポストに当たる、ウエハーのエッジ効果）。

物理ゲートが信頼度スコアの見逃しをどう捕捉するか

物理ゲート付きシステムがInvernessの試合シナリオをフレームごとに処理するとき、まさに何が起こるかを次に示します。

フレームt：ミッドフィールドのボール

検出器は座標(512, 380)で92%の信頼度でボールを見つけます。カルマンフィルタが初期化します：位置(512, 380)、速度は前のフレームから東向きに18 m/sと推定。状態の不確実性は低い。検出領域でのオプティカルフローは、蹴られたボールと整合する強い右向きの動きを示します。3つのゲートすべてが通過します。システムは検出を受け入れ、トラックを更新します。

t+1

フレームt+1：重要なフレーム（40ms後）

検出器は2つの候補を返します：

候補A

(530, 375)の「ボール」、信頼度 80%。前の位置から東に18ピクセル、上に5ピクセル。

候補B

(1200, 340)の「ボール」、信頼度 98%。線審の禿げた頭、688ピクセル離れている。

ゲート1：カルマン運動学チェック

フィルタは、速度と重力に基づいてボールが(531, 376)付近にあると予測しました。候補Aのイノベーション（残差）は1.4ピクセル。候補Bのイノベーションは669ピクセル。Bのマハラノビス距離は 47標準偏差。3シグマを超えるものはすべて棄却されます。 Bは排除されます次のゲートに到達する前に。

ゲート2：オプティカルフロー検証

候補Aは、18 m/sのボールと整合する450ピクセル/秒の右向きのフローフィールドを示します。Bがゲート1を通過していたとしても、そのフローフィールドはほぼゼロの動き（静止した頭）を示します。プレー中にゼロ速度の「ボール」は、期待されるプロファイルに違反します。 2回目の棄却。

ゲート3：幾何学的制約

候補Aはこの距離で22ピクセルを占め、カメラから12メートルにある22cmのボールと整合します。候補Bは45ピクセルを占めます。12メートルにある22cmのボールが45ピクセルを占めることはできません。 3回目の棄却。

結果

システムは候補A（実際のボール）を80%の視覚的信頼度で追跡し、候補Bを98%の信頼度にもかかわらず棄却します。 物理がピクセルを覆します。

この同じアーキテクチャは、物体が物理法則に従うあらゆるドメインに適用されます。半導体ファブでは、「カルマンゲート」は検査角度間の視差整合性チェックになります。製造QAでは、「オプティカルフローゲート」は表面反射率モデルになります。フレームワークは同じで、物理が変わります。

物理監査から本番デプロイまで

ドメイン物理監査

2～3週間

当社は、お客様の既存のCVパイプラインを計装し、どこで失敗するかを正確に測定します：カテゴリ別の誤検出率、推論ステップごとのレイテンシ、境界事例の頻度。お客様のドメインにどの物理制約が適用されるか、そしてそれらがどの検出失敗を防ぐかを特定します。成果物：予測される誤検出削減とゴー/ノーゴーの推奨を含む制約仕様書。物理制約がシステムを有意に改善しない場合、その旨をお伝えします。

制約パイプライン構築

8～16週間

当社は物理レイヤーを構築し、お客様のパイプラインに統合します。これは別個のシステムではありません。既存の検出器とアクションロジックの間に位置する検証レイヤーです。当社はカルマンフィルタの状態モデルをお客様の物体ダイナミクスに合わせて調整し、オプティカルフローのしきい値をお客様のカメラ設定に合わせてキャリブレーションし、幾何学的制約をお客様の物理環境に対して検証します。タイムラインは複雑さに依存します：単一カメラのスポーツトラッカーは8週間。カスタム物理モデルを備えたマルチビュー半導体検査システムは16週間です。

本番ハードニング

4～6週間

当社は監視付きで本番にデプロイします。すべてのゲートを計装して棄却理由を記録し、お客様の受け入れ基準に対して誤検出率と見逃し率を測定し、物理制約がパイプラインに許容できないレイテンシを追加しないことを検証します。当社はラボ条件ではなく本番データに基づいてしきい値を調整します。成果物：文書化されたパフォーマンスベースラインとドリフト監視ダッシュボードを備えた本番システム。

より時間がかかるもの

標準的でないレイアウトの会場でのマルチカメラキャリブレーション。半導体でのプロセスノード移行（物理モデルには新ノードからの特性評価データが必要）。リアルタイムデータフィードを公開しないレガシーPLCまたはSCADAシステムとの統合。

物理制約付きビジョンに関するよくある質問

物理制約は、見逃しを増やすことなくどのように誤検出を削減しますか？

従来の誤検出削減は、信頼度しきい値を引き上げることで機能します：80%ではなく95%の信頼度を要求する。これは誤検出を削減しますが、信頼度の低い正当な検出も棄却されるため、必然的に見逃しを増やします。物理制約は直交的に機能します。信頼度しきい値には触れません。代わりに、視覚的信頼度スコアに関係なく、検出が物理的に可能かどうかを検証します。98%の信頼度の禿げた頭は、ボールとしては依然として物理的に不可能であるため、棄却されます。運動学的予測と一致する75%の信頼度のボールは受け入れられます。物理的に不可能な検出が排除されるため、誤検出率は低下します。信頼度の低い正当な検出が物理チェックを通過するため、見逃し率は維持されるか改善されます。半導体検査では、これは、高い信頼度しきい値が見逃すような実際の欠陥（かすかだが物理的に実在するピット）を捕捉する一方で、欠陥のように見えるニューサンス信号（視覚的類似性は高いが視差挙動が異なる表面粒子）を棄却することを意味します。

検出器を置き換えることなく、既存のパイプラインに物理制約を統合できますか？

はい、それが標準的なアプローチです。物理レイヤーは、検出器とアクションシステムの間に位置します。既存の検出器（YOLO、EfficientDet、カスタムCNN、クラウドAPI）は候補検出を生成し続けます。物理レイヤーは、各候補を運動学的、オプティカルフロー、幾何学的制約に対して評価してから下流に渡します。統合ポイントはアーキテクチャに依存します：オンデバイスで推論を実行している場合、物理レイヤーは同じハードウェア上で実行されます（カルマンフィルタの更新はCNN推論と比較して計算コストが安価です）。クラウドAPIを使用している場合、物理レイヤーはエッジまたは処理パイプラインで実行できます。一般的な統合では、カルマンフィルタとオプティカルフローゲートのためにフレームあたり1～3msが追加されます。幾何ゲートのレイテンシは3Dモデルの複雑さに依存しますが、5msを超えることはめったにありません。追加される合計レイテンシ：2～8ms。すでに25～60fps（フレームあたり16～40ms）で動作しているシステムでは、これはバジェット内に収まります。

物理制約付きシステムは、再学習や学習データセットの拡張と比べてどのくらいのコストがかかりますか？

再学習はドリフトに対処しますが、根本的な問題には対処しません：再学習されたモデルは物理の概念を持たないため、依然として物理的に不可能な予測をする可能性があります。学習データの拡張はカバレッジに役立ちますが、境界事例では収穫逓減になります（物理法則を学習で取り除くことはできません）。物理制約パイプラインの構築は、複雑さに応じて8万ドル～25万ドルかかります。単一カメラ・単一物体の追跡（スポーツ）が低い側です。カスタム物理モデルを備えたマルチビュー半導体検査が高い側です。それを問題の継続的なコストと比較してください：各廃棄ウエハーが数万ドルかかり、ニューサンス駆動の手作業レビューが1時間あたり150～200ドルでエンジニア時間を消費する半導体ファブ。自動カメラが重要なプレーを見逃すスポーツ放送局は加入者を失います。収益の5分の1を品質コストに費やし、その多くが物理制約で防げる誤棄却によって駆動されるメーカー。物理レイヤーは、物理がドリフトしないため、低い保守コストの一度きりの構築です。放物運動の法則は来四半期に変わることはありません。

PixellotとHawk-Eyeがすでに大幅に改善している中で、スポーツ追跡においてこれはどのように機能しますか？

PixellotのV4マルチ仮説追跡は、「禿げた頭」のクラスのエラーを概ね修正しました。Hawk-Eyeの骨格追跡を伴うマルチカメラ三角測量は、審判付きスポーツのゴールドスタンダードです。しかし、市場は最上位層を超えて動いています。FIFAワールドカップはHawk-Eyeの会場あたり100万ドル以上のセットアップを得ます。Veoのコンシューマカメラを使用する40,000以上のクラブはそうではありません。ギャップは中位層と草の根スポーツにあります：コンシューマを超える精度の自動放送を必要とするが、Hawk-Eyeのインフラを賄えないリーグです。単一カメラセットアップでの物理制約は、その精度ギャップの有意な部分をコストのほんの一部で埋めます。具体的には：物理ベースの予測によるオクルージョン処理（選手がボールを遮ったときにトラックを維持）、マルチオブジェクトの曖昧性解消（外観だけでなく運動学的プロファイルで区別される2人の重なり合う選手）、カメラ動き補償（慣性制約を使用してカメラのパンを物体の動きから分離）。

新しい半導体プロセスノードに移行中で、検査のニューサンス率が急増しました。物理制約は役立ちますか？

これはまさに物理制約が最も高い効果を発揮するシナリオです。ノード移行は、学習データが旧ノードからのものであるため、データ駆動の分類器を破綻させます。視覚的シグネチャが変化します：新しい材料、新しい幾何学的形状、新しいエッチングパターン。しかし、欠陥イメージングの物理は同じ速度では変化しません。実際のピットは、その深さと側壁角度に基づいて依然として光を散乱します。粒子は、表面上の高さに基づいて検査角度間で依然として視差を示します。プロセス残渣は、その材料組成によって決定される反射率プロファイルを依然として持ちます。当社は、これらの物理ベースの特徴を視覚的特徴とともに使用する欠陥分類器を構築します。ノード移行中、視覚的特徴が予測力を失っても、物理特徴は識別力を保ちます。実用的なタイムライン：新ノードのイメージング物理を特性評価するためのドメイン物理監査に2～3週間、新ノードからの欠陥ライブラリに対する検証を含む分類器構築に12～16週間。

物理モデルが間違っているか不完全な場合、何が起こりますか？

すべての物理モデルは近似です。カルマンフィルタはニュートン力学を仮定しますが、複雑な空気力学を持つ物体では破綻します（ナックルボールは乱流気流の剥離により予測不可能に変化します）。エピポーラ幾何学モデルは剛体表面を仮定しますが、柔軟な材料では破綻します。当社はこれを3つの方法で処理します。第一に、すべてのゲートには設定可能な信頼度しきい値があります。マハラノビス距離が境界的（3シグマと5シグマの間）である場合、検出は強制棄却されるのではなく、下流検証のためにフラグされます。第二に、非線形ダイナミクスのために、拡張カルマンフィルタ（EKF）ではなく無香料カルマンフィルタ（UKF）を使用します。UKFは、線形化するのではなく実際の非線形関数を通じてシグマポイントを伝播させ、EKFのテイラー級数近似誤差なしに中程度の非線形性（スピン、抗力、不均一な表面）を処理します。第三に、真に複雑な物理（乱流、新規材料）については、PINNを使用して、解空間を制約しながらデータから支配方程式を学習します。物理モデルは硬いケージではありません。それは境界で柔軟に曲がるが、中心での致命的なエラーを防ぐガードレールです。

あなたのAIは形を見ている。物理を理解すべきだ。

汎用コンピュータビジョンが本番環境で破綻する理由

テクスチャバイアスと禿げた線審

半導体ファブにおけるニューサンス欠陥の罠

生産ラインでのサイレントドリフト

今日、コンピュータビジョンで誰が何を構築しているか

お客様のドメイン向けに構築された物理制約付きビジョンシステム

物理ゲート付き追跡パイプライン

ニューサンス欠陥分類

ドリフト耐性アーキテクチャ

物理情報に基づく学習パイプライン

物理ゲートが信頼度スコアの見逃しをどう捕捉するか

フレームt：ミッドフィールドのボール

フレームt+1：重要なフレーム（40ms後）

結果

物理監査から本番デプロイまで

ドメイン物理監査

制約パイプライン構築

本番ハードニング

物理制約レディネス評価

物理制約付きビジョンに関するよくある質問

物理制約は、見逃しを増やすことなくどのように誤検出を削減しますか？

検出器を置き換えることなく、既存のパイプラインに物理制約を統合できますか？

物理制約付きシステムは、再学習や学習データセットの拡張と比べてどのくらいのコストがかかりますか？

PixellotとHawk-Eyeがすでに大幅に改善している中で、スポーツ追跡においてこれはどのように機能しますか？

新しい半導体プロセスノードに移行中で、検査のニューサンス率が急増しました。物理制約は役立ちますか？

物理モデルが間違っているか不完全な場合、何が起こりますか？

技術研究

バウンディングボックスを超えて：物理制約付きエンタープライズAI

境界事例を回避するエンジニアリングをやめましょう

物理制約評価

制約パイプライン構築