Visão Computacional com Restrições Físicas

Por Que a Visão Computacional Genérica Quebra em Produção

Viés de Textura e o Bandeirinha Careca

Em outubro de 2020, o sistema de câmera automatizada da Pixellot no Inverness Caledonian Thistle rastreou a cabeça careca de um bandeirinha durante uma partida inteira em vez da bola. O sistema usava um detector CNN padrão (provavelmente da família YOLO) que processava cada quadro de forma independente. Sob os refletores do estádio, a cabeça do bandeirinha produzia reflexos especulares com gradientes de pixel estatisticamente indistinguíveis de uma bola de futebol branca. O detector atribuiu 98% de confiança a "bola" na cabeça, enquanto a bola real (movendo-se rápido, borrando-se através das sombras) marcou 80%. O sistema seguiu o sinal de maior confiança. Ele não tinha mecanismo para verificar que uma "bola" movendo-se a 5 km/h a uma altura constante de 1,7 metros, presa a um objeto cilíndrico vertical, viola toda restrição cinemática de uma bola de futebol em jogo. A solução não são melhores dados de treinamento. É física.

A Armadilha do Defeito Espúrio em Fábricas de Semicondutores

A KLA domina a inspeção de semicondutores com 63% de participação de mercado e sua série 2900 consegue detectar características tão pequenas quanto 10nm. Mas a detecção não é o gargalo. O problema do defeito espúrio é: em nós de processo avançados, uma varredura de banda larga captura milhares de anomalias por wafer. A maioria são artefatos de superfície, partículas de poeira ou ruído de padrão que não afetarão o rendimento. Cada uma exige classificação. Uma perda de rendimento de 1% em nós avançados se traduz em milhões em receita perdida, porque um único wafer pode custar dezenas de milhares de dólares. O padrão do setor são classificadores de aprendizado profundo treinados em bibliotecas históricas de defeitos, mas esses classificadores não têm nenhum modelo de como a luz interage fisicamente com uma cavidade versus uma mancha versus um resíduo de processo. Quando a fábrica transiciona para um novo nó de processo (digamos, gate-all-around a 2nm), os dados de treinamento do classificador ficam obsoletos e a taxa de espúrios dispara. Modelos de defeitos baseados em física que entendem paralaxe, refletância de material e espalhamento topográfico separam defeitos reais de ruído independentemente do nó de processo.

Deriva Silenciosa na Linha de Produção

Em linhas de produção que usam controle de qualidade baseado em IA, raramente se sabe quando um modelo de VC está errado. Sem rótulos de verdade fundamental em tempo real, a deriva se acumula silenciosamente enquanto a produção continua. Um ângulo de iluminação muda após a manutenção. Uma lente embaça ao longo de semanas. Um dispositivo de fixação se desgasta. Rejeições falsas aumentam (ciclos de retrabalho, atrito de throughput) ou aceitações falsas se infiltram (risco de escape, exposição a garantia). Quando um escape de qualidade aparece, ele dispara contenção ampla, quarentena expandida, reinspeção e revisão manual. O custo da má qualidade gira em torno de 20% das vendas totais para fabricantes médios. As restrições físicas servem como âncoras invariantes: as propriedades físicas de uma peça corretamente fabricada não mudam quando a iluminação muda. Um sistema informado por física mede se a imagem observada é consistente com a geometria e as propriedades de material conhecidas, não apenas se "parece" uma peça boa em comparação com imagens históricas de treinamento.

Quem Constrói o Quê em Visão Computacional Hoje

Fornecedor	Domínio	O Que Eles Entregam	Integração de Física	Onde Eles Ficam Aquém
Pixellot	Transmissão esportiva	Câmeras automatizadas de IA, autorrastreamento, multiângulo. Mais de 150 ligas, parceria com a GameChanger.	Filtragem de Kalman básica para suavização de rastreamento. O rastreamento de múltiplas hipóteses na V4 corrigiu em grande parte a classe de erros da cabeça careca.	Novos modos de falha: OCR de camisas sob desfoque de movimento, projeção de impedimento em campos não planos. A física é suavização a posteriori, não uma camada de restrição.
Hawk-Eye (Sony)	Arbitragem esportiva	Triangulação multicâmera, rastreamento esquelético (29 pontos por jogador). NFL, MLB, ATP.	Fortes restrições geométricas via calibração multicâmera.	Caro (mais de US$ 1 mi por local). Proprietário e fechado. Exige infraestrutura dedicada (6 a 8 câmeras 4K/8K por local).
KLA Corporation	Inspeção de semicondutores	Inspeção de banda larga da série 2900, sensibilidade de 10nm. 63% de participação de mercado em controle de processo.	Modelos de física de defeitos baseados em regras embutidos em nós de processo específicos.	Os modelos são específicos do nó de processo. Transições para novos nós causam picos na taxa de espúrios. O investimento de US$ 2,3 bi em P&D sinaliza que eles sabem que a lacuna existe.
Cognex	QA de manufatura	Aprendizado profundo VisionPro ViDi, aprendizado de borda na câmera (5 a 10 imagens de treinamento).	Nenhuma na inferência. A visão de máquina tradicional lida com medição/metrologia.	Somente orientado por dados. Suscetível a deriva silenciosa. Redução de 90% no tempo de configuração, mas sem fundamentação física.
NVIDIA	Plataforma/infraestrutura	Ecossistema Metropolis (mais de 1.000 empresas), Omniverse para simulação de gêmeo digital, Cosmos para dados sintéticos.	Física no momento do treinamento (renderização), não na inferência. O Omniverse simula física para geração de dados sintéticos.	Plataforma, não solução. A física para no treinamento. O modelo implantado ainda é puramente orientado por dados.
Veo	Esportes (de base)	Câmeras de IA D2C, mais de 40.000 clubes, 100 países, mais de 4 mi de partidas filmadas.	Mínima. Rastreamento de nível de consumo.	Não tem restrições físicas. O ponto de preço de consumo significa computação limitada para camadas de restrição.
Big 4 / Grandes SIs	Multissetorial	Implementações de plataforma (NVIDIA, APIs de nuvem), serviços de integração, gestão de mudanças.	Implementam ferramentas de física de fornecedores. Não constroem camadas de restrição personalizadas.	Eles implantam plataformas. Construir um pipeline de filtro de Kalman personalizado e ajustado à sua física específica não faz parte do repertório deles. Os engajamentos variam de US$ 500 mil a mais de US$ 5 mi e levam de 6 a 18 meses.
APIs de nuvem	Propósito geral	Detecção/classificação pré-treinada, fácil integração de API, pagamento por chamada.	Nenhuma. Inferência independente de quadro por design.	Sem consistência temporal. Sem restrições físicas. A "armadilha dos 90%": rápido para 90% de acurácia, impossível fechar os últimos 10% sem física específica de domínio.

A lacuna é consistente em todos os segmentos: a física está ausente, confinada ao treinamento ou trancada dentro de um sistema proprietário. Ninguém oferece camadas de restrição física personalizadas como serviço, integradas ao seu pipeline existente, ajustadas à física específica do seu domínio. É isso que construímos.

Sistemas de Visão com Restrições Físicas Construídos para Seu Domínio

Pipelines de Rastreamento Controlados por Física

Adicionamos uma camada de verificação determinística entre seu detector e seu sistema de ação. Cada detecção passa por três portões antes de ser aceita: um portão cinemático de filtro de Kalman (esse movimento é fisicamente possível dada a massa do objeto e o delta de tempo?), um portão de fluxo óptico (o movimento de pixels dentro da caixa delimitadora corresponde ao perfil de velocidade esperado?) e um portão geométrico (o tamanho do objeto satisfaz as restrições de perspectiva 3D em relação à posição da câmera?). Ajustamos o modelo de física ao seu domínio. Dinâmica de projéteis para rastreamento de bola. Geometria de paralaxe para inspeção de wafer. Restrições de plano de estrada para navegação autônoma. Os portões rejeitam falsos positivos que a confiança visual sozinha não consegue capturar.

Classificação de Defeitos Espúrios

Para fábricas de semicondutores e manufatura de precisão, construímos classificadores de defeitos que modelam como a luz interage fisicamente com anomalias de superfície. Uma cavidade real espalha a luz de forma diferente de uma partícula de poeira. Um resíduo de processo tem refletância diferente de um curto-circuito. Usamos geometria multivista e modelos de renderização baseados em física para caracterizar cada anomalia por suas propriedades físicas, não apenas por sua aparência visual. Isso significa que o classificador generaliza entre nós de processo porque a física da interação luz-material não muda quando você passa de FinFET para gate-all-around.

Arquiteturas Resistentes a Deriva

A deriva de modelo é o assassino silencioso da VC em produção. Construímos arquiteturas que usam invariantes físicas como âncoras de estabilidade. A geometria física de uma peça corretamente fabricada não muda quando um ângulo de iluminação muda ou uma lente embaça. Codificamos essas invariantes no sistema para que a variação ambiental afete o sinal bruto, mas não a saída verificada por física. Isso reduz os ciclos de retreinamento de emergência de mensais para trimestrais ou menos, e detecta a deriva antes que ela cause escapes de qualidade.

Pipelines de Treinamento Informados por Física

Quando redes neurais informadas por física (PINNs) fazem sentido para sua aplicação, construímos o pipeline de treinamento. As PINNs adicionam um termo de perda física à perda de dados padrão: a rede é penalizada não apenas por errar o alvo, mas por violar as equações governantes (Navier-Stokes, movimento de projétil, conservação de energia). O resultado é um modelo que precisa de menos dados de treinamento, generaliza melhor para condições não vistas e produz saídas fisicamente plausíveis. Cuidamos das partes difíceis: ajuste de lambda (o peso da perda física), estabilização de convergência e tratamento de descontinuidades (bola batendo em uma trave, efeitos de borda de wafer) que fazem implementações ingênuas de PINN falharem.

Como os Portões de Física Capturam o Que os Escores de Confiança Deixam Passar

Veja exatamente o que acontece quando um sistema controlado por física processa o cenário da partida de Inverness, quadro a quadro.

Quadro t: Bola no Meio-Campo

O detector encontra a bola nas coordenadas (512, 380) com 92% de confiança. O filtro de Kalman inicializa: posição (512, 380), velocidade estimada em 18 m/s para leste a partir dos quadros anteriores. A incerteza de estado é baixa. O fluxo óptico na região de detecção mostra forte movimento para a direita, consistente com uma bola chutada. Todos os três portões passam. O sistema aceita a detecção e atualiza o rastreamento.

t+1

Quadro t+1: O Quadro Crítico (40ms depois)

O detector retorna dois candidatos:

Candidato A

"Bola" em (530, 375), confiança 80%. 18 pixels a leste e 5 pixels acima da última posição.

Candidato B

"Bola" em (1200, 340), confiança 98%. A cabeça careca do bandeirinha, a 688 pixels de distância.

PORTÃO 1: Verificação Cinemática de Kalman

O filtro previu que a bola estaria perto de (531, 376) com base em sua velocidade e na gravidade. A inovação (resíduo) do Candidato A é de 1,4 pixels. A inovação do Candidato B é de 669 pixels. A distância de Mahalanobis para B é de 47 desvios padrão. Qualquer valor acima de 3 sigma é rejeitado. B é eliminado antes de chegar ao próximo portão.

PORTÃO 2: Verificação de Fluxo Óptico

O Candidato A mostra um campo de fluxo de 450 pixels/segundo para a direita, consistente com uma bola a 18 m/s. Mesmo que B tivesse passado pelo Portão 1, seu campo de fluxo mostra movimento próximo de zero (cabeça estacionária). Uma "bola" com velocidade zero no meio do jogo viola o perfil esperado. Segunda rejeição.

PORTÃO 3: Restrição Geométrica

O Candidato A subtende 22 pixels a essa distância, consistente com uma bola de 22cm a 12 metros da câmera. O Candidato B subtende 45 pixels. Uma bola de 22cm a 12 metros não pode subtender 45 pixels. Terceira rejeição.

Resultado

O sistema segue o Candidato A (a bola real) com 80% de confiança visual, rejeitando o Candidato B apesar de sua confiança de 98%. A física prevalece sobre os pixels.

Essa mesma arquitetura se aplica a qualquer domínio onde os objetos obedecem a leis físicas. Em uma fábrica de semicondutores, o "portão de Kalman" torna-se uma verificação de consistência de paralaxe entre ângulos de inspeção. Em QA de manufatura, o "portão de fluxo óptico" torna-se um modelo de refletância de superfície. A estrutura é a mesma; a física muda.

Da Auditoria de Física à Implantação em Produção

Auditoria de Física de Domínio

2 a 3 semanas

Instrumentamos seu pipeline de VC existente para medir exatamente onde ele falha: taxas de falsos positivos por categoria, latência por etapa de inferência, frequência de casos de borda. Identificamos quais restrições físicas se aplicam ao seu domínio e quais falhas de detecção elas evitariam. Entregável: um documento de especificação de restrições com redução projetada de falsos positivos e uma recomendação de prosseguir/não prosseguir. Se as restrições físicas não melhorarem significativamente seu sistema, nós dizemos.

Construção do Pipeline de Restrições

8 a 16 semanas

Construímos a camada de física e a integramos ao seu pipeline. Isso não é um sistema separado; é uma camada de verificação que fica entre seu detector existente e sua lógica de ação. Ajustamos o modelo de estado do filtro de Kalman à dinâmica dos seus objetos, calibramos os limiares de fluxo óptico à configuração da sua câmera e validamos as restrições geométricas contra seu ambiente físico. O cronograma depende da complexidade: um rastreador esportivo de câmera única leva 8 semanas. Um sistema de inspeção de semicondutores multivista com modelos físicos personalizados leva 16.

Robustecimento para Produção

4 a 6 semanas

Implantamos em produção com monitoramento. Instrumentamos cada portão para registrar os motivos de rejeição, medimos as taxas de falsos positivos e falsos negativos em relação aos seus critérios de aceitação e verificamos que as restrições físicas não adicionam latência inaceitável ao seu pipeline. Ajustamos os limiares com base em dados de produção, não em condições de laboratório. Entregável: um sistema de produção com baselines de desempenho documentados e um painel de monitoramento de deriva.

O que leva mais tempo

Calibração multicâmera em locais com layouts não padronizados. Transições de nó de processo em semicondutores (o modelo de física precisa de dados de caracterização do novo nó). Integração com PLCs ou sistemas SCADA legados que não expõem feeds de dados em tempo real.

Perguntas Comuns Sobre Visão com Restrições Físicas

Como as restrições físicas reduzem falsos positivos sem aumentar falsos negativos?

A redução tradicional de falsos positivos funciona elevando o limiar de confiança: exigir 95% de confiança em vez de 80%. Isso reduz falsos positivos, mas inevitavelmente aumenta falsos negativos, porque detecções legítimas com menor confiança também são rejeitadas. As restrições físicas funcionam de forma ortogonal. Elas não tocam no limiar de confiança. Em vez disso, verificam se uma detecção é fisicamente possível independentemente de seu escore de confiança visual. Uma cabeça careca a 98% de confiança ainda é fisicamente impossível como bola, então é rejeitada. Uma bola a 75% de confiança que corresponde à previsão cinemática é aceita. A taxa de falsos positivos cai porque detecções fisicamente impossíveis são eliminadas. A taxa de falsos negativos se mantém ou melhora porque detecções legítimas com menor confiança passam pela verificação física. Na inspeção de semicondutores, isso significa capturar defeitos reais que um limiar de alta confiança deixaria passar (cavidades fracas, mas fisicamente reais) ao mesmo tempo em que rejeita sinais espúrios que por acaso parecem defeitos (partículas de superfície com alta semelhança visual, mas comportamento de paralaxe errado).

Vocês conseguem integrar restrições físicas ao nosso pipeline existente sem substituir nosso detector?

Sim, e essa é a abordagem padrão. A camada de física fica entre seu detector e seu sistema de ação. Seu detector existente (YOLO, EfficientDet, uma CNN personalizada, uma API de nuvem) continua gerando detecções candidatas. A camada de física avalia cada candidato em relação a restrições cinemáticas, de fluxo óptico e geométricas antes de passá-lo adiante. Os pontos de integração dependem da sua arquitetura: se você executa inferência no dispositivo, a camada de física roda no mesmo hardware (as atualizações do filtro de Kalman são computacionalmente baratas em comparação com a inferência de CNN). Se você usa uma API de nuvem, a camada de física pode rodar na sua borda ou no seu pipeline de processamento. A integração típica adiciona de 1 a 3ms por quadro para os portões de filtro de Kalman e de fluxo óptico. A latência do portão geométrico depende da complexidade do seu modelo 3D, mas raramente excede 5ms. Latência adicional total: 2 a 8ms. Para sistemas já rodando a 25 a 60fps (16 a 40ms por quadro), isso se encaixa no orçamento.

Quanto custa um sistema com restrições físicas em comparação com retreinar ou expandir nosso conjunto de dados de treinamento?

O retreinamento aborda a deriva, mas não o problema fundamental: um modelo retreinado ainda pode fazer previsões fisicamente impossíveis porque não tem nenhum conceito de física. Expandir os dados de treinamento ajuda na cobertura, mas tem retornos decrescentes em casos de borda (você não consegue treinar para eliminar as leis da física). A construção de um pipeline de restrições físicas varia de US$ 80 mil a US$ 250 mil dependendo da complexidade. Rastreamento de objeto único com câmera única (esportes) fica na faixa baixa. Inspeção de semicondutores multivista com modelos físicos personalizados fica na faixa alta. Compare isso com o custo contínuo do problema: uma fábrica de semicondutores onde cada wafer descartado custa dezenas de milhares de dólares e a revisão manual impulsionada por espúrios queima horas de engenheiros a US$ 150-200/h. Uma emissora esportiva cuja câmera automatizada perde lances importantes perde assinantes. Um fabricante gastando um quinto da receita em custos de qualidade, grande parte impulsionada por rejeições falsas que as restrições físicas evitariam. A camada de física é uma construção única com baixo custo de manutenção, porque a física não deriva. As leis do movimento de projétil não vão mudar no próximo trimestre.

Como isso funciona para rastreamento esportivo, sendo que a Pixellot e a Hawk-Eye já melhoraram significativamente?

O rastreamento de múltiplas hipóteses da V4 da Pixellot corrigiu em grande parte a classe de erros da "cabeça careca". A triangulação multicâmera da Hawk-Eye com rastreamento esquelético é o padrão-ouro para esportes arbitrados. Mas o mercado foi além da camada de elite. A Copa do Mundo da FIFA recebe a configuração da Hawk-Eye de mais de US$ 1 mi por local. Os mais de 40.000 clubes que usam as câmeras de consumo da Veo não. A lacuna está nos esportes de nível intermediário e de base: ligas que precisam de transmissão automatizada com acurácia superior à de consumo, mas não podem pagar a infraestrutura da Hawk-Eye. Restrições físicas em uma configuração de câmera única fecham uma parcela significativa dessa lacuna de acurácia por uma fração do custo. Especificamente: tratamento de oclusão por meio de previsão baseada em física (mantendo o rastreamento quando um jogador bloqueia a bola), desambiguação de múltiplos objetos (dois jogadores sobrepostos distinguidos por perfis cinemáticos, não apenas pela aparência) e compensação de movimento de câmera (separando a panorâmica da câmera do movimento do objeto usando restrições inerciais).

Estamos transicionando para um novo nó de processo de semicondutores e nossa taxa de espúrios na inspeção disparou. As restrições físicas podem ajudar?

Esse é exatamente o cenário em que as restrições físicas têm o maior impacto. As transições de nó quebram os classificadores orientados por dados porque os dados de treinamento são do nó antigo. As assinaturas visuais mudam: novos materiais, novas geometrias, novos padrões de corrosão. Mas a física da formação de imagem de defeitos não muda na mesma velocidade. Uma cavidade real ainda espalha luz com base em sua profundidade e no ângulo da parede lateral. Uma partícula ainda mostra paralaxe entre ângulos de inspeção com base em sua altura acima da superfície. Um resíduo de processo ainda tem um perfil de refletância determinado por sua composição de material. Construímos classificadores de defeitos que usam essas características baseadas em física junto com as características visuais. Durante as transições de nó, as características físicas permanecem discriminativas mesmo quando as características visuais perdem seu poder preditivo. Cronograma prático: 2 a 3 semanas para a auditoria de física de domínio caracterizar a física de formação de imagem do novo nó, 12 a 16 semanas para a construção do classificador incluindo validação contra sua biblioteca de defeitos do novo nó.

O que acontece quando o modelo de física está errado ou incompleto?

Todo modelo de física é uma aproximação. Um filtro de Kalman assume dinâmica newtoniana, que falha para objetos com aerodinâmica complexa (uma bola knuckleball desvia de forma imprevisível devido à separação de fluxo de ar turbulento). Um modelo de geometria epipolar assume superfícies rígidas, que falha para materiais flexíveis. Lidamos com isso de três maneiras. Primeiro, cada portão tem um limiar de confiança configurável. Se a distância de Mahalanobis estiver no limite (entre 3 e 5 sigma), a detecção é sinalizada para verificação posterior em vez de ser rejeitada de forma definitiva. Segundo, usamos o Filtro de Kalman Unscented (UKF) em vez do Filtro de Kalman Estendido (EKF) para dinâmica não linear. O UKF propaga pontos sigma através da função não linear real em vez de linearizar, o que lida com não linearidade moderada (efeito, arrasto, superfícies irregulares) sem o erro de aproximação da série de Taylor do EKF. Terceiro, para física genuinamente complexa (fluxo turbulento, materiais inéditos), usamos PINNs para aprender as equações governantes a partir dos dados enquanto restringimos o espaço de solução. O modelo de física não é uma gaiola rígida. É uma proteção que flexiona nas bordas, mas evita erros catastróficos no centro.

Sua IA Vê Formas. Ela Deveria Entender Física.

Por Que a Visão Computacional Genérica Quebra em Produção

Viés de Textura e o Bandeirinha Careca

A Armadilha do Defeito Espúrio em Fábricas de Semicondutores

Deriva Silenciosa na Linha de Produção

Quem Constrói o Quê em Visão Computacional Hoje

Sistemas de Visão com Restrições Físicas Construídos para Seu Domínio

Pipelines de Rastreamento Controlados por Física

Classificação de Defeitos Espúrios

Arquiteturas Resistentes a Deriva

Pipelines de Treinamento Informados por Física

Como os Portões de Física Capturam o Que os Escores de Confiança Deixam Passar

Quadro t: Bola no Meio-Campo

Quadro t+1: O Quadro Crítico (40ms depois)

Resultado

Da Auditoria de Física à Implantação em Produção

Auditoria de Física de Domínio

Construção do Pipeline de Restrições

Robustecimento para Produção

Avaliação de Prontidão para Restrições Físicas

Perguntas Comuns Sobre Visão com Restrições Físicas

Como as restrições físicas reduzem falsos positivos sem aumentar falsos negativos?

Vocês conseguem integrar restrições físicas ao nosso pipeline existente sem substituir nosso detector?

Quanto custa um sistema com restrições físicas em comparação com retreinar ou expandir nosso conjunto de dados de treinamento?

Como isso funciona para rastreamento esportivo, sendo que a Pixellot e a Hawk-Eye já melhoraram significativamente?

Estamos transicionando para um novo nó de processo de semicondutores e nossa taxa de espúrios na inspeção disparou. As restrições físicas podem ajudar?

O que acontece quando o modelo de física está errado ou incompleto?

Pesquisa Técnica

Além da Caixa Delimitadora: IA Empresarial com Restrições Físicas

Pare de Fazer Engenharia em Torno de Casos de Borda

Avaliação de Restrições Físicas

Construção do Pipeline de Restrições