3 Maneiras de Trazer IA Baseada em Agentes para Aplicações de Visão Computacional

Aprenda a integrar modelos de linguagem de visão em aplicações de análise de vídeo, desde busca com IA até análise de vídeo totalmente automatizada.
por Esther Lee

Os sistemas de visão computacional atuais se destacam em identificar o que acontece em espaços e processos físicos, mas carecem da capacidade de explicar os detalhes de uma cena e por que eles são importantes, além de raciocinar sobre o que pode acontecer a seguir.

A inteligência baseada em agentes, impulsionada por modelos de linguagem de visão (VLMs), pode ajudar a preencher essa lacuna, dando às equipes acesso rápido e fácil a insights e análises-chave que conectam descritores de texto com informações espaço-temporais e bilhões de pontos de dados visuais capturados por seus sistemas todos os dias.

Três abordagens que as empresas podem usar para impulsionar seus sistemas legados de visão computacional com inteligência baseada em agentes são:

  • Aplicação de legendas densas para conteúdo visual pesquisável.
  • Aumento dos alertas do sistema com contexto detalhado.
  • Uso do raciocínio de IA para resumir informações de cenários complexos e responder perguntas.

Tornando o Conteúdo Visual Pesquisável com Legendas Densas

As ferramentas tradicionais de busca de vídeo impulsionadas por redes neurais convolucionais (CNN) são limitadas por treinamento, contexto e semântica limitados, tornando a obtenção de insights manual, tediosa e demorada. CNNs são ajustadas para realizar tarefas visuais específicas, como detectar uma anomalia, e não têm a capacidade multimodal de traduzir o que veem em texto.

As empresas podem incorporar VLMs diretamente em suas aplicações existentes para gerar legendas altamente detalhadas de imagens e vídeos. Essas legendas transformam conteúdo não estruturado em metadados ricos e pesquisáveis, permitindo uma busca visual muito mais flexível, não limitada por nomes de arquivos ou tags básicas.

Por exemplo, o sistema automatizado de inspeção de veículos UVeye processa mais de 700 milhões de imagens de alta resolução a cada mês para construir um dos maiores conjuntos de dados de veículos e componentes do mundo. Ao aplicar VLMs, o UVeye converte esses dados visuais em relatórios estruturados de condição, detectando defeitos sutis, modificações ou objetos estranhos com precisão e confiabilidade excepcionais para busca.

O entendimento visual impulsionado por VLM adiciona contexto essencial, garantindo insights transparentes e consistentes para conformidade, segurança e controle de qualidade. O UVeye detecta 96% dos defeitos, em comparação com 24% usando métodos manuais, permitindo intervenção precoce para reduzir o tempo de inatividade e controlar os custos de manutenção.

A Relo Metrics, uma provedora de medição de marketing esportivo com IA, ajuda as marcas a quantificar o valor de seus investimentos em mídia e otimizar seus gastos. Ao combinar VLMs com visão computacional, a Relo Metrics vai além da detecção básica de logotipos para capturar contexto, como uma faixa à beira da quadra mostrada durante um tiro decisivo, e traduzi-lo em valor monetário em tempo real.

Essa capacidade de análise contextual destaca quando e como os logos aparecem, especialmente em momentos de grande impacto, proporcionando aos profissionais de marketing uma visão mais clara do retorno sobre o investimento e de formas de otimizar a estratégia. Por exemplo, a Stanley Black & Decker, incluindo sua marca Dewalt, anteriormente confiava em relatórios de fim de temporada para avaliar o desempenho dos ativos dos patrocinadores, limitando a tomada de decisões no tempo hábil. Usando Relo Metrics para insights em tempo real, Stanley Black & Decker ajustou o posicionamento da sinalização e economizou US$ 1,3 milhão em potencial perda de valor de mídia para patrocinadores.

Ampliando os Alertas do Sistema de Visão Computacional com Raciocínio de VLM

Sistemas de visão computacional baseados em CNN frequentemente geram alertas binários de detecção como sim ou não, e verdadeiro ou falso. Sem o poder de raciocínio dos VLMs, isso pode significar falsos positivos e detalhes perdidos, levando a erros custosos em segurança, além de perda de inteligência de negócios. Em vez de substituir completamente esses sistemas de visão computacional baseados em CNN, os VLMs podem facilmente complementar esses sistemas como um complemento inteligente. Com um VLM sobreposto a sistemas de visão computacional baseados em CNN, os alertas de detecção não são apenas sinalizados, mas revisados com compreensão contextual, explicando onde, como e por que o incidente ocorreu.

Para uma gestão mais inteligente do tráfego urbano, a Linker Vision utiliza VLMs para verificar alertas críticos da cidade, como acidentes de trânsito, enchentes ou queda de postes e árvores devido a tempestades. Isso reduz falsos positivos e adiciona um contexto vital a cada evento para melhorar a resposta municipal em tempo real.

A arquitetura da Linker Vision para IA baseada em agentes envolve automatizar a análise de eventos de mais de 50.000 fluxos diversos de câmeras de cidades inteligentes para possibilitar remediações entre departamentos, coordenando ações entre equipes como controle de tráfego, concessionárias e primeiros socorristas quando ocorrem incidentes. A capacidade de consultar simultaneamente todos os fluxos de câmera permite que os sistemas transformem observações rápida e automaticamente em insights e disparem recomendações para as próximas melhores ações.

Análise Automática de Cenários Complexos com IA Baseada em Agentes

Sistemas de IA baseada em agentes podem processar, raciocinar e responder perguntas complexas através de fluxos de vídeo e modalidades como áudio, texto, vídeo e dados de sensores. Isso é possível combinando VLMs com modelos de raciocínio, grandes modelos de linguagem (LLMs), geração aumentada por recuperação (RAG), visão computacional e transcrição de fala.

A integração básica de um VLM em um pipeline de visão computacional existente é útil para verificar pequenos clipes de vídeo de momentos-chave. No entanto, essa abordagem é limitada pelo número de tokens visuais que um único modelo pode processar ao mesmo tempo, resultando em respostas superficiais, sem contexto ao longo de períodos de tempo e conhecimento externo.

Em contraste, arquiteturas inteiras construídas com IA baseada em agentes permitem um processamento escalável e preciso de arquivos de vídeo longos e multicanais. Isso leva a insights mais profundos, precisos e confiáveis, que vão além do entendimento superficial. Sistemas baseados em agentes podem ser usados para análise de causas raiz ou análise de longos vídeos de inspeção para gerar relatórios com insights com carimbo de data.

A Levatas desenvolve soluções de inspeção visual que utilizam robôs móveis e sistemas autônomos para aumentar a segurança, confiabilidade e desempenho de ativos críticos de infraestrutura, como subestações de energia elétrica, terminais de combustível, pátios ferroviários e centros logísticos. Usando VLMs, a Levatas construiu um agente de IA de análise de vídeo para revisar automaticamente as imagens de inspeção e elaborar relatórios detalhados, acelerando drasticamente um processo tradicionalmente manual e lento.

Para clientes como a American Electric Power (AEP), a IA da Levatas se integra aos dispositivos Skydio X10 para agilizar a inspeção da infraestrutura elétrica. O Levatas permite que a AEP inspecione autônomo postes de energia, identifique problemas térmicos e detecte danos nos equipamentos. Alertas são enviados instantaneamente à equipe AEP ao detectar o problema, permitindo resposta e resolução rápidas, garantindo uma entrega de energia confiável, limpa e acessível.

Ferramentas de destaque de games com IA como o Eklipse usam agentes com VLM para enriquecer transmissões ao vivo de videogames com legendas e metadados de índice, permitindo consultas rápidas, resumo e criação de reels de destaques polidos em minutos (10 vezes mais rápido que soluções legadas) levando a experiências de consumo de conteúdo melhoradas.

Impulsionando a Inteligência de Vídeo Baseada em Agente com as Tecnologias NVIDIA

Para busca e raciocínio avançados, desenvolvedores podem usar VLMs multimodais como NVCLIP, NVIDIA Cosmos Reason e Nemotron Nano V2 para construir índices ricos em metadados para buscas.

Para integrar VLMs em aplicações de visão computacional, os desenvolvedores podem usar o recurso de revisor de eventos no NVIDIA Blueprint para busca e sumarização de vídeo (VSS), parte da plataforma NVIDIA Metropolis.

Para consultas e tarefas de resumo mais complexas, o blueprint VSS pode ser personalizado para que os desenvolvedores construam agentes de IA que acessem VLMs diretamente ou usem VLMs em conjunto com LLMs, RAG e modelos de visão computacional. Isso permite operações mais inteligentes, análises de vídeo mais ricas e conformidade em tempo real com processos, que se adaptam às necessidades organizacionais.

Saiba mais sobre análises de vídeo baseada em agente com suporte da NVIDIA.

Explore os blogs de tecnologia da VLM, além de tutoriais em vídeo e transmissões ao vivo no ritmo próprio.