Blueprint de IA para Pesquisa e Resumo de Vídeo Agora Disponível Para Implantar Agentes de IA de Análise de Vídeo em Todos os Setores

por Adam Scraba

A era dos agentes de IA de análise de vídeo está aqui.

O vídeo é uma das características definidoras do cenário digital moderno, respondendo por mais de 50% de todo o tráfego global de dados. Dominante na mídia e cada vez mais importante para empresas de todos os setores, é uma das maiores e mais onipresentes fontes de dados do mundo. No entanto, menos de 1% dele é analisado para obter insights.

Quase metade do PIB global vem de indústrias físicas, abrangendo energia a automotiva e eletrônica. Com preocupações com a escassez de mão de obra, esforços de terceirização de manufatura e crescente demanda por automação, os agentes de IA de análise de vídeo desempenharão um papel mais crítico do que nunca, ajudando a unir os mundos físico e digital.

Para acelerar o desenvolvimento desses agentes, a NVIDIA hoje está disponibilizando o Blueprint de IA para pesquisa e resumo de vídeo (VSS), desenvolvido pela plataforma NVIDIA Metropolis, oferecendo aos desenvolvedores as ferramentas para criar e implantar agentes de IA altamente capazes para analisar grandes somas de vídeos arquivados e em tempo real.

Uma onda de agentes de IA de visão e assistentes de produtividade alimentados por modelos de linguagem de visão (VLMs) está ficando online. Combinando poderosos modelos de visão computacional com as habilidades de grandes modelos de linguagem (LLMs) superinteligentes, esses agentes de IA de análise de vídeo permitem que as empresas vejam, pesquisem e resumam facilmente grandes volumes de vídeo. Ao analisar vídeos em tempo real ou revisar terabytes de vídeo gravado, os agentes de IA de análise de vídeo estão desbloqueando valor e oportunidades sem precedentes em uma variedade de setores importantes.

Fabricantes e armazéns estão usando agentes de IA para ajudar a aumentar a segurança e a produtividade dos trabalhadores. Por exemplo, os agentes podem ajudar a distribuir empilhadeiras e posicionar os trabalhadores para obter a eficiência ideal. As cidades inteligentes estão implantando agentes de IA de análise de vídeo para reduzir o congestionamento do tráfego e aumentar a segurança, e os usos continuam.

Um Blueprint para Criar Frotas Diversificadas de Agentes de IA de Análise de Vídeo

O blueprint VSS é construído sobre a  plataforma NVIDIA Metropolis e impulsionado por VLMs e LLMs, como NVIDIA VILA e NVIDIA Llama Nemotron, microsserviços NVIDIA NeMo Retriever e geração aumentada por recuperação (RAG), uma técnica que conecta LLMs aos dados corporativos de uma empresa.

O blueprint VSS incorpora a  plataforma de software NVIDIA AI Enterprise, incluindo microsserviços NVIDIA NIM para VLMs, LLMs e frameworks avançados de IA para RAG. Com o blueprint VSS, os usuários podem resumir um vídeo 100 vezes mais rápido do que assistir em tempo real. Por exemplo, um vídeo de uma hora pode ser resumido em texto em menos de um minuto.

O blueprint VSS oferece uma série de recursos poderosos projetados para fornecer compreensão, desempenho e escalabilidade de vídeo robustos.

Esta versão apresenta suporte de hardware expandido, incluindo a capacidade de implantar em uma única GPU NVIDIA A100 ou H100 para cargas de trabalho menores, oferecendo maior flexibilidade na alocação de recursos. O blueprint também pode ser implantado no edge nas  plataformas de computação NVIDIA RTX 6000 PRO e NVIDIA DGX Spark.

O blueprint VSS pode processar centenas de fluxos de vídeo ao vivo ou clipes intermitentes simultaneamente. Além da compreensão visual, oferece transcrição de áudio. A conversão de fala em texto adiciona profundidade contextual em cenários em que o áudio é crítico, como vídeos de treinamento, palestras ou reuniões de equipe.

Líderes do Setor Implantam Agentes de IA de Análise de Vídeo para Gerar Valor Comercial

Todos, desde os principais fabricantes do mundo até cidades inteligentes e ligas esportivas, estão usando o blueprint VSS para desenvolver agentes de IA para otimizar as operações.

A Pegatron, uma empresa líder na manufatura de eletrônicos, usa o blueprint VSS para estudar procedimentos operacionais e treinar funcionários sobre as melhores práticas. A empresa também está integrando o projeto em sua plataforma PEGAAi para que as empresas possam criar agentes de IA para transformar os processos de manufatura.

Esses agentes podem ingerir e analisar grandes volumes de vídeo, permitindo recursos avançados como monitoramento automatizado, detecção de anomalias, pesquisa de vídeo e relatórios de incidentes. O Visual Analytics Agent da Pegatron pode ser usado para entender os procedimentos operacionais para montagem de placas de circuito impresso e identificar quando as ações estão corretas ou incorretas. Até o momento, os agentes reduziram os custos de mão de obra da Pegatron em 7% e as taxas de defeitos em 67%.

Outros fabricantes líderes de semicondutores e eletrônicos taiwaneses estão criando agentes de IA e gêmeos digitais para otimizar suas aplicações operacionais e de planejamento.

A cidade de Kaohsiung, Taiwan, está usando uma aplicação unificada de IA de visão de cidade inteligente desenvolvida por seu parceiro, Linker Vision, para melhorar os tempos de resposta a incidentes. Anteriormente, os departamentos da cidade, como gerenciamento de resíduos, transporte e resposta a emergências, eram isolados por infraestrutura em silos, levando a tempos de resposta lentos devido à falta de acesso a informações críticas.

Impulsionado pelo blueprint VSS, a aplicação baseada em IA da Linker Vision possui agentes que combinam análise de vídeo em tempo real com IA generativa para não apenas detectar elementos visuais, mas também entender e narrar eventos urbanos complexos, como inundações ou acidentes de trânsito.

Atualmente, o Linker Vision fornece insights oportunos para 12 departamentos da cidade e está a caminho de escalar de 30.000 câmeras da cidade para mais de 50.000 até 2026. Esses insights estão fornecendo melhor consciência situacional e tomada de decisão baseada em dados em todos os serviços da cidade e reduzindo os tempos de resposta a incidentes em até 80%.

A National Hockey League usou o VAST InsightEngine com o blueprint VSS para simplificar e acelerar os workflows de IA de visão. Ele gerencia grandes volumes de imagens de jogos.

Com o VAST InsightEngine, a NHL está posicionada para pesquisar petabytes de vídeo em menos de segundos, permitindo a recuperação quase instantânea de destaques e momentos do jogo. Os workflows orientados por IA baseada em agentes aprimoram ainda mais a criação de conteúdo, recortando, marcando e montando automaticamente o conteúdo de vídeo para facilitar o acesso e o uso.

No futuro, a Liga poderia usar o raciocínio de IA em tempo real para permitir insights personalizados, como estatísticas de jogadores, análises de estratégia ou recomendações de fantasia, gerados dinamicamente durante os jogos ao vivo. Essa automação de ponta a ponta pode transformar a forma como a mídia é criada, selecionada e entregue, estabelecendo um novo padrão para a produção de conteúdo esportivo orientada por IA.

A Siemens está usando seu Industrial Copilot for Operations para auxiliar os trabalhadores do chão de fábrica nas tarefas de manutenção de equipamentos, tratamento de erros e otimização de desempenho. Este assistente com IA generativa oferece respostas em tempo real a erros de equipamento usando informações sobre dados operacionais e de documentos.

O copilot foi construído com uma fusão de componentes VSS como VLMs, LLMs e microsserviços NVIDIA NeMo. O Copilot Industrial resultou em uma rápida tomada de decisão e redução do tempo de inatividade da máquina. A Siemens relatou um aumento de 30% na produtividade, com potencial para chegar a 50%.

Apoiado Por Um Ecossistema de Parceiros em Expansão, Criando Agentes de IA Sofisticados

Os parceiros da NVIDIA estão usando o blueprint VSS para agilizar a criação de recursos de análise de vídeo de IA baseada em agentes para seus workflows, reduzindo o tempo de desenvolvimento de meses para semanas.

A Superb AI, líder em análise inteligente de vídeo, montou um sofisticado projeto de operações aeroportuárias no Aeroporto de Incheon para reduzir o tempo de espera dos passageiros em questão de semanas. Na Malásia, o provedor de soluções ITMAX está construindo agentes avançados de IA visual com o projeto VSS para a cidade de Kuala Lumpur para melhorar o gerenciamento geral da cidade e reduzir os tempos de resposta a incidentes.

No setor de publicidade, a PYLER integrou o blueprint VSS em suas soluções de segurança de marca (AiD) e segmentação de anúncios (AiM) em apenas algumas semanas. Usando AiD e AiM, a Samsung Electronics aumentou a eficácia da publicidade com canais de anúncios de alto valor alinhados à marca e ao produto. A BYD viu suas taxas de cliques em anúncios aumentarem 4 vezes, segmentando conteúdo contextualmente relevante e positivo, enquanto o Hana Financial Group superou várias metas de campanha de marca.

A Fingermark é a fornecedora de aplicaçoes do Eyecue, uma plataforma de visão computacional em tempo real usada por restaurantes de serviço rápido. A Fingermark está adicionando o blueprint VSS ao Eyecue para transformar imagens de vídeo em insights claros e acionáveis sobre tempos de espera drive-thru, gargalos de serviço e incidentes relacionados à equipe em escala.

Experimente o blueprint VSS no build.nvidia.com e leia este blog técnico para obter mais detalhes.