NVIDIA Anuncia que a Microsoft, Tencent e Baidu Estão Adotando CV-CUDA para Visão Computacional por IA

Microsoft, Tencent e Baidu estão adotando o NVIDIA CV-CUDA para visão computacional por IA.

O CEO da NVIDIA, Jensen Huang, destacou seu trabalho em compreensão de conteúdo, pesquisa visual e deep learning na terça-feira, ao anunciar o lançamento da versão beta do CV-CUDA da NVIDIA, uma biblioteca acelerada por GPU de código aberto para visão computacional em escala no cloud.

“Oitenta por cento do tráfego da internet é de vídeo. O conteúdo de vídeo gerado pelo usuário está impulsionando um crescimento significativo e consumindo grandes quantidades de energia”, disse o CEO da NVIDIA, Jensen Huang, em sua apresentação de abertura na conferência de tecnologia GTC da NVIDIA. “Devemos acelerar todo o processamento de vídeo e recuperar a potência.”

O CV-CUDA promete ajudar empresas em todo o mundo a construir e dimensionar visão computacional baseada em IA de ponta a ponta e pipelines de processamento de imagem em GPUs.

Otimizando a Computação Visual em Escala da Internet com IA

A maioria do tráfego da internet é dados de vídeo e imagem, gerando uma escala incrível em aplicações como criação de conteúdo, pesquisa e recomendação visual e mapeamento.

Essas aplicações usam um conjunto especializado e recorrente de visão computacional e algoritmos de processamento de imagens para processar dados de imagem e vídeo antes e depois de serem processados por redes neurais.

O Mecanismo de Busca Visual do Microsoft Bing usa Visão Computacional por IA para pesquisar imagens (comida de cachorro, por exemplo) dentro de imagens na Internet.

Embora as redes neurais sejam normalmente aceleradas na GPU, os algoritmos de visão computacional e processamento de imagens que os suportam geralmente são gargalos da CPU nas aplicações de IA atuais.

O CV-CUDA ajuda a processar 4 vezes mais fluxos em uma única GPU, fazendo a transição das etapas de pré e pós-processamento da CPU para a GPU. Com efeito, processando a mesma carga de trabalho a um quarto do custo de computação na nuvem.

A biblioteca CV-CUDA fornece aos desenvolvedores mais de 30 algoritmos de visão computacional de alto desempenho com APIs nativos de Python e integração zero-cópia com os frameworks de machine learning PyTorch, TensorFlow2, ONNX e TensorRT.

O resultado é maior taxa de transferência, custo de computação reduzido e uma pegada de carbono menor para empresas de IA na nuvem.

Adoção Global para Visão Computacional por IA

A adoção por líderes do setor em todo o mundo destaca as vantagens e a versatilidade do CV-CUDA para um número crescente de aplicações visuais em larga escala. Empresas com cargas de trabalho de processamento de imagens maciças podem economizar dezenas para centenas de milhões de dólares.

A Microsoft está trabalhando para integrar o CV-CUDA ao Pesquisador Visual do Bing, que permite aos usuários pesquisar na web usando uma imagem em vez de texto para encontrar imagens, produtos e páginas da web semelhantes.

Em 2019, a Microsoft compartilhou no GTC como eles estão usando a tecnologia NVIDIA para ajudar a trazer reconhecimento de fala, respostas inteligentes, texto para tecnologia de fala e detecção de objetos juntos sem problemas e em tempo real.

A Tencent implantou o CV-CUDA para acelerar seus pipelines de criação e compreensão de conteúdo, que processam mais de 300.000 vídeos por dia.

O conglomerado multimídia baseado em Shenzhen alcançou uma redução de 20% na energia e o custo para o processamento de imagens em relação aos pipelines anteriores otimizados para GPU.

E a gigante de pesquisa baseado em Pequim, Baidu está integrando o CV-CUDA no FastDeploy, um dos kits de ferramentas de implantação de código aberto do Framework de Deep Learning PaddlePaddle, que permite aceleração perfeita da visão computacional para desenvolvedores na comunidade de código aberto.

Da Criação de Conteúdo a Casos de Uso Automotivo

As aplicações para CV-CUDA estão crescendo. Mais de 500 empresas chegaram a mais de 100 casos de uso nos primeiros meses do lançamento alfa.

Na criação de conteúdo e comércio eletrônico, as imagens usam operadores de pré e pós-processamento para ajudar os motores de recomendação a reconhecer, localizar e curar o conteúdo.

No mapeamento, o vídeo captado a partir de veículos de pesquisa de mapeamento requer operadores de pré-processamento e pós-processamento para treinar redes neurais na nuvem para identificar recursos de infraestrutura e estrada.

Em aplicações de infraestrutura para o software de simulação e validação de veículos autônomos, o CV-CUDA permite a aceleração da GPU para algoritmos que já estão ocorrendo no veículo, como conversão de cores, correção de distorção, convolução e filtragem bilateral.

Olhando para o futuro, a IA generativa está transformando o mundo da criação e curadoria de conteúdo de vídeo, democratizando criadores e escalando o acesso a um público global.

A startup Runway baseada em Nova York integrou o CV-CUDA, aliviando um gargalo crítico no pré-processamento de vídeos de alta resolução em seu modelo de segmentação de objetos de vídeo.

A implementação do CV-CUDA levou a uma aceleração de 3,6 vezes, permitindo que a Runway para otimizar respostas em tempo real e clique para conteúdo em seu conjunto de ferramentas de criação.

“Para os criadores, a cada segundo é necessário para trazer uma idéia para a vida”, disse Cristóbal Valenzuela, co-fundador e CEO da Runway. “A diferença CV-CUDA faz é incrivelmente significativa para os milhões de criadores que usam nossas ferramentas.”

Para acessar o CV-CUDA, visite o GitHub CV-CUDA.

Ou saiba mais acessando as sessões da Spring GTC 2023 com CV-CUDA. O registro é gratuito.