Informações Aceleradas: Inferência de AI Aumenta Escopo e Velocidade

Em diversos setores, a inferência possibilita inovações cada vez mais aceleradas com as GPUs NVIDIA.
por Sid Sharma

A AI está sendo aplicada em diversos setores, desde a agricultura até a radiografia, graças à capacidade excepcional de inferir escolhas inteligentes rapidamente a partir de conjuntos de dados.

Como os conjuntos de dados e as redes neurais que os analisam estão crescendo, os usuários recorrem cada vez mais às GPUs NVIDIA para acelerar a inferência de AI.

Para ver a inferência na prática, basta observar a configuração de produtos amplamente usados de grandes empresas.

A GE Research, por exemplo, implementa modelos de AI acelerados com GPUs nos setores de aviação, saúde, energia e transporte. Eles automatizam a inspeção de fábricas, possibilitam a circulação de trens inteligentes, monitoram subestações elétricas e interpretam imagens médicas.

A GE executa os modelos de AI em servidores de data center, em sistemas NVIDIA DGX com GPUs V100 Tensor Core e em redes de computação edge com módulos Jetson AGX Xavier. O hardware executa o mecanismo de inferência TensorRT da NVIDIA e suas bibliotecas de aceleração CUDA/cuDNN para deep learning, além do kit de ferramentas NVIDIA JetPack para módulos Jetson.

Aplicativos de Vídeo e Contratos Adotam Inferência

No mercado consumidor, dois dos aplicativos móveis de vídeo mais populares do mundo executam inferência de AI em GPUs NVIDIA.

O TikTok e seu antecessor na China, o Douyin, chegaram juntos à marca de 1 bilhão de downloads ao redor do mundo em fevereiro de 2019. A desenvolvedora e proprietária dos aplicativos, ByteDance, carrega 50 milhões de vídeos novos por dia para 400 milhões de usuários diários ativos.

A ByteDance executa o TensorRT em milhares de servidores de GPUs NVIDIA T4 e P4, oferecendo aos usuários a possibilidade de pesquisar e receber recomendações de vídeos interessantes. A empresa calcula que economizou milhões de dólares com os produtos da NVIDIA e reduziu pela metade a latência dos serviços on-line.

No setor de negócios, a Deloitte usa inferência de AI no software dTrax para ajudar empresas a gerir contratos complexos. O dTrax consegue, por exemplo, localizar e atualizar trechos importantes em longos acordos quando os regulamentos mudam ou quando as empresas estão planejando uma grande aquisição.

Atualmente, diversas empresas ao redor do mundo usam o dTrax. O software, executado em sistemas NVIDIA DGX-1 em data centers e instâncias P3 do Amazon Web Services no cloud, ganhou um prêmio de empresa inteligente do jornal Financial Times em 2019.

Inferência de Duas a Dez Vezes Mais Rápida em GPUs

As tarefas de inferência realizadas em modelos de médio porte são executadas duas vezes mais rápido com GPUs do que com CPUs. Em modelos de grande porte, como o RoBERTa, elas são executadas dez vezes mais rápido, de acordo com testes realizados pela Square, uma empresa de serviços financeiros.

É por isso que as GPUs NVIDIA são fundamentais para a empresa cumprir o objetivo de ampliar o uso do Square Assistant, um programador virtual que apresentará os recursos de um chatbot para promover os produtos da empresa.

O grupo BMW acaba de anunciar que está desenvolvendo cinco novos tipos de robôs com a plataforma de robótica NVIDIA Isaac para melhorar a logística das unidades de manufatura de veículos. Um dos novos robôs, com a tecnologia fornecida pelo NVIDIA Jetson AGX Xavier, realiza até 32 trilhões de operações por segundo de desempenho no caso de tarefas de visão computacional, como percepção, estimativa de pose e planejamento de rotas.

A inferência de AI também está sendo aplicada dentro dos carros. No final de abril, a chinesa Xpeng divulgou o P7, um novo sedan esportivo totalmente elétrico que usa o NVIDIA DRIVE AGX Xavier para oferecer recursos avançados de condução automatizada, usando a inferência em dados de um conjunto de sensores.

O desempenho da inferência na plataforma de data center da NVIDIA aumentou quase 50 vezes nos últimos três anos, graças, em grande parte, ao desenvolvimento de Tensor Cores, às otimizações contínuas de software no TensorRT e à aceleração de estruturas de AI, como a PyTorch e a TensorFlow.

Médicos especialistas de todo o mundo ministraram diversas palestras na GTC de 2020 sobre o uso da AI na radiologia, genômica, microscopia e outros campos da saúde. Na palestra de Geraldine McGinty, diretora do Colégio Americano de Radiologia, a médica referiu-se à AI como uma “oportunidade única dessa geração” para melhorar a qualidade do tratamento e reduzir os custos.

No setor agrícola, há um número cada vez maior de startups usando AI para aumentar a eficiência. A Rabbit Tractors, por exemplo, membro do programa NVIDIA Inception, usa módulos Jetson Nano em robôs multifuncionais para inferir o trajeto das máquinas em atividades de semeadura, pulverização ou colheita a partir de dados de câmeras e drones de LIDAR.

A lista de empresas com casos de uso de inferência acelerada por GPU segue crescendo. Nela estão a detecção de fraudes da American Express, a inspeção industrial da P&G e os mecanismos de pesquisa de gigantes da Web.

Inferência até Sete Vezes Mais Rápida na A100

O potencial da inferência em GPUs é gigantesco.

A arquitetura NVIDIA Ampere acelera a inferência em até sete vezes, graças ao recurso da GPU de várias instâncias. A compatibilidade das GPUs A100 com uma nova abordagem de esparsidade em redes neurais profundas promete ainda mais avanços. É um dos vários recursos novos da arquitetura apresentados na visão geral técnica das GPUs A100.

Há uma variedade de recursos para descobrir áreas inexploradas em que a inferência seria útil e para saber como começar essa caminhada.

Há um webinar que mostra, em detalhes, o potencial da inferência na A100. Na página dedicada à plataforma de inferência da NVIDIA, você encontra tutoriais, mais histórias de clientes e um white paper sobre a plataforma de inferência NVIDIA Triton para a implementação de modelos de AI em escala.

Na página do NVIDIA TensorRT, os usuários encontram o tempo de execução da inferência, ferramentas de otimização e amostras de código. Os modelos e contêineres pré-treinados com o código necessário para começar a usar o produto estão no catálogo de software da NGC.