Triton Facilita a Inferência de AI para Muitos Usuários

Não é preciso ter o poder de um grande deus marinho com um tridente para fazer uma AI funcionar, mas um grupo cada vez maior de empresas, desde montadoras até fornecedores de serviços em cloud, observou uma mudança radical quando começou a usar o Triton.

Nesta semana, mais de seis empresas apresentam experiências práticas em deep learning com o Servidor de Inferência NVIDIA Triton, um software livre que aplica AI na produção simplificando a forma como os modelos são executados em frameworks e GPUs ou CPUs para todas as formas de inferência.

Em uma palestra no GTC (inscrição gratuita), por exemplo, Fabian Bormann, Engenheiro de AI do Volkswagen Group, fez um tour virtual pelo Computer Vision Model Zoo, um repositório de soluções selecionadas pelas equipes internas e pelos futuros parceiros da empresa.

A montadora integrou o Triton ao Volkswagen Computer Vision Workbench para que os usuários pudessem fazer contribuições para o Model Zoo sem precisar se preocupar se elas são baseadas nos frameworks ONNX, PyTorch ou TensorFlow. O Triton simplifica o gerenciamento e a implementação de modelos, o que é fundamental para o trabalho de criação de modelos de AI da VW em ambientes novos e interessantes, segundo a descrição da apresentação de Bormann (sessão E32736) no GTC.

Salesforce se Impressiona com Benchmarks do Triton

Recentemente, a Salesforce, líder em softwares e serviços de gestão do relacionamento com o cliente, comparou o desempenho do Triton em alguns dos maiores modelos de AI do mundo, os transformadores usados para o processamento de linguagem natural.

“Além de ter um desempenho funcional excelente, o Triton vem com várias funções essenciais, como processamento dinâmico, gerenciamento de modelos e priorização de modelos. Ele é rápido e fácil de configurar e funciona em vários frameworks de deep learning, como TensorFlow e PyTorch”, afirmou Nitish Shirish Keskar, Gerente Sênior de Pesquisa da Salesforce que apresentará seu trabalho no GTC (sessão S32713).

Em uma publicação recente, Keskar explicou seu trabalho, confirmando que o Triton consegue realizar de 500 a 600 consultas por segundo (QPS – Queries per Second), além de processar 100 threads simultâneas e manter a latência inferior a 200 ms nos modelos BERT conhecidos usados para compreender fala e texto. Ele testou o Triton em modelos CTRL e GPT2-XL muito maiores e descobriu que, apesar dos bilhões de nós de redes neurais, o Triton ainda apresentou um desempenho incrível, de 32 a 35 QPS.

Uma Colaboração de Modelos com a Hugging Face

Mais de 5 mil organizações contam com a ajuda da Hugging Face e de seus 7 mil modelos de AI destinados ao processamento de linguagem natural para resumir, traduzir e analisar textos. Jeff Boudier, Diretor de Produtos, explicou no GTC (sessão S32003) como sua equipe melhorou em 100 vezes a inferência de AI nos modelos, graças a um fluxo que incorpora o Triton.

“Graças a nossa forte colaboração com a NVIDIA, os usuários podem ter o desempenho mais otimizado na execução de modelos em uma GPU”, contou Boudier.

A Hugging Face pretende combinar o Triton com o TensorRT, o software da NVIDIA para otimização de modelos de AI, a fim de reduzir o tempo de processamento de inferências com um modelo BERT para menos de 1 ms. “Seria um grande avanço, trazendo novos casos de uso com vantagens para um mercado maior”, declarou Boudier.

Implementado em Grande Escala para a Inferência de AI

A American Express usa o Triton em um serviço de AI que funciona com um requisito de latência de 2ms para detectar fraudes em tempo real em transações anuais equivalentes a US$ 1 trilhão.

Em matéria de rendimento, a Microsoft usa o Triton no serviço em cloud Azure para executar a AI por trás do GrammarLink, um editor on-line do Microsoft Word que deve atender até meio trilhão de consultas por ano.

Menos conhecida, mas digna de nota, a LivePerson, sediada em Nova York, planeja executar milhares de modelos no Triton para um serviço em cloud que oferece recursos de AI de conversação a 18 mil clientes, como a GM Financial, a Home Depot e a operadora de celulares europeia Orange.

Triton Inference Server — O Triton simplifica a tarefa de executar vários estilos de inferência com modelos baseados em diversos frameworks, mantendo o mais alto rendimento e uso do sistema.

O Diretor de Tecnologia da Intelligent Voice, sediada em Londres, apresentou no GTC (sessão S31452) o sistema LexIQal, que usa o Triton para a inferência de AI a fim de detectar fraudes em seguros e serviços financeiros.

Essas são algumas das diversas empresas que contam com a NVIDIA para a inferência de AI. Só no último ano, os usuários fizeram download do software Triton mais de 50 mil vezes.

Caráter Multiuso do Triton

O Triton também está ganhando atenção porque consegue realizar todo tipo de tarefa de inferência de AI, seja em tempo real, em modo de lote, como serviço de streaming ou até mesmo com uma cadeia ou conjunto de modelos. Essa flexibilidade elimina a necessidade de adotar e gerenciar servidores de inferência personalizados para cada tipo de tarefa.

Além disso, o Triton garante o uso intenso do sistema, distribuindo o trabalho de modo uniforme entre as GPUs, independentemente de a inferência ser executada em um serviço em cloud, em um data center local ou no edge da rede. Além disso, por ser livre e extensível, ele permite que os usuários o personalizem de acordo com as necessidades específicas deles.

A NVIDIA também continua melhorando o Triton. Um analisador de modelos adicionado recentemente avalia todas as opções para mostrar aos usuários o melhor tamanho do lote ou número de instâncias por GPU para a tarefa. Uma nova ferramenta automatiza a tarefa de validar e converter um modelo treinado no TensorFlow ou no PyTorch em um formato do TensorRT. No futuro, ela poderá converter modelos em qualquer formato de rede neural.

Conheça Nossos Parceiros de Inferência

O Triton chamou atenção de vários parceiros que usam o software em seus serviços em cloud, como Amazon, Google, Microsoft e Tencent. Outros, como Allegro, Seldon e Red Hat, usam o software em data center corporativos para workflows de MLOps, a extensão do DevOps para AI.

No GTC (sessão S33118), a Arm mostrou como adaptou o Triton a seus softwares de redes neurais que executam a inferência diretamente em gateways no edge. Dois engenheiros da Dell EMC explicaram como aumentar em 6 vezes o desempenho na análise de vídeo com o Triton (sessão S31437), e a NetApp falou sobre o trabalho de integração do Triton a seus arrays de armazenamento de estado sólido (sessão S32187).

Visite o site do GTC para saber mais e confira uma das duas sessões introdutórias (S31114, SE2690) sobre o Triton para inferência de deep learning com especialistas da NVIDIA.