Microsoft Bing Acelera a Veiculação de Anúncios com NVIDIA Triton

O software de inferência permite a mudança para GPUs NVIDIA A100 Tensor Core, oferecendo taxa de transferência de 7 vezes para o gigante das buscas.
por Shankar Chandrasekaran

A equipe de Jiusheng Chen acabou de acelerar.

Eles estão oferecendo anúncios personalizados aos usuários do Microsoft Bing com taxa de transferência de 7 vezes a custo reduzido, graças ao Servidor de Inferência NVIDIA Triton executado em GPUs NVIDIA A100 Tensor Core.

É uma conquista incrível para o principal gerente de engenharia de software e sua equipe.

Ajustando Um Sistema Complexo

O serviço de anúncios do Bing usa centenas de modelos que estão em constante evolução. Cada um deve responder a uma solicitação em apenas 10 milissegundos, cerca de 10 vezes mais rápido do que um piscar de olhos.

A mais recente aceleração começou com duas inovações que a equipe entregou para fazer os modelos de IA funcionarem mais rápido: Bang e EL-Attention.

Juntos, eles aplicam técnicas sofisticadas para fazer mais trabalho em menos tempo com menos memória do computador. O treinamento de modelo foi baseado no Azure Machine Learning para eficiência.

Voando com NVIDIA A100 MIG

Em seguida, a equipe atualizou o serviço de anúncios de GPUs NVIDIA T4 para A100.

O recurso mais recente Multi-Instance GPU (MIG) permite que os usuários dividam uma GPU em várias instâncias.

A equipe de Chen maximizou o recurso MIG, transformando uma A100 física em sete independentes. Isso permitiu que a equipe obtivesse uma taxa de transferência de 7 vezes por GPU com resposta de inferência em 10ms.

Software Flexível, Fácil e Aberto

O Triton permitiu a mudança, em parte, porque permite que os usuários executem simultaneamente diferentes softwares de tempo de execução, frameworks e modos de IA em instâncias isoladas de uma única GPU.

O software de inferência vem em um contêiner de software, por isso é fácil de implantar. E o Triton de código aberto, também disponível com segurança e suporte de nível empresarial por meio do NVIDIA AI Enterprise, é apoiado por uma comunidade que torna o software melhor ao longo do tempo.

Acelerar o sistema de anúncios do Bing com Triton em GPUs A100 é um exemplo do que Chen gosta em seu trabalho. Ele consegue testemunhar avanços com a IA.

Embora os cenários muitas vezes mudem, o objetivo da equipe permanece o mesmo: criar uma vitória para seus usuários e anunciantes.