A equipe de Jiusheng Chen acabou de acelerar.
Eles estão oferecendo anúncios personalizados aos usuários do Microsoft Bing com taxa de transferência de 7 vezes a custo reduzido, graças ao Servidor de Inferência NVIDIA Triton executado em GPUs NVIDIA A100 Tensor Core.
É uma conquista incrível para o principal gerente de engenharia de software e sua equipe.
Ajustando Um Sistema Complexo
O serviço de anúncios do Bing usa centenas de modelos que estão em constante evolução. Cada um deve responder a uma solicitação em apenas 10 milissegundos, cerca de 10 vezes mais rápido do que um piscar de olhos.
A mais recente aceleração começou com duas inovações que a equipe entregou para fazer os modelos de IA funcionarem mais rápido: Bang e EL-Attention.
Juntos, eles aplicam técnicas sofisticadas para fazer mais trabalho em menos tempo com menos memória do computador. O treinamento de modelo foi baseado no Azure Machine Learning para eficiência.
Voando com NVIDIA A100 MIG
Em seguida, a equipe atualizou o serviço de anúncios de GPUs NVIDIA T4 para A100.
O recurso mais recente Multi-Instance GPU (MIG) permite que os usuários dividam uma GPU em várias instâncias.
A equipe de Chen maximizou o recurso MIG, transformando uma A100 física em sete independentes. Isso permitiu que a equipe obtivesse uma taxa de transferência de 7 vezes por GPU com resposta de inferência em 10ms.
Software Flexível, Fácil e Aberto
O Triton permitiu a mudança, em parte, porque permite que os usuários executem simultaneamente diferentes softwares de tempo de execução, frameworks e modos de IA em instâncias isoladas de uma única GPU.
O software de inferência vem em um contêiner de software, por isso é fácil de implantar. E o Triton de código aberto, também disponível com segurança e suporte de nível empresarial por meio do NVIDIA AI Enterprise, é apoiado por uma comunidade que torna o software melhor ao longo do tempo.
Acelerar o sistema de anúncios do Bing com Triton em GPUs A100 é um exemplo do que Chen gosta em seu trabalho. Ele consegue testemunhar avanços com a IA.
Embora os cenários muitas vezes mudem, o objetivo da equipe permanece o mesmo: criar uma vitória para seus usuários e anunciantes.