Apresentando a NVIDIA HGX H100: uma Plataforma de Servidor Acelerada para AI e Computação de Alto Desempenho

por William Tsu

A missão da NVIDIA é acelerar o trabalho dos Da Vincis e Einsteins do nosso tempo e capacitá-los a resolver os grandes desafios da sociedade. Com a complexidade da inteligência artificial (AI – Artificial Intelligence), da computação de alto desempenho (HPC – High-Performance Computing) e da análise de dados aumentando exponencialmente, os cientistas precisam de uma plataforma de computação avançada capaz de impulsionar acelerações na escala de milhões, em uma única década, para resolver esses desafios extraordinários.

Para atender a essa necessidade, apresentamos a NVIDIA HGX H100, um componente de servidores de GPUs essencial com a tecnologia da Arquitetura Nvidia Hopper. Essa plataforma de última geração oferece alto desempenho com baixa latência com segurança e integra um pacote completo de recursos, da rede à computação na escala do data center, a nova unidade de computação.

Nesta publicação, falaremos sobre como a NVIDIA HGX H100 está ajudando a dar o próximo grande salto em nossa plataforma acelerada de data center de computação.

HGX H100 de 8 GPUs

A HGX H100 de 8 GPUs representa o componente fundamental do novo servidor de GPUs da geração Hopper. Ela conta com oito GPUs H100 Tensor Core e quatro NVSwitch de terceira geração. Cada GPU H100 tem várias portas NVLink de quarta geração e se conecta aos quatro NVSwitches.  Cada NVSwitch é um switch totalmente sem bloqueio que conecta totalmente as oito GPUs H100 Tensor Core.

The HGX H100 8-GPU represents the key building block of the new Hopper generation GPU server and hosts eight H100 Tensor Core GPUs and four third generation NVSwitch.
Figura 1. Diagrama de blocos de alto nível da HGX H100 de 8 GPUs

Essa topologia totalmente conectada do NVSwitch permite que qualquer H100 fale com qualquer outra H100 simultaneamente. Notavelmente, essa comunicação é executada na velocidade bidirecional NVLink de 900 gigabytes por segundo (GB/s), que é mais de 14 vezes a largura de banda do barramento PCIe Gen4 x16 atual.

O NVSwitch de terceira geração também oferece nova aceleração de hardware para operações coletivas com reduções multicast e NVIDIA SHARP em rede. Combinando com a velocidade mais rápida do NVLink, a largura de banda efetiva para operações coletivas de AI comuns, como a redução total, aumenta em 3 vezes em comparação com a HGX A100. A aceleração do NVSwitch dos coletivos também reduz significativamente a carga na GPU.

HGX A100 de 8 GPUs HGX H100 de 8 GPUs Taxa de Melhoria
FP8 32.000 TFLOPS 6 vezes (em comparação à A100 FP16)
FP16 4.992 TFLOPS 16.000 TFLOPS 3 vezes
FP64 156 TFLOPS 480 TFLOPS 3 vezes
Computação em Rede 0 3,6 TFLOPS Infinite
Interface para hospedar CPU 8 PCIe Gen4 x16 8 PCIe Gen5 x16 2 vezes
Largura de Banda de Bissecção 2,4TB/s 3,6TB/s 1,5 vezes

Tabela 1. Comparando a HGX A100 de 8 GPUs com a nova HGX H100 de 8 GPUs

*Observação: o desempenho de FP inclui dispersão

HGX H100 de 8 GPUs com suporte para rede NVLink

A classe emergente de HPC de exoescala e modelos AI com trilhões de parâmetros para tarefas como AI de conversação exigem meses de treinamento, mesmo em supercomputadores. Compactar isso na velocidade das empresas e concluir o treinamento em poucas horas requer uma comunicação perfeita e de alta velocidade entre todas as GPUs de um cluster de servidores.

Para lidar com esses grandes casos de uso, o novo NVLink e o NVSwitch foram projetados para permitir que a HGX H100 de 8 GPUs seja dimensionada e compatível com um domínio NVLink muito maior com a nova rede NVLink. Outra versão da HGX H100 de 8 GPUs apresenta esse novo suporte à rede NVLink.

The HGX H100 8-GPU was designed to scale up to support a larger NVLink domain with the new NVLink-Network.
Figura 2. Diagrama de bloco de alto nível da HGX H100 8 de GPUs com suporte para rede NVLink

Os nós de sistema criados com a HGX H100 de 8 GPUs com suporte à rede NVLink podem se conectar totalmente a outros sistemas através dos cabos Octal Small Form Factor Pluggable (OSFP) e do novo Switch NVLink externo. Essa conexão permite até 256 domínios NVLink de GPU. A figura 3 mostra a topologia do cluster.

The cluster topology of the HGX H100 8-GPU with NVLink-Network support enables up to a maximum of 256 GPU NVLink domains.
Figura 3. Pod de 256 GPUs H100

 

Pod de 256 GPUs A100 Pod de 256 GPUs H100 Taxa de Melhoria
Domínio NVLINK 8 GPUs 256 GPUs 32 vezes
FP8 1.024 PFLOPS 6 vezes (em comparação à A100 FP16)
FP16 160 PFLOPS 512 PFLOPS 3 vezes
FP64 5 PFLOPS 15 PFLOPS 3 vezes
Computação em Rede 0 192 TFLOPS Infinite
Largura de Banda de Bissecção 6,4TB/s 70TB/s 11 vezes

Tabela 2. Comparando Pod de 256 GPUs A100 com Pod de 256 GPUs H100

*Observação: o desempenho de FP inclui dispersão

Direcionar casos de uso e vantagens de desempenho

Com o aumento rápido dos recursos de computação e rede da HGX H100, o desempenho das aplicações de AI e HPC é bastante aprimorado.

Os principais modelos de AI e HPC atuais podem residir totalmente na memória agregada da GPU de um único nó. Por exemplo, BERT-Large, Mask R-CNN e HGX H100 são as soluções de treinamento mais eficientes em termos de desempenho.

Para os modelos de AI e HPC mais avançados e maiores, é necessário que vários nós de memória de GPU agregada se encaixem. Por exemplo, um modelo de recomendação de deep learning (DLRM – Deep Learning Recommendation Model) com terabytes de tabelas incorporadas, um grande modelo de processamento de linguagem natural de mistura de especialistas (MoE – Mixture-of-Experts) e a HGX H100 com rede NVLink acelera o principal gargalo de comunicação e é a melhor solução para esse tipo de carga de trabalho.

A figura 4 do white paper sobre a Arquitetura da GPU NVIDIA H100 mostra o aumento adicional de desempenho possibilitado pela rede NVLink.

HPC, AI Inference, and AI Training diagrams all show the extra performance boost enabled by the NVLink-Network.
Figura 4. Ganho de desempenho de aplicações comparando diferentes configurações de sistema

Todos os números de desempenho são preliminares, com base nas expectativas atuais, e sujeitos a alterações nos produtos de transporte. Cluster de A100: rede HDR IB. Cluster de H100: rede NDR IB com rede NVLink, quando indicado.

Nº de GPUs: Modelagem Climática 1K, LQCD 1K, Genômica 8, 3D-FFT 256, MT-NLG 32 (tamanhos de lote: 4 para A100, 60 para H100 a 1 segundo, 8 para A100 e 64 para H100 a 1,5 e 2 segundos), MRCNN 8 (lote 32), GPT-3 16B 512 (lote 256), DLRM 128 (lote 64K), GPT-3 16K (lote 512), MoE 8K (lote 512, um especialista por GPU)

HGX H100 de 4 GPUs

Além da versão de 8 GPUs, a família HGX também conta com uma versão com 4 GPUs, diretamente conectada com a NVLink de quarta geração.

The HGX family also features a version with a 4-GPU which is directly connected with fourth generation NVLink.
Figura 5. Diagrama de blocos de alto nível da HGX H100 de 4 GPUs

A largura de banda NVLink de pares ponto a ponto H100 a H100 é de 300GB/s bidirecional, que é cerca de 5 vezes mais rápida do que o barramento PCIe Gen4 x16 atual.

O formato da HGX H100 de 4 GPUs é otimizado para implantação de HPC densa:

  • Várias HGX H100 de 4 GPUs podem ser integradas a um sistema de resfriamento líquido alto de 1U para maximizar a densidade de GPUs por rack.
  • A arquitetura totalmente sem switch PCIe com HGX H100 de 4 GPUs se conecta diretamente à CPU, reduzindo a conta de materiais do sistema e economizando energia.
  • Para cargas de trabalho que exigem mais da CPU, a HGX H100 de 4 GPUs pode ser pareada com dois soquetes de CPU para aumentar a relação CPU-GPU para obter uma configuração de sistema mais equilibrada.

Uma plataforma acelerada de servidores para AI e HPC

A NVIDIA está trabalhando em estreita colaboração com nosso ecossistema para trazer ao mercado a plataforma de servidores baseada na HGX H100 ainda este ano. Estamos ansiosos para colocar essa poderosa ferramenta de computação em suas mãos, permitindo que você inove e realize o trabalho de sua vida no ritmo mais rápido da história humana.