Em Alta Velocidade: TOP500 Acelera e Economiza Energia com a NVIDIA

A NVIDIA acelera oito dos dez supercomputadores mais rápidos. Sistema industrial mais rápido dos EUA, NVIDIA Selene é lançado com a melhor eficiência energética.
por Dion Harris

A nova edição da lista TOP500 de supercomputadores mais potentes do mundo apresenta o cenário atual da computação científica moderna, que abrange AI, análise de dados e as tecnologias de aceleração da NVIDIA.

Atualmente, oito dos dez principais supercomputadores do mundo usam GPUs NVIDIA, rede InfiniBand ou ambas. Entre eles, estão os sistemas mais potentes dos Estados Unidos, da Europa e da China.

A NVIDIA, que adquiriu a Mellanox, é responsável por 2/3 (333) de todos os sistemas presentes na edição mais atual da lista TOP500, um aumento considerável em relação à lista de junho de 2017, em que os sistemas das duas empresas juntas representavam menos da metade (203) dos selecionados.

Quase 3/4 (73%) dos novos sistemas InfiniBand da lista adotaram o HDR 200G InfiniBand da NVIDIA Mellanox, mostrando que adaptadores inteligentes adotaram as taxas de dados mais atuais rapidamente.

O número de sistemas TOP500 que usam a HDR InfiniBand praticamente dobrou desde a lista de novembro de 2019. No geral, a InfiniBand se encontra em 141 supercomputadores da lista, um aumento de até 12% em relação a junho de 2019.

Um número cada vez maior de sistemas TOP500 está adotando as GPUs NVIDIA, as redes Mellanox ou ambas as tecnologias.

A InfiniBand e as redes Ethernet da NVIDIA Mellanox são usadas em 305 (61%) sistemas dos supercomputadores da TOP500, inclusive todos os 141 sistemas com InfiniBand e 164 (63%) dos sistemas com Ethernet.

No quesito eficiência energética, os sistemas com GPUs NVIDIA estão à frente da maioria. Em média, eles são até 2,8 vezes mais eficientes do que sistemas sem GPUs NVIDIA, avaliados em gigaflops/watt.

É um dos motivos pelos quais as GPUs NVIDIA são usadas em 20 dos 25 principais supercomputadores da lista Green500.

O computador que melhor exemplifica essa eficiência energética é o Selene (imagem acima), o integrante mais atual do cluster interno de pesquisa da NVIDIA. O sistema garantiu o segundo lugar na lista Green500 mais atual e o sétimo lugar na TOP500 geral, com 27,5 petaflops no benchmark Linpack.

Com 20,5 gigaflops/watt, o Selene está a um passo de ocupar o primeiro lugar da lista Green500, atualmente ocupado por um sistema muito menor que figurou em 394º lugar na categoria de desempenho.

O Selene é o único dos 100 principais sistemas a ultrapassar a marca de 20 gigaflops/watt. Também é o segundo supercomputador industrial mais potente do mundo, logo após o sistema da gigante italiana de energia Eni S.p.A., que ficou em 6º lugar e também usa GPUs NVIDIA.

As GPUs NVIDIA são responsáveis por aumentar a eficiência energética dos supercomputadores da TOP500.

No quesito consumo de energia, o Selene é 6,8 vezes mais eficiente do que um sistema médio sem GPUs NVIDIA da TOP500. Seu desempenho e sua eficiência energética se devem aos Tensor Cores de terceira geração das GPUs NVIDIA A100, que aceleram o processamento tradicional de 64 bits em simulações e tarefas de AI de menor precisão.

A classificação do Selene nas listas é uma grande conquista para o sistema, que foi desenvolvido em menos de quatro semanas. Os engenheiros conseguiram montá-lo nessa velocidade porque usaram a arquitetura de referência modular da NVIDIA.

O guia define o que a NVIDIA chama de DGX SuperPOD. Ele foi desenvolvido com um componente poderoso e flexível dos data centers modernos: o sistema NVIDIA DGX A100.

Já disponível, o DGX A100 é um sistema ágil com oito GPUs A100 em um servidor 6U e com redes NVIDIA Mellanox HDR InfiniBand. Ele foi criado para acelerar tarefas de computação de alto desempenho (HPC), análise de dados e AI, inclusive as de treinamento e inferência, e agilizar a implementação.

De Sistemas a SuperPODs

Com o design de referência, qualquer empresa pode instalar um cluster de computação de nível internacional rapidamente. Ele mostra como conectar 20 sistemas DGX A100 como peças de Lego usando switches NVIDIA Mellanox InfiniBand de alto desempenho.

Hoje, a InfiniBand acelera sete dos dez principais supercomputadores, inclusive os sistemas mais potentes da China, da Europa e dos EUA.

Quatro operadores podem instalar um cluster de 20 sistemas DGX A100 em um rack em menos de uma hora, criando um sistema de 2 petaflops avançado o suficiente para ocupar um lugar na lista TOP500. Os sistemas foram desenvolvidos para funcionar tranquilamente dentro das restrições de energia e temperatura de data centers padrão.

Com a instalação de mais um grupo de switches NVIDIA Mellanox InfiniBand, os engenheiros conectaram 14 dessas unidades de 20 sistemas para criar o Selene, que conta com:

280 sistemas DGX A100

2.240 GPUs NVIDIA A100

494 switches InfiniBand Quantum 200G NVIDIA Mellanox

Fabric de rede de 56 TB/s

7 PB de armazenamento totalmente flash de alto desempenho

Uma das características mais interessantes do Selene é sua capacidade de oferecer um desempenho de mais de um 1 exaflop em tarefas de AI. Ele também estabeleceu um novo recorde com apenas 16 sistemas DGX A100 em um dos principais benchmarks de análise de dados, o TPCx-BB, oferecendo um desempenho 20 vezes melhor do que o de outros sistemas.

Esses resultados são extremamente relevantes, visto que a AI e a análise estão se tornando alguns dos novos requisitos na computação científica.

Pesquisadores de todo o mundo estão usando o deep learning e a análise de dados para prever as áreas mais produtivas para a realização de experimentos. A abordagem reduz o número de experimentos caros e demorados que os pesquisadores precisam realizar, agilizando os resultados científicos.

Seis sistemas que ainda não estão na lista TOP500, por exemplo, estão sendo criados neste momento com as GPUs A100 que a NVIDIA lançou no mês passado. Elas acelerarão uma série de tarefas de HPC e AI que definirão a nova era da ciência.

TOP500 Amplia o Cenário da Computação Científica

Um dos sistemas é o do Laboratório Nacional Argonne, no qual os pesquisadores usarão um cluster de 24 sistemas NVIDIA DGX A100 para estudar bilhões de medicamentos à procura de tratamentos para a COVID-19.

“É difícil simular a maioria desses experimentos em um computador, então usamos a AI para determinar, de maneira inteligente, onde e quando realizaremos o próximo teste”, afirmou Arvind Ramanathan, Bióloga Computacional da Argonne, em um relatório sobre os primeiros usuários das GPUs A100.

A AI, a análise de dados e a transmissão no edge estão redefinindo a computação científica.

O Centro Nacional de Computação Científica para a Pesquisa Energética (NERSC – National Energy Research Scientific Computing Center) dos EUA está aplicando a AI em vários projetos voltados para o Perlmutter, seu sistema pré-exaescala com 6,2 mil GPUs A100.

Em um projeto, por exemplo, será usada aprendizagem por reforço para controlar experimentos de fontes de luz e, em outro, modelos gerativos serão aplicados para reproduzir simulações de alto custo em detectores de partículas.

Pesquisadores de Munique estão treinando modelos de linguagem natural em 6 mil GPUs do supercomputador Summit para acelerar a análise das proteínas do coronavírus. É mais um sinal de que os principais sistemas da TOP500 estão fazendo muito mais do que simulações tradicionais com cálculos de precisão dupla.

Além de estarem usando deep learning e análise cada vez mais, os cientistas estão explorando serviços de computação em cloud e até mesmo a transmissão de dados de instrumentos remotos no edge da rede. Esses elementos formam, em conjunto, os quatro fundamentos da computação científica moderna que a NVIDIA acelera:

  • Simulação: no combate à COVID-19, pesquisadores do Laboratório Nacional de Oak Ridge estão simulando mais de 2 bilhões de compostos em 24 horas, usando o AutoDock em GPUs do supercomputador Summit.
  • AI e análise de dados: agora, as GPUs do Spark 3.0 estão acelerando as tarefas fundamentais e demoradas do front-end do pipeline de machine learning.
  • Transmissão de dados científicos no edge: recentemente, a Organização Europeia para a Pesquisa Nuclear anunciou que as GPUs NVIDIA reduzirão em 500 vezes o volume gigantesco de dados produzidos por eventos de colisão de partículas no Grande Colisor de Hádrons.
  • Visualização: os programas de software IndeX e Magnum IO da NVIDIA ajudam profissionais a ter uma visualização do Mars Lander, a maior visualização volumétrica interativa em tempo real do mundo.

Essa iniciativa faz parte de uma tendência maior, na qual pesquisadores e empresas buscam acelerar a AI e a análise do cloud ao edge da rede. É por isso que as maiores operadoras de serviço em cloud e os principais fabricantes do mundo estão adotando GPUs NVIDIA.

Com isso, a lista TOP500 mais atual reflete a tentativa da NVIDIA de democratizar a AI e a HPC. Toda empresa que deseja criar recursos líderes de computação pode ter acesso às tecnologias da NVIDIA, como os sistemas DGX, que otimizam os sistemas mais potentes do mundo.

Por fim, a NVIDIA parabeniza os engenheiros por trás do supercomputador japonês Fugaku por garantir o 1º lugar na lista, mostrando que a arquitetura ARM está cada vez mais real e que já é uma opção viável na computação de alto desempenho. Esse é um dos motivos pelos quais a NVIDIA, no ano passado, anunciou que disponibilizará o software de computação acelerado por CUDA para a arquitetura de processador ARM.