Universidades Expandem os Horizontes da Pesquisa com Sistemas e Redes NVIDIA

A Universidade Metodista Meridional está impulsionando o norte do Texas para a era da AI com o NVIDIA DGX SuperPOD enquanto a Universidade Estadual do Mississippi e a Universidade A&M do Texas se preparam para navegar nas redes NVIDIA Quantum-2 e uma faculdade do Reino Unido faz o upgrade da sua rede InfiniBand.
por Gilad Shainer

Assim como o Aeroporto de Dallas/Fort Worth se tornou um centro para viajantes cruzando os Estados Unidos, a região do norte do Texas será uma porta de entrada para a AI se o pessoal da Universidade Metodista Meridional (SMU – Southern Methodist University) conseguir o que quer.

A SMU está instalando um NVIDIA DGX SuperPOD, um supercomputador acelerado que espera impulsionar projetos em machine learning para sua comunidade metropolitana em expansão, com mais de 12.000 alunos e 2.400 professores e funcionários.

É uma das três universidades do centro-sul dos EUA anunciando planos de usar as tecnologias da NVIDIA para impulsionar a pesquisa para um ritmo acelerado.

A Universidade A&M do Texas e a Universidade Estadual do Mississipi estão adotando a NVIDIA Quantum-2, nossa plataforma de rede InfiniBand de 400 Gbits/segundo, como a estrutura de base de seus últimos computadores de alto desempenho. Além disso, um supercomputador no Reino Unido fez o upgrade da sua rede InfiniBand.

O Texas Conquistou um SuperPOD

“Somos a segunda universidade nos EUA a obter um DGX SuperPOD e isso colocará essa comunidade à frente nos recursos de AI para alimentar nossos programas de graduação e parcerias corporativas”, disse Michael Hites, diretor de informações da SMU, referindo-se a um sistema instalado no início deste ano na Universidade da Flórida.

Um relatório de setembro chamou a área de Dallas de “afetada” pela falta de grandes pesquisas em AI. Ironicamente, a história chegou ao jornal local assim que a SMU estava fechando seus planos para o DGX SuperPOD.

Antecipando sua iniciativa, um relatório da SMU em março disse que AI está “no centro da transformação digital… e nenhum setor da sociedade permanecerá intocado” pela tecnologia. “O potencial para melhorias significativas na educação e no desenvolvimento da força de trabalho é enorme e contribuirá para o crescimento econômico contínuo da região”, acrescentou.

O SMU Ignite, uma campanha de arrecadação de US$1,5 bilhão iniciada em setembro, alimentará a iniciativa da AI, ajudando a impulsionar o Universidade Metodista Meridional para o primeiro lugar da pesquisa universitária nacionalmente. A universidade está contratando um diretor de inovação para ajudar a orientar o trabalho.

Criando um Cadinho Computacional

Tudo gira em torno das pessoas, diz Jason Warner, que gerencia as equipes de TI que apoiam os pesquisadores da SMU. Então, ele contratou um grupo influente de especialistas em ciência de dados para trabalhar em um novo centro no Ford Hall para Pesquisa e Inovação, um centro que Warner chama de “cadinho computacional” da SMU.

Eric Godat é o líder dessa equipe. Ele é doutor em física de partículas pela SMU, e modela estrutura nuclear usando dados do Grande Colisor de Hádrons.

Agora, ele está ajudando a estimular os alunos da SMU sobre as oportunidades do DGX SuperPOD. Como primeiro passo, ele pediu a dois alunos da universidade que construíssem um modelo em miniatura de um DGX SuperPOD usando módulos do NVIDIA Jetson.

“Queríamos dar às pessoas, especialmente aquelas de áreas não técnicas que não trabalharam com AI, uma noção do que está por vir”, disse Godat.

SMU's Jetson SuperPOD
O aluno da SMU, Connor Ozenne, ajudou a construir uma miniatura do DGX SuperPOD que foi destaque no relatório anual da universidade. Ele utiliza 16 módulos Jetson em um cluster, que serão comparados pelos alunos como se fosse um sistema TOP500.

O supercomputador de tamanho normal, composto por 20 sistemas NVIDIA DGX A100 em uma rede NVIDIA Quantum InfiniBand, poderá estar funcionando em janeiro, graças à sua arquitetura modular. Ele oferecerá incríveis 100 petaflops de potência computacional, o suficiente para lhe dar um espaço respeitável na lista TOP500 dos supercomputadores mais rápidos do mundo.

Aggies Aproveita o NVIDIA Quantum-2 InfiniBand para ACES

Cerca de 320 km ao sul, o centro de computação de alto desempenho da A&M do Texas será um dos primeiros a se conectar à plataforma NVIDIA Quantum-2 InfiniBand. O supercomputador ACES, desenvolvido pela Dell Technologies, usará a rede InfiniBand 400G para conectar pesquisadores a uma combinação de cinco aceleradores de quatro fornecedores.

O NVIDIA Quantum-2 garante que “uma única tarefa no ACES possa ser dimensionada usando todos os núcleos e aceleradores de computação.  Além do óbvio salto de 2 vezes mais rendimento do NVIDIA Quantum-1 InfiniBand em 200G, ele oferecerá um custo total de propriedade aprimorado, recursos de computação em rede aprimorados e maior dimensionamento”, disse Honggao Liu, principal pesquisador e diretor de projetos da ACES.

A A&M do Texas já fornece aos pesquisadores acesso à computação acelerada em quatro sistemas que incluem mais de 600 GPUs NVIDIA A100 Tensor Core e da geração anterior. Dois dos quatro sistemas usam uma versão anterior da tecnologia InfiniBand da NVIDIA.

A MSU Entra na Onda dos 400G

A Universidade Estadual do Mississippi também aproveitará a plataforma NVIDIA Quantum-2 InfiniBand. É a rede preferencial para um novo sistema que complementa o Orion, o maior dos quatro clusters que a universidade gerencia, tudo usando versões anteriores da InfiniBand.

Orion e o novo sistema são financiados pela Administração Oceânica e Atmosférica Nacional dos EUA (NOAA – U.S. National Oceanic and Atmospheric Administration) e construídos pela Dell. Eles conduzem o trabalho para as missões da NOAA, bem como para a pesquisa para a Universidade do Mississippi.

Orion foi listado como o quarto maior supercomputador acadêmico dos EUA quando estreou na lista TOP500 em junho de 2019.

“Estamos usando a InfiniBand em quatro gerações de supercomputadores aqui na universidade, então sabemos que ela é poderosa e madura para realizar nossas grandes tarefas com segurança”, disse Trey Breckenridge, diretor de computação de alto desempenho da Universidade do Mississippi.

“Estamos adicionando um novo sistema com o NVIDIA Quantum-2 para permanecer na liderança em HPC”, acrescentou.

As Redes Quantum Cobrem o Reino Unido

Do outro lado do oceano, no Reino Unido, o supercomputador Data Intensive da Universidade de Leicester, conhecido como sistema DIaL, foi atualizado para o NVIDIA Quantum, a versão 200G da InfiniBand.

“O DIaL foi projetado especificamente para lidar com as perguntas complexas e com uso intensivo de dados que precisam ser respondidas para entender melhor o universo ao nosso redor”, disse Mark Wilkinson, professor de astrofísica teórica na Universidade de Leicester e diretor do centro de HPC dela.

“Os requisitos intensos dessas cargas de trabalho especializadas dependem de largura de banda e latência incomparáveis que apenas a InfiniBand pode oferecer para tornar a pesquisa possível”, disse ele.

O DIaL é um dos quatro supercomputadores na unidade diRAC do Reino Unido usando a InfiniBand, incluindo o sistema Tursa da Universidade de Edimburgo.

InfiniBand Ganha Destaque em Avaliação

Em uma avaliação técnica, pesquisadores descobriram que o Tursa com aceleradores de GPU NVIDIA em uma rede Quantum demonstrou desempenho 5 vezes maior que o do sistema Tesseract somente com CPU, usando uma interconexão alternativa.

Os benchmarks de aplicações mostram que 16 nós do Tursa têm o dobro do desempenho dos 512 nós do Tesseract. A Tursa oferece 10 teraflops/nó usando 90% da largura de banda da rede com uma melhoria significativa no desempenho por kilowatt em relação ao Tesseract.

É outro exemplo de por que a maioria dos sistemas TOP500 do mundo está usando as tecnologias NVIDIA.