A Meta Trabalha com NVIDIA para Construir Supercomputador de Pesquisa de AI

O supercomputador de AI da Meta, o maior sistema de cliente NVIDIA DGX A100 até o momento, fornecerá aos pesquisadores da Meta AI 5 exaflops de desempenho de AI e apresenta sistemas NVIDIA de ponta, malha InfiniBand e software que permitem a otimização em milhares de GPUs.
por Charlie Boyle

A Meta Platforms deu um grande sinal de positivo para a NVIDIA, escolhendo nossas tecnologias para o que acredita ser seu sistema de pesquisa mais poderoso até hoje.

O AI Research SuperCluster (RSC), anunciado hoje, já está treinando novos modelos para avançar a IA.

Uma vez totalmente implantado, espera-se que o RSC da Meta seja a maior instalação do cliente de sistemas NVIDIA DGX A100.

“Esperamos que a RSC nos ajude a construir sistemas de AI totalmente novos que possam, por exemplo, fornecer traduções de voz em tempo real para grandes grupos de pessoas, cada uma falando em um idioma diferente, para que possam colaborar perfeitamente em um projeto de pesquisa ou jogar um game de realidade aumentada. juntos”, disse a empresa em um blog.

 Treinando os Maiores Modelos de AI

Quando o RSC estiver totalmente construído, ainda este ano, a Meta pretende usá-lo para treinar modelos de AI com mais de um trilhão de parâmetros. Isso poderia avançar em campos como processamento de linguagem natural para trabalhos como identificar conteúdo prejudicial em tempo real.

Além do desempenho em escala, a Meta citou extrema confiabilidade, segurança, privacidade e flexibilidade para lidar com “uma ampla variedade de modelos de AI” como seus principais critérios para o RSC.

Meta RSC system
O AI Research SuperCluster da Meta apresenta centenas de sistemas NVIDIA DGX vinculados a uma rede NVIDIA Quantum InfiniBand para acelerar o trabalho de suas equipes de pesquisa de AI.

Sob o Capô

O novo supercomputador de IA atualmente usa 760 sistemas NVIDIA DGX A100 como seus nós de computação. Eles incluem um total de 6.080 GPUs NVIDIA A100 conectadas em uma rede NVIDIA Quantum 200Gb/s InfiniBand para fornecer 1.895 petaflops de desempenho TF32.

Apesar dos desafios do COVID-19, o RSC levou apenas 18 meses para passar de uma ideia no papel a um supercomputador de AI funcional, graças em parte à tecnologia NVIDIA DGX A100 na base do Meta RSC.

A Penguin Computing é nossa parceira de entrega da Rede de Parceiros NVIDIA para RSC. Além dos 760 sistemas DGX A100 e da rede InfiniBand, a Penguin forneceu serviços gerenciados e infraestrutura otimizada para AI para a Meta composta por 46 petabytes de armazenamento em cache com seus sistemas Altus. Pure Storage FlashBlade e FlashArray//C fornecem os recursos de armazenamento totalmente em flash escaláveis e de alto desempenho necessários para alimentar o RSC.

Ganhos de Desempenho de 20 Vezes

É a segunda vez que a Meta escolhe as tecnologias NVIDIA como base para sua infraestrutura de pesquisa. Em 2017, a Meta construiu a primeira geração dessa infraestrutura para pesquisa de AI com 22.000 GPUs NVIDIA V100 Tensor Core que lidam com 35.000 trabalhos de treinamento de AI por dia.

Os primeiros benchmarks da Meta mostraram que o RSC pode treinar grandes modelos de PNL 3 vezes mais rápido e executar trabalhos de visão computacional 20 vezes mais rápido que o sistema anterior.

Em uma segunda fase ainda este ano, a RSC expandirá para 16.000 GPUs que a Meta acredita que fornecerão 5 exaflops impressionantes de desempenho de IA de precisão mista. E a Meta pretende expandir o sistema de armazenamento da RSC para fornecer até um exabyte de dados a 16 terabytes por segundo.

Uma Arquitetura Escalável

As tecnologias de AI da NVIDIA estão disponíveis para empresas de qualquer tamanho.

O NVIDIA DGX, que inclui um pacote completo do software de AI da NVIDIA, pode ser dimensionado facilmente de um único sistema para um DGX SuperPOD executado no local ou em um provedor de colocation. Os clientes também podem alugar sistemas DGX através da NVIDIA DGX Foundry.