O Que É Uma SuperNIC?

Uma SuperNIC é um tipo de aceleradora de rede para data centers em nuvem de IA que oferece conectividade robusta e perfeita entre servidores GPU.
por Itay Ozery

A IA generativa é a mais recente virada no cenário digital em rápida mudança. Uma das inovações inovadoras que tornam isso possível é um termo relativamente novo: SuperNIC.

O Que É Uma SuperNIC?

SuperNIC é uma nova classe de aceleradoras de rede projetadas para turbinar cargas de trabalho de IA de hiperescala em nuvens baseadas em Ethernet. Ela fornece conectividade de rede ultrarrápida para comunicação GPU-a-GPU, alcançando velocidades que chegam a 400Gb/s usando a tecnologia RDMA (Remote Direct Memory Access – Acesso Remoto Direto à Memória) sobre Ethernet convergente (RoCE).

As SuperNICs combinam os seguintes atributos exclusivos:

  • Reordenação de pacotes de alta velocidade para garantir que os pacotes de dados sejam recebidos e processados na mesma ordem em que foram originalmente transmitidos. Isso mantém a integridade sequencial do fluxo de dados.
  • Controle avançado de congestionamento usando dados de telemetria em tempo real e algoritmos com reconhecimento de rede para gerenciar e evitar congestionamento em redes de IA.
  • Computação programável no caminho de entrada/saída (E/S) para permitir a personalização e a extensibilidade da infraestrutura de rede em data centers em nuvem de IA.
  • Design eficiente em termos de energia e baixo perfil para acomodar com eficiência cargas de trabalho de IA dentro de orçamentos de energia restritos.
  • Otimização de IA full-stack, incluindo computação, rede, armazenamento, software de sistema, bibliotecas de comunicação e frameworks de aplicações.

A NVIDIA revelou recentemente a primeira SuperNIC do mundo adaptada para computação de IA, baseada na plataforma de rede BlueField-3. Faz parte da plataforma NVIDIA Spectrum-X, onde se integra perfeitamente com o sistema de switch Ethernet Spectrum-4.

Juntos, a NVIDIA BlueField-3 SuperNIC e o sistema de switch Spectrum-4 formam a base de uma malha de computação acelerada projetada especificamente para otimizar as cargas de trabalho de IA. O Spectrum-X oferece consistentemente altos níveis de eficiência de rede, superando os ambientes Ethernet tradicionais.

“Em um mundo onde a IA está impulsionando a próxima onda de inovação tecnológica, a BlueField-3 SuperNIC é uma engrenagem vital no maquinário”, disse Yael Shenhav, vice-presidente de produtos DPU e NIC da NVIDIA. “As SuperNICs garantem que suas cargas de trabalho de IA sejam executadas com eficiência e velocidade, tornando-as componentes fundamentais para permitir o futuro da computação de IA.”

O Cenário em Evolução da IA e das Redes

O campo da IA está passando por uma mudança sísmica, graças ao advento da IA generativa e grandes modelos de linguagem. Essas poderosas tecnologias desbloquearam novas possibilidades, permitindo que os computadores lidem com novas tarefas.

O sucesso da IA depende fortemente da computação acelerada por GPU para processar montanhas de dados, treinar grandes modelos de IA e permitir inferência em tempo real. Esse novo poder computacional abriu novas possibilidades, mas também desafiou as redes em nuvem Ethernet.

A Ethernet tradicional, a tecnologia que sustenta a infraestrutura de internet, foi concebida para oferecer ampla compatibilidade e conectar aplicações fracamente acopladas. Ela não foi projetada para lidar com as exigentes necessidades computacionais das cargas de trabalho de IA modernas, que envolvem processamento paralelo fortemente acoplado, transferências rápidas de dados e padrões de comunicação exclusivos, todos os quais exigem conectividade de rede otimizada.

As placas de interface de rede (NICs) fundamentais foram projetadas para computação de uso geral, transmissão universal de dados e interoperabilidade. Elas nunca foram projetados para lidar com os desafios únicos colocados pela intensidade computacional das cargas de trabalho de IA.

As NICs padrão carecem dos recursos e capacidades necessários para transferência de dados eficiente, baixa latência e o desempenho determinístico crucial para tarefas de IA. As SuperNICs, por outro lado, são construídas especificamente para cargas de trabalho de IA modernas.

Vantagens da SuperNIC em Ambientes de Computação de IA

As unidades de processamento de dados (DPUs) oferecem uma variedade de recursos avançados, oferecendo alta taxa de transferência, conectividade de rede de baixa latência e muito mais. Desde sua introdução em 2020, as DPUs ganharam popularidade no âmbito da computação em nuvem, principalmente devido à sua capacidade de descarregar, acelerar e isolar o processamento da infraestrutura do data center.

Embora DPUs e SuperNICs compartilhem uma variedade de recursos e capacidades, as SuperNICs são exclusivamente otimizadas para acelerar redes para IA. O gráfico abaixo mostra como eles se comparam:

NVIDIA BlueField SuperNIC and DPU comparison chart

O treinamento distribuído de IA e os fluxos de comunicação de inferência dependem muito da disponibilidade de largura de banda da rede para o sucesso. As SuperNICs, que se distinguem pelo seu design elegante, escalam de forma mais eficaz do que as DPUs, proporcionando impressionantes 400Gb/s de largura de banda de rede por GPU.

A proporção de 1:1 entre GPUs e SuperNICs dentro de um sistema pode melhorar significativamente a eficiência da carga de trabalho de IA, levando a maior produtividade e resultados superiores para as empresas.

O único objetivo das SuperNICs é acelerar a rede para computação em nuvem de IA. Consequentemente, ela atinge esse objetivo usando menos poder de computação do que uma DPU, o que requer recursos computacionais substanciais para descarregar aplicações de uma CPU host.

Os requisitos de computação reduzidos também se traduzem em menor consumo de energia, o que é especialmente crucial em sistemas contendo até oito SuperNICs.

Outras características distintivas da SuperNIC incluem seus recursos de rede de IA dedicados. Quando totalmente integrado a um switch NVIDIA Spectrum-4 otimizado para IA, ele oferece roteamento adaptativo, manuseio de pacotes fora de ordem e controle de congestionamento otimizado. Esses recursos avançados são fundamentais para acelerar os ambientes de nuvem de IA Ethernet.

Revolucionando a Computação em Nuvem de IA

A NVIDIA BlueField-3 SuperNIC oferece várias vantagens que a tornam fundamental para a infraestrutura pronta para IA:

  • Pico de eficiência da carga de trabalho de IA: A BlueField-3 SuperNIC foi desenvolvida especificamente para computação paralela massiva e intensiva em rede, tornando-a ideal para cargas de trabalho de IA. Ela garante que as tarefas de IA sejam executadas de forma eficiente, sem gargalos.
  • Desempenho consistente e previsível: Em data centers multilocatários onde várias tarefas são processadas simultaneamente, a BlueField-3 SuperNIC garante que o desempenho de cada trabalho e locatário seja isolado, previsível e não afetado por outras atividades de rede.
  • Infraestrutura de nuvem multilocatário segura: a segurança é uma prioridade máxima, especialmente em data centers que lidam com informações confidenciais. A BlueField-3 SuperNIC mantém altos níveis de segurança, permitindo que vários locatários coexistam enquanto mantém os dados e o processamento isolados.
  • Infraestrutura de rede extensível: A BlueField-3 SuperNIC não é limitada no escopo; é altamente flexível e adaptável a uma infinidade de outras necessidades de infraestrutura de rede.
  • Amplo suporte do fabricante de servidores: A BlueField-3 SuperNIC se encaixa perfeitamente na maioria dos servidores de classe empresarial sem consumo excessivo de energia em data centers.

Saiba mais sobre as NVIDIA BlueField-3 SuperNICs, incluindo como elas se integram nas plataformas de data center da NVIDIA, no whitepaper: Next-Generation Networking for the Next Wave of AI.