Novo Software da NVIDIA para Infraestrutura Blackwell Executa Fábricas de IA na Velocidade da Luz

O software NVIDIA Mission Control, agora disponível para sistemas NVIDIA DGX e em breve nos principais fornecedores de sistemas, aumenta a utilização da GPU em 5 vezes e melhora a eficiência de treinamento e inferência em qualquer escala.
por Charlie Boyle

A era industrial foi impulsionada pelo vapor. A era digital trouxe uma mudança por meio do software. Agora, a era da IA é marcada pelo desenvolvimento da IA generativa, IA baseada em agentes e raciocínio de IA, que permite que os modelos processem mais dados para aprender e raciocinar para resolver problemas complexos.

Assim como as fábricas industriais transformam matérias-primas em mercadorias, as empresas modernas exigem que as fábricas de IA transformem rapidamente os dados em insights escaláveis, precisos e confiáveis.

Orquestrar essa nova infraestrutura é muito mais complexo do que construir fábricas movidas a vapor. Modelos de última geração exigem recursos em escala de supercomputação. Qualquer tempo de inatividade corre o risco de atrapalhar semanas de progresso e reduzir a utilização da GPU.

Para permitir que empresas e desenvolvedores gerenciem e executem fábricas de IA na velocidade da luz, a NVIDIA anunciou hoje na  conferência global de IA NVIDIA GTC o NVIDIA Mission Control: a única plataforma unificada de software de operações e orquestração que automatiza o gerenciamento complexo de data centers e cargas de trabalho de IA.

O NVIDIA Mission Control aprimora todos os aspectos das operações de fábrica de IA. Desde a configuração de implantações até a validação da infraestrutura e a operação de cargas de trabalho do desenvolvedor, seus recursos ajudam as empresas a colocar os modelos de fronteira em funcionamento mais rapidamente.

Ele foi projetado para fazer a transição fácil dos sistemas baseados na NVIDIA Blackwell do pré-treinamento para o pós-treinamento e, agora, o dimensionamento do tempo de teste com velocidade e eficiência. O software permite que as empresas alternem facilmente entre cargas de trabalho de treinamento e inferência em seus sistemas NVIDIA DGX baseados em Blackwell e sistemas NVIDIA Grace Blackwell, realocando dinamicamente os recursos do cluster para atender às prioridades em constante mudança.

Além disso, o Mission Control inclui  a tecnologia NVIDIA Run:ai para simplificar as operações e a orquestração de tarefas para desenvolvimento, treinamento e inferência, aumentando a utilização da infraestrutura em até 5 vezes.

Os recursos de recuperação autônoma do Mission Control, suportados por pontos de verificação rápidos e recursos automatizados de reinicialização em camadas, podem oferecer recuperação de trabalho até 10 vezes mais rápida em comparação com os métodos tradicionais que dependem de intervenção manual, aumentando o treinamento de IA e a eficiência de inferência para manter as aplicações de IA em operação.

Construído com base em décadas de experiência em supercomputação da NVIDIA, o Mission Control permite que as empresas simplesmente executem modelos, minimizando o tempo gasto no gerenciamento da infraestrutura de IA. Ele automatiza o ciclo de vida da infraestrutura de fábrica de IA para todos os sistemas NVIDIA DGX baseados em NVIDIA Blackwell e sistemas NVIDIA Grace Blackwell da Dell Technologies, Hewlett Packard Enterprise (HPE), Lenovo e Supermicro para tornar a infraestrutura avançada de IA mais acessível às indústrias mundiais.

As empresas podem simplificar e acelerar ainda mais as implantações dos sistemas NVIDIA DGX GB300 e DGX B300 usando o Mission Control com o serviço NVIDIA Instant AI Factory pré-configurado nos data centers prontos para IA da Equinix em 45 mercados em todo o mundo.

Software Avançado Fornece Supervisão Ininterrupta da Infraestrutura das Empresas

O Mission Control automatiza o gerenciamento de infraestrutura de ponta a ponta, incluindo provisionamento, monitoramento e diagnóstico de erros, para fornecer operações ininterruptas. Além disso, ele monitora continuamente todas as camadas do stack de aplicações e infraestrutura para prever e identificar fontes de tempo de inatividade e ineficiência, economizando tempo, energia e custos.

Os benefícios adicionais do software NVIDIA Mission Control incluem:

  • Configuração e provisionamento simplificados do cluster com novas interfaces de automação e programação de aplicações padronizadas para acelerar o tempo de implantação com gerenciamento e visualizações de inventário integrados.
  • Orquestração de carga de trabalho perfeita para workflows simplificados do Slurm e do Kubernetes.
  • Perfis de energia otimizados para energia para equilibrar os requisitos de energia e ajustar o desempenho da GPU para vários tipos de carga de trabalho com controles selecionáveis pelo desenvolvedor.
  • Recuperação autônoma de tarefas para identificar, isolar e recuperar ineficiências sem intervenção manual para maximizar a produtividade do desenvolvedor e a resiliência da infraestrutura.
  • Painéis personalizáveis que rastreiam os principais indicadores de desempenho com acesso a dados críticos de telemetria sobre clusters.
  • Verificações de integridade sob demanda para validar o desempenho do hardware e do cluster em todo o ciclo de vida da infraestrutura.
  • Integração de gerenciamento de edifícios para coordenação aprimorada com sistemas de gerenciamento de edifícios para fornecer mais controle para eventos de energia e resfriamento, incluindo detecção rápida de vazamentos.

Os Principais Fabricantes de Sistemas Trazem o NVIDIA Mission Control para os Servidores Blackwell

Os principais fabricantes de sistemas planejam oferecer sistemas NVIDIA GB200 NVL72 e GB300 NVL72 com NVIDIA Mission Control.

A Dell planeja oferecer o software NVIDIA Mission Control como parte da Dell AI Factory com a NVIDIA.

“A revolução industrial da IA exige uma infraestrutura eficiente que se adapte tão rápido quanto os negócios evoluem, e a Dell AI Factory com a NVIDIA oferece computação, rede, armazenamento e suporte abrangentes”, disse Ihab Tarazi, diretor de tecnologia e vice-presidente sênior da Dell Technologies. “A combinação do software NVIDIA Mission Control e dos servidores Dell PowerEdge XE9712 e XE9680 ajuda as empresas a dimensionar modelos sem esforço para atender às demandas de treinamento e inferência, transformando dados em insights acionáveis mais rápido do que nunca.”

A HPE oferecerá os sistemas NVIDIA GB200 NVL72 da HPE e GB300 NVL72 da HPE com o software NVIDIA Mission Control.

“Estamos ajudando provedores de serviços e empresas de ponta a implantar, dimensionar e otimizar rapidamente clusters complexos de IA capazes de treinar trilhões de modelos de parâmetros”, disse Trish Damkroger, vice-presidente sênior e gerente geral de soluções de infraestrutura de HPC e IA da HPE. “Como parte de nossa colaboração com a NVIDIA, forneceremos sistemas em escala de rack NVIDIA Grace Blackwell e software Mission Control com os serviços globais da HPE e a experiência direta em refrigeração líquida para impulsionar a nova era da IA.”

A Lenovo planeja atualizar seu Lenovo Hybrid AI Advantage com sistemas NVIDIA para incluir o software NVIDIA Mission Control.

“Trazer o software NVIDIA Mission Control para o Lenovo Hybrid AI Advantage com sistemas NVIDIA capacita as empresas a navegar pelas demandas de cargas de trabalho de IA generativa e baseada em agentes com agilidade incomparável”, disse Brian Connors, vice-presidente mundial e gerente geral do segmento corporativo e SMB e IA, grupo de soluções de infraestrutura, na Lenovo. “Ao automatizar a orquestração da infraestrutura e permitir transições perfeitas entre cargas de trabalho de treinamento e inferência, a Lenovo e a NVIDIA estão ajudando os clientes a dimensionar a inovação de IA na velocidade dos negócios.”

A Supermicro planeja incorporar o software NVIDIA Mission Control em seus sistemas Supercluster.

“A Supermicro tem orgulho de se unir à NVIDIA em um sistema Grace Blackwell NVL72 que é totalmente suportado pelo software NVIDIA Mission Control”, disse Cenly Chen, diretor de crescimento da Supermicro. “Executado nos sistemas AI SuperCluster da Supermicro com NVIDIA Grace Blackwell, o software NVIDIA Mission Control oferece aos clientes um conjunto de software de gerenciamento contínuo para maximizar o desempenho nos sistemas NVIDIA GB200 NVL72 atuais e em plataformas futuras, como NVIDIA GB300 NVL72.”

Base Command Manager Oferece Início Gratuito para Gerenciamento de Clusters de IA

Para ajudar as empresas no gerenciamento de infraestrutura, espera-se que o software NVIDIA Base Command Manager esteja disponível gratuitamente em breve para até oito aceleradores por sistema, para qualquer tamanho de cluster, com a opção de adquirir o Suporte Empresarial NVIDIA separadamente.

Disponibilidade

O NVIDIA Mission Control para sistemas NVIDIA DGX GB200 e DGX B200 já está disponível. Espera-se que os sistemas NVIDIA GB200 NVL72 com Mission Control estejam disponíveis em breve na Dell, HPE, LeNewfonovo e Supermicro.

Espera-se que o NVIDIA Mission Control esteja disponível para os mais recentes sistemas NVIDIA DGX GB300 e DGX B300, bem como sistemas GB300 NVL72 dos principais fornecedores globais, ainda este ano.

Consulte o aviso sobre informações sobre produtos de software.