Fábricas de IA, Construídas de Forma Mais Inteligente: Novo Omniverse Blueprint Avança no Design e Simulação de Fábricas de IA

O blueprint, conectado às soluções Cadence, ETAP, Schneider Electric e Vertiv, permite que os engenheiros projetem, testem e otimizem uma nova geração de data centers de manufatura inteligente usando gêmeos digitais.
por Madison Huang

A IA agora é mainstream e impulsiona uma demanda sem precedentes por fábricas de IA, infraestrutura construída especificamente para treinamento e inferência de IA, e a produção de inteligência.

Muitas dessas fábricas de IA serão em escala de gigawatts. Criar uma única fábrica de IA de gigawatts é um ato extraordinário de engenharia e logística, exigindo dezenas de milhares de trabalhadores entre fornecedores, arquitetos, empreiteiros e engenheiros para construir, enviar e montar quase 5 bilhões de componentes e mais de 210.000 milhas de cabos de fibra.

Para ajudar a projetar e otimizar essas fábricas de IA, a NVIDIA revelou hoje o NVIDIA Omniverse Blueprint para design e operações de fábrica de IA no GTC.

Durante sua palestra no GTC, o fundador e CEO da NVIDIA, Jensen Huang, mostrou como a equipe de engenharia de data center da NVIDIA desenvolveu uma aplicação no Omniverse Blueprint para planejar, otimizar e simular uma fábrica de IA de 1 gigawatt. Conectadas às principais ferramentas de simulação, como Cadence Reality Digital Twin Platform e ETAP, as equipes de engenharia podem testar e otimizar energia, resfriamento e rede muito antes do início da construção.

Engenharia de Fábricas de IA: Uma Abordagem de Simulação em Primeiro Lugar

O NVIDIA Omniverse Blueprint para design e operações de fábrica de IA usa bibliotecas OpenUSD que permitem aos desenvolvedores agregar dados 3D de fontes diferentes, como o próprio edifício, sistemas de computação acelerada da NVIDIA e unidades de energia ou resfriamento de fornecedores como Schneider Electric e Vertiv.

Ao unificar o projeto e a simulação de bilhões de componentes, o projeto ajuda os engenheiros a enfrentar desafios complexos como:

  • Integração de componentes e otimização de espaço: Unificando o design e a simulação de NVIDIA DGX SuperPODs, sistemas GB300 NVL72 e seus 5 bilhões de componentes.
  • Desempenho e eficiência do sistema de refrigeração: Usando a plataforma Cadence Reality Digital Twin, acelerada pelas bibliotecas NVIDIA CUDA e Omniverse, para simular e avaliar soluções híbridas de refrigeração a ar e líquido da Vertiv e da Schneider Electric.
  • Distribuição de energia e confiabilidade: Projetando sistemas elétricos escaláveis e redundantes com ETAP para simular a eficiência e a confiabilidade do bloco de energia.
  • Topologia e lógica de rede: Ajuste fino da infraestrutura de alta largura de banda com a rede NVIDIA Spectrum-X e a plataforma NVIDIA Air.

Quebrando Silos de Engenharia com o Omniverse

Um dos maiores desafios na construção de fábricas de IA é que diferentes equipes (energia, resfriamento e rede) operam em silos, levando a ineficiências e possíveis falhas.

Usando o projeto, os engenheiros agora podem:

  • Colaborar em contexto completo: Várias disciplinas podem iterar em paralelo, compartilhando simulações ao vivo que revelam como as mudanças em um domínio afetam outro.
  • Otimizar o uso de energia: As atualizações de simulação em tempo real permitem que as equipes encontrem os projetos mais eficientes para cargas de trabalho de IA.
  • Eliminar pontos de falha: Ao validar as configurações de redundância antes da implantação, as empresas reduzem o risco de tempo de inatividade dispendioso.
  • Modelar condições do mundo real: Preveja e teste como diferentes cargas de trabalho de IA afetarão o resfriamento, a estabilidade de energia e o congestionamento da rede.

Ao integrar a simulação em tempo real entre as disciplinas, o projeto permite que as equipes de engenharia explorem várias configurações para modelar o custo de propriedade e otimizar a utilização de energia.

Simulações em Tempo Real para Tomada de Decisão Mais Rápida

Na demonstração de Huang, os engenheiros ajustam as configurações de fábrica de IA em tempo real e veem instantaneamente o impacto.

Por exemplo, um pequeno ajuste no layout de resfriamento melhorou significativamente a eficiência, um detalhe que poderia ter passado despercebido no papel. E em vez de esperar horas pelos resultados da simulação, as equipes podem testar e refinar estratégias em apenas alguns segundos.

Depois que um projeto ideal foi finalizado, o Omniverse simplificou a comunicação com fornecedores e equipes de construção, garantindo que o que é construído corresponda ao modelo, até o último detalhe.

Fábricas de IA Preparadas para o Futuro

As cargas de trabalho de IA não são estáticas. A próxima onda de aplicações de IA levará ainda mais longe as demandas de energia, resfriamento e rede. O Omniverse Blueprint para design e operações de fábrica de IA ajuda a garantir que as fábricas de IA estejam prontas, oferecendo:

  • Simulação com reconhecimento de carga de trabalho: Preveja como as mudanças nas cargas de trabalho de IA afetarão a energia e o resfriamento na escala do data center.
  • Teste de cenário de falha: Modele falhas na rede, vazamentos de resfriamento e picos de energia para garantir a resiliência.
  • Atualizações escaláveis: Planeje expansões de fábrica de IA e estime as necessidades de infraestrutura com anos de antecedência.

E ao planejar retrofits e atualizações, os usuários podem facilmente testar e simular custos e tempo de inatividade, oferecendo uma fábrica de IA preparada para o futuro.

Para os operadores de fábrica de IA, ficar à frente não é apenas uma questão de eficiência: trata-se de evitar falhas de infraestrutura que podem custar milhões de dólares por dia.

Para uma fábrica de IA de 1 gigawatt, cada dia de inatividade pode custar mais de US$ 100 milhões. Ao resolver os desafios de infraestrutura com antecedência, o blueprint reduz o risco e o tempo de implantação.

Caminho para IA Baseada em Agentes para Operação de Fábrica de IA

A NVIDIA está trabalhando na próxima evolução do projeto para expandir para operações habilitadas para IA, trabalhando com empresas importantes como Vertech e Phaidra.

A Vertech está colaborando com a equipe de engenharia do data center da NVIDIA no avançado sistema de controle de fábrica de IA da NVIDIA, que integra dados de IT e tecnologia operacional para aumentar a resiliência e a visibilidade operacional.

A Phaidra está trabalhando com a NVIDIA para integrar agentes de IA de aprendizado por reforço ao Omniverse. Esses agentes otimizam a estabilidade térmica e a eficiência energética por meio de simulação de cenários em tempo real, criando gêmeos digitais que se adaptam continuamente às mudanças nas condições ambientais e de hardware.

O Boom do Data Center de IA

A IA está remodelando o cenário global do data center. Com US$ 1 trilhão projetado para atualizações de data center orientadas por IA, a tecnologia de gêmeos digitais não é mais opcional, é essencial.

O NVIDIA Omniverse Blueprint para design e operações de fábrica de IA está pronto para ajudar a NVIDIA e seu ecossistema de parceiros a liderar essa transformação, ajudando os operadores de fábrica de IA a se manterem à frente das cargas de trabalho de IA em constante evolução, minimizar o tempo de inatividade e maximizar a eficiência.

Saiba mais sobre o NVIDIA Omniverse, assista ao keynote do GTC, inscreva-se na sessão do GTC da Cadence para ver o Omniverse Blueprint em ação e leia mais sobre as fábricas de IA.

Consulte o aviso sobre informações sobre produtos de software.