A IA agora é mainstream e impulsiona uma demanda sem precedentes por fábricas de IA, infraestrutura construída especificamente para treinamento e inferência de IA, e a produção de inteligência.
Muitas dessas fábricas de IA serão em escala de gigawatts. Criar uma única fábrica de IA de gigawatts é um ato extraordinário de engenharia e logística, exigindo dezenas de milhares de trabalhadores entre fornecedores, arquitetos, empreiteiros e engenheiros para construir, enviar e montar quase 5 bilhões de componentes e mais de 210.000 milhas de cabos de fibra.
Para ajudar a projetar e otimizar essas fábricas de IA, a NVIDIA revelou hoje o NVIDIA Omniverse Blueprint para design e operações de fábrica de IA no GTC.
Durante sua palestra no GTC, o fundador e CEO da NVIDIA, Jensen Huang, mostrou como a equipe de engenharia de data center da NVIDIA desenvolveu uma aplicação no Omniverse Blueprint para planejar, otimizar e simular uma fábrica de IA de 1 gigawatt. Conectadas às principais ferramentas de simulação, como Cadence Reality Digital Twin Platform e ETAP, as equipes de engenharia podem testar e otimizar energia, resfriamento e rede muito antes do início da construção.
Engenharia de Fábricas de IA: Uma Abordagem de Simulação em Primeiro Lugar
O NVIDIA Omniverse Blueprint para design e operações de fábrica de IA usa bibliotecas OpenUSD que permitem aos desenvolvedores agregar dados 3D de fontes diferentes, como o próprio edifício, sistemas de computação acelerada da NVIDIA e unidades de energia ou resfriamento de fornecedores como Schneider Electric e Vertiv.
Ao unificar o projeto e a simulação de bilhões de componentes, o projeto ajuda os engenheiros a enfrentar desafios complexos como:
- Integração de componentes e otimização de espaço: Unificando o design e a simulação de NVIDIA DGX SuperPODs, sistemas GB300 NVL72 e seus 5 bilhões de componentes.
- Desempenho e eficiência do sistema de refrigeração: Usando a plataforma Cadence Reality Digital Twin, acelerada pelas bibliotecas NVIDIA CUDA e Omniverse, para simular e avaliar soluções híbridas de refrigeração a ar e líquido da Vertiv e da Schneider Electric.
- Distribuição de energia e confiabilidade: Projetando sistemas elétricos escaláveis e redundantes com ETAP para simular a eficiência e a confiabilidade do bloco de energia.
- Topologia e lógica de rede: Ajuste fino da infraestrutura de alta largura de banda com a rede NVIDIA Spectrum-X e a plataforma NVIDIA Air.
Quebrando Silos de Engenharia com o Omniverse
Um dos maiores desafios na construção de fábricas de IA é que diferentes equipes (energia, resfriamento e rede) operam em silos, levando a ineficiências e possíveis falhas.
Usando o projeto, os engenheiros agora podem:
- Colaborar em contexto completo: Várias disciplinas podem iterar em paralelo, compartilhando simulações ao vivo que revelam como as mudanças em um domínio afetam outro.
- Otimizar o uso de energia: As atualizações de simulação em tempo real permitem que as equipes encontrem os projetos mais eficientes para cargas de trabalho de IA.
- Eliminar pontos de falha: Ao validar as configurações de redundância antes da implantação, as empresas reduzem o risco de tempo de inatividade dispendioso.
- Modelar condições do mundo real: Preveja e teste como diferentes cargas de trabalho de IA afetarão o resfriamento, a estabilidade de energia e o congestionamento da rede.
Ao integrar a simulação em tempo real entre as disciplinas, o projeto permite que as equipes de engenharia explorem várias configurações para modelar o custo de propriedade e otimizar a utilização de energia.
Simulações em Tempo Real para Tomada de Decisão Mais Rápida
Na demonstração de Huang, os engenheiros ajustam as configurações de fábrica de IA em tempo real e veem instantaneamente o impacto.
Por exemplo, um pequeno ajuste no layout de resfriamento melhorou significativamente a eficiência, um detalhe que poderia ter passado despercebido no papel. E em vez de esperar horas pelos resultados da simulação, as equipes podem testar e refinar estratégias em apenas alguns segundos.
Depois que um projeto ideal foi finalizado, o Omniverse simplificou a comunicação com fornecedores e equipes de construção, garantindo que o que é construído corresponda ao modelo, até o último detalhe.
Fábricas de IA Preparadas para o Futuro
As cargas de trabalho de IA não são estáticas. A próxima onda de aplicações de IA levará ainda mais longe as demandas de energia, resfriamento e rede. O Omniverse Blueprint para design e operações de fábrica de IA ajuda a garantir que as fábricas de IA estejam prontas, oferecendo:
- Simulação com reconhecimento de carga de trabalho: Preveja como as mudanças nas cargas de trabalho de IA afetarão a energia e o resfriamento na escala do data center.
- Teste de cenário de falha: Modele falhas na rede, vazamentos de resfriamento e picos de energia para garantir a resiliência.
- Atualizações escaláveis: Planeje expansões de fábrica de IA e estime as necessidades de infraestrutura com anos de antecedência.
E ao planejar retrofits e atualizações, os usuários podem facilmente testar e simular custos e tempo de inatividade, oferecendo uma fábrica de IA preparada para o futuro.
Para os operadores de fábrica de IA, ficar à frente não é apenas uma questão de eficiência: trata-se de evitar falhas de infraestrutura que podem custar milhões de dólares por dia.
Para uma fábrica de IA de 1 gigawatt, cada dia de inatividade pode custar mais de US$ 100 milhões. Ao resolver os desafios de infraestrutura com antecedência, o blueprint reduz o risco e o tempo de implantação.
Caminho para IA Baseada em Agentes para Operação de Fábrica de IA
A NVIDIA está trabalhando na próxima evolução do projeto para expandir para operações habilitadas para IA, trabalhando com empresas importantes como Vertech e Phaidra.
A Vertech está colaborando com a equipe de engenharia do data center da NVIDIA no avançado sistema de controle de fábrica de IA da NVIDIA, que integra dados de IT e tecnologia operacional para aumentar a resiliência e a visibilidade operacional.
A Phaidra está trabalhando com a NVIDIA para integrar agentes de IA de aprendizado por reforço ao Omniverse. Esses agentes otimizam a estabilidade térmica e a eficiência energética por meio de simulação de cenários em tempo real, criando gêmeos digitais que se adaptam continuamente às mudanças nas condições ambientais e de hardware.
O Boom do Data Center de IA
A IA está remodelando o cenário global do data center. Com US$ 1 trilhão projetado para atualizações de data center orientadas por IA, a tecnologia de gêmeos digitais não é mais opcional, é essencial.
O NVIDIA Omniverse Blueprint para design e operações de fábrica de IA está pronto para ajudar a NVIDIA e seu ecossistema de parceiros a liderar essa transformação, ajudando os operadores de fábrica de IA a se manterem à frente das cargas de trabalho de IA em constante evolução, minimizar o tempo de inatividade e maximizar a eficiência.
Saiba mais sobre o NVIDIA Omniverse, assista ao keynote do GTC, inscreva-se na sessão do GTC da Cadence para ver o Omniverse Blueprint em ação e leia mais sobre as fábricas de IA.
Consulte o aviso sobre informações sobre produtos de software.