NVIDIA Adiciona GPUs com Resfriamento Líquido para Computação Sustentável e Eficiente

Uma GPU NVIDIA A100 PCIe com resfriamento líquido é a primeira de uma linha de GPUs para servidores convencionais que respondem à demanda dos clientes por data centers verdes de alto desempenho.
por Joe Delaere

No esforço mundial de interromper as mudanças climáticas, Zac Smith faz parte de um movimento crescente para construir data centers que ofereçam alto desempenho e eficiência energética.

Ele é diretor de infraestrutura no edge da Equinix, uma provedora global de serviços que gerencia mais de 240 data centers e está comprometida em se tornar a primeira de seu setor a ser neutra em termos climáticos.

“Temos 10.000 clientes contando conosco para ajudar nessa jornada. Eles exigem mais dados e mais inteligência, muitas vezes com AI, e querem isso de forma sustentável”, disse Smith.

Marcando o Progresso na Eficiência

Em abril, a Equinix emitiu US$4,9 bilhões em títulos verdes. São instrumentos de grau de investimento que a Equinix aplicará para reduzir o impacto ambiental por meio da otimização da eficácia do uso de energia (PUE – Power Use Effectiveness), uma métrica do setor de quanto da energia que um data center usa vai diretamente para tarefas de computação.

Os operadores de data center estão tentando reduzir essa proporção para cada vez mais perto do ideal de 1,0 PUE.  As instalações da Equinix têm uma média de 1,48 PUE hoje, com seus melhores novos data centers atingindo menos de 1,2.

Equinix drives data center efficiency with liquid cooled GPUs
A Equinix está fazendo progressos constantes na eficiência energética de seus data centers, conforme medido pela PUE (inserção).

Em mais um avanço, a Equinix abriu em janeiro uma instalação dedicada para buscar avanços em eficiência energética. Uma parte desse trabalho se concentra no resfriamento líquido.

Nascido na era do mainframe, o resfriamento líquido está amadurecendo na era da AI. Ele agora é amplamente usado nos supercomputadores mais rápidos do mundo em uma forma moderna chamada resfriamento direto por chip.

O resfriamento líquido é o próximo passo na computação acelerada para GPUs NVIDIA refrigeradas a ar que já oferecem até 20x melhor eficiência energética em inferência de IA e trabalhos de computação de alta performance que as CPUs.

Eficiência pela Aceleração

Se você trocar todos os servidores somente de CPU rodando AI e HPC no mundo inteiro para sistemas acelerados por GPU, você poderia economizar 11 trilhões de watt-hora de energia por ano. Isso é como economizar a energia que mais de 1,5 milhões de residências consomem em um ano.

Hoje, a NVIDIA acrescenta a seus esforços de sustentabilidade com o lançamento de nosso primeiro centro de dados PCIe GPU usando o resfriamento direto por chip.

Equinix está qualificando a A100 80GB PCIe Liquid-Cooled GPU para uso em seus centros de dados como parte de uma abordagem abrangente para resfriamento sustentável e captura de calor. As GPUs estão sendo testadas agora e estarão disponíveis em geral neste verão.

Economizando Água e Energia

“Essa é a primeira GPU com resfriamento líquido apresentada ao nosso laboratório, e isso é empolgante para nós, porque nossos clientes estão ansiosos por formas sustentáveis de aproveitar a AI”, disse Smith.

Os operadores de data centers tem o objetivo de eliminar os refrigeradores que evaporam milhões de galões por água por ano para resfriar o ar dentro dos data centers. O resfriamento líquido promete sistemas que reciclam pequenas quantidades de fluidos em sistemas fechados focados nos principais pontos de acesso.

“Vamos transformar um desperdício em um recurso”, disse ele.

Mesmo Desempenho, Menos Energia

Em testes separados, tanto a Equinix quanto a NVIDIA descobriram que um data center usando resfriamento líquido poderia executar as mesmas cargas de trabalho de uma instalação resfriada por ar ao mesmo tempo que usavam cerca de 30% menos energia. A NVIDIA estima que o data center com resfriamento líquido possa atingir 1,15 PUE, muito abaixo do 1,6 do seu primo resfriado por ar.

Data centers com resfriamento líquido também podem ter o dobro de computação no mesmo espaço. Isso se deve ao fato de que as GPUs A100 usam apenas um slot PCIe, e as GPUs A100 resfriadas por ar precisam de duas.

NVIDIA drives efficiency with liquid cooled GPUs
A NVIDIA vê economia de energia e ganhos de densidade com o resfriamento líquido.

Pelo menos uma dúzia de fabricantes de sistemas planejam incorporar essas GPUs em suas ofertas ainda este ano. Eles incluem ASUS, ASRock Rack, Foxconn Industrial Internet, GIGABYTE, New H3C Information Technologies, Inspur Electronic Information, Inventec, Nettrix, QCT, Supermicro, Wiwynn  e xFusion.

Uma Tendência Global

Os regulamentos que estabelecem padrões de eficiência energética estão pendentes na Ásia, na Europa e nos EUA. Isso está motivando bancos e outros grandes operadores de data center a avaliar o resfriamento líquido também.

Além disso, a tecnologia não se limita aos data centers. Carros e outros sistemas precisam dele para resfriar sistemas de alto desempenho integrados em espaços confinados.

O Caminho para a Sustentabilidade

“Este é o início de uma jornada”, disse Smith sobre a estreia dos aceleradores convencionais resfriados por líquido.

Na verdade, vamos acompanhar a placa A100 PCIe com uma versão no próximo ano usando a GPUH100 Tensor Core baseada na arquitetura NVIDIA Hopper. Planejamos oferecer suporte ao resfriamento líquido em nossas GPUs de data center de alto desempenho e em nossas plataformas NVIDIA HGX em um futuro próximo.

Para uma adoção rápida, as GPUs resfriadas por líquido de hoje oferecem o mesmo desempenho para menos energia. No futuro, esperamos que essas placas forneçam uma opção de obter mais desempenho pela mesma energia, algo que os usuários dizem querer.

“Medir a potência sozinha não é relevante, o desempenho que você obtém pelo impacto de carbono que você tem é o que precisamos para seguir em frente”, disse Smith.

Saiba mais sobre nossas novas GPUs A100 PCIe resfriadas por líquido aqui.