Cientistas e engenheiros de todos os tipos estão equipados para resolver problemas difíceis muito mais rapidamente com as bibliotecas NVIDIA CUDA-X equipadas com superchips NVIDIA GB200 e GH200.
Anunciado hoje na conferência global de IA NVIDIA GTC, os desenvolvedores agora podem aproveitar a integração e coordenação automáticas mais estreitas entre os recursos de CPU e GPU, habilitadas pelo CUDA-X trabalhando com essas arquiteturas de superchip mais recentes, resultando em acelerações de até 11 vezes para ferramentas de engenharia computacional e cálculos 5 vezes maiores em comparação com o uso de arquiteturas tradicionais de computação acelerada.
Isso acelera e melhora muito os workflows em simulação de engenharia, otimização de projeto e muito mais, ajudando cientistas e pesquisadores a alcançar resultados inovadores mais rapidamente.
A NVIDIA lançou o CUDA em 2006, abrindo um mundo de aplicações para o poder da computação acelerada. Desde então, a NVIDIA criou mais de 900 bibliotecas NVIDIA CUDA-X e modelos de IA específicos de domínio, facilitando a adoção da computação acelerada e impulsionando avanços científicos incríveis. Agora, o CUDA-X traz a computação acelerada para um novo conjunto amplo de disciplinas de engenharia, incluindo astronomia, física de partículas, física quântica, automotiva, aeroespacial e design de semicondutores.
A arquitetura CPU NVIDIA Grace oferece um aumento significativo na largura de banda da memória, reduzindo o consumo de energia. E as interconexões NVIDIA NVLink-C2C fornecem largura de banda tão alta que a GPU e a CPU podem compartilhar memória, permitindo que os desenvolvedores escrevam códigos menos especializados, executem problemas maiores e melhorem o desempenho da aplicação.
Acelerando Solucionadores de Engenharia com NVIDIA cuDSS
As arquiteturas de superchip da NVIDIA permitem que os usuários extraiam maior desempenho da mesma GPU subjacente, fazendo uso mais eficiente dos recursos de processamento de CPU e GPU.
A biblioteca NVIDIA cuDSS é usada para resolver grandes problemas de simulação de engenharia envolvendo matrizes esparsas para aplicações como otimização de projeto, workflows de simulação eletromagnética e muito mais. O cuDSS usa a memória da GPU Grace e a interconexão NVLink-C2C de alta largura de banda para fatorar e resolver grandes matrizes que normalmente não caberiam na memória do dispositivo. Isso permite que os usuários resolvam problemas extremamente grandes em uma fração do tempo.
A memória compartilhada coerente entre a GPU e a CPU Grace minimiza a movimentação de dados, reduzindo significativamente a sobrecarga para sistemas grandes. Para uma série de grandes problemas de engenharia computacional, o uso da memória da CPU Grace e da arquitetura do superchip acelerou as etapas de solução mais pesadas em até 4 vezes com a mesma GPU, com memória híbrida cuDSS.
A Ansys integrou o cuDSS em seu solucionador HFSS, oferecendo melhorias significativas de desempenho para simulações eletromagnéticas. Com o cuDSS, o software HFSS atinge uma melhoria de velocidade de até 11 vezes para o solucionador de matrizes.
O Altair OptiStruct também adotou a biblioteca cuDSS Direct Sparse Solver, acelerando substancialmente suas cargas de trabalho de análise de elementos finitos.
Esses ganhos de desempenho são obtidos otimizando as principais operações na GPU enquanto usam CPUs de forma inteligente para memória compartilhada e execução heterogênea de CPU e GPU. O cuDSS detecta automaticamente áreas onde a utilização da CPU oferece benefícios adicionais, aumentando ainda mais a eficiência.
Escalando em Alta Velocidade com Memória Superchip
O dimensionamento de aplicações com memória limitada em uma única GPU torna-se possível com as interconexões NVLink-CNC das arquiteturas GB200 e GH200 que fornecem coerência de memória de CPU e GPU.
Muitas simulações de engenharia são limitadas pela escala e exigem simulações massivas para produzir a resolução necessária para projetar equipamentos com componentes intrincados, como motores de aeronaves. Ao aproveitar a capacidade de ler e gravar perfeitamente entre as memórias da CPU e da GPU, os engenheiros podem implementar facilmente solucionadores fora do núcleo para processar dados maiores.
Por exemplo, usando o NVIDIA Warp, um framework baseado em Python para acelerar a geração de dados e aplicações de computação espacial, a Autodesk realizou simulações de até 48 bilhões de células usando oito nós GH200. Isso é mais de 5 vezes maior do que as simulações possíveis usando oito nós NVIDIA H100.
Potencializando a Pesquisa de Computação Quântica com NVIDIA cuQuantum
Os computadores quânticos prometem acelerar problemas que são essenciais para muitas disciplinas da ciência e da indústria. Reduzir o tempo para a computação quântica útil depende muito da capacidade de simular sistemas quânticos extremamente complexos.
As simulações permitem que os pesquisadores desenvolvam novos algoritmos hoje que serão executados em escalas adequadas para os computadores quânticos de amanhã. Eles também desempenham um papel fundamental na melhoria dos processadores quânticos, executando simulações complexas de desempenho e características de ruído de novos designs de qubits.
As chamadas simulações de vetor de estado de algoritmos quânticos exigem que as operações de matriz sejam executadas em objetos vetoriais exponencialmente grandes que devem ser armazenados na memória. As simulações de rede tensorial, por outro lado, simulam algoritmos quânticos por meio de contrações tensoriais e podem permitir que centenas ou milhares de qubits sejam simulados para certas classes importantes de aplicações.
A biblioteca NVIDIA cuQuantum acelera essas cargas de trabalho. O cuQuantum é integrado a todos os principais frameworks de computação quântica, para que todos os pesquisadores quânticos possam aproveitar o desempenho da simulação sem alterações de código.
As simulações de algoritmos quânticos são geralmente limitadas em escala pelos requisitos de memória. As arquiteturas GB200 e GH200 fornecem uma plataforma ideal para escalar simulações quânticas, pois permitem que uma grande memória de CPU seja usada sem gargalos de desempenho. Um sistema GH200 é até 3 vezes mais rápido do que um sistema H100 com x86 em benchmarks de computação quântica.
Saiba mais sobre as bibliotecas CUDA-X, participe da sessão do GTC sobre como as bibliotecas matemáticas podem ajudar a acelerar aplicações em GPUs NVIDIA Blackwell e assista ao keynote no GTC do fundador e CEO da NVIDIA, Jensen Huang.