Novas otimizações de desempenho turbinam os PCs NVIDIA RTX com IA para jogadores, criadores e desenvolvedores

A NVIDIA anunciou hoje na Microsoft Build novas otimizações e integrações de desempenho de IA para Windows que ajudam a fornecer desempenho máximo em PCs NVIDIA GeForce RTX com IA e workstations NVIDIA RTX .

Modelos de linguagem grande ( LLMs ) potencializam alguns dos novos casos de uso mais interessantes em IA generativa e agora são executados até 3x mais rápido com ONNX Runtime (ORT) e DirectML usando o novo driver NVIDIA R555 Game Ready. ORT e DirectML são ferramentas de alto desempenho usadas para executar modelos de IA localmente em PCs com Windows.

WebNN, uma interface de programação de aplicativos para desenvolvedores web implantarem modelos de IA, agora é acelerada com RTX via DirectML, permitindo que aplicativos web incorporem recursos rápidos e alimentados por IA. E o PyTorch oferecerá suporte a back-ends de execução DirectML, permitindo que os desenvolvedores do Windows treinem e infiram modelos complexos de IA no Windows nativamente. NVIDIA e Microsoft estão colaborando para dimensionar o desempenho em GPUs RTX.

Esses avanços se baseiam na plataforma de IA líder mundial da NVIDIA, que acelera mais de 500 aplicativos e jogos em mais de 100 milhões de PCs e workstations RTX com IA em todo o mundo.

PCs RTX com IA – IA aprimorada para jogadores, criadores e desenvolvedores

A NVIDIA lançou as primeiras GPUs para PC com aceleração de IA dedicada, a GeForce RTX Série 20 com Tensor Cores, junto com o primeiro modelo de IA amplamente adotado para rodar em Windows, NVIDIA DLSS, em 2018. Suas GPUs mais recentes oferecem até 1.300 trilhões de operações por segundo de desempenho de IA dedicado.

Nos próximos meses, serão lançados PCs Copilot+ equipados com novos sistemas em um chip e GPUs RTX com baixo consumo de energia, proporcionando aos jogadores, criadores, entusiastas e desenvolvedores maior desempenho para lidar com cargas de trabalho locais exigentes de IA, juntamente com os novos recursos Copilot+ da Microsoft.

Para jogadores em PCs RTX com AI, o NVIDIA DLSS aumenta as taxas de quadros em até 4x, enquanto o NVIDIA ACE dá vida aos personagens do jogo com diálogo, animação e fala orientados por IA.

Para criadores de conteúdo, o RTX potencializa fluxos de trabalho de produção assistidos por IA em aplicações como Adobe Premiere, Blackmagic Design DaVinci Resolve e Blender para automatizar tarefas tediosas e agilizar fluxos de trabalho. Desde remoção de ruído 3D e renderização acelerada até geração de texto para imagem e vídeo, essas ferramentas capacitam os artistas a dar vida às suas visões.

Para modders de jogos, o NVIDIA RTX Remix, desenvolvido na plataforma NVIDIA Omniverse, fornece ferramentas aceleradas por IA para criar remasterizações RTX de jogos clássicos de PC. Torna mais fácil do que nunca capturar ativos de jogos, aprimorar materiais com ferramentas generativas de IA e incorporar ray tracing completo.

Para streamers, o NVIDIA Broadcast oferece remoção de fundo e remoção de ruído de alta qualidade com tecnologia de IA, enquanto o NVIDIA RTX Video oferece upscaling com tecnologia de IA e faixa dinâmica automática para melhorar a qualidade do vídeo transmitido.

Aumentando a produtividade, os LLMs com GPUs RTX executam assistentes e copilotos de IA com mais rapidez e podem processar várias solicitações simultaneamente.

E os PCs RTX com IA permitem que os desenvolvedores criem e ajustem modelos de IA diretamente em seus dispositivos usando as ferramentas de desenvolvedor de IA da NVIDIA, que incluem NVIDIA AI Workbench, NVIDIA cuDNN e CUDA no subsistema Windows para Linux. Os desenvolvedores também têm acesso a estruturas de IA aceleradas por RTX e kits de desenvolvimento de software como NVIDIA TensorRT, NVIDIA Maxine e RTX Video.

A combinação de capacidades e desempenho de IA proporciona experiências aprimoradas para jogadores, criadores e desenvolvedores.

LLMs mais rápidos e novos recursos para desenvolvedores web

A Microsoft lançou recentemente a extensão generativa de IA para ORT, uma biblioteca multiplataforma para inferência de IA. A extensão adiciona suporte para técnicas de otimização como quantização para LLMs como Phi-3, Llama 3, Gemma e Mistral. ORT oferece suporte a diferentes provedores de execução para inferência por meio de várias pilhas de software e hardware, incluindo DirectML.

ORT com back-end DirectML oferece aos desenvolvedores de IA do Windows um caminho rápido para desenvolver recursos de IA, com estabilidade e suporte de nível de produção para o amplo ecossistema de PCs com Windows. As otimizações da NVIDIA para a extensão generativa de IA para ORT, agora disponível nos drivers R555 Game Ready, Studio e NVIDIA RTX Enterprise, ajudam os desenvolvedores a obter desempenho até 3x mais rápido no RTX em comparação com os drivers anteriores.

Desempenho de inferência para três LLMs usando ONNX Runtime e o provedor de execução DirectML com o driver R555 GeForce mais recente em comparação com o driver R550 anterior. INSEQ=2000 representativo de cargas de trabalho de resumo de documentos. Todos os dados capturados com GPU GeForce RTX 4090 usando tamanho de lote 1. O suporte de extensão generativa de IA para quantização int4, além das otimizações NVIDIA, resultam em desempenho até 3x mais rápido para LLMs.

Os desenvolvedores podem desbloquear todos os recursos do hardware RTX com o novo driver R555, trazendo melhores experiências de IA aos consumidores com mais rapidez. Incluindo:

Suporte para DQ-GEMM metacommand para lidar com quantização somente de peso INT4 para LLMs
Novos métodos de normalização RMSNorm para modelos Llama 2, Llama 3, Mistral e Phi-3
Mecanismos de atenção de grupo e multi-consulta e atenção de janela deslizante para dar suporte ao Mistral
Atualizações KV no local para melhorar o desempenho da atenção
Suporte para GEMM de tensores não múltiplos de 8 para melhorar o desempenho da fase de contexto

Além disso, a NVIDIA otimizou os fluxos de trabalho de IA no WebNN para oferecer o desempenho poderoso das GPUs RTX diretamente nos navegadores. O padrão WebNN ajuda os desenvolvedores de aplicativos da web a acelerar modelos de aprendizagem profunda com aceleradores de IA no dispositivo, como Tensor Cores.

Agora disponível na visualização do desenvolvedor, o WebNN usa DirectML e ORT Web, uma biblioteca Javascript para execução de modelo no navegador, para tornar os aplicativos de IA mais acessíveis em múltiplas plataformas. Com essa aceleração, modelos populares como Stable Diffusion, SD Turbo e Whisper rodam até 4x mais rápido no WebNN em comparação com o WebGPU e agora estão disponíveis para uso dos desenvolvedores. Os participantes do Microsoft Build podem aprender mais sobre o desenvolvimento em RTX na sessão presencial Acelerando o desenvolvimento em PCs Windows com RTX AI na quarta-feira, 22 de maio, às 11h (horário do Pacífico).