Como o NVIDIA Dynamo 1.0 Impulsiona a Inferência de Vários Nós em Escala de Produção

Os modelos de raciocínio estão crescendo rapidamente em tamanho e estão sendo cada vez mais integrados a workflows de IA baseada em agentes que interagem com outros modelos e ferramentas externas. A implantação desses modelos e workflows em ambientes de produção requer sua distribuição em vários nós de GPU, o que exige orquestração e coordenação cuidadosas entre GPUs.

O NVIDIA Dynamo 1.0 — já disponível — aborda esses problemas acelerando a IA generativa e modelos de raciocínio em ambientes distribuídos em larga escala. O framework de IA oferece inferência distribuída de baixa latência, alta taxa de processamento para implantações de IA de vários nós de nível de produção.

O Dynamo é compatível com os principais mecanismos de inferência de código aberto, incluindo SGLang, NVIDIA TensorRT LLM e vLLM. Ele também entregou resultados sólidos em benchmarks confiáveis de terceiros, como o MLPerf e o SemiAnalysis InferenceX, reforçando sua posição como uma plataforma de inferência de nível de produção. O Dynamo pode aumentar o número de solicitações atendidas em até 7 vezes na arquitetura NVIDIA Blackwell, como demonstrado no benchmark recente do SemiAnalysis InferenceX.

Um gráfico de barras mostrando como o Dynamo aumenta o desempenho de inferência com serviço de inferência desagregado — Figura 1. O NVIDIA Dynamo aumenta o desempenho em 7 vezes com serviço de inferência desagregada quando combinado com o amplo paralelo de especialistas no NVIDIA GB200 NVL72.

SemiAnalysis InferenceX, atualizado em 3 de março de 2026. Resultados para DeepSeek R1-0528, FP4, 1k/1k, interatividade: ~50 tok/s por usuário

Esta publicação do blog detalha como os primeiros usuários integraram o Dynamo a workflows de inferência do mundo real, as melhorias de desempenho no nível do sistema alcançadas e os recursos e otimizações mais recentes adicionados ao framework.

Adotantes iniciais e impacto no mundo real

No evento GTC do ano passado, a NVIDIA apresentou o NVIDIA Dynamo, um framework de inferência distribuída de baixa latência e alta taxa de processamento, criado para implantações de IA de vários nós. Desde então, a NVIDIA trabalhou colaborativamente com o ecossistema de código aberto para aprimorar o Dynamo para desempenho de nível de produção e cargas de trabalho em larga escala. Ao longo desse período, o Dynamo atingiu marcos significativos:

Implantado com sucesso em workflows de produção: Amazon, AstraZeneca, Baseten, ByteDance, CoreWeave, Crusoe, DigitalOcean, Gcore, GMI Cloud, Nebius, Meituan, Pinterest, Prime Intellect, Rednote, SoftBank Corp., Tencent Cloud, Together AI, Vultr, e muitas outras empresas implantaram o Dynamo na produção para escalar a inferência de vários nós, otimizar a taxa de processamento e melhorar a latência. Assista às gravações do Dynamo Day para ouvir diretamente de organizações que estão implantando o Dynamo.
Inttegrado a ambientes Kubernetes gerenciados: Alibaba Cloud, Amazon Web Services (AWS), Google Cloud, Microsoft Azure e Oracle Cloud Infrastructure (OCI) desenvolveram integrações que demonstram como o Dynamo pode ser implantado de forma integrada em seus ambientes Kubernetes gerenciados, escalando a inferência para atender à crescente demanda por IA.
Adotado pelos principais frameworks de código aberto: os componentes modulares do Dynamo, como o NIXL, foram amplamente adotados por mecanismos de inferência, incluindo llm-d, NVIDIA TensorRT L LM, SGLang e vLLM, para acelerar as transferências de cache KV entre GPUs. O LMCache integrou seu cache KV diretamente em soluções de armazenamento no Dynamo, o SGLang integrou sua solução HiCache ao Router do Dynamo, e o LangChain desenvolveu uma integração que injeta dicas baseadas em agentes para o Router do Dynamo, validando sua arquitetura componível.
Contribuições inspiradas de todo o ecossistema de IA: desenvolvedores de toda a comunidade de IA contribuíram para o Dynamo e ampliaram seus recursos. A Mooncake e a Alibaba estenderam o Dynamo AIConfigurator com suporte para o SGLang; a Microsoft testou e aprimorou o Dynamo no Azure Kubernetes Service (AKS), contribuindo com correções, guias de implantação, demonstrações públicas e aprimoramentos do Planner/AIConfigurator; A Prime Intellect codesenvolveu e integrou o suporte a adaptadores LoRA; e a Baseten validou os primeiros recursos do Dynamo em ambientes semelhantes aos de produção e, em seguida, enviou correções de bugs e patches de estabilização para o repositório principal.
Integração habilitada com soluções de armazenamento: Cloudian, DDN, Dell, Everpure (anteriormente Pure Storage), HPE, IBM, NetApp, VAST e WEKA integraram o Dynamo a suas soluções de IA. Isso permite que as cargas de trabalho de inferência sejam escaladas além das restrições de memória da GPU, oferecendo suporte a comprimentos de contexto muito grandes com o uso de armazenamento.

O Dynamo 1.0 se baseia nesses marcos, ao mesmo tempo em que sinaliza a maturidade do framework e sua prontidão para produção. Continue lendo para saber mais destaques da atualização.

Aceleração em 4 vezes de inferência baseada em agentes com o Dynamo e o NVIDIA NeMo Agent Toolkit

Os runtimes de inferência atuais tratam todas as solicitações e blocos de cache KV da mesma forma: um prompt de sistema reutilizado em várias interações tem a mesma prioridade de descarte que um raciocínio único. Os agentes de várias interações, no entanto, reutilizam prefixos e seguem padrões previsíveis. Um bloco de KV de várias interações que foi descartado precisará ser recalculado, resultando em desperdício de computação e custos de inferência mais elevados. O Dynamo aborda essa lacuna com novas otimizações de inferência baseada em agentes:

API de frontend do Dynamo: aceita dicas de agentes (metadados por solicitação, como sensibilidade à latência, comprimento de saída esperado e controle de cache) e as passa para o roteador e o gerenciador de cache KV.
Roteador com reconhecimento de KV do Dynamo: usa dicas de agentes de prioridade e latência para controlar a ordem da fila, para que as interações voltadas para o usuário sejam executadas antes de tarefas em segundo plano. Ele pode receber o comprimento da sequência de saída (OSL) esperado para melhorar a precisão do balanceamento de carga.
Gerenciador de cache KV do Dynamo: oferece suporte à fixação de cache experimental. Os nós fixados resistem à remoção pelo tempo especificado e são movidos para a memória do host, em vez de serem excluídos.

A comunidade se baseou nessas otimizações para criar roteamento personalizado e integrar dicas de agentes em frameworks populares, como o ChatNVIDIADynamo do LangChain e o NVIDIA NeMo Agent Toolkit.

Ao executar o Dynamo e o NeMo Agent Toolkit, foi demonstrado um TTFT até 4 vezes menor e uma taxa de processamento 1,5 vezes maior ao executar o modelo Llama 3.1 na arquitetura NVIDIA Hopper.

Um diagrama mostrando como as dicas de agentes e os metadados preditivos impulsionam o roteamento e o armazenamento em cache — Figura 2. Como as dicas de agentes e os metadados preditivos impulsionam o roteamento e o armazenamento em cache.

Avanço na otimização de inferência multimodal

O Dynamo 1.0 apresenta três novos recursos projetados para acelerar a inferência multimodal em cargas de trabalho com alto volume de imagens, nas quais a programação de imagens pode ser um gargalo:

Programação/pré-preenchimento/decode (E/P/D) desagregados: em vez de executar E/P/D na mesma GPU, o Dynamo separa cada um em etapas distintas com escalabilidade independente. A execução da fase de programação em workers dedicados viabiliza a escalabilidade independente, o que melhora o processamento em lote, a eficiência de memória e a taxa de processamento geral.
Cache de incorporação multimodal: um cache do tipo menos usado recentemente (LRU) baseado em CPU armazena incorporações de imagens já calculadas fora da GPU, para que as imagens repetidas ignorem completamente a etapa de programação. Isso se aplica a configurações desagregadas e agregadas.
Roteamento KV multimodal: o roteamento KV multimodal estende o roteador com reconhecimento de KV do Dynamo, que passa a considerar o conteúdo da imagem. Um roteador multimodal dedicado baixa as imagens e seleciona o worker de backend com a maior correspondência de cache, incluindo a correspondência em blocos que contêm imagens.

Ao executar o modelo multimodal Qwen3-VL-30B-A3B-Instruct-FP8 no NVIDIA GB200, o cache de incorporações do Dynamo reduziu o tempo até o primeiro token (TTFT) em até 30% e aumentou a taxa de processamento em até 25% em solicitações com imagens.

Um diagrama mostrando como um cache de CPU reutiliza incorporações de imagens previamente calculadas, permitindo que imagens repetidas ignorem a programação na GPU, reduzindo o uso de processamento e a latência. — Figura 3. Um cache de CPU reutiliza incorporações de imagens calculadas anteriormente, para que as imagens repetidas ignorem a programação na GPU, reduzindo o uso de processamento e a latência.

Adição de suporte nativo para geração de vídeo

Os novos modelos de geração de vídeo estão estabelecendo um novo padrão para qualidade cinematográfica e realismo de movimento. Mas executá-los com eficiência não é trivial: suas cargas de inferência exigem uso altos níveis de processamento e uso intensivo de memória, especialmente em altas resoluções.

O Dynamo 1.0 adiciona suporte nativo para modelos de geração de vídeo, com integrações para os principais frameworks de inferência de código aberto, como FastVideo, SGLang Diffusion, TensorRT LLM Diffusion e vLLM-Omni. Isso leva o stack modular do Dynamo — incluindo seu front-end de baixo overhead, recursos de streaming e mecanismo de agendamento de alta eficiência — para cargas de trabalho de vídeo modernas.

Essa integração demonstra que a geração de vídeo de última geração pode ser executada com eficiência no Dynamo.

Para obter um passo a passo de como implantar modelos de geração de vídeo com o Dynamo, consulte este guia prático.

Vídeo 1. Geração de um vídeo de 5 segundos em cerca de 40 segundos em uma única GPU NVIDIA Hopper usando o Wan2.1 e o SGLang Diffusion executados no NVIDIA Dynamo.

Aceleração de 7 vezes na inicialização de inferência com o Dynamo ModelExpress

Os clusters de inferência modernos estão constantemente iniciando e encerrando novas réplicas em resposta ao tráfego. Todo novo processo deve repetir o mesmo pipeline de inicialização pesado:

Baixar checkpoints do modelo
Carregar os pesos a partir de armazenamento remoto ou compartilhado
Aplicar otimizações no modelo
Compilar kernels
Construir gráficos CUDA da NVIDIA

Para resolver esse desafio, o Dynamo garante que as partes dispendiosas da inicialização do worker sejam executadas uma única vez e reutilizadas muitas vezes por meio de duas novas funcionalidades do ModelExpress:

Restauração de pontos de verificação: em vez de tratar cada réplica como um inicialização do zero, o Dynamo executa a sequência de inicialização completa uma única vez, captura o estado “pronto para uso” em armazenamento persistente e, em seguida, coloca novas réplicas em operação restaurando a partir desse ponto de verificação, em vez de reconstruir tudo do zero.

Streaming de pesos do modelo: em vez de cada novo worker baixar independentemente os pesos do modelo, gravá-los em armazenamento local ou compartilhado e, em seguida, carregá-los na memória da GPU, o ModelExpress carrega o modelo uma vez em um worker inicial e transmite os pesos para workers adicionais por meio de interconexões de alta largura de banda, usando a NVIDIA Inference Xfer Library (NIXL) e o NVIDIA NVLink, eliminando a dependência da largura de banda de armazenamento.

Diagrama mostrando o antes e o depois do streaming de pesos do modelo do NVIDIA Dynamo — Figura 4. Um worker baixa os pesos do modelo uma vez e os transmite diretamente para outras GPUs por meio de ligações de alta largura de banda, evitando downloads repetidos em disco.

Para modelos grandes, especialmente em frotas que escalam de forma agressiva, o streaming de pesos do modelo pode acelerar o tempo de carregamento de modelos em até 7 vezes para modelos MoE de grande porte, como o DeepSeek v3 em GPUs NVIDIA H200.

Escalonamento do Kubernetes no NVIDIA GB300 NVL72

O NVIDIA Grove, uma API de código aberto que faz parte do Dynamo, simplifica a implantação de cargas de trabalho de IA hierárquicas, com agendamento em grupo e sensíveis à topologia no Kubernetes. No Dynamo 1.0, o Grove adiciona automação de configuração para a malha NVIDIA NVLink em sistemas em escala de rack, como o NVIDIA GB300 NVL72. Isso permite que os usuários definam políticas de posicionamento em todas as camadas da infraestrutura, desde regiões de nuvem e zonas de disponibilidade até data centers, blocos de rede, racks, hosts e até mesmo nós de acesso à memória não uniforme (NUMA).

Diagrama mostrando como o Grove orquestra componentes de inferência desagregados juntamente com agendadores de IA avançados no NVIDIA GB300 NVL72 e em clusters de GPU escaláveis. — Figura 5. O Grove orquestra componentes de inferência desagregados juntamente com agendadores de IA avançados no NVIDIA GB300 NVL72 e em clusters de GPU escaláveis.

Tradicionalmente, o uso da malha NVLink do NVIDIA GB300 NVL72 exigia que os usuários definissem e gerenciassem manualmente os domínios de processamento. Esta versão apresenta uma API de topologia unificada que permite que os desenvolvedores coloquem o pré-preenchimento e o decode no mesmo rack NVIDIA NVL72 para otimizar as transferências de cache KV, confinar um stack de inferência a um único data center atender a requisitos de latência e posicionar serviços de front-end em nós próximos com apenas CPU para um manuseio eficiente de solicitações. O Grove se integra a agendadores de IA avançados, como o KAI Scheduler, para garantir que essas restrições sejam aplicadas.

Integração com o Inference Gateway do Kubernetes

Uma versão anterior do Dynamo adicionou um plug-in que permite que os usuários combinem o roteamento da extensão Inference Gateway nativa do Kubernetes com o roteador com reconhecimento de KV do Dynamo.

O Inference Gateway estende o roteador com reconhecimento de KV do NVIDIA Dynamo para direcionar solicitações de forma inteligente entre um pool compartilhado de servidores de inferência do Dynamo — Figura 6. O plug-in de roteador com reconhecimento de KV do NVIDIA Dynamo, integrado ao selecionador de endpoints do Inference Gateway, direciona as solicitações de forma inteligente entre o pool de servidores de inferência do Dynamo.

Em uma configuração típica do Dynamo, o roteamento é gerenciado pelo roteador com reconhecimento de KV do Dynamo. O roteador avalia a profundidade da fila de cada worker e as informações relevantes do cache KV em cada um deles e, em seguida, toma uma decisão probabilística usando uma combinação ponderada desses fatores.

O roteador com reconhecimento de KV do Dynamo pode ser executado no Inference Gateway para se beneficiar da integração com plug-ins de roteamento, filtros e outros recursos de gateway em ambientes baseados em Kubernetes.

Implantação de inferência rápida e sensível à latência sem necessidade de configuração

Implantar modelos grandes requer profunda experiência para equilibrar a latência, a taxa de processamento e as metas de custo por meio de etapas complexas de escalonamento e configuração. O novo Dynamo Graph Deployment Request (DGDR) do Dynamo elimina esse atrito, fornecendo um caminho simples e de uma única etapa, que vai dos objetivos de nível de serviço (SLOs) às implantações de inferência otimizadas.

O DGDR combina a inteligência do planejador e do AIConfigurator em um fluxo de implantação unificado e nativo do Kubernetes. Em vez de navegar por diversas ferramentas, scripts e suposições, os desenvolvedores agora podem especificar o modelo, o hardware-alvo e os objetivos de tráfego em um YAML (em breve, por meio de uma interface web intuitiva) e o Dynamo cuida do resto.

Nos bastidores, o AIConfigurator executa recomendações rápidas e baseadas em simulação para permitir iterações rápidas, enquanto o planejador realiza um perfilamento mais aprofundado diretamente no cluster para uma otimização precisa e pronta para produção. Ambas as abordagens geram uma implantação do Dynamo Graph Deployment (DGD) pronta para implantação automática, que atende ao equilíbrio desejado pelo usuário entre custo, desempenho e escalabilidade, sem a necessidade de configurar manualmente os parâmetros de implantação.

Vídeo 2. Assista à implantação sem necessidade de configuração, gere e lance um cluster de inferência otimizado diretamente a partir de entradas de SLO — automatizando o escalonamento, o perfilamento e a configuração.

Aumento da resiliência com detecção de falhas e migração de solicitações

Um princípio de design fundamental presente no Dynamo é ser resiliente por padrão, permitindo que as aplicações continuem funcionando mesmo quando workers individuais falham ou ficam presos. A tolerância a falhas do Dynamo atualizada combina dois pilares:

Detecção precoce de falhas: o Dynamo adiciona uma verificação de integridade do tipo “canary”, independente de framework, que testa os workers em um cronograma configurável. Se essas verificações não receberem uma resposta válida, o worker é marcado como não íntegro e é removido do roteamento. Além disso, o front-end do Dynamo também realiza a detecção ativa usando sinais de nível de rede. Se não for possível estabelecer um novo fluxo para um worker ou se um fluxo existente for encerrado inesperadamente no meio da solicitação, esse worker é imediatamente removido do conjunto de workers ativos (por cerca de cinco segundos), de modo que nenhuma nova solicitação seja enviada a ele.

Cancelamento e migração de solicitações: o suporte ao cancelamento de solicitações está habilitado por padrão, permitindo que a tarefa em andamento seja encerrada quando não faz mais sentido continuar. Quando um worker fica indisponível, o Dynamo pode migrar as solicitações afetadas para outro worker e retomar o processamento, preservando a solicitação inicial, em vez de forçar o cliente a reenviar do zero. Isso garante que as falhas não sejam refletidas automaticamente em erros visíveis para o usuário.

Com a nova detecção de integridade em camadas, combinada com o cancelamento e a migração, o Dynamo visa manter as aplicações de LLM responsivas, mesmo quando workers individuais falham.

Diagrama do NVIDIA Dynamo direcionando solicitações por meio de workers com verificações de integridade de rede e do tipo canary que detectam falhas, cancelam tarefas em andamento e migram as solicitações para workers saudáveis. — Figura 7. Detecção precoce de falhas e migração de solicitações no NVIDIA Dynamo, mostrando verificações de integridade do tipo canary e de rede marcando workers como não íntegros, cancelando tarefas em andamento e redirecionando solicitações de forma transparente para workers saudáveis.

Avanço do cache KV para o armazenamento

No Dynamo 1.0, o KV Block Manager (KVBM) apresenta vários recursos que aprimoram a flexibilidade, a visibilidade e as opções de implantação:

Suporte para armazenamento de objetos: o KVBM agora funciona com o Amazon Simple Storage Service (S3) e as APIs de blobs no padrão Azure, usadas pelos principais fornecedores de armazenamento e provedores de nuvem. Isso permite que os operadores de modelos integrem o KVBM com sistemas de arquivos existentes, o S3 ou outros armazenamentos de objetos em nuvem, sem a necessidade de criar pipelines separados de descarregamento de KV para cada back-end.
Emissão global de eventos de KV: o KVBM emite eventos sempre que os blocos de KV são movidos entre as camadas de armazenamento (memória de GPU, memória de CPU, SSD local e armazenamento remoto) ou são despejados. O indexador do roteador de KV consome esses eventos para manter uma visão consistente, em todo o cluster, dos locais dos blocos de KV, permitindo um roteamento mais inteligente e melhor reutilização de cache em várias réplicas de modelos e mecanismos de inferência.
Módulo instalável via pip: o KVBM agora pode ser instalado diretamente em mecanismos de inferência, como o vLLM ou o TensorRT LLM, sem exigir o stack completo do Dynamo. Equipes que usam diferentes frameworks de inferência podem compartilhar uma ferramenta de descarregamento de KV comum, em vez de reimplementar políticas de despejo e integrações de armazenamento.

Figura 8. O NVIDIA Dynamo gerencia de forma inteligente os blocos de cache KV em diferentes camadas de memória para evitar a recomputação do cache KV e acelerar a inferência com contextos longos.

Texto alternativo: Diagrama mostrando como o NVIDIA Dynamo gerencia de forma inteligente os blocos de cache KV em diferentes camadas de memória para evitar a recomputação do cache KV

Perspectivas para o Futuro

Olhando para o futuro, o roadmap do Dynamo se concentrará em expandir as capacidades multimodais para oferecer suporte a interações mais ricas e sensíveis ao contexto, avançar modelos baseados em difusão para viabilizar geração de vídeo em tempo real com maior qualidade e escalar cargas de trabalho baseadas em agentes e aprendizagem por reforço.

O Dynamo está sendo criado de forma aberta com apoio da comunidade. Para se envolver com o projeto, explore o código e os problemas no repositório da NVIDIA no GitHub, participe das sessões abertas quinzenais do Dynamo e aprofunde-se nos blogs técnicos já disponíveis.

Agradecimentos

Akshatha Kamath, Anish Maddipoti, Anna Tchernych, Ben Hamm, Biswa Ranjan Panda, Dhruv Nandakumar, Ekin Karabulut, Ganesh Kudleppanavar, Hannah Simmons, Hannah Zhang, Harry Kim, Hongkuan Zhou, Hyunjae Woo, Ishan Dhanani, Itay Neeman, Jacky Hui, Jakub Kosek, John Kim, Kavin Krishnan, Kyle Kranen, Maksim Khadkevich, Michael Demoret, Moein Khazraee, Neal Vaidya, Neelay Shah, Qi Wang, Ryan McCormick, Sanjay Chatterjee, Schwinn Saereesitthipitak, Suman Tatiraju, Vikram Sharma Mailthody, Vishwanath Venkatesan e muitos outros contribuíram para esta publicação.