Apresentado hoje, o NVIDIA Nemotron 3 Nano Omni é um modelo multimodal aberto que reúne essas capacidades em um único sistema, permitindo que os agentes entreguem respostas mais rápidas e inteligentes com raciocínio avançado sobre vídeo, áudio, imagem e texto. Este modelo de categoria superior oferece às empresas e desenvolvedores um caminho de produção para agentes de IA multimodais mais eficientes e precisos, com total flexibilidade e controle de implantação.
O Nemotron 3 Nano Omni estabelece uma nova fronteira de eficiência para modelos multimodais abertos com alta precisão e baixo custo, liderando seis rankings em inteligência documental complexa e compreensão de vídeo e áudio.
As empresas de IA e software que já adotaram o Nemotron 3 Nano Omni incluem Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir e Pyler, com Dell Technologies, Docusign, Infosys, K-Dense, Lila, Oracle e Zefr avaliando o modelo.
“Para construir agentes úteis, não dá para esperar segundos por um modelo interpretar uma tela”, disse Gautier Cloix, CEO da H Company. “Ao construir sobre o Nemotron 3 Nano Omni, nossos agentes podem interpretar rapidamente gravações de tela em Full HD — algo que antes não era prático. Isso não é apenas um aumento de velocidade: é uma mudança fundamental na forma como nossos agentes percebem e interagem com ambientes digitais em tempo real.”
O Nemotron 3 Nano Omni Permite Agentes Multimodais Mais Rápidos e Enxutos
Imagine um agente de IA para suporte ao cliente processando uma gravação de tela enquanto analisa o áudio de uma chamada carregada e verifica logs de dados — ou um agente para finanças encarregado de analisar PDFs, planilhas, gráficos e notas de voz. Hoje, a maioria dos sistemas agênticos realiza essas tarefas com modelos separados para visão, fala e linguagem.
Essa abordagem aumenta a latência por meio de passagens de inferência repetidas, fragmenta o contexto entre modalidades e acrescenta custos e imprecisões ao longo do tempo.
Ao combinar encoders de visão e áudio em sua arquitetura mixture-of-experts híbrida 30B-A3B, o Nemotron 3 Nano Omni elimina a necessidade de modelos de percepção separados, impulsionando a eficiência de inferência em escala. Ele combina essa eficiência com forte precisão de percepção multimodal, permitindo que os sistemas de IA alcancem um throughput 9x maior do que outros modelos omni abertos com a mesma interatividade. O resultado é menor custo e melhor escalabilidade sem sacrificar a responsividade ou a qualidade.
Em sistemas agênticos, o Nemotron 3 Nano Omni pode trabalhar junto a modelos de nuvem proprietários ou outros modelos abertos NVIDIA Nemotron — como Nemotron 3 Super para execução de alta frequência ou Nemotron 3 Ultra para planejamento complexo —, bem como modelos proprietários de outros fornecedores, para potencializar sub-agentes em fluxos de trabalho agênticos como uso de computador, inteligência documental e raciocínio sobre áudio e vídeo.
- Agentes para uso de computador — O Nemotron 3 Nano Omni potencializa o loop de percepção para agentes que navegam em interfaces gráficas de usuário, raciocinam sobre o conteúdo na tela e entendem o estado da interface do usuário ao longo do tempo. O mais recente agente de uso de computador da H Company, alimentado pelo Nemotron 3 Nano Omni, usa uma resolução de entrada nativa de 1920×1080 pixels para alcançar raciocínio visual de alta fidelidade. Em avaliações preliminares no benchmark OSWorld, essa integração mostrou um salto significativo na navegação de interfaces gráficas complexas e aproveitou a capacidade do Nemotron 3 Nano Omni de processar imagens de altíssima resolução.
- Inteligência documental — Interpreta documentos, gráficos, tabelas, capturas de tela e entradas multimídia, permitindo que os agentes raciocinem sobre a estrutura visual e o conteúdo textual de forma coerente. Essencial para análises empresariais e fluxos de trabalho de conformidade.
- Compreensão de áudio e vídeo — Para fluxos de trabalho de atendimento ao cliente, pesquisa e monitoramento, o Nemotron 3 Nano Omni mantém o contexto de áudio e vídeo, ligando o que foi dito, mostrado e documentado em um único fluxo de raciocínio, em vez de resumos desconexos.

Aberto e Personalizável, Implantável em Qualquer Lugar
O Nemotron 3 Nano Omni é lançado com pesos, datasets e técnicas de treinamento abertos — oferecendo às organizações total transparência e controle sobre como o modelo é personalizado e implantado.
Os desenvolvedores podem usar ferramentas como o NVIDIA NeMo para personalização, avaliação e otimização para casos de uso específicos do domínio. Por ser da família de modelos abertos Nemotron, as organizações podem implantá-los em ambientes que atendam aos requisitos regulatórios, de soberania de dados ou de localização de dados.
A família Nemotron 3 — incluindo os modelos Nano, Super e Ultra — registrou mais de 50 milhões de downloads no último ano. O Omni expande as capacidades da família para os domínios multimodal e agêntico.
O modelo está disponível no Hugging Face, no OpenRouter e no build.nvidia.com como um microserviço NVIDIA NIM, e por meio de um amplo ecossistema de Parceiros de Nuvem NVIDIA, plataformas de inferência e provedores de serviços em nuvem.
Sua arquitetura aberta e leve suporta implantação consistente em sistemas locais como hardware NVIDIA Jetson, NVIDIA DGX Spark e DGX Station, até data centers e ambientes em nuvem.
Visite o blog técnico da NVIDIA para tutoriais, cookbooks e guias de implantação dos casos de uso do Nemotron 3 Nano Omni. Mantenha-se atualizado sobre IA agêntica, NVIDIA Nemotron e mais, assinando as novidades da NVIDIA, ingressando na comunidade e seguindo a NVIDIA AI no LinkedIn, Instagram, X e Facebook.
Explore tutoriais em vídeo no próprio ritmo e transmissões ao vivo.
