CrowdStrike, Uber e Zoom Entre os Pioneiros do Setor na Criação de Agentes Mais Inteligentes com os Modelos de Raciocínio NVIDIA Nemotron e Cosmos para Aplicações de IA Física e Corporativa

Os agentes de IA estão prontos para entregar até US$ 450 bilhões em ganhos de receita e economia de custos até 2028, de acordo com a Capgemini. Os desenvolvedores que criam esses agentes estão recorrendo a modelos de raciocínio de alto desempenho para melhorar as plataformas de agentes de IA e os sistemas físicos de IA.

A NVIDIA anunciou uma expansão de duas famílias de modelos com recursos de raciocínio – NVIDIA Nemotron e NVIDIA Cosmos – que os líderes de todos os setores estão usando para impulsionar a produtividade por meio de equipes de agentes de IA e robôs humanóides.

CrowdStrike, Uber, Magna, NetApp e Zoom estão entre algumas das empresas que exploram essas famílias de modelos.

Os novos modelos NVIDIA Nemotron Nano 2 e Llama Nemotron Super 1.5 oferecem a mais alta precisão em suas categorias de tamanho para raciocínio científico, matemática, codificação, chamada de ferramentas, acompanhamento de instruções e bate-papo. Esses novos modelos dão aos agentes de IA o poder de pensar mais profundamente e trabalhar com mais eficiência, explorando opções mais amplas, acelerando a pesquisa e entregando resultados mais inteligentes dentro de limites de tempo definidos.

Pense no modelo como o cérebro de um agente de IA: ele fornece a inteligência central. Mas para tornar esse cérebro útil para uma empresa, ele deve ser incorporado a um agente que entenda workflows específicos, além do jargão do setor e dos negócios, e opere com segurança. A NVIDIA ajuda as empresas a preencher essa lacuna com as principais bibliotecas e projetos de IA para integração, personalização e governança de agentes de IA em escala.

O Cosmos Reason é um novo modelo de linguagem de visão de raciocínio (VLM) para aplicações de IA física que se destaca na compreensão de como o mundo real funciona, usando raciocínio estruturado para entender conceitos como física, permanência de objetos e alinhamento espaço-tempo. O VLM liderou a Tabela de Classificação de Raciocínio Físico no Hugging Face.

O Cosmos Reason foi desenvolvido especificamente para servir como a espinha dorsal do raciocínio para um modelo de ação de linguagem de visão de robô (VLA), ou dados de treinamento de crítica e legenda para robótica e veículos autônomos, e equipar agentes de IA visual em tempo de execução com compreensão espaço-temporal e raciocínio de operações físicas, como em fábricas ou cidades.

Nemotron: A Mais Alta Precisão e Eficiência para IA Corporativa Baseada em Agentes

À medida que as empresas desenvolvem agentes de IA para lidar com tarefas complexas e de várias etapas, os modelos que podem fornecer forte precisão de raciocínio com geração eficiente de tokens permitem uma tomada de decisão inteligente e autônoma em escala.

O NVIDIA Nemotron é uma família de modelos avançados de raciocínio aberto que usam modelos líderes, conjuntos de dados abertos selecionados pela NVIDIA e técnicas avançadas de IA para fornecer um ponto de partida preciso e eficiente para agentes de IA.

Os modelos Nemotron mais recentes oferecem eficiência líder de três maneiras: uma nova arquitetura de modelo híbrido, modelos quantizados compactos e um orçamento de pensamento configurável que fornece aos desenvolvedores controle sobre a geração de tokens, resultando em custos de raciocínio 60% menores. Essa combinação permite que os modelos raciocinem mais profundamente e respondam mais rapidamente, sem precisar de mais tempo ou poder de computação. Isso significa melhores resultados a um custo menor.

O Nemotron Nano 2 fornece geração de token até 6 vezes maior em comparação com outros modelos líderes de seu tamanho.

O Llama Nemotron Super 1.5 alcança desempenho líder e a mais alta precisão de raciocínio de sua classe, capacitando os agentes de IA a raciocinar melhor, tomar decisões mais inteligentes e lidar com tarefas complexas de forma independente. Agora está disponível em NVFP4, ou ponto flutuante de 4 bits, que oferece taxa de transferência até 6 vezes maior em GPUs NVIDIA B200 em comparação com GPUs NVIDIA H100.

O gráfico acima mostra que o modelo Nemotron oferece precisão de raciocínio superior no mesmo período de tempo e no mesmo orçamento de computação, oferecendo a maior precisão por dólar.

Junto com os dois novos modelos Nemotron, a NVIDIA também anunciou seu primeiro conjunto de dados de treinamento VLM aberto, conjunto de dados Llama Nemotron VLM v1, com 3 milhões de amostras de reconhecimento óptico de caracteres, controle de qualidade visual e dados de legenda que impulsionam o modelo Llama 3.1 Nemotron Nano VL 8B lançado anteriormente.

Além da precisão dos modelos de raciocínio, os agentes também contam com geração aumentada por recuperação para buscar as informações mais recentes e relevantes de dados conectados em fontes diferentes para tomar decisões informadas. O modelo de incorporação Llama 3.2 NeMo Retriever lançado recentemente está no topo de três tabelas de classificação de recuperação de documentos visuais –ViDoRe V1, ViDoRe V2 e MTEB VisualDocumentRetrieval— para aumentar a precisão do sistema agente.

Usando esses modelos de raciocínio e recuperação de informações, um agente de pesquisa profunda construído usando o AI-Q NVIDIA Blueprint é atualmente o número 1 para agentes abertos e portáteis no DeepResearch Bench.

Os microsserviços NVIDIA NeMo e NVIDIA NIM oferecem suporte a todo o ciclo de vida do agente de IA, desde o desenvolvimento e a implantação até o monitoramento e a otimização dos sistemas agentes.

Cosmos Reason: Um Avanço na IA Física

Os VLMs marcaram um avanço para a visão computacional e a robótica, capacitando as máquinas a identificar objetos e padrões. No entanto, os VLMs sem raciocínio não têm a capacidade de entender e interagir com o mundo real, o que significa que eles não podem lidar com ambiguidades ou novas experiências, nem resolver tarefas complexas de várias etapas.

O NVIDIA Cosmos Reason é um novo VLM de raciocínio aberto, personalizável e de 7 bilhões de parâmetros para IA física e robótica. O Cosmos Reason permite que robôs e agentes de IA de visão raciocinem como humanos, usando conhecimento prévio, compreensão física e bom senso para entender e agir no mundo físico.

O Cosmos Reason permite recursos avançados em robótica e aplicações de IA física, como treinamento, crítica de dados e legendas, tomada de decisão de robôs e agentes de IA de análise de vídeo.

Ele pode ajudar a automatizar a curadoria e a anotação de conjuntos de dados de treinamento grandes e diversificados, acelerando o desenvolvimento de modelos de IA de alta precisão. Ele também pode servir como um mecanismo de raciocínio sofisticado para o planejamento de robôs, analisando instruções complexas em etapas acionáveis para modelos VLA, mesmo em novos ambientes.

Ele também impulsiona agentes de IA de análise de vídeo criados no NVIDIA Blueprint para pesquisa e resumo de vídeo (VSS), habilitados pela plataforma NVIDIA Metropolis, coletando insights valiosos de grandes volumes de dados de vídeo armazenados ou ao vivo. Esses agentes de IA visualmente perceptivos e interativos podem ajudar a simplificar as operações em fábricas, armazéns, lojas de varejo, aeroportos, cruzamentos de tráfego e muito mais, detectando anomalias.

A equipe de pesquisa de robótica da NVIDIA usa o Cosmos Reason para filtragem e curadoria de dados e como o VLM de raciocínio do “Sistema 2” por trás dos modelos VLA, como as próximas versões do NVIDIA Isaac GR00T NX.

Em Serviço: Modelos de Raciocínio NVIDIA para Agentes de IA e Robôs em Todos os Lugares

Diversas empresas e líderes de consultoria estão adotando os modelos de raciocínio mais recentes da NVIDIA. Líderes que vão desde cibersegurança até telecomunicações estão entre os que trabalham com o Nemotron para criar agentes de IA corporativos.

O Zoom planeja aproveitar os modelos de raciocínio do Nemotron com o Zoom AI Companion para tomar decisões e gerenciar tarefas de várias etapas para agir para os usuários no Zoom Meetings, Zoom Chat e documentos do Zoom.

A CrowdStrike está testando modelos Nemotron para permitir que seus agentes de IA da Charlotte escrevam consultas na plataforma CrowdStrike Falcon.

A Amdocs está usando modelos NVIDIA Nemotron em seu amAIz Suite para levar os agentes de IA a lidar com automação complexa e em várias etapas, abrangendo atendimento, vendas, rede e suporte ao cliente.

A EY está adotando o Nemotron Nano 2, devido ao seu alto rendimento, para oferecer suporte à IA baseada em agentes em grandes empresas para casos de uso tributário, de gerenciamento de riscos e financeiros.

Atualmente, a NetApp está testando modelos de raciocínio do Nemotron para que os agentes de IA possam pesquisar e analisar dados de negócios

A DataRobot está trabalhando com modelos Nemotron para sua plataforma de força de trabalho de agentes para gerenciamento de ciclo de vida de agentes de ponta a ponta.

A Tabnine está trabalhando com modelos Nemotron para sugerir e automatizar tarefas de codificação em nome dos desenvolvedores.

Automation Anywhere, CrewAI e Dataiku estão entre os desenvolvedores de software de IA baseada em agentes adicionais que integram modelos Nemotron em suas plataformas.

Empresas líderes em transporte, segurança e inteligência de IA estão usando o Cosmos Reason para promover a direção autônoma, a análise de vídeo e a segurança nas estradas e no local de trabalho.

A Uber está explorando o Cosmos Reason para analisar o comportamento de veículos autônomos. Além disso, a Uber está treinando o Cosmos Reason para resumir dados visuais e analisar cenários como pedestres andando em rodovias para realizar análises de qualidade e informar o comportamento de direção autônoma.

Cosmos Reason também pode servir como o cérebro de veículos autônomos. Ele permite que os robôs interpretem ambientes e, com comandos complexos, os dividam em tarefas e as executem usando o bom senso, mesmo em ambientes desconhecidos.

A Centific está testando o Cosmos Reason para aprimorar sua plataforma de inteligência de vídeo com inteligência artificial. O VLM permite que a plataforma processe dados de vídeo complexos em insights acionáveis, ajudando a reduzir falsos positivos e melhorar a eficiência da tomada de decisões.

A VAST está avançando na inteligência urbana em tempo real usando o NVIDIA Cosmos Reason com seu sistema operacional de IA para processar fluxos de vídeo massivos em escala. Com o VSS Blueprint, a VAST pode criar agentes que podem identificar incidentes e acionar respostas, transformando fluxos de vídeo e metadados em ferramentas de segurança pública acionáveis e proativas.

Ambient.ai está trabalhando com o raciocínio temporal e consciente da física do Cosmos Reason, para permitir a detecção automatizada de equipamentos de proteção individual ausentes e o monitoramento de condições perigosas, ajudando a melhorar a saúde e a segurança ambiental na construção, manufatura, logística e outros ambientes industriais.

A Magna está desenvolvendo com o Cosmos Reason como parte de sua City Delivery Platform, uma solução totalmente autônoma e de baixo custo para entrega instantânea, para ajudar os veículos a se adaptarem mais rapidamente às novas cidades. O modelo adiciona compreensão mundial ao planejamento de trajetória de longo prazo dos veículos.

Espera-se que esses modelos estejam disponíveis como microsserviços NVIDIA NIM para implantação segura e confiável em qualquer infraestrutura acelerada pela NVIDIA para máxima privacidade e controle. Eles estão planejados para estarem disponíveis em breve por meio dos modelos Amazon Bedrock e Amazon SageMaker AI for Nemotron, bem como por meio do Azure AI Foundry, Oracle Data Science Platform e Google Vertex AI.

Experimente o Cosmos Reason no build.nvidia.com ou faça o download no Hugging Face ou GitHub.

Nemotron Nano 2 e Llama Nemotron Super 1.5 (NVFP4) estarão disponíveis em breve para download. Enquanto isso, saiba mais sobre os modelos Nemotron e faça download das versões anteriores.

Faça o download do conjunto de dados Llama Nemotron VLM v1 no Hugging Face.