O que torna uma garra robótica útil não é ela conseguir pegar um objeto — é ela conseguir pegar o próximo, e o seguinte, com uma ferramenta que nunca segurou antes.
O que torna um sistema de veículos autônomos seguro não é apenas que ele consiga raciocinar em uma situação — é que consiga fazê-lo com rapidez suficiente no hardware instalado no carro.
O que torna um agente virtual capaz é a exposição ao maior número possível de ambientes diferentes antes de enfrentar o mundo real.
Na conferência deste ano sobre Visão Computacional e Reconhecimento de Padrões (CVPR), a NVIDIA Research está apresentando três artigos que abordam cada um desses desafios — e compartilham um tema em comum: o treinamento em escala cria sistemas que generalizam para diversas aplicações.
Os três artigos cobrem diferentes desafios na pesquisa de IA física:
- GraspGen-X, o primeiro modelo fundacional para preensão zero-shot, foi treinado com bilhões de agarramentos simulados para funcionar com qualquer garra que lhe seja apresentada.
- LCDrive apresenta um modelo que substitui o raciocínio caro baseado em texto por representações latentes compactas, permitindo que veículos autônomos pensem mais rápido no hardware embarcado.
- NitroGen é um modelo fundacional generalizado de IA para jogos que aproveita a arquitetura do modelo fundacional para robôs NVIDIA Isaac GR00T para ajudar a treinar agentes incorporados em ambientes virtuais ao longo de dezenas de milhares de horas de interação.
A NVIDIA também apresentou no CVPR novas skills de agentes de IA física que ajudam pesquisadores e desenvolvedores a acelerar o desenvolvimento de veículos autônomos, robôs e sistemas de IA de visão.
O NitroGen e outro artigo escrito pela NVIDIA, o PixelDIT, foram finalistas do prêmio de melhor artigo na conferência — uma distinção concedida a apenas 15 dos mais de 4.000 artigos aceitos no CVPR.
O Primeiro Modelo Fundacional para Preensão Robótica
A maioria dos sistemas de IA para preensão robótica é especializada.
Uma política de visão-linguagem-ação treinada para uma garra de dois dedos aprende apenas a agarrar com esses dois dedos. Da mesma forma, uma política para preensão destreza só funciona para a garra específica de múltiplos dedos para a qual foi treinada. Para cada nova configuração, o processo precisa ser repetido — exigindo novos dados de treinamento, ajuste fino e validação. Essa limitação faz com que a maioria das empresas de robótica escolha uma garra, treine para ela e continue com essa escolha.
GraspGen-X é o primeiro modelo fundacional para preensão construído para eliminar esse gargalo.
Assim como um modelo de linguagem de grande escala que pode aplicar seu entendimento de linguagem a uma nova tarefa sem retreinamento, o GraspGen-X aplica seu entendimento de geometria e contato a qualquer garra robótica que encontra. Dado o perfil geométrico de uma nova garra e um objeto desconhecido que nunca viu antes, o modelo gera propostas confiáveis de poses de preensão para que o robô consiga agarrar o objeto.
Para chegar lá, os pesquisadores precisaram de um dataset impossível de coletar no mundo real em escala. Eles geraram 2 bilhões de agarramentos simulados em milhares de formas de objetos e configurações sintéticas de garras, abrangendo a diversidade de fatores de forma que um robô implantado poderia encontrar.
Para desenvolvedores de robôs, esse modelo fundacional elimina a necessidade de ciclos de treinamento por garra e pode ser aplicado diretamente para várias garras comuns. O GraspGen-X pode ser usado em conjunto com o curoboV2, uma nova biblioteca de planejamento de movimento acelerada por CUDA, para alcançar essas poses de preensão em ambientes desconhecidos.
Partindo das bases da pesquisa GraspGen, outro artigo, o Grasp-MPC — apresentado no ICRA 2026 — avança para a próxima etapa do pipeline: passar da geração de agarramentos para a execução de agarramentos em malha fechada.
Ensinando Veículos Autônomos a Pensar Mais Rápido
Nos últimos anos, pesquisadores descobriram que permitir que uma IA raciocine — gerando etapas de pensamento intermediárias antes de se comprometer com uma resposta — melhora de forma confiável sua tomada de decisão.
Para veículos autônomos, o desafio é fazer esse raciocínio no hardware dentro de um veículo real. O raciocínio em cadeia de pensamento baseado em texto gera palavras, e cada palavra é um token que leva tempo para ser produzido. No processador rodando dentro de um carro, a contagem de tokens é uma restrição real sobre a rapidez com que o sistema pode responder.
LCDrive enfrenta esse problema substituindo palavras por representações latentes comprimidas.
Em vez de gerar etapas de raciocínio legíveis por humanos, o sistema pensa em um espaço latente compacto — estados que capturam informações espaciais em vez de produzir texto. A arquitetura alterna entre dois tipos de pensamento: propor ações candidatas e, em seguida, prever como o mundo parecerá se essas ações forem executadas.
Ele usa esse estado previsto do mundo para refinar seu próximo passo. É o mesmo loop de raciocínio — apenas em uma forma computacionalmente mais eficiente do que linguagem natural.
O resultado: qualidade de trajetória de saída comparável ao raciocínio baseado em texto, usando cerca de metade dos tokens.
O modelo foi construído sobre o NVIDIA Alpamayo e treinado usando supervisão derivada de dados de veículos existentes.
Agentes Incorporados Treinados em Mundos Virtuais
O Isaac GR00T — o modelo fundacional aberto da NVIDIA para robôs humanoides — é construído sobre um princípio simples: exponha um modelo a situações diversas suficientes, e ele irá generalizar para aquelas que ainda não viu.
NitroGen estende esse princípio para ambientes virtuais, usando a arquitetura do GR00T para treinar um modelo fundacional para agentes incorporados em uma diversidade de mundos virtuais.
Os videogames oferecem algo difícil de construir do zero: mundos estruturados e variados com objetivos definidos e condições de sucesso bem especificadas. São ambientes de treinamento de alta qualidade, disponíveis em escala.
O NitroGen os trata dessa forma — como um campo de treinamento para agentes que eventualmente serão treinados para lidar com situações novas no mundo real ou simulado, como alimentar um robô que ajuda nas tarefas domésticas com base em instruções amplas como “Guarde esses itens na despensa.”
Treinado em mais de 1.000 jogos e 40.000 horas de interação usando um modelo baseado no GR00T, os agentes resultantes aprendem a generalizar entre ambientes. O modelo foi avaliado em uma gama de jogos de RPG de ação, plataformas, roguelikes e jogos de mundo aberto, demonstrando comportamentos de jogo que abrangem combate, navegação e exploração.
As mesmas técnicas poderiam eventualmente ajudar a criar personagens não jogáveis mais adaptativos, companheiros de IA e sistemas de gameplay dentro dos jogos, bem como testes mais abrangentes de ambientes de jogo complexos.
Em condições de baixo volume de dados — onde um agente viu apenas alguns exemplos de um novo ambiente — começar com o NitroGen dá aos agentes uma enorme vantagem, melhorando o desempenho em até 52% em relação aos métodos anteriores de ponta.
O modelo é open source, disponível no GitHub e no Hugging Face.
Saiba mais sobre a NVIDIA no CVPR e explore o trabalho da NVIDIA Research em IA física, visão computacional e sistemas autônomos. Comece com o Isaac GR00T e as ferramentas de robótica NVIDIA.