Ensinar robôs e veículos autônomos a interagir com o mundo físico requer grandes quantidades de dados de alta qualidade. Para dar aos pesquisadores e desenvolvedores uma vantagem inicial, a NVIDIA está lançando um enorme conjunto de dados de código aberto para construir a próxima geração de IA física.
Anunciado no NVIDIA GTC, uma conferência global de IA que acontece esta semana em San Jose, Califórnia, esse conjunto de dados pré-validado de nível comercial pode ajudar pesquisadores e desenvolvedores a iniciar projetos físicos de IA que podem ser proibitivamente difíceis de começar do zero. Os desenvolvedores podem usar diretamente o conjunto de dados para pré-treinamento, teste e validação de modelos ou usá-lo durante o pós-treinamento para ajustar os world foundation models, acelerando o caminho para a implantação.
O conjunto de dados inicial está agora disponível no Hugging Face, oferecendo aos desenvolvedores 15 terabytes de dados representando mais de 320.000 trajetórias para treinamento em robótica, além de até 1.000 ativos do Universal Scene Description (OpenUSD), incluindo uma coleção SimReady. Dados dedicados para apoiar o desenvolvimento de veículos autônomos (AV) de ponta a ponta, que incluirão clipes de 20 segundos de diversos cenários de tráfego abrangendo mais de 1.000 cidades nos EUA e duas dúzias de países europeus, serão divulgados em breve.

Esse conjunto de dados crescerá com o tempo para se tornar o maior conjunto de dados unificado e aberto do mundo para o desenvolvimento de IA física. Eles pode ser aplicados para desenvolver modelos de IA para impulsionar robôs que manobram com segurança ambientes de armazém, robôs humanóides que apoiam cirurgiões durante procedimentos e AVs que podem navegar em cenários complexos de tráfego, como zonas de construção.
O conjunto de dados de IA física da NVIDIA está programado para conter um subconjunto dos dados sintéticos e do mundo real que a NVIDIA usa para treinar, testar e validar a IA física para a plataforma de desenvolvimento de modelos mundiais NVIDIA Cosmos, o stack de software NVIDIA DRIVE AV, a plataforma de desenvolvimento de robôs NVIDIA Isaac AI e o framework de aplicações NVIDIA Metropolis para cidades inteligentes.
Os primeiros a adotar incluem o Berkeley DeepDrive Center da Universidade da Califórnia, Berkeley, o Carnegie Mellon Safe AI Lab e o Contextual Robotics Institute da University of California, San Diego.
“Podemos fazer muitas coisas com esse conjunto de dados, como treinar modelos preditivos de IA que ajudam os veículos autônomos a rastrear melhor os movimentos de usuários vulneráveis da estrada, como pedestres, para melhorar a segurança”, disse Henrik Christensen, diretor de vários laboratórios de robótica e veículos autônomos da UCSD. “Um conjunto de dados que fornece um conjunto diversificado de ambientes e clipes mais longos do que os recursos de código aberto existentes será tremendamente útil para o avanço da robótica e da pesquisa de AV.”
Abordando a Necessidade de Dados de IA Física
O conjunto de dados de IA física da NVIDIA pode ajudar os desenvolvedores a dimensionar o desempenho da IA durante o pré-treinamento, onde mais dados ajudam a criar um modelo mais robusto, e durante o pós-treinamento, onde um modelo de IA é treinado em dados adicionais para melhorar seu desempenho para um caso de uso específico.
Coletar, selecionar e anotar um conjunto de dados que abrange diversos cenários e representa com precisão a física e a variação do mundo real é demorado, apresentando um gargalo para a maioria dos desenvolvedores. Para pesquisadores acadêmicos e pequenas empresas, operar uma frota de veículos ao longo de meses para coletar dados para IA de veículos autônomos é impraticável e caro e, como grande parte das imagens coletadas não tem intercorrências, normalmente apenas 10% dos dados são usados para treinamento.
Mas essa escala de coleta de dados é essencial para a construção de modelos seguros, precisos e de nível comercial. Os modelos robóticos NVIDIA Isaac GR00T levam milhares de horas de videoclipes para pós-treinamento: o modelo GR00T N1, por exemplo, foi treinado em um amplo conjunto de dados humanóides de dados reais e sintéticos. O modelo de IA de ponta a ponta NVIDIA DRIVE AV para veículos autônomos requer dezenas de milhares de horas de dados de direção para ser desenvolvido.
Este conjunto de dados aberto, compreendendo milhares de horas de vídeo multicâmera em diversidade, escala e geografia sem precedentes, beneficiará particularmente o campo da pesquisa de segurança, permitindo novos trabalhos na identificação de valores discrepantes e na avaliação do desempenho da generalização do modelo. O esforço contribui para o sistema de segurança AV full-stack da NVIDIA Halos.
Além de aproveitar o conjunto de dados de IA física da NVIDIA para ajudar a atender às suas necessidades de dados, os desenvolvedores podem impulsionar ainda mais o desenvolvimento de IA com ferramentas como o NVIDIA NeMo Curator, que processam vastos conjuntos de dados com eficiência para treinamento e personalização de modelos. Usando o NeMo Curator, 20 milhões de horas de vídeo podem ser processadas em apenas duas semanas em GPUs NVIDIA Blackwell, em comparação com 3,4 anos em pipelines de CPU não otimizados.
Os desenvolvedores de robótica também podem aproveitar o novo blueprint NVIDIA Isaac GR00T para geração de movimento de manipulação sintética, um workflow de referência criado no NVIDIA Omniverse e no NVIDIA Cosmos que usa um pequeno número de demonstrações humanas para criar grandes quantidades de trajetórias de movimento sintético para manipulação de robôs.
Laboratórios Universitários Devem Adotar Conjunto de Dados Para Desenvolvimento de IA
Os laboratórios de robótica da UCSD incluem equipes focadas em aplicações médicas, humanóides e tecnologia assistiva doméstica. Christensen antecipa que os dados robóticos do conjunto de dados de IA física podem ajudar a desenvolver modelos semânticos de IA que entendam o contexto de espaços como casas, quartos de hotel e hospitais.
“Um de nossos objetivos é alcançar um nível de compreensão em que, se um robô fosse solicitado a guardar suas compras, ele saberia exatamente quais itens deveriam ir para a geladeira e o que vai para a despensa”, disse ele.
No campo dos veículos autônomos, o laboratório de Christensen poderia aplicar o conjunto de dados para treinar modelos de IA para entender a intenção de vários usuários da estrada e prever a melhor ação a ser tomada. Suas equipes de pesquisa também podem usar o conjunto de dados para apoiar o desenvolvimento de gêmeos digitais que simulam casos extremos e condições climáticas desafiadoras. Essas simulações podem ser usadas para treinar e testar modelos de direção autônoma em situações raras em ambientes do mundo real.
No Berkeley DeepDrive, um centro de pesquisa líder em IA para sistemas autônomos, o conjunto de dados pode apoiar o desenvolvimento de modelos de políticas e world foundation models para veículos autônomos.
“A diversidade de dados é incrivelmente importante para treinar modelos base”, disse Wei Zhan, codiretor do Berkeley DeepDrive. “Este conjunto de dados pode apoiar pesquisas de última geração para equipes dos setores público e privado que desenvolvem modelos de IA para veículos autônomos e robótica.”
Pesquisadores do Safe AI Lab da Carnegie Mellon University planejam usar o conjunto de dados para avançar em seu trabalho avaliando e certificando a segurança de veículos autônomos. A equipe planeja testar o desempenho de um modelo físico de base de IA treinado neste conjunto de dados em um ambiente de simulação com condições raras e comparar seu desempenho com um modelo AV treinado em conjuntos de dados existentes.
“Este conjunto de dados abrange diferentes tipos de estradas e geografias, diferentes infraestruturas, diferentes ambientes climáticos”, disse Ding Zhao, professor associado da CMU e chefe do Safe AI Lab. “Sua diversidade pode ser bastante valiosa para nos ajudar a treinar um modelo com capacidades de raciocínio causal no mundo físico que entende casos extremos e problemas de cauda longa.”
Acesse o conjunto de dados de IA física da NVIDIA no Hugging Face. Desenvolva conhecimento básico com cursos como o caminho de aprendizagem Aprenda OpenUSD e o caminho de aprendizagem Fundamentos de Robótica. E para saber mais sobre os mais recentes avanços em IA física, assista à palestra GTC do fundador e CEO da NVIDIA, Jensen Huang.
Consulte o aviso sobre informações sobre produtos de software.