Jazz é acima de tudo improvisação, e a NVIDIA está prestando homenagem ao gênero com uma pesquisa em AI que um dia poderá permitir que criadores gráficos improvisem com objetos 3D criados no mesmo tempo necessário para fazer uma sessão improvisada.
O método NVIDIA 3D MoMa poderia capacitar arquitetos, designers, artistas conceituais e desenvolvedores de games a importar rapidamente um objeto para um engine gráfico para começar a trabalhar com ele, modificar a escala, alterar o material ou experimentar diferentes efeitos de iluminação.
A Pesquisa da NVIDIA demonstrou essa tecnologia em um vídeo celebrando o jazz e seu local de nascimento, Nova Orleans, onde o artigo sobre o MoMa 3D será apresentado esta semana na Conferência sobre Visão Computacional e Reconhecimento de Padrões.
Extraindo Objetos 3D de Imagens 2D
A renderização inversa, uma técnica para reconstruir um modelo 3D de um objeto ou cena a partir de uma série de fotos estáticas “há muito tempo é a grande aspiração para unificar a visão computacional e a computação gráfica”, explica David Luebke, vice-presidente de pesquisa gráfica da NVIDIA.
“Ao formular cada peça do problema de renderização inversa como um componente diferenciável acelerado por GPU, o pipeline de renderização NVIDIA 3D MoMa usa equipamento com AI moderna e potência computacional bruta das GPUs da NVIDIA para produzir modelos 3D rapidamente, para que os criadores possam importar, editar e estender sem limitação nas ferramentas existentes”, afirmou.
Para ser mais útil para um artista ou engenheiro, um objeto 3D precisa ter uma forma que possa ser inserida em ferramentas amplamente usadas, como engines de games, modeladores 3D e renderizadores de filmes. Essa forma é uma malha triangular com materiais texturizados, que é a linguagem comum usada por essas ferramentas 3D.
Estúdios de games e outros criadores tradicionalmente criariam objetos 3D como esses com técnicas complexas de fotogrametria que exigem tempo e esforço manual significativos. Trabalhos recentes nas áreas de radiação neural podem gerar rapidamente uma representação 3D de um objeto ou uma cena, mas não em um formato de malha triangular que possa ser facilmente editado.
O NVIDIA 3D MoMa gera modelos de malha triangular em uma hora em uma única GPU NVIDIA Tensor Core. O resultado produzido pelo pipeline é diretamente compatível com os engines gráficos 3D e as ferramentas de modelagem que os criadores já usam.
A reconstrução do pipeline inclui três recursos: um modelo de malha 3D, materiais e iluminação. A malha é como um modelo de papel machê em forma 3D construída a partir de triângulos. Com ela, os desenvolvedores podem modificar um objeto conforme sua visão criativa. Os materiais são texturas 2D sobrepostas nas malhas 3D como uma pele. Além disso, a estimativa do NVIDIA 3D MoMa de como a cena é iluminada permite que os criadores modifiquem posteriormente a incidência da iluminação sobre os objetos.
Afinando os Instrumentos para uma Banda de Jazz Virtual
Para mostrar os recursos do NVIDIA 3D MoMa, as equipes de pesquisa e criação da NVIDIA começaram coletando cerca de 100 imagens de cada um dos cinco instrumentos de uma banda de jazz (trompete, trombone, saxofone, bateria e clarinete) de diferentes ângulos.
O NVIDIA 3D MoMa reconstruiu essas imagens 2D em modelos 3D de cada instrumento, representados como malhas. Depois, a equipe da NVIDIA retirou os instrumentos das cenas originais e os importou para a plataforma de simulação 3D NVIDIA Omniverse para editar.
Em qualquer engine gráfico tradicional, os criadores podem facilmente trocar o material de uma forma gerada pelo NVIDIA 3D MoMa, como se vestissem a malha com roupas diferentes. A equipe fez isso com o modelo de trompete, por exemplo, convertendo instantaneamente seu plástico original em ouro, mármore, madeira ou cortiça.
Em seguida, os criadores podem colocar os objetos recém-editados em qualquer cena virtual. A equipe da NVIDIA deixou os instrumentos em uma caixa Cornell, um teste gráfico clássico para a qualidade de renderização. Eles demonstraram que os instrumentos virtuais reagem à luz exatamente como no mundo físico, com os instrumentos de bronze brilhantes apresentando reflexos cintilantes, e as peles de tambor foscas absorvendo luz.
Esses novos objetos, gerados por renderização inversa, podem ser usados como componentes para uma cena animada e complexa, exibida no final do vídeo como uma banda virtual de jazz.
O artigo sobre o NVIDIA 3D MoMa será apresentado em uma sessão na CVPR no dia 22 de junho, às 15h30, horário de Brasília. É um dos 38 artigos apresentados por autores da NVIDIA na conferência. Saiba mais sobre a Pesquisa na NVIDIA na CVPR.