NVIDIA Anuncia Plataforma Para Criar Avatares com AI

O NVIDIA Omniverse Avatar possibilita a existência de assistentes baseados em inteligência artificial capazes de conversação em tempo real
por Kristin Uchiyama

A NVIDIA anuncia o NVIDIA Omniverse Avatar, plataforma tecnológica para gerar avatares interativos de inteligência artificial (AI). O Omniverse Avatar conecta as tecnologias da empresa em AI coversacional, visão computacional, compreensão da linguagem natural, mecanismos de recomendação e tecnologias de simulação. Os avatares criados na plataforma são personagens interativos com gráficos 3D com ray tracing que podem ver, falar, conversar sobre uma ampla gama de assuntos e compreender a intenção falada de forma natural.

O Omniverse Avatar abre as portas para a criação de assistentes de AI que são facilmente personalizáveis para praticamente qualquer indústria. Isso poderia ajudar nas bilhões de interações diárias de atendimento ao cliente (pedidos de restaurantes, transações bancárias, marcação de consultas, reservas e muito mais) ampliando as oportunidades de negócios e melhorando a satisfação do cliente.

“A aurora dos assistentes virtuais inteligentes chegou”, afirma Jensen Huang, fundador e CEO da NVIDIA. “O Omniverse Avatar combina os gráficos, a simulação e a AI básicos da NVIDIA para fazer algumas das aplicações em tempo real mais complexas já criadas. Os casos de uso de robôs colaborativos e assistentes virtuais são incríveis e de amplo alcance”.

O Omniverse Avatar faz parte do NVIDIA Omniverse™, uma simulação de mundo virtual e plataforma colaborativa para workflows 3D, atualmente em open beta com mais de 70 mil usuários.

Em seu discurso no NVIDIA GTC, Huang compartilhou vários exemplos do uso do Omniverse Avatar, como o Projeto Tokkio, para suporte ao cliente; o NVIDIA DRIVE Concierge, para serviços sempre ativos e inteligentes em veículos; e o Projeto Maxine, para videoconferência.

Na primeira demonstração do Projeto Tokkio, Huang mostrou colegas em uma conversa em tempo real com um avatar, criado como uma réplica de brinquedo dele mesmo, conversando sobre temas como diagnósticos de saúde e ciência climática.

Na segunda demonstração do Projeto Tokkio, ele destacou um avatar de atendimento ao cliente em um quiosque de restaurante, capaz de ver, conversar e entender dois clientes enquanto eles pediam hambúrgueres vegetarianos, batatas fritas e bebidas. As demonstrações foram impulsionadas pelo software NVIDIA AI e pelo Megatron 530B, que é, atualmente, o maior modelo de linguagem customizável do mundo.

Em uma demonstração da plataforma de AI DRIVE Concierge, um assistente digital, que fica na tela do painel central, ajuda o motorista a selecionar o melhor modo de direção para chegar a seu destino a tempo e, em seguida, segue o pedido do motorista para definir um lembrete quando o alcance do carro cair abaixo de 160 km, por exemplo.

Separadamente, Huang mostrou a capacidade do Projeto Maxine de adicionar recursos de vídeo e áudio de última geração às aplicações de colaboração virtual e criação de conteúdo. Um alto-falante em inglês é mostrado em uma chamada de vídeo em um café barulhento, mas pode ser ouvida claramente sem ruído de fundo. Enquanto a voz fala, suas palavras são transcritas e traduzidas em tempo real para francês, alemão e espanhol com sua mesma voz e entonação.

Principais Elementos do Avatar Omniverse

O Omniverse Avatar usa elementos de AI conversacional, visão computacional, compreensão de linguagem natural, mecanismos de recomendação, animação facial e gráficos entregues através das seguintes tecnologias:

  • O reconhecimento de voz é baseado no NVIDIA Riva, um kit de desenvolvimento de software que reconhece a fala em vários idiomas. O Riva também é usado para gerar respostas de fala semelhantes às humanas por meio de recursos de conversão de texto em voz;
  • A compreensão da linguagem natural é baseada no amplo modelo de linguagem do Megatron 530B, que pode reconhecer, entender e gerar linguagem humana. O Megatron 530B é um modelo pré-treinado que pode, com pouco ou nenhum treinamento, completar frases, responder perguntas de uma grande variedade de assuntos, resumir histórias longas e complexas, traduzir para outros idiomas e lidar com muitos domínios para os quais não foi especificamente treinado;
  • O mecanismo de recomendação é fornecido pelo NVIDIA Merlin™, um framework que permite que as empresas criem sistemas de recomendação de deep learning capazes de lidar com grandes quantidades de dados para fazer sugestões mais inteligentes;
  • Os recursos de percepção são habilitados pelo NVIDIA Metropolis, um framework de visão computacional para análise de vídeo;
  • A animação de avatar é impulsionado pelo NVIDIA Video2Face e pelo Audio2Face™, a animação facial 2D e 3D é baseada em AI e tecnologias de renderização.

Essas tecnologias são organizadas em uma aplicação e processadas em tempo real usando o NVIDIA Unified Compute Framework. Embalados como microsserviços escaláveis e personalizáveis, suas habilidades podem ser implantadas, gerenciadas e orquestradas com segurança em vários locais pelo NVIDIA Fleet Command™.

Saiba mais sobre o Avatar Omniverse aqui.