Nova Arquitetura Nativa no Cloud do NVIDIA Maxine Oferece Qualidade de Áudio e Vídeo Inovadora em Escala

Os microsserviços de IA de acesso antecipado oferecem comunicações de qualidade premium no cloud.
por Delilah Liu

A versão mais recente do NVIDIA Maxine está abrindo caminho para comunicações de áudio e vídeo em tempo real. Seja para uma videoconferência, uma chamada para um centro de atendimento ao cliente ou uma transmissão ao vivo, Maxine permite comunicações claras para aprimorar as interações virtuais.

O NVIDIA Maxine é um conjunto de kits de ferramentas de desenvolvimento de software de IA acelerados por GPU (SDKs) e microsserviços nativos do cloud para implantar recursos de IA otimizados e acelerados que aprimoram os efeitos de áudio, vídeo e realidade aumentada (AR) em tempo real.

E com os modelos de última geração da Maxine, os usuários finais não precisam de equipamentos caros para melhorar o áudio e o vídeo. Usando a tecnologia baseada em IA da NVIDIA, esses efeitos de alta qualidade podem ser obtidos com microfones e equipamentos de câmera padrão.

No GTC, a NVIDIA anunciou a rearquitetura do Maxine para microsserviços nativos do cloud, com o lançamento de acesso antecipado do microsserviço de efeitos de áudio do Maxine. Além disso, novos recursos do SDK Maxine foram revelados, incluindo Speaker Focus e Face Expression Estimation, bem como a disponibilidade geral do Eye Contact. O NVIDIA Maxine agora também inclui versões aprimoradas dos recursos existentes do SDK.

Maxine se Torna Nativa do Cloud

Os microsserviços nativos do cloud da Maxine permitem que os desenvolvedores criem aplicações de IA em tempo real. Os microsserviços podem ser gerenciados de forma independente e implantados perfeitamente no cloud, acelerando os cronogramas de desenvolvimento.

O seguinte microsserviço, disponível em acesso antecipado, contém quatro recursos de áudio:

  • Remoção de Ruído de Fundo: remove vários ruídos de fundo comuns usando modelos de IA de última geração, preservando a voz natural do falante.
  • Remoção de Eco da Sala: remove reverberações do áudio usando modelos de IA restaurando a clareza da voz do locutor.
  • Super Resolução de Áudio: melhora a qualidade do áudio aumentando a resolução temporal do sinal de áudio. Atualmente suporta upsampling de 8 kHz para 16 kHz e de 16 kHz para 48 kHz.
  • Cancelamento de Eco Acústico: cancela o eco do dispositivo acústico em tempo real do fluxo de áudio de entrada, eliminando pares acústicos incompatíveis e conversação dupla. Com a tecnologia baseada em IA, é alcançado um cancelamento mais eficaz do que com o processamento de sinal digital tradicional.

A Pexip, fornecedora líder de soluções corporativas de videoconferência e colaboração, está usando as tecnologias de IA da NVIDIA para levar as reuniões virtuais ao próximo nível com recursos avançados para a equipe de trabalho moderna.

“Com a mudança da Maxine para microsserviços nativos do cloud, será ainda mais fácil combinar as tecnologias avançadas de IA da NVIDIA com nossa própria arquitetura exclusiva do lado do servidor”, disse Eddie Clifton, vice-presidente sênior de alianças estratégicas da Pexip. “Isso permite que nossas equipes da Pexip ofereçam uma experiência aprimorada para reuniões virtuais.”

Inscreva-se para acesso antecipado.

Explore os Recursos Aprimorados dos SDKs

A Maxine oferece três SDKs acelerados por GPU que reinventam as comunicações em tempo real com IA: efeitos de áudio, vídeo e RA.

O SDK de efeitos de áudio oferece algoritmos de aprimoramento de qualidade de áudio baseados em IA com vários efeitos e baixa latência. Speaker Focus, disponível no acesso antecipado, é um novo recurso que separa as faixas de áudio dos alto-falantes de primeiro e segundo plano, tornando cada voz mais inteligível. Além disso, o recurso Audio Super Resolution foi atualizado com qualidade aprimorada.

O SDK de efeitos de vídeo cria efeitos de vídeo baseados em IA com entrada de webcam padrão. O recurso Virtual Background, que segmenta o perfil de uma pessoa e aplica remoção, substituição ou desfoque de plano de fundo com inteligência artificial, foi atualizado com estabilidade temporal aprimorada.

E o SDK de RA fornece rastreamento de rosto 3D em tempo real e estimativa de pose corporal com inteligência artificial com base em um feed de câmera da web padrão. Os recursos mais recentes incluem:

  • Eye Contact: Simula o contato com os olhos estimando e alinhando o olhar com a câmera.
  • Face Expression Estimation: rastreia o rosto e infere qual expressão é apresentada pelo sujeito.

Os seguintes recursos de RA foram atualizados:

  • Body Pose Estimation: prevê e rastreia 34 pontos-chave do corpo humano em 2D e 3D, agora com suporte para rastreamento de várias pessoas.
  • Face Landmark Tracking: reconhece características e contornos faciais usando 126 pontos-chave. Rastreia a pose da cabeça e a deformação facial devido ao movimento e expressão da cabeça, em três graus de liberdade em tempo real, agora com o modo “Quality” para obter um rastreamento de qualidade ainda maior.
  • Face Mesh: representa um rosto humano com uma malha 3D com até 3.000 vértices e seis graus de liberdade, agora inclui modelos 3D mutáveis do USC Institute of Creative Technologies.

Experimente os SDKs Maxine. Para experimentar diretamente os efeitos do Maxine, faça download da aplicação NVIDIA Broadcast.

Experimente Efeitos de Última Geração com o Poder da IA

Os SDKs e microsserviços Maxine fornecem um conjunto de efeitos de IA de baixa latência que podem ser integrados às infraestruturas existentes do cliente. Os desenvolvedores podem aproveitar os recursos de IA de ponta com o Maxine, pois a tecnologia é construída na plataforma de IA da NVIDIA e possui modelos pré-treinados de classe mundial para os usuários criarem, personalizarem e implantarem recursos premium de qualidade de áudio e vídeo.

Maxine também faz parte do NVIDIA Omniverse Avatar Cloud Engine, uma coleção de modelos e serviços de IA baseados no cloud para desenvolvedores criarem, personalizarem e implantarem avatares interativos. Os microsserviços personalizáveis nativos do cloud da Maxine permitem a implantação independente em pipelines de efeitos de IA. Maxine pode ser implantado no local, no cloud ou no edge.

Saiba mais sobre a NVIDIA Maxine e outras inovações tecnológicas assistindo à apresentação de abertura do GTC do fundador e CEO da NVIDIA, Jensen Huang.