NVIDIA Maxine Reinventa a Comunicação em Tempo Real com AI

A versão mais recente traz efeitos de áudio de última geração para milhões de pessoas.
por Rick Champagne

Todos querem ser ouvidos. E com mais pessoas do que nunca em videochamadas ou transmissões ao vivo de seus escritórios em casa, um áudio rico livre de eco e ruídos de fundo, como cães latindo, é a chave para experiências on-line com melhor som.

A NVIDIA Maxine oferece kits de desenvolvimento de software habilitados para AI e acelerados por GPU para ajudar os desenvolvedores a criar pipelines de efeitos de áudio e vídeo escaláveis ​​e de baixa latência que melhoram a qualidade das chamadas e a experiência do usuário.

Hoje, a NVIDIA anunciou no GTC que a Maxine está adicionando cancelamento de eco acústico e upsampling baseado em IA para melhor qualidade de som.

O cancelamento de eco acústico elimina o eco acústico do fluxo de áudio em tempo real, preservando a qualidade da fala mesmo durante a conversa. Com tecnologia baseada em AI, a Maxine AEC alcança um cancelamento de eco mais eficaz do que o obtido por meio de algoritmos tradicionais de processamento de sinal digital.

A super resolução de áudio melhora a qualidade de um sinal de áudio de baixa largura de banda, restaurando a energia perdida em bandas de frequência mais altas usando técnicas baseadas em AI. Maxine Audio Super Resolution suporta upsampling do áudio de 8 kHz (banda estreita) para 16 kHz (banda larga), de 16 kHz a 48 kHz (banda ultralarga) e de 8 kHz a 48 kHz. Taxas de amostragem mais baixas, como 8 kHz, geralmente resultam em vozes abafadas e enfatizam artefatos como sibilância e dificultam a compreensão da fala.

Os estúdios modernos de cinema e televisão costumam usar uma taxa de amostragem de 48 kHz (ou superior) para gravar áudio, a fim de manter a fidelidade do sinal original e preservar a clareza. A super-resolução de áudio pode ajudar a restaurar a fidelidade de gravações de áudio antigas, derivadas de fitas magnéticas ou outras mídias de baixa largura de banda.

Preenchendo a Lacuna do Som

A maioria das telecomunicações modernas ocorre usando áudio de banda larga ou banda ultralarga. Como a NVIDIA Audio Super Resolution pode fazer upsample e restaurar o áudio de banda estreita em tempo real, a tecnologia pode ser usada efetivamente para preencher a lacuna de qualidade entre as linhas telefônicas de fio de cobre tradicionais e os modernos sistemas de comunicação de banda larga baseados em VoIP.

A comunicação em tempo real, seja para chamadas em conferência, call centers ou transmissão ao vivo de todos os tipos, está dando um grande salto com a Maxine.

Desde seu lançamento inicial, Maxine foi adotada por muitos dos principais fornecedores mundiais de comunicações de vídeo, criação de conteúdo e transmissão ao vivo.

Espera-se que o mercado mundial de videoconferência aumente para quase US$13 bilhões em 2028, acima dos US$6,3 bilhões em 2021, de acordo com a Fortune Business Insights.

Trabalhar em Casa: Um Estilo de Vida

A mudança para o trabalho em casa, ou WFH (Work From Home), tornou-se uma norma aceita em todas as empresas, e as organizações estão se adaptando às novas expectativas.

A empresa de analistas Gartner estima que apenas um quarto das reuniões para empresas serão presenciais em 2024, um declínio de 60% antes da pandemia.

A colaboração virtual nos EUA desempenhou um papel importante, pois as pessoas assumiram posições híbridas e remotas nos últimos dois anos em meio à pandemia.

Mas, à medida que as organizações buscam manter a cultura da empresa e a experiência no local de trabalho, as apostas aumentaram para a interatividade de mídia de maior qualidade

Resolvendo o Problema das Interferências

Mas às vezes o trabalho e a vida doméstica colidem. Como resultado, as reuniões são muitas vezes cheias de ruídos de fundo de crianças, trabalhos de construção do lado de fora ou sirenes de veículos de emergência, causando breves interrupções no fluxo de chamadas em conferência.

A Maxine ajuda a resolver um antigo problema de áudio conhecido como o problema das interferências. Com a AI, ela pode filtrar ruídos de fundo indesejados, permitindo que os usuários sejam melhor ouvidos, estejam eles em um home office ou em trânsito.

A plataforma acelerada por GPU Maxine fornece um pipeline de deep learning de ponta a ponta que se integra a modelos personalizáveis de última geração, permitindo recursos de alta qualidade com microfone e câmera padrão.

Soe Como o Seu Melhor Eu

Além de ser afetada pelo ruído de fundo, a qualidade do áudio em atividades virtuais às vezes pode parecer fraca, faltando frequências de nível baixo e médio, ou até mesmo ser quase inaudível.

Maxine permite upsampling de áudio em tempo real para que as vozes soem mais completas, profundas e mais audíveis.

Logitech: o Melhor Áudio para Fones de Ouvido e Microfones Blue Yeti

A Logitech, fabricante líder de periféricos, está implementando o Maxine para melhores interações com seus populares fones de ouvido e microfones.

Aproveitando as bibliotecas de AI, a Logitech integrou o Maxine diretamente nos drivers de áudio do G Hub para aprimorar as comunicações com seus dispositivos sem a necessidade de software adicional. Maxine aproveita os poderosos Tensor Cores nas GPUs NVIDIA RTX para que os consumidores possam desfrutar do processamento em tempo real do sinal do microfone.

A Logitech agora está aproveitando a redução de ruídos de última geração da Maxine em seu software G Hub. Isso permitiu remover ecos e ruídos de fundo, como ventiladores, além de cliques de teclado e mouse, que podem distrair de videoconferências ou sessões de transmissão ao vivo.

“A NVIDIA Maxine torna rápido e fácil para os usuários limpar o sinal do microfone e eliminar ruídos de fundo indesejados em um único clique”, disse Ujesh Desai, vice-presidente da Logitech. “Desviando sons de cliques de teclado a ventoinhas de PC que distraem, recursos como Remoção de Ruído e Remoção de Eco de Sala ajudam você. Você pode até testar seu sinal de microfone para encontrar as configurações perfeitas para sua configuração.”

Tencent Cloud Impulsiona Criadores de Conteúdo

A Tencent Cloud está ajudando os criadores de conteúdo em suas produções, oferecendo a tecnologia da NVIDIA Maxine que torna rápido e fácil adicionar planos de fundo criativos.

O recurso AI Green Screen da NVIDIA Maxine permite que os usuários criem uma presença mais imersiva com separação de primeiro e segundo plano de alta qualidade, sem a necessidade de uma tela verde tradicional. Uma vez que o fundo real é separado, ele pode ser facilmente substituído por um fundo virtual ou desfocado para criar um efeito de profundidade de campo. A Tencent Cloud está oferecendo esse novo recurso como um pacote de software como serviço para criadores de conteúdo.

A tecnologia AI Green Screen da NVIDIA Maxine ajuda os criadores de conteúdo em suas produções, permitindo experiências mais imersivas de alta qualidade, sem a necessidade de equipamentos e iluminação especializados”, disse o diretor do Product Center, Vulture Li na plataforma de áudio e vídeo Tencent Cloud.

Melhorando as Experiências Virtuais

A NVIDIA Maxine oferece recursos de áudio, vídeo e realidade aumentada de AI em tempo real de última geração que podem ser integrados em pipelines de deep learning personalizáveis de ponta a ponta.

Os SDKs com inteligência artificial da Maxine ajudam os desenvolvedores a criar aplicações que incluem redução de ruído de áudio e imagem, super resolução, correção de olhar, estimativa de pose de corpo 3D e recursos de tradução.

Maxine também permite tradução de voz para texto em tempo real para um número crescente de idiomas. No GTC, a NVIDIA demonstrou Maxine traduzindo entre inglês, francês, alemão e espanhol.

Esses efeitos permitirão que milhões de pessoas desfrutem de vídeo de transmissão ao vivo de alta qualidade e envolvente em qualquer dispositivo.

Junte-se a nós no GTC esta semana para saber mais sobre Maxine na seguinte sessão: