SLM com Baixa Latência: Como o primeiro modelo de linguagem pequena no dispositivo da NVIDIA torna os humanos digitais mais realistas

Nota do editor: Esta postagem faz parte da série IA Decodificada, que desmistifica a IA ao tornar a tecnologia mais acessível e que apresenta novos hardware, software, ferramentas e acelerações para usuários de PC RTX.

Na Gamescom desta semana, a NVIDIA anunciou que o NVIDIA ACE — um conjunto de tecnologias para dar vida a humanos digitais com IA generativa — agora inclui o primeiro modelo de linguagem pequena (SLM) no dispositivo da empresa, alimentado localmente pela RTX com IA.

O modelo, chamado Nemotron-4 4B Instruct, oferece melhores recursos de interpretação de papéis, geração aumentada de recuperação e chamada de funções, para que os personagens do jogo possam compreender as instruções do jogador de forma mais intuitiva, responder aos jogadores e executar ações mais precisas e relevantes.

Disponível como um microsserviço NVIDIA NIM para implantação na nuvem e no dispositivo por desenvolvedores de jogos, o modelo é otimizado para baixo uso de memória, oferecendo tempos de resposta mais rápidos e fornecendo aos desenvolvedores uma maneira de aproveitar mais de 100 milhões de PCs e notebooks com GeForce RTX e workstations com NVIDIA RTX.

A vantagem do SLM

A precisão e o desempenho de um modelo de IA dependem do tamanho e da qualidade do conjunto de dados usado para treinamento. Grandes modelos de linguagem são treinados em grandes quantidades de dados, mas são tipicamente de uso geral e contêm informações em excesso para a maioria dos usos.

Os SLMs, por outro lado, focam em casos de uso específicos. Então, mesmo com menos dados, eles são capazes de entregar respostas mais precisas, mais rapidamente — elementos críticos para conversar naturalmente com humanos digitais.

O Nemotron-4 4B foi primeiro destilado do maior Nemotron-4 15B LLM. Esse processo requer que o modelo menor, chamado de “aluno”, imite as saídas do modelo maior, apropriadamente chamado de “professor”. Durante esse processo, saídas não críticas do modelo do aluno são podadas ou removidas para reduzir o tamanho do parâmetro do modelo. Então, o SLM é quantizado, o que reduz a precisão dos pesos do modelo.

Com menos parâmetros e menos precisão, o Nemotron-4 4B tem uma pegada de memória menor e um tempo mais rápido para o primeiro token — quão rápido uma resposta começa — do que o Nemotron-4 LLM maior, mantendo ainda um alto nível de precisão devido à destilação. Sua pegada de memória menor também significa que jogos e aplicativos que integram o microsserviço NIM podem ser executados localmente em mais PCs e notebooks GeForce RTX com IA e Workstations NVIDIA RTX com IA que os consumidores possuem hoje.

Este novo SLM otimizado também é construído com ajuste de instrução, uma técnica para ajustar modelos em prompts instrucionais para melhor executar tarefas específicas. Isso pode ser visto em Mecha BREAK, um videogame no qual os jogadores podem conversar com um personagem de jogo mecânico e instruí-lo a trocar e personalizar mechs.

ACEs para cima

Os microsserviços ACE NIM permitem que os desenvolvedores implantem modelos de IA generativos de última geração por meio da nuvem ou em PCs e workstations RTX com IA para levar IA aos seus jogos e aplicativos. Com os microsserviços ACE NIM, personagens não jogáveis (NPCs) podem interagir e conversar dinamicamente com os jogadores no jogo em tempo real.

O ACE consiste em modelos de IA essenciais para fala para texto, linguagem, texto para fala e animação facial. Ele também é modular, permitindo que os desenvolvedores escolham o microsserviço NIM necessário para cada elemento em seu processo específico.

O reconhecimento automático de fala (ASR) NVIDIA Riva processa a linguagem falada de um usuário e usa IA para fornecer uma transcrição altamente precisa em tempo real. A tecnologia cria pipelines de IA de conversação totalmente personalizáveis usando microsserviços de fala e tradução multilíngues acelerados por GPU. Outros ASRs suportados incluem o Whisper da OpenAI, uma rede neural de código aberto que se aproxima da robustez e precisão de nível humano no reconhecimento de fala em inglês.

Uma vez traduzida para texto digital, a transcrição vai para um LLM — como o Gemma do Google, o Llama 3 da Meta ou agora o NVIDIA Nemotron-4 4B — para começar a gerar uma resposta à entrada de voz original do usuário.

Em seguida, outra parte da tecnologia Riva — texto para fala — gera uma resposta de áudio. A tecnologia de voz e fala de IA proprietária da ElevenLabs também é suportada e foi demonstrada como parte do ACE, como visto na demonstração acima.

Por fim, o NVIDIA Audio2Face (A2F) gera expressões faciais que podem ser sincronizadas com diálogos em muitos idiomas. Com o microsserviço, avatares digitais podem exibir emoções dinâmicas e realistas transmitidas ao vivo ou incorporadas durante o pós-processamento.

A rede de IA anima automaticamente os movimentos do rosto, olhos, boca, língua e cabeça para corresponder à faixa emocional selecionada e ao nível de intensidade. E o A2F pode inferir automaticamente a emoção diretamente de um clipe de áudio.

Por fim, o personagem completo ou humano digital é animado em um renderizador, como o Unreal Engine ou a plataforma NVIDIA Omniverse.

IA com NIM

Além do suporte modular para vários modelos de IA de terceiros e com tecnologia NVIDIA, o ACE permite que os desenvolvedores executem inferências para cada modelo na nuvem ou localmente em PCs e workstations RTX com AI.

O kit de desenvolvimento de software NVIDIA AI Inference Manager permite inferência híbrida com base em várias necessidades, como experiência, carga de trabalho e custos. Ele simplifica a implantação e integração do modelo de IA para desenvolvedores de aplicativos de PC pré-configurando o PC com os modelos, mecanismos e dependências de IA necessários. Os aplicativos e jogos podem então orquestrar a inferência perfeitamente em um PC ou workstation para a nuvem.

Os microsserviços ACE NIM são executados localmente em PCs e workstations RTX com IA, bem como na nuvem. Os microsserviços atuais em execução local incluem Audio2Face, na demonstração tecnológica Covert Protocol, e o novo Nemotron-4 4B Instruct e Whisper ASR no Mecha BREAK.

Ao infinito e além

Humanos digitais vão muito além de NPCs em jogos. Na conferência SIGGRAPH do mês passado, a NVIDIA apresentou o “James”, um humano digital interativo que pode se conectar com pessoas usando emoções, humor e muito mais. James é baseado em um fluxo de trabalho de atendimento ao cliente usando ACE.

Mudanças nos métodos de comunicação entre humanos e tecnologia ao longo das décadas eventualmente levaram à criação de humanos digitais. O futuro da interface humano-computador terá uma face amigável e não exigirá entradas físicas.

Humanos digitais impulsionam interações mais envolventes e naturais. De acordo com a Gartner, 80% das ofertas de conversação incorporarão IA generativa até 2025, e 75% dos aplicativos voltados para o cliente terão IA conversacional com emoção. Humanos digitais transformarão vários setores e casos de uso além dos jogos, incluindo atendimento ao cliente, saúde, varejo, telepresença e robótica.

Os usuários podem ter um vislumbre desse futuro agora interagindo com James em tempo real em ai.nvidia.com.

A IA generativa está transformando jogos, videoconferências e experiências interativas de todos os tipos. Entenda o que há de novo e o que vem por aí assinando a newsletter de IA Decodificada.21