Brilhando Mais Juntos: Gemma do Google Otimizado para Rodar em GPUs NVIDIA

Novos modelos de linguagem aberta do Google acelerados pelo TensorRT-LLM em plataformas de IA da NVIDIA, incluindo PCs locais RTX com IA.
por Ankit Patel

A NVIDIA, em colaboração com o Google, lançou hoje otimizações em todas as plataformas de IA da NVIDIA para o Gemma, o novo modelo de linguagem aberta leve de 2 bilhões  (e também com 7 bilhões) de parâmetros do Google que podem ser executados em qualquer lugar, reduzindo custos e acelerando o trabalho inovador para casos de uso específicos de domínio.

As equipes das empresas trabalharam juntas para acelerar o desempenho do Gemma, construído a partir da mesma pesquisa e tecnologia usada para criar os modelos Gemini, com o NVIDIA TensorRT-LLM, uma biblioteca de código aberto para otimizar a inferência de grandes modelos de linguagem, ao ser executado em GPUs NVIDIA no data center, na nuvem e em PCs com GPUs NVIDIA RTX.

Isso permite que os desenvolvedores direcionem a base instalada de mais de 100 milhões de GPUs NVIDIA RTX disponíveis em PCs de IA de alto desempenho globalmente.

Os desenvolvedores também podem executar o Gemma em GPUs NVIDIA na nuvem, incluindo nas instâncias A3 do Google Cloud baseadas na GPU H100 Tensor Core e, em breve, nas GPUs H200 Tensor Core da NVIDIA, com 141 GB de memória HBM3e a 4,8 terabytes por segundo, que o Google implantará este ano.

Os desenvolvedores corporativos também podem aproveitar o rico ecossistema de ferramentas da NVIDIA, incluindo o NVIDIA AI Enterprise com o framework NeMo e o TensorRT-LLM, para ajustar o Gemma e implantar o modelo otimizado em sua aplicação de produção.

Saiba mais sobre como o TensorRT-LLM está acelerando a inferência para o Gemma, juntamente com informações adicionais para desenvolvedores. Isso inclui vários pontos de verificação de modelo do Gemma e a versão quantizada FP8 do modelo, todos otimizados com TensorRT-LLM.

Experimente o Gemma 2B e o Gemma 7B diretamente do seu navegador no NVIDIA AI Playground.

Gemma Vem Conversar com a RTX

Adicionando suporte para Gemma em breve é o Chat with RTX, uma demonstração de tecnologia NVIDIA que usa geração aumentada de recuperação e software TensorRT-LLM para dar aos usuários recursos de IA generativa em seus PCs Windows locais com RTX.

O Chat With RTX permite que os usuários personalizem um chatbot com seus próprios dados, conectando facilmente arquivos locais em um PC a um grande modelo de linguagem.

Como o modelo é executado localmente, ele fornece resultados rapidamente e os dados do usuário permanecem no dispositivo. Em vez de depender de serviços LLM baseados na nuvem, o Chat with RTX permite que os usuários processem dados confidenciais em um PC local sem a necessidade de compartilhá-los com terceiros ou ter uma conexão com a Internet.