NVIDIA e Google Cloud Colaboram para Acelerar o Desenvolvimento da IA

A NVIDIA e o Google Cloud anunciaram uma nova colaboração para ajudar startups em todo o mundo a acelerar a criação de aplicações e serviços de IA generativa.

O anúncio, feito no Google Cloud Next ’24 em Las Vegas, reúne o programa NVIDIA Inception para startups e o Google for Startups Cloud Program para ampliar o acesso a créditos em nuvem, suporte de entrada no mercado e conhecimento técnico para ajudar as startups a entregar valor aos clientes mais rapidamente.

Membros qualificados do NVIDIA Inception, um programa global que apoia mais de 18.000 startups, terão um caminho acelerado para usar a infraestrutura do Google Cloud com acesso a créditos do Google Cloud, oferecendo até US$ 350.000 para aqueles focados em IA.

Os membros do Google for Startups Cloud Program podem participar do NVIDIA Inception e obter acesso a conhecimentos tecnológicos, créditos de cursos do NVIDIA Deep Learning Institute, hardware e software NVIDIA e muito mais. Os membros elegíveis do Google for Startups Cloud Program também podem participar do NVIDIA Inception Capital Connect, uma plataforma que dá exposição a startups a empresas de capital de risco interessadas no espaço.

Os fabricantes de software emergentes de alto crescimento de ambos os programas também podem obter integração acelerada ao Google Cloud Marketplace, co-marketing e suporte de aceleração de produtos.

Esta colaboração é a mais recente de uma série de anúncios que as duas empresas fizeram para ajudar a aliviar os custos e barreiras associados ao desenvolvimento de aplicações de IA generativa para empresas de todos os tamanhos. As startups, em particular, são limitadas pelos altos custos associados aos investimentos em IA.

É Preciso Uma Plataforma de IA Full-Stack

Em fevereiro, o Google DeepMind revelou a Gemma, uma família de modelos abertos de última geração. A NVIDIA, em colaboração com o Google, lançou recentemente otimizações em todas as plataformas de IA da NVIDIA para a Gemma, ajudando a reduzir os custos do cliente e acelerar o trabalho inovador para casos de uso específicos do domínio.

As equipes das empresas trabalharam juntas para acelerar o desempenho do Gemma, construído a partir da mesma pesquisa e tecnologia usada para criar o modelo mais capaz do Google DeepMind até agora, o Gemini, com o NVIDIA TensorRT-LLM, uma biblioteca de código aberto para otimizar a inferência de grandes modelos de linguagem, quando executado em GPUs NVIDIA.

Os microsserviços NVIDIA NIM, parte da plataforma de software NVIDIA AI Enterprise, juntamente com o Google Kubernetes Engine (GKE) fornecem um caminho simplificado para o desenvolvimento de aplicações impulsionadas por IA e a implantação de modelos otimizados de IA na produção. Construído em mecanismos de inferência, incluindo o Servidor de Inferência NVIDIA Triton e TensorRT-LLM, O NIM suporta uma ampla gama de modelos líderes de IA e oferece inferência de IA escalável e perfeita para acelerar a implantação de IA generativa nas empresas.

A família de modelos Gemma, incluindo Gemma 7B, RecurrentGemma e CodeGemma, está disponível no catálogo de API da NVIDIA para os usuários experimentarem a partir de um navegador, prototipar com os endpoints da API e auto-hospedar com NIM.

O Google Cloud facilitou a implantação do framework NVIDIA NeMo em sua plataforma por meio do GKE e do Google Cloud HPC Toolkit. Isso permite que os desenvolvedores automatizem e escalem o treinamento e a veiculação de modelos de IA generativa, permitindo que eles implantem rapidamente ambientes prontos para o uso por meio de plantas personalizáveis que impulsionam o processo de desenvolvimento.

O NVIDIA NeMo, parte do NVIDIA AI Enterprise, também está disponível no Google Cloud Marketplace, fornecendo aos clientes outra maneira de acessar facilmente o NeMo e outros frameworks para acelerar o desenvolvimento de IA.

Ampliando ainda mais a disponibilidade de computação de IA generativa acelerada pela NVIDIA, o Google Cloud também anunciou que a disponibilidade geral do A3 Mega chegará no próximo mês. As instâncias são uma expansão de sua família de máquinas virtuais A3, impulsionadas por GPUs NVIDIA H100 Tensor Core. As novas instâncias dobrarão a largura de banda de rede GPU para GPU das VMs A3.

As novas VMs confidenciais do Google Cloud no A3 também incluirão suporte para computação confidencial para ajudar os clientes a proteger a confidencialidade e a integridade de seus dados confidenciais e proteger aplicações e cargas de trabalho de IA durante o treinamento e a inferência, sem alterações de código ao acessar a aceleração da GPU H100. Essas VMs confidenciais impulsionadas por GPU estarão disponíveis no Preview este ano.

Próximo: GPUs Baseadas em NVIDIA Blackwell

As mais novas GPUs da NVIDIA baseadas na plataforma NVIDIA Blackwell chegarão ao Google Cloud no início do próximo ano em duas variações: a NVIDIA HGX B200 e a NVIDIA GB200 NVL72.

A HGX B200 é projetada para as cargas de trabalho de IA, análise de dados e computação de alto desempenho mais exigentes, enquanto a GB200 NVL72 é projetada para treinamento de modelo de trilhão de parâmetros de próxima fronteira, em grande escala e inferência em tempo real.

A NVIDIA GB200 NVL72 conecta 36 Superchips Grace Blackwell, cada um com duas GPUs NVIDIA Blackwell combinadas com uma CPU NVIDIA Grace em uma interconexão chip a chip de 900GB/s, suportando até 72 GPUs Blackwell em um domínio NVIDIA NVLink e 130TB/s de largura de banda. Ele supera gargalos de comunicação e atua como uma única GPU, oferecendo inferência de LLM em tempo real 30 vezes mais rápida e treinamento 4 vezes mais rápido em comparação com a geração anterior.

A NVIDIA GB200 NVL72 é um sistema em escala de rack de vários nós que será combinado com a quarta geração de sistemas avançados de resfriamento líquido do Google Cloud.

A NVIDIA anunciou em março que a NVIDIA DGX Cloud, uma plataforma de IA para desenvolvedores corporativos otimizada para as demandas de IA generativa, está disponível em VMs A3 impulsionadas por GPUs H100. DGX Cloud com GB200 NVL72 também estará disponível no Google Cloud em 2025.