Escolher entre um sistema de GPU on-premise e no cloud é um pouco como decidir entre comprar ou alugar uma casa.
O aluguel exige menos capital adiantado. O pagamento é feito ao longo do tempo, e problemas como rachadura na parede ou goteira no teto são consertados pelo proprietário do imóvel. Se os seus filhos adultos finalmente se mudaram, e é hora de você se mudar para uma casa menor, como inquilino você só é obrigado a ficar pelo tempo que os termos do contrato ditam.
Essas são as principais vantagens do aluguel de GPUs no cloud: pouco obstáculo financeiro para a entrada, suporte dos fornecedores de serviço em cloud e capacidade de dimensionar rapidamente para um cluster de computação de tamanho diferente.
Comprar, por outro lado, é um custo fixo e único: quando você compra um imóvel, fica lá o tempo que quiser. A menos que esteja vivendo com adolescentes, o dono é quem manda sobre o que acontece lá dentro. Não há contrato de aluguel, então, desde que todos caibam na casa, não há problema em convidar alguns amigos e parentes para uma estadia prolongada.
Esse é o mesmo raciocínio para investir em GPUs on-premise. Um sistema on-premise pode ser usado pelo tempo e pelo número de projetos que o hardware puder executar, facilitando a iteração e a tentativa de métodos diferentes sem considerar o custo. Para dados confidenciais, como informações financeiras ou registros da área da saúde, pode ser essencial manter tudo atrás do firewall de uma empresa.
Dependendo do caso de uso em questão e do tipo de dados envolvidos, os desenvolvedores podem optar por criar suas ferramentas de AI em um sistema de desktop, em um data center on-premise ou no cloud. Provavelmente, eles passarão de um ambiente para outro em diferentes pontos da jornada, da experimentação inicial à implantação em larga escala.
Usando GPUs no Cloud
As GPUs baseadas no cloud podem ser usadas para diversas tarefas, como treinar engines de fala de AI multilíngues, detectar sinais precoces de cegueira induzida por diabetes e desenvolver tecnologia de compactação de mídia. Startups, acadêmicos e criadores podem rapidamente começar, explorar novas ideias e experimentar sem um compromisso de longo prazo com um tamanho ou configuração específicos de GPUs.
As GPUs de data center da NVIDIA podem ser acessadas em todas as principais plataformas de cloud, incluindo Alibaba Cloud, Amazon Web Services, Google Cloud, IBM Cloud, Microsoft Azure e Oracle Cloud Infrastructure.
Os provedores de serviços em cloud auxiliam os usuários com a configuração e a solução de problemas, oferecendo recursos úteis, como ferramentas de desenvolvimento, redes neurais pré-treinadas e suporte técnico para desenvolvedores. Quando uma enxurrada de dados de treinamento chega, um programa-piloto é lançado ou uma tonelada de novos usuários chega, o cloud permite que as empresas dimensionem facilmente sua infraestrutura para lidar com a demanda flutuante por recursos de computação.
Além do custo-benefício, os desenvolvedores que usam o cloud para pesquisa, aplicações em contêineres, experimentos ou outros projetos que não são sensíveis ao tempo podem obter descontos de até 90% usando o excesso de capacidade. Esse uso, conhecido como “instâncias pontuais”, efetivamente subloca o espaço em GPUs do cloud que não são usadas por outros clientes.
Os usuários que trabalham no cloud a longo prazo também podem fazer upgrade para as GPUs de data center mais atuais e potentes à medida que os provedores de cloud atualizam suas ofertas e, muitas vezes, podem aproveitar os descontos pelo uso contínuo da plataforma.
Usando GPUs On-Premise
Ao construir modelos de AI complexos com enormes conjuntos de dados, os custos operacionais para um projeto de longo prazo às vezes podem aumentar. Isso pode fazer com que os desenvolvedores estejam atentos a cada iteração ou treinamento que realizam, deixando menos liberdade para experimentar. Um sistema de GPU on-premise oferece aos desenvolvedores iterações e testes ilimitados por um custo fixo e único.
Cientistas de dados, estudantes e empresas que usam GPUs on-premise não precisam contar quantas horas de uso do sistema estão acumulando ou orçar quantas execuções podem pagar em um período específico.
Se uma nova metodologia falhar inicialmente, não haverá nenhum investimento adicional necessário para testar uma variação diferente do código, incentivando a criatividade dos desenvolvedores. Quanto mais um sistema on-premise for usado, maior será o retorno sobre o investimento do desenvolvedor.
De potentes GPUs para desktops a workstations e sistemas empresariais, as máquinas de AI on-premise apresenta um amplo espectro de opções. Dependendo das necessidades de preço e desempenho, os desenvolvedores podem começar com uma única GPU ou workstation da NVIDIA e, eventualmente, aumentar para um cluster de supercomputadores de AI.
A NVIDIA e a VMware oferecem suporte para data centers modernos e virtualizados com o software NVIDIA Virtual Compute Server (vCS) e o registro de contêiner do NVIDIA NGC. Isso ajuda as empresas a simplificar a implantação e o gerenciamento de cargas de trabalho de AI em ambientes virtuais usando servidores de GPU.
As empresas da área da saúde, as organizações de direitos humanos e o setor de serviços financeiros têm padrões rigorosos de soberania e privacidade de dados. Sistemas deep learning on-premise podem facilitar a adoção de AI ao seguir as normas e minimizar riscos de cibersegurança.
Usando uma Arquitetura de Cloud Híbrido
Para muitas empresas, não basta escolher apenas um método. A computação em cloud híbrido combina ambos, aproveitando a segurança e a capacidade de gerenciamento de sistemas on-premise e os recursos de cloud público de um provedor de serviços.
O cloud híbrido pode ser usado quando a demanda é alta e os recursos on-premise são maximizados, uma tática conhecida como “cloud bursting”. Uma empresa também pode contar com um data center on-premise para processar os dados mais confidenciais e, ao mesmo tempo, executar tarefas dinâmicas e com uso intensivo de computação no cloud híbrido.
Muitos data centers empresariais já estão virtualizados e buscando implantar um cloud híbrido consistente com os recursos de computação existentes da empresa. A NVIDIA trabalha em parceria com a VMware Cloud na AWS para oferecer serviços de GPU acelerados para aplicações empresariais modernas, incluindo workflows de AI, machine learning e análise de dados.
O serviço permitirá que usuários de cloud híbrido orquestrem facilmente e migrem ao vivo cargas de trabalho de AI entre servidores virtuais acelerados por GPU em data centers e no VMware Cloud.
Aproveite o Melhor dos Dois Mundos: o Roteiro de AI de um Desenvolvedor
Fazer uma escolha entre GPUs on-premise e no cloud não é uma decisão única, tomada por uma empresa ou equipe de pesquisa antes de iniciar um projeto de AI. É uma pergunta que os desenvolvedores podem se fazer em vários estágios, durante seus projetos.
É possível que uma startup inicie a prototipagem no cloud e mude para um computador ou workstation de GPU para desenvolver e treinar seus modelos de deep learning. Ela pode voltar para o cloud ao escalar para produção, flutuando o número de clusters usados com base na demanda do cliente. À medida que a empresa constrói sua infraestrutura global, ela pode investir em um data center com tecnologia de GPU on-premise.
Algumas empresas, como as que fabricam modelos de AI para lidar com informações altamente confidenciais, podem se ater às máquinas on-premise do início ao fim. Outras podem construir uma empresa primeiro no cloud que nunca constrói um data center local.
Um princípio fundamental para as empresas é treinar aonde seus dados chegam. Se os dados de uma empresa estiverem em um servidor no cloud, pode ser mais econômico desenvolver modelos de AI no cloud para evitar transferir os dados para um sistema on-premise para treinamento. Se os conjuntos de dados de treinamento estiverem em um servidor on-premise, investir em um cluster de GPUs locais pode ser o melhor caminho.
Seja qual for a rota que uma equipe toma para acelerar seu desenvolvimento de AI com GPUs, os recursos de Desenvolvedores NVIDIA estão disponíveis para apoiar engenheiros com SDKs, contêineres e projetos de código aberto. Além disso, o Deep Learning Institute da NVIDIA oferece treinamento prático para desenvolvedores, cientistas de dados, pesquisadores e estudantes que estão aprendendo a usar ferramentas de computação acelerada.
Acesse a página de Deep Learning e AI da NVIDIA para saber mais.
Imagem principal por MyGuysMoving.com, licenciada do Flickr sob CC BY-SA 2.0.