Três Razões Para Considerar Sua Própria Fábrica de IA

Modelos de raciocínio de IA de última geração estão impulsionando uma demanda sem precedentes por infraestrutura.
por Tony Paikeday

Como exemplificado com o surgimento de modelos e agentes de raciocínio de IA de última geração que mudam rapidamente o cenário tecnológico, estamos claramente agora em um mundo “pós-treinamento”, tanto figurativa quanto literalmente. Em vez de criar um modelo do zero, muitos modelos base existentes podem ser facilmente aproveitados para fornecer capacidade de pensamento longo com ganhos sem precedentes na capacidade da IA de resolver problemas de várias camadas em muitas etapas intermediárias, trabalhando em vários caminhos de solução potenciais antes de apresentar uma resposta. Mas essa inteligência aumentada vem com novos desafios.

Infraestrutura Essencial na Era do Raciocínio de IA

O custo dessa inteligência mais profunda é o aumento da demanda por computação para apoiar o pensamento longo. Compare um modelo que emprega inferência única para responder rapidamente a um prompt, gerando alguns milhares de tokens de IA para fornecer uma resposta (pense em um token como a unidade de medida da IA generativa, como uma palavra ou fragmento de palavra, muitos dos quais são combinados em respostas completas). Em contraste, a inferência com raciocínio pode gerar centenas de milhares ou até milhões de tokens intermediários à medida que o modelo “pensa” antes mesmo de responder. Isso pode gerar um aumento de cem vezes no consumo de computação na forma de tokens de IA gerados que o usuário nunca vê.

A IA está, portanto, colocando novas demandas na infraestrutura corporativa, exigindo a interconexão de grandes clusters de GPUs para satisfazer as necessidades desses modelos que geram tokens em grande volume. À medida que mais usuários são adicionados, a IT deve estar pronta para dimensionar esses recursos. As empresas precisam de uma arquitetura otimizada que ofereça computação, memória e rede escaláveis trabalhando em combinação com a inovação do algoritmo de software. O impacto tangível da infraestrutura otimizada é uma melhor qualidade de serviço (QoS) do usuário, medida em tokens gerados por usuário e taxa de transferência de baixa latência desses tokens à medida que a demanda aumenta.

Seu Data Center É “Inteligente” o Suficiente Para o Raciocínio de IA?

O ritmo da inovação pode representar uma barreira adicional para muitas empresas que ainda não possuem o profundo banco de experiência em hiperescaladores necessário para gerenciar sistemas complexos. Onde um hiperescalador ou provedor de nuvem tem muitos anos de experiência no gerenciamento de cargas de trabalho de computação de alto desempenho, a maioria das empresas, especialmente aquelas não centradas em IT, não tem.

Essas limitações criam um problema crescente de rigidez da infraestrutura nos data centers tradicionais de IA que retarda ou atrasa a integração da tecnologia mais recente e o tempo para o primeiro token para novas aplicações. Essas restrições podem ser superadas por novos conhecimentos e inteligência definidos por software que podem abstrair a complexidade da infraestrutura, permitindo que as empresas se concentrem em suas principais competências e, ao mesmo tempo, aproveitem o potencial transformador da IA.

NVIDIA DGX: Fábrica de IA Empresarial Full-Stack para a Era do Raciocínio

Dadas as limitações da infraestrutura tradicional para atender às demandas de computação, memória e rede de pensamento longo, mais empresas estão se voltando para a plataforma NVIDIA DGX™. Como o exemplo canônico de uma fábrica de IA, a DGX foi desenvolvida especificamente para empresas que desejam arquitetura, ferramentas e modelos prontos para uso otimizados para inferência que ofereçam desempenho de classe de liderança em escala com suporte de nível empresarial.

A última geração de sistemas DGX integra a arquitetura NVIDIA Blackwell Ultra e é projetada para pensar a longo prazo. A NVIDIA DGX SuperPOD oferece a plataforma líder mundial para dimensionar a IA corporativa, do treinamento à inferência, oferecendo benefícios arquitetônicos exclusivos, incluindo o maior domínio NVIDIA NVLink do mundo, memória total de GPU incomparável e largura de banda de memória entre GPUs e desempenho líder de computação e rede. Essa arquitetura otimizada para inferência permite que as empresas dimensionem a taxa de transferência de token com a melhor QoS por usuário da categoria para maximizar a receita de IA.

A Inteligência Definida por Software Capacita as Fábricas de IA

Para administrar fábricas de IA, as empresas precisam ter acesso ao mesmo tipo de conhecimento anteriormente acessível apenas a hiperescaladores, sem a complexidade ou o custo tradicionalmente exigidos. As empresas podem obter um token de tempo para o primeiro mais rápido com software inteligente que maximiza a resiliência, o tempo de atividade e a utilização desse ativo de missão crítica, bem como a produtividade dos criadores de modelos que precisam de acesso sem esforço e semelhante à nuvem aos recursos de computação. O NVIDIA Mission Control traz inteligência full-stack que pode operar fábricas de IA. É o equivalente a acessar a amplitude de conhecimento anteriormente confinada a provedores de nuvem muito grandes, agora entregues a todas as empresas como software.

Stack de software de fábrica de IA de última geração.

Três Razões Pelas Quais Pode Ser a Hora de Ter Sua Própria Fábrica de IA

Os líderes de negócios e de IT podem se preparar para a IA com as seguintes considerações que podem ajudar a garantir que sua plataforma esteja pronta para as demandas de modelos de última geração:

  1. Embora muitas empresas possam evitar o pré-treinamento, plataformas específicas para inferência agora são essenciais. A infraestrutura de inferência precisa atender às demandas de computação, memória e rede do raciocínio de IA, gerando grandes volumes de tokens que permitem um pensamento longo. Essa carga de trabalho cresce exponencialmente à medida que os usuários são adicionados e as aplicações são atendidas 24 horas por dia, 7 dias por semana, mantendo uma alta QoS por usuário.
  2. Uma fábrica de IA pode ajudar a acelerar o ROI do investimento em IA, possibilitado pelas melhores ferramentas de desenvolvedor e infraestrutura acelerada. Essa plataforma ajuda as empresas a consolidar e centralizar pessoas, processos e plataformas, fornecendo recursos escaláveis que são melhor utilizados, reunindo talentos em ciência de dados e padronizando as melhores práticas para entrega de aplicativos.
  3. As fábricas de IA impulsionadas por software inteligente unificam todas as camadas do stack de tecnologia, desde o framework do desenvolvedor até a orquestração de tarefas, a rede em escala de cluster, o resfriamento e a energia. O emprego de orquestração inteligente que pode maximizar a resiliência da aplicação, o tempo de atividade da infraestrutura e a produtividade do desenvolvedor ajudará as empresas a fechar lacunas críticas de habilidades de IT, obter um tempo mais rápido para o primeiro token e maximizar o ROI em seu investimento em IA.

Crie sua fábrica de IA em sistemas NVIDIA DGX baseados em GPU e x86 com CPUs Intel® Xeon®.