Como a Economia da Inferência Pode Maximizar o Valor da IA

Compreender o custo da IA na produção pode ajudar os usuários a obter desempenho e lucratividade de alta qualidade.
por Kyle Aubrey

À medida que os modelos de IA evoluem e a adoção cresce, as empresas devem realizar um delicado ato de equilíbrio para obter o máximo valor.

Isso porque a inferência, o processo de executar dados por meio de um modelo para obter uma saída, oferece um desafio computacional diferente do treinamento de um modelo.

O pré-treinamento de um modelo, processo de ingerir dados, dividi-los em tokens e encontrar padrões, é essencialmente um custo único. Mas, na inferência, cada prompt para um modelo gera tokens, cada um dos quais incorre em um custo.

Isso significa que, à medida que o desempenho e o uso do modelo de IA aumentam, também aumenta a quantidade de tokens gerados e seus custos computacionais associados. Para empresas que buscam desenvolver recursos de IA, a chave é gerar o maior número possível de tokens (com velocidade, precisão e qualidade de serviço máximas) sem fazer com que os custos computacionais disparem.

Como tal, o ecossistema de IA tem trabalhado para tornar a inferência mais barata e eficiente. Os custos de inferência têm diminuído no ano passado graças a grandes saltos na otimização de modelos, levando a uma infraestrutura de computação acelerada cada vez mais avançada e eficiente em termos de energia e soluções full-stack.

De acordo com o Relatório de Índice de IA de 2025 do Instituto de IA Centrada no Ser Humano da Universidade de Stanford, “o custo de inferência para um sistema com desempenho no nível de GPT-3.5 caiu mais de 280 vezes entre novembro de 2022 e outubro de 2024. No nível do hardware, os custos diminuíram 30% ao ano, enquanto a eficiência energética melhorou 40% a cada ano. Os modelos de peso aberto também estão fechando a lacuna com os modelos fechados, reduzindo a diferença de desempenho de 8% para apenas 1,7% em alguns benchmarks em um único ano. Juntas, essas tendências estão reduzindo rapidamente as barreiras à IA avançada.”

À medida que os modelos evoluem e geram mais demanda e criam mais tokens, as empresas precisam dimensionar seus recursos de computação acelerada para fornecer a próxima geração de ferramentas de raciocínio de IA ou arriscar o aumento dos custos e do consumo de energia.

O que se segue é uma cartilha para entender os conceitos da economia da inferência, as empresas podem se posicionar para obter soluções de IA eficientes, econômicas e lucrativas em escala.

Terminologia-Chave Para a Economia da Inferência de IA

Conhecer os termos-chave da economia da inferência ajuda a estabelecer as bases para a compreensão de sua importância.

Tokens são a unidade fundamental de dados em um modelo de IA. Eles são derivados de dados durante o treinamento como texto, imagens, clipes de áudio e vídeos. Por meio de um processo chamado tokenização, cada dado é dividido em unidades constituintes menores. Durante o treinamento, o modelo aprende as relações entre os tokens para que possa realizar inferências e gerar uma saída precisa e relevante.

Taxa de Transferência refere-se à quantidade de dados, normalmente medidos em tokens, que o modelo pode gerar em um período de tempo específico, que por si só é uma função da infraestrutura que executa o modelo. A taxa de transferência geralmente é medida em tokens por segundo, com maior taxa de transferência significando maior retorno sobre a infraestrutura.

Latência é uma medida da quantidade de tempo entre a entrada de um prompt e o início da resposta do modelo. Latência mais baixa significa respostas mais rápidas. As duas principais formas de medir a latência são:

  • Tempo para o Primeiro Token: uma medida do tempo de processamento inicial exigido pelo modelo para gerar seu primeiro token de saída após um prompt do usuário.
  • Tempo por Token de Saída: o tempo médio entre tokens consecutivos ou o tempo necessário para gerar um token de conclusão para cada usuário que consulta o modelo ao mesmo tempo. Também é conhecido como “latência entre tokens” ou latência de token para token.

O tempo para o primeiro token e o tempo por token de saída são benchmarks úteis, mas são apenas duas partes de uma equação maior. Concentrar-se apenas neles ainda pode levar a uma deterioração do desempenho ou do custo.

Para levar em conta outras interdependências, os líderes de IT estão começando a medir o “goodput“, que é definido como a taxa de transferência alcançada por um sistema, mantendo o tempo desejado para o primeiro token e o tempo por níveis de token de saída. Essa métrica permite que as empresas avaliem o desempenho de maneira mais holística, garantindo que a taxa de transferência, a latência e o custo estejam alinhados para oferecer suporte à eficiência operacional e a uma experiência excepcional do usuário.

Eficiência energética é a medida da eficácia com que um sistema de IA converte energia em saída computacional, expressa como desempenho por watt. Ao usar plataformas de computação aceleradas, as empresas podem maximizar os tokens por watt e minimizar o consumo de energia.

Como as Leis de Escala se Aplicam ao Custo de Inferência

As três leis de dimensionamento de IA também são essenciais para entender a economia da inferência:

  • Dimensionamento de pré-treinamento: a lei de dimensionamento original que demonstrou que, ao aumentar o tamanho do conjunto de dados de treinamento, a contagem de parâmetros do modelo e os recursos computacionais, os modelos podem obter melhorias previsíveis em inteligência e precisão.
  • Pós-treinamento: Um processo em que os modelos são ajustados para precisão e especificidade para que possam ser aplicados ao desenvolvimento de aplicações. Técnicas como geração aumentada por recuperação podem ser usadas para retornar respostas mais relevantes de um banco de dados corporativo.
  • Escala de tempo de teste (também conhecida como “pensamento longo” ou “raciocínio”): uma técnica pela qual os modelos alocam recursos computacionais adicionais durante a inferência para avaliar vários resultados possíveis antes de chegar à melhor resposta.

Embora a IA esteja evoluindo e as técnicas de escalonamento pós-treinamento e de tempo de teste se tornem mais sofisticadas, o pré-treinamento não está desaparecendo e continua sendo uma maneira importante de dimensionar modelos. O pré-treinamento ainda será necessário para dar suporte ao dimensionamento pós-treinamento e de tempo de teste.

IA Lucrativa Adota Uma Abordagem Full-Stack

Em comparação com a inferência de um modelo que passou apenas por pré-treinamento e pós-treinamento, os modelos que aproveitam o dimensionamento do tempo de teste geram vários tokens para resolver um problema complexo. Isso resulta em saídas de modelo mais precisas e relevantes, mas também é muito mais caro computacionalmente.

IA mais inteligente significa gerar mais tokens para resolver um problema. E uma experiência de usuário de qualidade significa gerar esses tokens o mais rápido possível. Quanto mais inteligente e rápido for um modelo de IA, mais utilidade ele terá para empresas e clientes.

As empresas precisam dimensionar seus recursos de computação acelerada para fornecer a próxima geração de ferramentas de raciocínio de IA que possam suportar a solução de problemas complexos, codificação e planejamento em várias etapas sem custos exorbitantes.

Isso requer hardware avançado e um stack de software totalmente otimizado. O roadmap de produtos de fábrica de IA da NVIDIA foi projetado para atender à demanda computacional e ajudar a resolver a complexidade da inferência, ao mesmo tempo em que alcança maior eficiência.

As fábricas de IA integram infraestrutura de IA de alto desempenho, rede de alta velocidade e software otimizado para produzir inteligência em escala. Esses componentes são projetados para serem flexíveis e programáveis, permitindo que as empresas priorizem as áreas mais críticas para seus modelos ou necessidades de inferência.

Para simplificar ainda mais as operações ao implantar modelos massivos de raciocínio de IA, as fábricas de IA são executadas em um sistema de gerenciamento de inferência de alto desempenho e baixa latência que garante que a velocidade e a taxa de transferência necessárias para o raciocínio de IA sejam atendidas com o menor custo possível para maximizar a geração de receita de token.

Saiba mais lendo o e-book “AI Inference: Balancing Cost, Latency and Performance“.