Repensando o TCO de AI: Por Que o Custo por Token é a Única Métrica que Importa - NVIDIA Brasil

Os data centers tradicionais apenas armazenavam, recuperavam e processavam dados. Na era da AI generativa e agêntica, essas instalações evoluíram para fábricas de tokens de AI. Com a inferência de AI tornando-se sua principal carga de trabalho, seu produto primário é a inteligência fabricada na forma de tokens.

Essa transformação exige uma mudança correspondente na forma de avaliar a economia da infraestrutura de AI, incluindo o custo total de propriedade (TCO). As empresas que avaliam infraestrutura de AI ainda se concentram com demasiada frequência nas especificações máximas dos chips, no custo computacional ou nas operações de ponto flutuante por segundo para cada dólar gasto, ou seja, FLOPS por dólar.

A distinção que importa é esta:

Custo computacional: é o que as empresas pagam pela infraestrutura de AI, seja alugada de provedores de nuvem ou própria em instalações locais.
FLOPS por dólar: é quanta capacidade computacional bruta uma empresa obtém por cada dólar gasto, mas computação bruta e produção real de tokens não são a mesma coisa.
Custo por token: é o custo total de uma empresa para produzir cada token entregue, geralmente representado como custo por milhão de tokens.

As duas primeiras são apenas métricas de entrada. Otimizar entradas enquanto o negócio opera com base em saídas é uma incompatibilidade fundamental.

O custo por token determina se as empresas podem escalar a AI com lucratividade. É a única métrica de TCO que leva em conta diretamente o desempenho do hardware, a otimização de software, o suporte do ecossistema e a utilização no mundo real — e a NVIDIA oferece o menor custo por token da indústria.

Quais São os Fatores que Reduzem o Custo por Token?

Entender como otimizar o custo por token requer analisar a equação para calcular o custo por milhão de tokens.

Nessa equação, muitas empresas que avaliam infraestrutura de AI se concentram no numerador: o custo por GPU por hora. Para implantações em nuvem, essa é a tarifa por hora paga ao provedor de nuvem; para implantações locais, é o custo efetivo por hora derivado da amortização da infraestrutura própria. A chave real para reduzir o custo por token, porém, está no denominador: maximizar a produção de tokens entregues.

Esse denominador tem duas implicações para os negócios.

Minimizar o custo por token: Quando esse aumento na produção de tokens se reflete na equação de custos, ele reduz o custo por token, que é o que aumenta a margem de lucro em cada interação atendida.
Maximizar a receita: Mais tokens entregues por segundo também se traduzem em mais tokens por megawatt, o que significa mais inteligência disponível para uso em produtos e serviços impulsionados por AI, gerando mais receita do mesmo investimento em infraestrutura.

Portanto, focar apenas no numerador significa perder de vista o que impulsiona o denominador. Pense nisso como um “iceberg de inferência”: O numerador está acima da superfície, visível e fácil de comparar. O denominador é tudo abaixo da superfície, representando os fatores-chave que determinam a produção real de tokens. Avaliar com precisão a infraestrutura de AI começa por perguntar o que está por baixo.

Análise superficial:
- Qual é o custo por hora de GPU?
- Quais são os petaflops máximos e a capacidade de memória de alta largura de banda?
- Quais são os FLOPS por dólar?
Análise de custos aprofundada:
- Qual é o custo por milhão de tokens? Especificamente, qual é o custo por milhão de tokens para modelos de raciocínio MoE de grande escala, que representam o tipo de modelo de AI mais amplamente implantado?
- Qual é a produção de tokens entregues por megawatt? Especialmente para implantações locais, onde o compromisso de capital em terreno, energia e infraestrutura é substancial, maximizar a inteligência produzida por megawatt é crítico.
- O interconnect de scale-up consegue lidar com o tráfego “all-to-all” dos modelos MoE?
- A precisão FP4 é suportada? A pilha de inferência consegue usar FP4 mantendo alta precisão?
- O runtime de inferência suporta decodificação especulativa ou predição multi-token para aumentar a interatividade do usuário?
- A camada de serving suporta serving desagregado, roteamento KV-aware, offloading de KV-cache e outras otimizações?
- A plataforma suporta os requisitos únicos de carga de trabalho da AI agêntica — incluindo latência ultrabaixa, alto throughput e grandes comprimentos de sequência de entrada?
- A plataforma suporta o ciclo de vida completo, do treinamento e pós-treinamento até a inferência em larga escala, em todas as arquiteturas de modelos, para garantir a fungibilidade da infraestrutura e alta utilização?

Cada uma dessas otimizações algorítmicas, de hardware e de software deve estar ativa e integrada, ou o denominador entrará em colapso. Um GPU “mais barato” que entrega significativamente menos tokens por segundo resulta em um custo por token muito mais alto. A infraestrutura de AI que acerta em toda a pilha garante que cada otimização potencialize as demais.

Por Que o Custo por Token Importa Muito Mais do que os FLOPS por Dólar?

Os dados a seguir para o modelo de AI DeepSeek-R1 demonstram a diferença entre resultados teóricos e resultados empresariais reais.

Analisando apenas o custo computacional, a plataforma NVIDIA Blackwell parece custar aproximadamente 2 vezes mais do que a NVIDIA Hopper — mas o custo computacional não diz nada sobre o resultado que esse investimento compra. Uma análise de meros FLOPS por dólar sugere uma vantagem de 2 vezes da NVIDIA Blackwell em comparação com a arquitetura NVIDIA Hopper. No entanto, o resultado real é de ordens de magnitude diferente: a Blackwell entrega mais de 50 vezes maior produção de tokens por watt do que a Hopper, resultando em um custo por milhão de tokens quase 35 vezes menor.

Métrica	NVIDIA Hopper (HGX H200)	NVIDIA Blackwell (GB300 NVL72)	NVIDIA Blackwell vs. Hopper
Custo por GPU por Hora ($)	$1.41	$2.65	2x
FLOP por Dólar (PFLOPS)	2.8	5.6	2x
Tokens por Segundo por GPU	90	6,000	65x
Tokens por Segundo por MW	54K	2.8M	50x
Custo por Milhão de Tokens ($)	$4.20	$0.12	35x menor

Nota: Os dados são provenientes da análise da NVIDIA e do benchmark SemiAnalysis InferenceX v2.

Essa enorme divergência prova que a NVIDIA Blackwell oferece um salto massivo em valor empresarial em relação à geração Hopper anterior, que supera em muito qualquer aumento no custo do sistema.

Como Escolher a Infraestrutura de AI Certa

Comparar infraestrutura de AI com base no custo computacional ou nos FLOPS teóricos por dólar não é apenas insuficiente; não fornece uma representação precisa da economia da inferência. Como os dados demonstram, uma avaliação precisa do potencial de receita e da lucratividade da infraestrutura de AI requer uma mudança das métricas de entrada para o custo por token e a produção de tokens entregues.

A NVIDIA oferece o menor custo por token e o maior throughput de tokens da indústria por meio de um codesign extremo entre computação, redes, memória, armazenamento, software e tecnologias de parceiros. Além disso, a otimização contínua de software de inferência de código aberto como vLLM, SGLang, NVIDIA TensorRT-LLM e NVIDIA Dynamo, construído sobre a plataforma NVIDIA, significa que na infraestrutura NVIDIA existente, a produção de tokens continua aumentando e o custo por token continua caindo muito depois de sua aquisição.

Os principais provedores de nuvem e parceiros de nuvem da NVIDIA já estão entregando essa vantagem em escala. Parceiros como CoreWeave, Nebius, Nscale e Together AI implantaram infraestrutura NVIDIA Blackwell e otimizaram suas pilhas para oferecer às empresas o menor custo por token disponível hoje, com o pleno benefício do codesign de hardware, software e ecossistema da NVIDIA por trás de cada interação atendida.