Sob o capô de cada aplicação de IA estão algoritmos que processam dados em sua própria linguagem, baseada em um vocabulário de tokens.
Tokens são pequenas unidades de dados que vêm da quebra de pedaços maiores de informações. Os modelos de IA processam tokens para aprender as relações entre eles e desbloquear recursos, incluindo previsão, geração e raciocínio. Quanto mais rápido os tokens puderem ser processados, mais rápido os modelos poderão aprender e responder.
As fábricas de IA, uma nova classe de data centers projetados para acelerar as cargas de trabalho de IA, processam tokens com eficiência, convertendo-os da linguagem da IA para a moeda da IA, que é a inteligência.
Com as fábricas de IA, as empresas podem aproveitar as mais recentes soluções de computação full-stack para processar mais tokens a um custo computacional mais baixo, criando valor adicional para os clientes. Em um caso, a integração de otimizações de software e a adoção das GPUs NVIDIA de última geração reduziram o custo por token em 20 vezes em comparação com processos não otimizados em GPUs da geração anterior, gerando 25 vezes mais receita em apenas quatro semanas.
O Que É Tokenização?
Se um modelo transformer de IA está processando texto, imagens, clipes de áudio, vídeos ou outra modalidade, ele traduzirá os dados em tokens. Esse processo é conhecido como tokenização.
A tokenização eficiente ajuda a reduzir a quantidade de poder de computação necessária para treinamento e inferência. Existem vários métodos de tokenização, e os tokenizadores adaptados para tipos de dados e casos de uso específicos podem exigir um vocabulário menor, o que significa que há menos tokens para processar.
Para grandes modelos de linguagem(LLMs), palavras curtas podem ser representadas com um único token, enquanto palavras mais longas podem ser divididas em dois ou mais tokens.
A palavra darkness, por exemplo, seria dividida em dois tokens, “dark” e “ness”, com cada token tendo uma representação numérica, como 217 e 655. A palavra oposta, brightness, seria igualmente dividida em “bright” e “ness”, com representações numéricas correspondentes de 491 e 655.
Neste exemplo, o valor numérico compartilhado associado a “ness” pode ajudar o modelo de IA a entender que as palavras podem ter algo em comum. Em outras situações, um tokenizer pode atribuir diferentes representações numéricas para a mesma palavra, dependendo de seu significado no contexto.
Por exemplo, a palavra lie pode se referir a uma posição de repouso ou a dizer algo falso. Durante o treinamento, o modelo aprenderia a distinção entre esses dois significados e atribuiria a eles números de token diferentes.
Para modelos visuais de IA que processam imagens, vídeo ou dados de sensores, um tokenizador pode ajudar a mapear entradas visuais como pixels ou voxels em uma série de tokens discretos.
Modelos que processam áudio podem transformar clipes curtos em espectrogramas, representações visuais de ondas sonoras ao longo do tempo que podem ser processadas como imagens. Outras aplicações de áudio podem se concentrar em capturar o significado de um clipe de som contendo fala e usar outro tipo de tokenizador que captura tokens semânticos, que representam dados de idioma ou contexto em vez de simplesmente informações acústicas.
Como os Tokens São Usados Durante o Treinamento de IA?
O treinamento de um modelo de IA começa com a tokenização do conjunto de dados de treinamento.
Com base no tamanho dos dados de treinamento, o número de tokens pode chegar a bilhões ou trilhões e, de acordo com a lei de escalonamento de pré-treinamento, quanto mais tokens usados para treinamento, melhor a qualidade do modelo de IA.
À medida que um modelo de IA é pré-treinado, ele é testado ao ver um conjunto de amostras de tokens e ser solicitado a prever o próximo token. Com base no fato de sua previsão estar correta ou não, o modelo se atualiza para melhorar sua próxima suposição. Esse processo é repetido até que o modelo aprenda com seus erros e atinja um nível de precisão desejado, conhecido como convergência de modelo.
Após o pré-treinamento, os modelos são aprimorados ainda mais pelo pós-treinamento, onde eles continuam a aprender em um subconjunto de tokens relevantes para o caso de uso em que serão implantados. Podem ser tokens com informações específicas de domínio para uma aplicação em direito, medicina ou negócio, ou tokens que ajudam a adaptar o modelo a uma tarefa específica, como raciocínio, bate-papo ou tradução. O objetivo é um modelo que gere os tokens certos para fornecer uma resposta correta com base na consulta de um usuário: uma habilidade mais conhecida como inferência.
Como os Tokens São Usados Durante a Inferência e o Raciocínio da IA?
Durante a inferência, uma IA recebe um prompt que, dependendo do modelo, pode ser texto, imagem, clipe de áudio, vídeo, dados do sensor ou até mesmo sequência de genes que se traduz em uma série de tokens. O modelo processa esses tokens de entrada, gera sua resposta como tokens e, em seguida, a converte para o formato esperado do usuário.
Os idiomas de entrada e saída podem ser diferentes, como em um modelo que traduz inglês para japonês ou que converte prompts de texto em imagens.
Para entender um prompt completo, os modelos de IA devem ser capazes de processar vários tokens de uma só vez. Muitos modelos têm um limite especificado, conhecido como janela de contexto e diferentes casos de uso exigem diferentes tamanhos de janela de contexto.
Um modelo que pode processar alguns milhares de tokens de uma só vez pode ser capaz de processar uma única imagem de alta resolução ou algumas páginas de texto. Com um comprimento de contexto de dezenas de milhares de tokens, outro modelo pode ser capaz de resumir um romance inteiro ou um episódio de podcast de uma hora. Alguns modelos até fornecem comprimentos de contexto de um milhão ou mais de tokens, permitindo que os usuários insiram fontes de dados massivas para a IA analisar.
Os modelos de IA de raciocínio, o mais recente avanço em LLMs, podem lidar com consultas mais complexas tratando os tokens de maneira diferente do que antes. Aqui, além dos tokens de entrada e saída, o modelo gera uma série de tokens de raciocínio ao longo de minutos ou horas enquanto pensa em como resolver um determinado problema.
Esses tokens de raciocínio permitem melhores respostas a perguntas complexas, assim como uma pessoa pode formular uma resposta melhor com tempo para resolver um problema. O aumento correspondente de tokens por prompt pode exigir mais de 100 vezes mais computação em comparação com uma única passagem de inferência em um LLM tradicional: um exemplo de escala de tempo de teste, também conhecido como pensamento longo.
Como os Tokens Impulsionam a Economia da IA?
Durante o pré-treinamento e o pós-treinamento, os tokens equivalem ao investimento em inteligência e, durante a inferência, geram custos e receitas. Assim, à medida que as aplicações de IA proliferam, novos princípios da economia da IA estão surgindo.
As fábricas de IA são construídas para sustentar inferência de alto volume, fabricando inteligência para os usuários, transformando tokens em insights monetizáveis. É por isso que um número crescente de serviços de IA está medindo o valor de seus produtos com base no número de tokens consumidos e gerados, oferecendo planos de preços com base nas taxas de entrada e saída de tokens de um modelo.
Alguns planos de preços de token oferecem aos usuários um número definido de tokens compartilhados entre entrada e saída. Com base nesses limites de token, um cliente pode usar um prompt de texto curto que usa apenas alguns tokens para a entrada para gerar uma resposta longa gerada por IA que levou milhares de tokens como saída. Ou um usuário pode gastar a maioria de seus tokens na entrada, fornecendo um modelo de IA com um conjunto de documentos para resumir em alguns pontos.
Para atender a um grande volume de usuários simultâneos, alguns serviços de IA também definem limites de token, o número máximo de tokens por minuto gerados para um usuário individual.
Os tokens também definem a experiência do usuário para serviços de IA. O tempo para o primeiro token, a latência entre um usuário que envia um prompt e o modelo de IA começa a responder, e a latência entre tokens ou token a token, a taxa na qual os tokens de saída subsequentes são gerados, determinam como um usuário final experimenta a saída de uma aplicação de IA.
Existem compensações envolvidas para cada métrica, e o equilíbrio certo é ditado pelo caso de uso.
Para chatbots baseados em LLM, reduzir o tempo para o primeiro token pode ajudar a melhorar o envolvimento do usuário, mantendo um ritmo de conversação sem pausas não naturais. A otimização da latência entre tokens pode permitir que os modelos de geração de texto correspondam à velocidade de leitura de uma pessoa média ou que os modelos de geração de vídeo atinjam a taxa de quadros desejada. Para modelos de IA envolvidos em pensamento e pesquisa de longo prazo, mais ênfase é colocada na geração de tokens de alta qualidade, mesmo que isso acrescente latência.
Os desenvolvedores precisam encontrar um equilíbrio entre essas métricas para oferecer experiências de usuário de alta qualidade com taxa de transferência ideal, o número de tokens que uma fábrica de IA pode gerar.
Para enfrentar esses desafios, a plataforma de IA da NVIDIA oferece uma vasta coleção de software, microsserviços e blueprints, juntamente com uma poderosa infraestrutura de computação acelerada: uma solução flexível e completa que permite que as empresas evoluam, otimizem e dimensionem as fábricas de IA para gerar a próxima onda de inteligência em todos os setores.
Entender como otimizar o uso de tokens em diferentes tarefas pode ajudar desenvolvedores, empresas e até mesmo usuários finais a obter o máximo valor de suas aplicações de IA.
Saiba mais neste eBook e comece a trabalhar no build.nvidia.com.