Implantação do Llama 3.2 Acelerado do Edge para a Nuvem

por Amanda Saunders

Expandindo a coleção de modelos Meta Llama de código aberto, a coleção Llama 3.2 inclui modelos de linguagem de visão (VLMs), pequenos modelos de linguagem (SLMs) e um modelo Llama Guard atualizado com suporte para visão. Quando emparelhado com a plataforma de computação acelerada da NVIDIA, o Llama 3.2 oferece aos desenvolvedores, pesquisadores e empresas novos recursos e otimizações valiosos para realizar seus casos de uso de IA generativa.

Treinados em GPUs NVIDIA H100 Tensor Core, os SLMs nos tamanhos 1B e 3B são ideais para implantar assistentes de IA baseados em Llama em dispositivos no edge. Os VLMs nos tamanhos 11B e 90B suportam entradas de texto e imagem e texto de saída. Com suporte multimodal, os VLMs ajudam os desenvolvedores a criar aplicações poderosas que exigem fundamentação visual, raciocínio e compreensão. Por exemplo, eles podem criar agentes de IA para legendas de imagens, recuperação de texto de imagem, perguntas e respostas visuais e perguntas e respostas de documentos, entre outros. Os modelos Llama Guard agora também suportam proteções de entrada de imagem, além de entrada de texto.

A arquitetura de modelo Llama 3.2 é um modelo de linguagem auto-regressivo que usa uma arquitetura otimizada de transformer. As versões ajustadas para instruções usam ajuste fino supervisionado (SFT) e aprendizado por reforço com feedback humano (RLHF) para se alinhar às preferências humanas de utilidade e segurança. Todos os modelos dão suporte a um longo comprimento de contexto de 128 mil tokens e são otimizados para inferência com suporte para GQA (atenção de consulta agrupada).

A NVIDIA está otimizando a coleção de modelos Llama 3.2 para oferecer alta taxa de transferência e baixa latência em milhões de GPUs em todo o mundo, de data centers a estações de trabalho locais com NVIDIA RTX e no edge com NVIDIA Jetson. Esta postagem descreve as otimizações de hardware e software, personalizações e recursos de facilidade de implantação.

Acelerando o Desempenho do Llama 3.2 com NVIDIA TensorRT

A NVIDIA está acelerando a coleção de modelos Llama 3.2 para reduzir custos e latência, ao mesmo tempo em que oferece taxa de transferência incomparável e oferece uma experiência ideal ao usuário final. NVIDIA TensorRT inclui as bibliotecas TensorRT e TensorRT-LLM para inferência de deep learning de alto desempenho.

Os modelos Llama 3.2 1B e Llama 3.2 3B estão sendo acelerados para suporte a contexto longo no TensorRT-LLM usando a  técnica de incorporação de posição rotativa em escala (RoPE) e várias outras otimizações, incluindo cache KV e lotes em andamento.

Os modelos Llama 3.2 11B e Llama 3.2 90B são multimodais e incluem um codificador de visão com um decodificador de texto. O codificador de visão está sendo acelerado exportando o modelo para um gráfico ONNX e criando o mecanismo TensorRT. A exportação ONNX cria uma definição de modelo padrão com operadores integrados e tipos de dados padrão, focados na inferência. O TensorRT usa o gráfico ONNX para otimizar o modelo para GPUs de destino, criando o mecanismo TensorRT. Esses mecanismos oferecem uma variedade de otimizações no nível do hardware para maximizar a utilização da GPU NVIDIA por meio da fusão de camadas e tensores em conjunto com o ajuste automático do kernel.

As informações visuais do codificador de visão são fundidas no decodificador de texto Llama com um mecanismo de atenção cruzada compatível com o TensorRT-LLM. Isso permite que os VLMs gerem texto com eficiência, levando em consideração o raciocínio visual e a compreensão no contexto da entrada de texto.

Implante Facilmente Soluções de IA Generativa Usando NVIDIA NIM

As otimizações do TensorRT estão disponíveis por meio de implantações prontas para produção usando o microsserviço NVIDIA NIM. Os microsserviços NIM aceleram a implantação de modelos de IA generativa em toda a infraestrutura acelerada pela NVIDIA em qualquer lugar, incluindo nuvem, data center e workstations.

O Llama 3.2 90B Vision Instruct, o Llama 3.2 11B Vision Instruct, o Llama 3.2 3B Teach e o Llama 3.2 1B Instruct são suportados por meio de microsserviços NIM para implantações de produção. O NIM fornece gerenciamento e orquestração simplificados de cargas de trabalho de IA generativa, interface de programação de aplicações (APIs) padrão e suporte corporativo com contêineres prontos para produção. Oferecendo suporte de ecossistema forte e crescente com mais de 175 parceiros integrando suas soluções com microsserviços NVIDIA NIM, desenvolvedores, pesquisadores e empresas em todo o mundo podem maximizar seu retorno sobre o investimento em aplicações de IA generativa.

Personalize e Avalie os Modelos Llama 3.2 com NVIDIA AI Foundry e NVIDIA NeMo

O NVIDIA AI Foundry fornece uma plataforma de ponta a ponta para personalizações de modelos Llama 3.2 com acesso a ferramentas avançadas de IA, recursos de computação e experiência em IA. Ajustados em dados proprietários, os modelos personalizados permitem que as empresas obtenham melhor desempenho e precisão em tarefas específicas de domínio, ganhando uma vantagem competitiva.

Com o NVIDIA NeMo, os desenvolvedores podem selecionar seus dados de treinamento, aproveitar técnicas avançadas de ajuste, incluindo LoRA, SFT, DPO e RLHF para personalizar os modelos Llama 3.2, avaliar a precisão e adicionar proteções para garantir as respostas apropriadas dos modelos. O AI Foundry fornece capacidade dedicada no NVIDIA DGX Cloud e é suportado por especialistas em IA da NVIDIA. A saída é um modelo Llama 3.2 personalizado empacotado como um microsserviço de inferência NVIDIA NIM, que pode ser implantado em qualquer lugar.

Dimensione a Inferência Local com NVIDIA RTX e NVIDIA Jetson

Hoje, os modelos Llama 3.2 são otimizados em mais de 100 milhões de PCs e workstations NVIDIA RTX  em todo o mundo. Para implantações no Windows, a NVIDIA otimizou esse conjunto de modelos para funcionar com eficiência usando o tempo de execução ONNX-GenAI, com um back-end DirectML. Comece a usar o modelo Llama 3.2 3B na NVIDIA RTX.

Os novos modelos VLM e SLM desbloqueiam novos recursos nos sistemas NVIDIA RTX. Para demonstrar, criamos um exemplo de um pipeline de geração aumentada por recuperação multimodal (RAG) que combina processamento de dados visuais e de texto (para imagens, gráficos e gráficos, por exemplo) para recuperação e geração aprimoradas de informações.

Saiba como executar esse pipeline em sistemas NVIDIA RTX Linux usando o Llama 3.2 SLM e o VLM. Observe que você precisará de uma workstation Linux com uma GPU profissional NVIDIA RTX com mais de 30GB de memória.

Os SLMs são adaptados para implantação local em dispositivos no edge usando técnicas como destilação, poda e quantização para reduzir a memória, a latência e os requisitos computacionais, mantendo a precisão para domínios focados em aplicações. Para fazer o download e implantar os SLMs Llama 3.2 1B e 3B integrados ao seu Jetson com inferência de GPU otimizada e quantização INT4/FP8, consulte o Tutorial SLM no NVIDIA Jetson AI Lab.

Os modelos multimodais são cada vez mais úteis em aplicações no edge por seus recursos de visão exclusivos em análise de vídeo e robótica. O Llama 3.2 11B VLM é suportado no Jetson AGX Orin incorporado de 64GB.

Avançando nos Modelos de IA da Comunidade

Colaboradora ativa de código aberto, a NVIDIA está comprometida em otimizar o software da comunidade que ajuda os usuários a enfrentar seus desafios mais difíceis. Os modelos de IA de código aberto também promovem a transparência e permitem que os usuários compartilhem amplamente o trabalho sobre segurança e resiliência da IA.

Os  recursos de inferência como serviço do Hugging Face permitem que os desenvolvedores implantem rapidamente os principais grandes modelos de linguagem (LLMs), como a coleção Llama 3, com otimização de microsserviços NVIDIA NIM em execução no NVIDIA DGX Cloud.

Obtenha acesso gratuito ao NIM para pesquisa, desenvolvimento e teste por meio do Programa para Desenvolvedores da NVIDIA.

Explore ainda mais a plataforma de inferência de IA da NVIDIA, incluindo como o NVIDIA NIM, NVIDIA TensorRT-LLM, NVIDIA TensorRT e NVIDIA Triton usam técnicas de ponta, como o Lora para acelerar os LLMs mais recentes.