Nota do editor: Esta postagem faz parte da série IA Decodificada, que desmistifica a IA ao tornar a tecnologia mais acessível e que apresenta novos hardware, software, ferramentas e acelerações para usuários de PC RTX.
De jogos e aplicativos de criação de conteúdo a desenvolvimento de software e ferramentas de produtividade, a IA está sendo cada vez mais integrada a aplicativos para melhorar as experiências do usuário e aumentar a eficiência.
Esses aumentos de eficiência se estendem a tarefas cotidianas, como navegação na web. O Brave, um navegador da web focado em privacidade, lançou recentemente um assistente de IA inteligente chamado Leo AI que, além de fornecer resultados de pesquisa, ajuda os usuários a resumir artigos e vídeos, revelar insights de documentos, responder perguntas e muito mais.
A tecnologia por trás do Brave e de outras ferramentas com tecnologia de IA é uma combinação de hardware, bibliotecas e software de ecossistema otimizado para as necessidades exclusivas da IA.
Por que o software é importante
As GPUs NVIDIA alimentam a IA do mundo, seja em execução no data center ou em um PC local. Elas contêm Tensor Cores, que são projetados especificamente para acelerar aplicativos de IA como o Leo AI por meio de processamento numérico massivamente paralelo — processando rapidamente o enorme número de cálculos necessários para a IA simultaneamente, em vez de fazê-los um de cada vez.
Mas um ótimo hardware só importa se os aplicativos puderem fazer uso eficiente dele. O software em execução sobre GPUs é igualmente crítico para fornecer a experiência de IA mais rápida e responsiva.
A primeira camada é a biblioteca de inferência de IA, que atua como um tradutor que pega solicitações para tarefas comuns de IA e as converte em instruções específicas para o hardware executar. Bibliotecas de inferência populares incluem NVIDIA TensorRT, DirectML da Microsoft e a usada pela Brave e Leo AI via Ollama, chamada llama.cpp.
Llama.cpp é uma biblioteca e estrutura de código aberto. Por meio do CUDA — a interface de programação de aplicativos de software da NVIDIA que permite que os desenvolvedores otimizem para GPUs GeForce RTX e NVIDIA RTX — fornece aceleração Tensor Core para centenas de modelos, incluindo modelos de linguagem grande (LLMs) populares como Gemma, Llama 3, Mistral e Phi.
Além da biblioteca de inferência, os aplicativos geralmente usam um servidor de inferência local para simplificar a integração. O servidor de inferência lida com tarefas como baixar e configurar modelos de IA específicos para que o aplicativo não precise fazer isso.
Ollama é um projeto de código aberto que fica em cima do llama.cpp e fornece acesso aos recursos da biblioteca. Ele suporta um ecossistema de aplicativos que fornecem recursos de IA local. Em toda a pilha de tecnologia, a NVIDIA trabalha para otimizar ferramentas como o Ollama para hardware NVIDIA para fornecer experiências de IA mais rápidas e responsivas no RTX.
O foco da NVIDIA na otimização abrange todo o conjunto de tecnologias — do hardware ao software do sistema, passando pelas bibliotecas de inferência e ferramentas que permitem que os aplicativos ofereçam experiências de IA mais rápidas e responsivas no RTX.
Local vs. Nuvem
O Leo AI do Brave pode ser executado na nuvem ou localmente em um PC através do Ollama.
Há muitos benefícios em processar inferência usando um modelo local. Ao não enviar prompts para um servidor externo para processamento, a experiência é privada e sempre disponível. Por exemplo, os usuários do Brave podem obter ajuda com suas finanças ou questões médicas sem enviar nada para a nuvem. Executar localmente também elimina a necessidade de pagar por acesso irrestrito à nuvem. Com o Ollama, os usuários podem aproveitar uma variedade maior de modelos de código aberto do que a maioria dos serviços hospedados, que geralmente oferecem suporte a apenas uma ou duas variedades do mesmo modelo de IA.
Os usuários também podem interagir com modelos que têm diferentes especializações, como modelos bilíngues, modelos de tamanho compacto, modelos de geração de código e muito mais.
O RTX permite uma experiência rápida e responsiva ao executar IA localmente. Usando o modelo Llama 3 8B com llama.cpp, os usuários podem esperar respostas de até 149 tokens por segundo — ou aproximadamente 110 palavras por segundo. Ao usar o Brave com Leo AI e Ollama, isso significa respostas mais rápidas a perguntas, solicitações de resumos de conteúdo e muito mais.
Comece com Brave com Leo AI e Ollama
Instalar o Ollama é fácil — baixe o instalador do site do projeto e deixe-o rodar em segundo plano. A partir de um prompt de comando, os usuários podem baixar e instalar uma grande variedade de modelos suportados e, em seguida, interagir com o modelo local a partir da linha de comando.
Para instruções simples sobre como adicionar suporte LLM local via Ollama, leia o blog da empresa . Uma vez configurado para apontar para Ollama, o Leo AI usará o LLM hospedado localmente para prompts e consultas. Os usuários também podem alternar entre modelos locais e de nuvem a qualquer momento.
Os desenvolvedores podem aprender mais sobre como usar Ollama e llama.cpp no Blog Técnico da NVIDIA.
A IA generativa está transformando jogos, videoconferências e experiências interativas de todos os tipos. Entenda o que há de novo e o que vem por aí assinando a newsletter de IA Decodificada.