Dominando Técnicas Baseadas em Agentes: Personalização de Agentes de IA

Dominando Técnicas Agênticas: Personalização de Agentes de IA

Agentes de IA autônomos estão assumindo todo tipo de trabalho para empresas: roteando frotas logísticas, triando tickets de suporte, gerando código e orquestrando fluxos de trabalho de múltiplas etapas. Como você pega um modelo de uso geral e o faz se destacar na sua tarefa específica? A personalização fornece ao agente as capacidades certas.

Este artigo explica nove técnicas para personalizar agentes de IA, juntamente com critérios para selecionar as técnicas certas para o seu caso de uso. Para aprender sobre a avaliação de agentes de IA, consulte Dominando Técnicas Agênticas: Avaliação de Agentes de IA.

Por que é necessário personalizar um agente de IA?

Os modelos de fundação possuem amplas capacidades de linguagem e raciocínio para diversos casos de uso e modalidades, baseadas nos conjuntos de dados de treinamento utilizados. Os modelos entendem a linguagem e podem seguir instruções, mas fluxos de trabalho especializados frequentemente exigem contexto restrito, especializado ou proprietário.

Personalizar um agente resolve esse desafio moldando como o agente raciocina sob restrições, quais ferramentas ele seleciona, como estrutura seus outputs e com que confiabilidade executa fluxos de trabalho de domínio.

Quais técnicas são usadas para personalização de agentes?

As técnicas de personalização de agentes vão desde simples mudanças de prompt até técnicas avançadas como aprendizado por reforço (RL), cada uma com trade-offs em custo, complexidade e capacidade. A melhor abordagem depende de se você precisa de melhores informações, instruções ou de um comportamento fundamentalmente mais confiável. As seções a seguir cobrem as principais abordagens.

Engenharia de prompts e prompts de sistema

A engenharia de prompts exige apenas a alteração do prompt para o agente no momento da inferência. É a técnica mais acessível e normalmente a primeira aplicada para personalizar o comportamento do agente. Agentes padrão podem exigir ajuste humano dos prompts de sistema. Agentes avançados e auto-evolutivos, como o OpenClaw, usam prompts que são atualizados pelo próprio agente à medida que ele revisa memória e instruções ao longo do tempo, resultando em um agente que se personaliza sozinho.

Como funciona

Você escreve um prompt de sistema que define o papel do agente, as ferramentas disponíveis, o formato de output e as restrições comportamentais. O modelo segue essas instruções usando suas capacidades existentes.

A seguir está um exemplo de prompt de sistema:

You are an expert CLI assistant. Translate user requests into structured JSON tool
calls. Respond with ONLY a JSON object. Set unused flags to null.

Quando usar

Iteração rápida sobre o comportamento do agente
Trabalho em uma tarefa personalizada descrita claramente em linguagem natural
Prototipagem ou experimentação antes de investir mais

Limitações

Prompts podem se tornar frágeis para cadeias de raciocínio complexas
O desempenho piora à medida que as instruções crescem e ficam mais detalhadas
O modelo pode não seguir consistentemente requisitos complexos de formatação
Não amplia as capacidades fundamentais do modelo
Trocar o modelo que alimenta o agente exige novo teste dos prompts

Todo projeto de agente requer engenharia e refinamento iterativo de prompts. Porém, fazer o agente produzir outputs estruturados de forma confiável, seguir lógica específica de domínio ou lidar com casos extremos pode exigir refinamento adicional. Note que agentes auto-evolutivos refinam seus próprios prompts usando um harness.

Geração aumentada por recuperação (RAG)

A geração aumentada por recuperação (RAG) resolve a limitação de conhecimento dos modelos de fundação ao recuperar dinamicamente informações relevantes e atualizadas de fontes de conhecimento externas (como bancos de dados vetoriais). Esse conteúdo recuperado fundamenta o agente no momento da inferência, quando é injetado no contexto do modelo. Isso reduz significativamente as alucinações e permite responder perguntas sobre domínios personalizados, proprietários ou em rápida mudança sem retreinamento do modelo.

Como funciona

Quando um usuário consulta o sistema de agente, o sistema busca em um banco de dados vetorial ou repositório de documentos por dados relevantes à consulta. O conteúdo recuperado é então enviado junto com a consulta do usuário ao modelo, que raciocina sobre ambos e retorna uma resposta fundamentada.

Quando usar

Dar ao agente acesso a conhecimento atualizado ou proprietário
Reduzir alucinações ao fundamentar respostas em fontes autoritativas
Trabalhar com uma base de conhecimento que muda frequentemente e onde o retreinamento seria impraticável

Limitações

Adiciona latência devido à recuperação
Não adiciona novas capacidades de raciocínio, apenas novas informações para raciocinar
Os limites da janela de contexto restringem a quantidade de informações recuperadas que podem ser usadas

O RAG padrão está evoluindo cada vez mais para RAG agêntico, onde o agente decide autonomamente quais documentos recuperar, quais consultas reformular e quando reuniu informações suficientes. Para uma experiência interativa de codificação no seu navegador, confira o módulo de aprendizado Como Construir uma Aplicação RAG Agêntica.

Injeção de ferramentas e habilidades no agente

A injeção de ferramentas e habilidades amplia as capacidades de um agente fornecendo ao agente ferramentas ou habilidades:

Ferramentas: Funções chamáveis que interagem com software externo
Habilidades: Instruções específicas de domínio para completar tarefas

Esses componentes modulares e reutilizáveis facilitam a personalização de um modelo de uso geral para domínios especializados sem modificar seus pesos subjacentes.

Como funciona

Ferramentas como busca na web, E/S de arquivos, execução de shell e chamadas de API são definidas no prompt de sistema ou contexto do agente. Habilidades, que podem incluir instruções, scripts e recursos, são carregadas no contexto do agente.

A seguir está um exemplo de estrutura de diretório onde uma habilidade para triagem de incidentes poderia estar localizada:

skills/
  incident-triage/
    SKILL.md
    README.md
    scripts/
      collect_logs.sh
      parse_logs.py
      summarize_findings.py
    templates/
      triage_report.md
    examples/
      sample_incident.json

O arquivo SKILL.md poderia ser parecido com o seguinte:

# Skill: Incident Triage (Log Collection + Summary)

## Purpose
Collect diagnostic logs for a given service, extract key error signals, and produce a short
triage report with:
- suspected root cause(s)
- top error signatures
- timeline highlights
- immediate next steps

## When to Use
Use this skill when the user asks to:
- investigate an outage / regression
- summarize logs for a service between two timestamps
- produce a quick incident report

## Inputs (Required)
- service_name: string (e.g., "payments-api")
- start_time: ISO8601 string (e.g., "2026-03-05T10:00:00Z")
- end_time: ISO8601 string (e.g., "2026-03-05T11:00:00Z")

## Inputs (Optional)
- environment: string (default "prod")
- log_source: string (default "journald")  # could be "file", "cloud", etc.
- output_dir: string (default "./out")
- redact: boolean (default true)

## Outputs
- {output_dir}/raw_logs.txt
- {output_dir}/events.jsonl
- {output_dir}/summary.md

## Workflow
1) Collect logs:
   - Run `scripts/collect_logs.sh` to fetch raw logs for the time window
2) Parse logs into structured events:
   - Run `scripts/parse_logs.py` to emit JSONL events (timestamp, level, message, signature)
3) Summarize:
   - Run `scripts/summarize_findings.py` to produce a markdown report using `templates/triage_report.md`

## Commands (How to Call)
### Step 1: Collect
bash scripts/collect_logs.sh \
  --service payments-api \
  --start "2026-03-05T10:00:00Z" \
  --end "2026-03-05T11:00:00Z" \
  --env prod \
  --out ./out/raw_logs.txt

Quando usar

Ampliar o que um agente pode fazer, não como ele raciocina
Conectar o sistema de agente a software externo, APIs ou outros componentes de terceiros
Fornecer ao agente capacidades modulares e combináveis

Limitações

O modelo requer chamada de ferramentas como capacidade base
A orquestração complexa de ferramentas pode exigir fine-tuning para confiabilidade
As definições de habilidades consomem espaço na janela de contexto

Fine-tuning supervisionado (SFT)

O fine-tuning supervisionado (SFT) serve para modificar o comportamento de um modelo pré-treinado ajustando os pesos do modelo com conjuntos de dados rotulados. Ao contrário das técnicas anteriores que personalizam o comportamento do agente no momento da inferência, o SFT é realizado no momento do treinamento, modificando o comportamento subjacente do modelo.

Como funciona

Você monta um conjunto de dados de exemplos — cada um contendo uma entrada (uma solicitação em linguagem natural) e o output ideal (como uma chamada de ferramenta JSON estruturada). O modelo treina nesses exemplos, aprendendo a replicar o comportamento demonstrado.

Ferramentas de geração de dados sintéticos (SDG) como o NVIDIA NeMo Data Designer podem acelerar esse processo, especialmente em domínios com poucos recursos onde exemplos rotulados manualmente são escassos. Em vez de criar manualmente cada exemplo de treinamento, as equipes podem definir um esquema de dados e usar LLMs para gerar pares de treinamento diversos e de alta qualidade. Em seguida, realize o SFT usando esse conjunto de dados gerado com um framework avançado de fine-tuning como o NVIDIA NeMo.

Quando usar

Trabalhar com dados acessíveis para tarefas bem definidas com exemplos de output
Personalizar um modelo para um domínio com poucos recursos onde exemplos rotulados são limitados e dados sintéticos de alta qualidade podem ser gerados para inicializar o conjunto de dados de fine-tuning
Exigir que o modelo produza de forma confiável formatos de output específicos (esquemas JSON, chamadas de ferramentas, dados estruturados)

Limitações

A qualidade depende inteiramente da qualidade dos dados de treinamento; o modelo aprende a imitar, para melhor ou pior
Pode sofrer overfitting na distribuição de treinamento se os dados não forem suficientemente diversos (esquecimento catastrófico)
Necessita de recursos computacionais para treinamento

O SFT é frequentemente o primeiro passo baseado em treinamento em um pipeline de personalização de agentes. Ele estabelece um comportamento de linha de base que os métodos de alinhamento posteriores podem refinar.

Fine-tuning eficiente em parâmetros (PEFT)

O fine-tuning completo, como em um modelo de 9 bilhões de parâmetros, requer recursos significativos de GPU para ajustar todos os pesos. Os métodos de fine-tuning eficiente em parâmetros (PEFT), como Low-Rank Adaptation (LoRA) e Quantized Low-Rank Adaptation (QLoRA), descrevem um tipo de mecanismo de atualização que pode ser usado com SFT para congelar a maioria dos pesos do modelo enquanto modifica apenas uma fração mínima dos parâmetros.

Essa abordagem mantém a maioria dos benefícios do treinamento completo enquanto reduz drasticamente a sobrecarga de armazenamento para múltiplos modelos de IA especializada. O PEFT é agora o padrão para fine-tuning prático de agentes.

Como funciona

O LoRA injeta pequenas matrizes treináveis nas camadas de atenção e feed-forward do modelo. Em vez de atualizar todos os parâmetros em um modelo grande, você treina apenas uma pequena fração. Por exemplo, o NVIDIA Nemotron 3 Nano tem 30 bilhões de parâmetros totais com ~3,5 bilhões ativos por passagem. Com o LoRA, o grande modelo base permanece o mesmo, e você troca diferentes adaptadores para diferentes tarefas, domínios ou clientes.

O QLoRA estende isso quantizando o modelo base para precisão de 4 bits, permitindo o fine-tuning de modelos que de outra forma excederiam a memória de GPU disponível. Na prática, escolher SFT usando LoRA é um caminho rápido para uma personalização útil sem o custo total do fine-tuning.

Um modelo que exigiria múltiplas GPUs de ponta para fine-tuning completo muitas vezes pode ser ajustado com LoRA em uma única GPU. Isso democratiza a personalização para equipes sem orçamentos computacionais massivos.

Quando usar

Trabalhar com recursos limitados de GPU
Manter múltiplas versões especializadas de um modelo base
Exigir iterações rápidas e ciclos de treinamento ágeis

Limitações

Retreinar uma subseção dos pesos do modelo limita o grau de mudança possível (teto de qualidade)

Direct Preference Optimization (DPO)

Enquanto o SFT imita bons exemplos, o Direct Preference Optimization (DPO) treina o modelo em comparações de preferências pareadas. O sinal de preferência pode vir de anotadores humanos, um juiz LLM, verificadores baseados em regras ou dados de preferência gerados sinteticamente, já que o DPO é agnóstico à fonte do sinal de preferência. Os sinais de preferência eliminam a necessidade de um modelo de recompensa separado, ao contrário do aprendizado por reforço a partir de feedback humano (RLHF), tornando o DPO eficaz como etapa de refinamento após a existência de uma linha de base SFT.

Como funciona

Você coleta ou gera pares de respostas para a mesma entrada: uma preferida e uma rejeitada. Esses pares podem ser produzidos manualmente, curados a partir de interações reais de usuários ou gerados com fluxos de trabalho de geração de dados sintéticos.

Por exemplo, em um domínio com poucos recursos, um LLM pode gerar respostas candidatas e rótulos de preferência de acordo com uma rubrica, esquema ou verificador; então humanos podem revisar ou fazer auditoria amostral dos resultados para qualidade. O algoritmo DPO atribui maior probabilidade às respostas preferidas usando uma perda contrastiva pareada, maximizando a log-probabilidade relativa da resposta preferida sobre a rejeitada.

Quando usar

Usar qualidade de resposta subjetiva (tom, estilo, utilidade, segurança)
Trabalhar com múltiplos outputs válidos onde alguns são mensuravelmente melhores que outros
Exigir alinhamento com preferências sem a complexidade do RLHF completo
Refinar ainda mais a qualidade do output após realizar o SFT

Limitações

Requer pares de preferência de alta qualidade, sejam criados por humanos ou sintéticos
Dados de preferência sintéticos podem codificar viés do juiz, rubricas fracas ou exemplos irreais se não validados
Menos eficaz para tarefas com respostas corretas estritamente verificáveis

Aprendizado por reforço (RL)

As técnicas de aprendizado por reforço (RL) compreendem uma subclasse do aprendizado de máquina. As técnicas a seguir são variações do RL que podem ser usadas especificamente para personalizar agentes e os LLMs que os alimentam.

Aprendizado por reforço a partir de feedback humano (RLHF)

O RLHF é uma das técnicas mais poderosas, porém mais custosas em recursos, para alinhar modelos de linguagem com preferências humanas. Ele usa um processo em dois estágios: primeiro, treinar um modelo de recompensa (uma rede neural separada) para prever preferências humanas e, em seguida, usar esse modelo como juiz automatizado para pontuar outputs durante o treinamento de RL. Isso ajuda a capturar critérios de qualidade sutis como tom, utilidade e segurança.

Como funciona

Anotadores humanos classificam os outputs do modelo por qualidade. Essas classificações treinam um modelo de recompensa que prevê preferências humanas. O agente é então treinado usando um algoritmo de RL para maximizar as pontuações do modelo de recompensa enquanto permanece próximo ao seu comportamento original.

Quando usar

Coordenar objetivos complexos de alinhamento que não podem ser capturados por métricas simples
Trabalhar com recursos substanciais de anotação humana
Exigir modelagem comportamental sutil (segurança, utilidade, prevenção de danos)

Limitações

Implementação complexa — requer gerenciar múltiplos modelos simultaneamente (por exemplo, política, referência, recompensa, crítico)
Computacionalmente caro e propenso a instabilidades de treinamento
O modelo de recompensa pode ser manipulado ou mal especificado (reward hacking)

Aprendizado por reforço com recompensas verificáveis (RLVR)

As abordagens no estilo RLHF dependem de modelos de recompensa aprendidos, que são caros de treinar e podem ser imprecisos ou manipuláveis. O processo e o sistema de design de modelos de recompensa são extensos. Para tarefas com respostas claramente certas ou erradas — como JSON válido, chamadas de API corretas ou testes aprovados — o aprendizado por reforço com recompensas verificáveis (RLVR) pode fornecer sinais de recompensa auditáveis e repetíveis a partir de verificadores confiáveis que reduzem parte da ambiguidade derivada desses modelos de recompensa aprendidos.

Como funciona

Em vez de treinar um modelo de recompensa a partir de preferências humanas, o RLVR usa funções de verificação determinísticas que podem avaliar objetiva e transparentemente a correção de um output.

Considere um agente treinado para traduzir linguagem natural em comandos CLI. Uma função de verificação analisa o output JSON do modelo, verifica se o comando está correto, compara cada flag com os valores esperados e calcula uma pontuação de recompensa precisa:

Correspondência exata: Recompensa = +1,0
Comando correto, flags parciais: Recompensa proporcional à precisão das flags
Comando errado ou JSON inválido: Recompensa = -1,0

Essa abordagem é usada pelo NVIDIA NeMo Gym, que fornece endpoints de verificação que pontuam os outputs do modelo em relação ao ground truth durante o treinamento.

Quando usar

Trabalhar com uma tarefa que possui outputs corretos objetivamente verificáveis (dados estruturados, comandos CLI, código, raciocínio matemático, chamadas de ferramentas)
Exigir sinais de recompensa transparentes e auditáveis
Precisar melhorar a qualidade do raciocínio, além de capacidades de resposta superficiais

Limitações

Aplicável apenas a tarefas com critérios de correção determinísticos
Não adequado para geração criativa, subjetiva ou aberta
Requer construção de infraestrutura de verificação (embora frameworks como o NeMo Gym simplifiquem isso)

O RLVR é uma técnica fundamental por trás das capacidades de raciocínio inovadoras do DeepSeek-R1, demonstrando que recompensas verificáveis podem ensinar modelos a estratégias sofisticadas de resolução de problemas — às vezes mesmo sem nenhum fine-tuning supervisionado como ponto de partida. Bibliotecas abertas como NVIDIA NeMo RL e NeMo Gym ajudam desenvolvedores a treinar em escala.

Group Relative Policy Optimization (GRPO)

O Group Relative Policy Optimization (GRPO) é um algoritmo eficiente de otimização de políticas que se combina naturalmente com o RLVR. Ele gera múltiplas completions por prompt e substitui a rede crítica do PPO por uma linha de base relativa ao grupo para guiar a melhoria. Isso reduz a sobrecarga computacional, mantendo o treinamento estável e eficaz.

Como funciona

Para cada prompt de treinamento, o GRPO gera múltiplas completions (tipicamente de 4 a 64) a partir da política atual. Cada completion é pontuada pela função de recompensa. Em vez de usar uma rede crítica para estimar linhas de base (como o PPO faz), o GRPO calcula a vantagem de cada completion normalizando sua recompensa em relação à média e ao desvio padrão do grupo. Completions com vantagem acima da média são reforçadas; as abaixo são suprimidas.

Quando usar

Aplicar RLVR e precisar de um algoritmo de otimização eficiente
Trabalhar com recursos computacionais que são uma restrição
Precisar de treinamento estável de RL sem a complexidade de um crítico PPO

Limitações

Requer gerar múltiplas completions por prompt, aumentando o cômputo de treinamento por etapa em comparação com métodos supervisionados
As linhas de base baseadas em grupo podem ser ruidosas com tamanhos de grupo pequenos, exigindo ajuste adicional do hiperparâmetro de tamanho do grupo
A eficácia depende de uma função de recompensa bem projetada; recompensas mal especificadas produzem atualizações de política ruins

O GRPO é o algoritmo de otimização que alimentou o treinamento do DeepSeek-R1. Está se tornando cada vez mais a escolha padrão para personalização de agentes baseada em RL, especialmente quando combinado com recompensas verificáveis.

O que é um pipeline multiestágio para personalização de agentes de IA?

Na prática, a personalização mais eficaz de agentes combina múltiplas técnicas em sequência. Os estágios de um pipeline representativo são descritos abaixo.

Estágio 1: Engenharia de prompts + ferramentas e habilidades + RAG

Comece com prompts de sistema, definições de ferramentas e habilidades, e recuperação para estabelecer o comportamento de linha de base.

Estágio 2: SDG

Para capacidades personalizadas que prompts, ferramentas e bancos de dados vetoriais sozinhos não conseguem alcançar, gere dados para personalizar o agente por meio de treinamento.

Estágio 3: SFT

O SFT ensina ao modelo o vocabulário básico, formato e estrutura de tarefas personalizadas.

Estágio 4: RLVR/GRPO ou DPO

Refine o modelo SFT usando preferências ou RL para melhorar a qualidade além do que o aprendizado por imitação pode alcançar. A escolha e a ordem dependem da tarefa:

DPO é tipicamente mais barato e estável, e funciona bem quando há pares de preferência (de humanos, um juiz LLM, ou verificadores baseados em regras) mas nenhuma recompensa escalar confiável.
RLVR com GRPO é a ferramenta certa quando os outputs são objetivamente verificáveis e há necessidade de elevar a qualidade do raciocínio além do que o aprendizado de preferências sozinho pode alcançar.

Essas não são alternativas estritas. Um padrão comum é SFT → DPO → RLVR. O DPO é usado primeiro para alinhar formato e estilo de forma econômica sobre a política SFT; então o RLVR impulsiona ganhos de raciocínio mais intensos onde existem recompensas verificáveis. A ordem é uma escolha de design, não uma receita fixa.

Estágio 5: Avaliação e iteração

Meça a taxa de sucesso da tarefa, a precisão das chamadas de ferramentas e quaisquer outras métricas desejadas. Use os resultados para iterar nos estágios de personalização até alcançar o desempenho desejado.

Este pipeline reflete um princípio no qual o campo está convergindo: comece de forma leve, meça rigorosamente e adicione complexidade apenas onde os dados mostram que é necessário.

Como escolher a abordagem certa de personalização de agentes

Três fatores impactam os métodos de personalização: características da tarefa, recursos disponíveis e maturidade do projeto.

Características da tarefa

Se os outputs do seu agente podem ser objetivamente verificados (JSON correto, testes aprovados, chamadas de API válidas), o RLVR com GRPO é provavelmente sua técnica de maior alavancagem. Se a qualidade é subjetiva, o DPO é mais apropriado. Se a tarefa é bem definida, mas o modelo apenas precisa de exemplos para imitar, o SFT pode ser suficiente.

Recursos disponíveis

O RLHF completo requer computação substancial e orçamentos de anotação humana. O SFT baseado em LoRA pode ser executado em uma única GPU. A engenharia de prompts não requer computação. Adapte sua técnica à sua infraestrutura.

Maturidade do projeto

Projetos em estágio inicial devem investir em engenharia de prompts, infraestrutura de avaliação e definições de ferramentas. A personalização baseada em treinamento entrega mais valor quando você tem métricas claras, modos de falha identificados e dados suficientes para abordá-los.

Diagrama resumindo três fatores para escolher uma abordagem de personalização de agentes de IA: características da tarefa, recursos disponíveis e maturidade do projeto — **Figura 1. Fatores para selecionar a abordagem certa de personalização de agentes de IA**

Comece com a personalização de agentes de IA

A personalização de agentes abrange um espectro de abordagens que se multiplicam em eficácia quando aplicadas com critério. As equipes mais bem-sucedidas começam com métodos leves, investem cedo em avaliação e adicionam técnicas baseadas em treinamento onde a mensuração mostra que são necessárias.

Personalização e avaliação trabalham juntas para gerar melhores resultados. Você não pode melhorar o que não pode medir. Cada decisão de personalização — de um ajuste de prompt a uma execução de treinamento GRPO — deve ser orientada por métricas claras e validada em relação ao desempenho no mundo real.

Pronto para personalizar seus agentes? Acelere o desenvolvimento com o NVIDIA NeMo, que fornece um toolkit integrado abrangendo:

Geração de dados sintéticos com NeMo Data Designer
Personalização de modelos com NeMo Automodel, NeMo Megatron-Bridge e NeMo RL
Infraestrutura de recompensas verificáveis com NeMo Gym
Orquestração e avaliação de agentes com NeMo Agent Toolkit

Essas ferramentas são projetadas para se integrar com frameworks de agentes existentes — adicionando capacidades de personalização, avaliação e otimização sem exigir que você reconstrua tudo do zero.