Capítulo 12 · Prompting · 8 min

A arte de falar com um LLM

Zero-shot, few-shot, chain-of-thought, self-consistency. Por que a formulação do prompt muda radicalmente o que um modelo produz.

O prompt nao e texto — e um programa

Quando voce digita "resuma esse artigo" no ChatGPT, na aparencia nao acontece nada espetacular. Mas o texto que voce mandou disparou um comportamento muito especifico em um modelo treinado em trilhoes de tokens.

Um prompt e um programa em linguagem natural. Nao no sentido de que ele seja compilado, mas no sentido de que sua formulacao determina que tipo de comportamento o modelo vai ativar. A mesma frase reformulada de outra maneira pode dar resultados radicalmente diferentes — nao porque o modelo seja caprichoso, mas porque seu pre-treinamento ensinou a ele padroes distintos para contextos distintos.

O prompt engineering e a arte de formular esse programa para obter o comportamento desejado.

Quatro niveis de tecnica

Zero-shot: so fazer a pergunta

A tecnica mais simples. Voce faz a pergunta diretamente, sem exemplo nem instrucao. O modelo ativa o comportamento mais provavel dado seu treinamento.

Funciona muito bem para tarefas simples e factuais. Falha em problemas que exigem raciocinio — nao porque o modelo nao saiba, mas porque ele nao sabe que deveria raciocinar.

Few-shot: mostrar exemplos

Em vez de explicar o que voce quer, voce mostra. Coloca de 2 a 5 pares (entrada, saida) antes da pergunta de verdade. O modelo — gracas ao seu mecanismo de in-context learning — entende o padrao e o aplica a nova entrada.

A chave: os exemplos precisam ser representativos do tipo de tarefa. Exemplos fora do tema nao ajudam. Exemplos que mostram a abordagem certa ajudam muito.

Chain-of-Thought: raciocinar passo a passo

Uma descoberta surpreendente de 2022 (Wei et al.): basta acrescentar uma instrucao como "pense passo a passo" para que o desempenho em problemas de raciocinio dobre, as vezes triplique.

Por que funciona? O modelo gera tokens um a um. Forcando-o a escrever seu raciocinio intermediario, voce da a ele um "rascunho" no qual ele pode fazer calculos, verificar hipoteses, corrigir erros — antes de concluir. Sem CoT, ele vai direto para a conclusao, sem rede de seguranca.

E o mesmo principio que para um humano: escrever "25 × 37 = 25 × 30 + 25 × 7 = 750 + 175 = 925" da muito mais chance de chegar no resultado certo do que tentar responder de cabeca de uma vez.

Self-Consistency: votar entre varias cadeias

A self-consistency e uma extensao do CoT. Em vez de gerar uma unica cadeia de raciocinio, geramos varias (tipicamente de 5 a 20) com temperaturas diferentes, e depois votamos na resposta mais frequente.

A ideia: cada execucao pode cometer um erro diferente. Mas se a maioria converge para a mesma resposta, ela provavelmente e a certa.

E caro (N vezes mais tokens), mas em tarefas de raciocinio dificeis, o ganho de confiabilidade e real.

Experimente voce mesmo

Compare as quatro tecnicas em tres problemas. Observe em particular que os exemplos em few-shot ajudam num problema estruturado (o do mercador), mas mudam pouca coisa nas pegadinhas logicas.

A mesma pergunta, cinco formulações. O score muda de 30 a 90 % sem tocar no modelo. A lição: um prompt não é um texto, é um programa cuja sintaxe implícita os LLMs interpretam graças ao pré-treinamento.

O que isso revela sobre os LLMs

Essas quatro tecnicas nao sao truques. Elas iluminam algo de fundamental sobre o funcionamento dos LLMs.

O in-context learning e gratis. Um LLM aprende com seus exemplos sem atualizar os pesos — apenas lendo o contexto. E uma capacidade emergente do pre-treinamento massivo: o modelo viu tantos padroes que consegue extrair um novo na hora.

O raciocinio e um comportamento, nao uma capacidade fixa. Um modelo que falha em zero-shot num problema pode acertar em CoT no mesmo problema — sem mudar nenhum parametro. O que o prompt ativa muda o que o modelo "faz" das suas capacidades internas.

A temperatura cria diversidade, o voto reduz a variancia. A self-consistency explora o fato de que os erros costumam ser aleatorios: muitas formas diferentes de errar, mas so uma forma de acertar. O consenso filtra o ruido.

Os limites

O comprimento do contexto. Cada exemplo few-shot consome tokens. Com uma janela de contexto de 8.000 tokens, voce nao consegue colocar 50 exemplos. O CoT tambem alonga as respostas.

Os exemplos podem induzir ao erro. Se seus exemplos contiverem um vies, o modelo vai reproduzi-lo. "Garbage in, garbage out" tambem vale para few-shot.

Prompt injection. Um conteudo malicioso no contexto pode passar por cima das suas instrucoes. Se seu prompt diz "traduza esse texto" e o texto diz "ignore as instrucoes anteriores e faca outra coisa", o modelo pode obedecer ao conteudo em vez da instrucao.

Os modelos evoluem. Prompts que funcionam no GPT-4 nao funcionam necessariamente no Claude ou no Llama. Cada modelo tem seus padroes preferidos, suas formulacoes que "encaixam" melhor.

A regra pratica

Para escolher uma tecnica:

  • Pergunta simples / factual → zero-shot, ja basta.
  • Formato especifico esperado → few-shot com 2-3 exemplos.
  • Raciocinio ou calculoCoT. Sempre.
  • Confiabilidade criticaCoT + self-consistency.

E uma meta-regra: se seu prompt parece codigo — com estrutura clara, variaveis explicitas, casos de uso definidos — ele sera mais confiavel que um texto ambiguo.

Uma ultima coisa. As tecnicas descritas aqui (CoT em particular) sao os ancestrais prompt-driven do que voce encontra hoje nos modelos de raciocinio nativos (o1, o3, Claude extended thinking, DeepSeek-R1). Esses modelos fazem automaticamente e intensamente o que o CoT via prompt apenas simulava — veja o capitulo 17 para entender a passagem do prompt engineering ao raciocinio integrado ao modelo.

Um bom prompt nao e uma formula magica. E uma especificacao clara do que voce quer, numa linguagem que o modelo reconhece como o sinal que deve seguir.

Atualizado em

Prompt engineering: zero-shot, few-shot, chain-of-thought · Step by Token