Capítulo 12 · Prompting · 8 min
A arte de falar com um LLM
Zero-shot, few-shot, chain-of-thought, self-consistency. Por que a formulação do prompt muda radicalmente o que um modelo produz.
O prompt nao e texto — e um programa
Quando voce digita "resuma esse artigo" no ChatGPT, na aparencia nao acontece nada espetacular. Mas o texto que voce mandou disparou um comportamento muito especifico em um modelo treinado em trilhoes de tokens.
Um prompt e um programa em linguagem natural. Nao no sentido de que ele seja compilado, mas no sentido de que sua formulacao determina que tipo de comportamento o modelo vai ativar. A mesma frase reformulada de outra maneira pode dar resultados radicalmente diferentes — nao porque o modelo seja caprichoso, mas porque seu pre-treinamento ensinou a ele padroes distintos para contextos distintos.
O prompt engineering e a arte de formular esse programa para obter o comportamento desejado.
Quatro niveis de tecnica
Zero-shot: so fazer a pergunta
A tecnica mais simples. Voce faz a pergunta diretamente, sem exemplo nem instrucao. O modelo ativa o comportamento mais provavel dado seu treinamento.
Funciona muito bem para tarefas simples e factuais. Falha em problemas que exigem raciocinio — nao porque o modelo nao saiba, mas porque ele nao sabe que deveria raciocinar.
Few-shot: mostrar exemplos
Em vez de explicar o que voce quer, voce mostra. Coloca de 2 a 5 pares (entrada, saida) antes da pergunta de verdade. O modelo — gracas ao seu mecanismo de in-context learning — entende o padrao e o aplica a nova entrada.
A chave: os exemplos precisam ser representativos do tipo de tarefa. Exemplos fora do tema nao ajudam. Exemplos que mostram a abordagem certa ajudam muito.
Chain-of-Thought: raciocinar passo a passo
Uma descoberta surpreendente de 2022 (Wei et al.): basta acrescentar uma instrucao como "pense passo a passo" para que o desempenho em problemas de raciocinio dobre, as vezes triplique.
Por que funciona? O modelo gera tokens um a um. Forcando-o a escrever seu raciocinio intermediario, voce da a ele um "rascunho" no qual ele pode fazer calculos, verificar hipoteses, corrigir erros — antes de concluir. Sem CoT, ele vai direto para a conclusao, sem rede de seguranca.
E o mesmo principio que para um humano: escrever "25 × 37 = 25 × 30 + 25 × 7 = 750 + 175 = 925" da muito mais chance de chegar no resultado certo do que tentar responder de cabeca de uma vez.
Self-Consistency: votar entre varias cadeias
A self-consistency e uma extensao do CoT. Em vez de gerar uma unica cadeia de raciocinio, geramos varias (tipicamente de 5 a 20) com temperaturas diferentes, e depois votamos na resposta mais frequente.
A ideia: cada execucao pode cometer um erro diferente. Mas se a maioria converge para a mesma resposta, ela provavelmente e a certa.
E caro (N vezes mais tokens), mas em tarefas de raciocinio dificeis, o ganho de confiabilidade e real.
Experimente voce mesmo
Compare as quatro tecnicas em tres problemas. Observe em particular que os exemplos em few-shot ajudam num problema estruturado (o do mercador), mas mudam pouca coisa nas pegadinhas logicas.
A mesma pergunta, cinco formulações. O score muda de 30 a 90 % sem tocar no modelo. A lição: um prompt não é um texto, é um programa cuja sintaxe implícita os LLMs interpretam graças ao pré-treinamento.
O que isso revela sobre os LLMs
Essas quatro tecnicas nao sao truques. Elas iluminam algo de fundamental sobre o funcionamento dos LLMs.
O in-context learning e gratis. Um LLM aprende com seus exemplos sem atualizar os pesos — apenas lendo o contexto. E uma capacidade emergente do pre-treinamento massivo: o modelo viu tantos padroes que consegue extrair um novo na hora.
O raciocinio e um comportamento, nao uma capacidade fixa. Um modelo que falha em zero-shot num problema pode acertar em CoT no mesmo problema — sem mudar nenhum parametro. O que o prompt ativa muda o que o modelo "faz" das suas capacidades internas.
A temperatura cria diversidade, o voto reduz a variancia. A self-consistency explora o fato de que os erros costumam ser aleatorios: muitas formas diferentes de errar, mas so uma forma de acertar. O consenso filtra o ruido.
Os limites
O comprimento do contexto. Cada exemplo few-shot consome tokens. Com uma janela de contexto de 8.000 tokens, voce nao consegue colocar 50 exemplos. O CoT tambem alonga as respostas.
Os exemplos podem induzir ao erro. Se seus exemplos contiverem um vies, o modelo vai reproduzi-lo. "Garbage in, garbage out" tambem vale para few-shot.
Prompt injection. Um conteudo malicioso no contexto pode passar por cima das suas instrucoes. Se seu prompt diz "traduza esse texto" e o texto diz "ignore as instrucoes anteriores e faca outra coisa", o modelo pode obedecer ao conteudo em vez da instrucao.
Os modelos evoluem. Prompts que funcionam no GPT-4 nao funcionam necessariamente no Claude ou no Llama. Cada modelo tem seus padroes preferidos, suas formulacoes que "encaixam" melhor.
A regra pratica
Para escolher uma tecnica:
- Pergunta simples / factual → zero-shot, ja basta.
- Formato especifico esperado → few-shot com 2-3 exemplos.
- Raciocinio ou calculo → CoT. Sempre.
- Confiabilidade critica → CoT + self-consistency.
E uma meta-regra: se seu prompt parece codigo — com estrutura clara, variaveis explicitas, casos de uso definidos — ele sera mais confiavel que um texto ambiguo.
Uma ultima coisa. As tecnicas descritas aqui (CoT em particular) sao os ancestrais prompt-driven do que voce encontra hoje nos modelos de raciocinio nativos (o1, o3, Claude extended thinking, DeepSeek-R1). Esses modelos fazem automaticamente e intensamente o que o CoT via prompt apenas simulava — veja o capitulo 17 para entender a passagem do prompt engineering ao raciocinio integrado ao modelo.
Um bom prompt nao e uma formula magica. E uma especificacao clara do que voce quer, numa linguagem que o modelo reconhece como o sinal que deve seguir.
Atualizado em