Índice

Todos os capítulos

Da tokenização ao alinhamento. Cada capítulo inclui pelo menos uma visualização interativa.

IAnatomia de um modelo
  1. 01

    Fundamentos

    Prever uma palavra de cada vez

    O que é um modelo de linguagem? Por que prever a próxima palavra é suficiente para fazer emergir a inteligência.

    6 min
  2. 02

    Tokenização

    Do texto aos tokens

    Como o texto se torna números. BPE, subpalavras, e por que os LLMs têm dificuldade em contar letras.

    8 min
  3. 03

    Embeddings

    O espaço do significado

    Palavras em um espaço geométrico. Rei − Homem + Mulher = Rainha, e outros milagres vetoriais.

    10 min
  4. 04

    Atenção

    Atenção é tudo que você precisa

    O mecanismo que muda tudo. Como cada token olha para todos os outros para entender o contexto.

    12 min
  5. 05

    Arquitetura

    O Transformer completo

    Montando as peças: atenção multi-cabeça, feed-forward, normalização, conexões residuais.

    14 min
IITreinar e alinhar
  1. 06

    Treinamento

    Como aprende

    Loss, descida de gradiente, backpropagation. E por que são necessários bilhões de parâmetros.

    10 min
  2. 07

    Geração

    Escolher a próxima palavra

    Temperature, top-k, top-p. A arte de transformar uma distribuição de probabilidade em texto.

    7 min
  3. 08

    Alinhamento

    Do modelo bruto ao assistente

    Fine-tuning, RLHF, IA constitucional. Como tornar um LLM útil e inofensivo.

    9 min
IIIO modelo em produção
  1. 09

    Contexto

    O que o modelo lembra

    A janela de contexto: memória perfeita mas limitada. Por que o ChatGPT esquece e o que isso custa.

    8 min
  2. 10

    RAG

    Ler seus documentos

    Como um LLM acessa milhares de páginas sem memorizá-las. Embeddings, busca semântica, contexto injetado.

    9 min
  3. 11

    Agentes

    Do modelo que responde ao modelo que age

    Tool use, ciclo ReAct, tarefas multi-etapa. Como um LLM se torna um agente capaz de agir no mundo.

    10 min
  4. 12

    Prompting

    A arte de falar com um LLM

    Zero-shot, few-shot, chain-of-thought, self-consistency. Por que a formulação do prompt muda radicalmente o que um modelo produz.

    8 min
  5. 13

    Alucinacoes

    Por que os LLMs inventam

    Calibracao, certezas falsas, contramedidas. O mecanismo estrutural por tras da critica mais frequente — e o que se pode fazer a respeito.

    9 min
IVIndo mais longe
  1. 14

    Fine-tuning

    Especializar um modelo sem retreinar tudo

    LoRA, QLoRA, SFT. Como adaptar um modelo generalista a um domínio específico treinando 0,1% dos seus parâmetros.

    9 min
  2. 15

    Multimodalidade

    Quando o modelo lê imagens

    Patch embedding, ViT, CLIP. Como um Transformer de texto se torna multimodal tratando uma imagem como uma grade de tokens.

    8 min
  3. 16

    Avaliação

    Como sabemos que um modelo é melhor?

    MMLU, HumanEval, LMSYS Arena. Por que medir a inteligência de um LLM é difícil — e por que nenhum benchmark é suficiente.

    8 min
  4. 17

    Raciocínio

    Pensar antes de responder

    Tokens de pensamento, raciocínio estendido, orçamentos de reflexão. Como os modelos o1/o3 geram uma cadeia de pensamento oculta antes de responder.

    9 min
  5. 18

    Inferência

    Por que o 2º token é mais rápido que o 1º

    O KV cache e a geração autorregressiva. Prefill vs decode, TTFT, e por que o cache muda tudo.

    8 min
  6. 19

    Escala

    Maior é sempre melhor?

    As leis de escala de Kaplan e Chinchilla. Por que GPT-3 estava subtreinado, e a razão ótima de 20 tokens por parâmetro.

    9 min
  7. 20

    Interpretabilidade

    O que está realmente acontecendo lá dentro?

    Circuitos, neurônios polissemânticos, Sparse Autoencoders. Como Anthropic e DeepMind abrem a caixa preta.

    9 min
  8. 21

    Difusão

    Gerar uma imagem apagando o ruído

    Stable Diffusion, DALL-E, Midjourney. O processo inverso de denoising, o papel do CLIP, e por que U-Net cede lugar aos Transformers.

    9 min
Todos os capítulos · Step by Token