Una guía interactiva sobre los LLMs

Step by Token

Entender cómo funcionan los grandes modelos de lenguaje, una visualización interactiva a la vez.

Tabla de contenidos

21 / 21 · 189 min
IVIr más lejos
  1. 14

    Especializar un modelo sin reentrenar todo

    LoRA, QLoRA, SFT. Cómo adaptar un modelo generalista a un dominio específico entrenando el 0,1% de sus parámetros.

    9 min
  2. 15

    Cuando el modelo lee imágenes

    Patch embedding, ViT, CLIP. Cómo un Transformer de texto se vuelve multimodal tratando una imagen como una cuadrícula de tokens.

    8 min
  3. 16

    ¿Cómo sabemos que un modelo es mejor?

    MMLU, HumanEval, LMSYS Arena. Por qué medir la inteligencia de un LLM es difícil — y por qué ningún benchmark es suficiente.

    8 min
  4. 17

    Pensar antes de responder

    Tokens de pensamiento, razonamiento extendido, presupuestos de reflexión. Cómo los modelos o1/o3 generan una cadena de pensamiento oculta antes de responder.

    9 min
  5. 18

    Por qué el 2.º token es más rápido que el 1.º

    El KV cache y la generación autorregresiva. Prefill vs decode, TTFT, y por qué el cache lo cambia todo.

    8 min
  6. 19

    ¿Más grande siempre es mejor?

    Las leyes de escala de Kaplan y Chinchilla. Por qué GPT-3 estaba subentrenado y la proporción óptima de 20 tokens por parámetro.

    9 min
  7. 20

    ¿Qué pasa realmente dentro?

    Circuitos, neuronas polisemánticas, Sparse Autoencoders. Cómo Anthropic y DeepMind abren la caja negra.

    9 min
  8. 21

    Generar una imagen borrando el ruido

    Stable Diffusion, DALL-E, Midjourney. El proceso inverso de denoising, el papel de CLIP, y por qué U-Net cede el paso a los Transformers.

    9 min
Step by Token