关于大语言模型的交互式指南

Step by Token

通过一个又一个交互式可视化,理解大语言模型的工作原理。

目录

21 / 21 · 189 分钟
IV深入探索
  1. 14

    在不重新训练一切的情况下专业化模型

    LoRAQLoRASFT。如何通过训练0.1%的参数将通用模型适配到特定领域。

    9 min
  2. 15

    当模型读取图像时

    块嵌入、ViT、CLIP。文本Transformer如何通过将图像视为标记网格而变成多模态。

    8 min
  3. 16

    我们如何知道一个模型更好?

    MMLU、HumanEval、LMSYS Arena。为什么测量大语言模型的智能很困难——以及为什么没有一个基准测试就足够了。

    8 min
  4. 17

    先思考,再回答

    思考tokens、扩展推理、思考预算。o1/o3类模型如何在回答之前生成隐藏的思维链。

    9 min
  5. 18

    为什么第2个 token 比第1个快

    KV 缓存与自回归生成。Prefill vs decode、TTFT,以及为什么缓存改变了一切。

    8 min
  6. 19

    更大的模型总是更好吗?

    Kaplan 与 Chinchilla 的扩展法则。为什么 GPT-3 训练不足,以及每个参数 20 个 token 的最优比。

    9 min
  7. 20

    模型内部到底在做什么?

    电路、多义神经元、Sparse Autoencoders。Anthropic 与 DeepMind 如何打开黑盒。

    9 min
  8. 21

    通过擦除噪声来生成图像

    Stable Diffusion、DALL-E、Midjourney。反向去噪过程、CLIP 的作用,以及为什么 U-Net 正在让位于 Transformer

    9 min
Step by Token