インデックス

全チャプター

トークン化からアライメントまで。各チャプターには少なくとも1つのインタラクティブな可視化が含まれます。

Iモデルの解剖
  1. 01

    基礎

    一度に一語を予測する

    言語モデルとは何か?次の単語を予測することだけで知性が生まれる理由。

    6 min
  2. 02

    トークン化

    テキストからトークンへ

    テキストが数値になる仕組み。BPE、サブワード、そしてLLMが文字を数えるのが苦手な理由。

    8 min
  3. 03

    埋め込み

    意味の空間

    幾何学的空間の中の言葉。王 − 男 + 女 = 女王、そして他のベクトルの奇跡。

    10 min
  4. 04

    アテンション

    アテンションこそすべて

    すべてを変えるメカニズム。各トークンがコンテキストを理解するために他のすべてのトークンを見る方法。

    12 min
  5. 05

    アーキテクチャ

    Transformerの全体像

    ピースを組み合わせる:マルチヘッドアテンション、フィードフォワード、正規化、残差接続。

    14 min
II学習とアライメント
  1. 06

    学習

    どのように学ぶか

    損失関数、勾配降下法、バックプロパゲーション。そして数十億のパラメータが必要な理由。

    10 min
  2. 07

    生成

    次の単語を選ぶ

    温度、top-ktop-p。確率分布をテキストに変換する技術。

    7 min
  3. 08

    アライメント

    ベースモデルからアシスタントへ

    ファインチューニング、RLHFConstitutional AI。LLMを有用で無害にする方法。

    9 min
III本番環境のモデル
  1. 09

    コンテキスト

    モデルが覚えていること

    コンテキストウィンドウ:完璧だが有界の記憶。ChatGPTが忘れる理由とそのコスト。

    8 min
  2. 10

    RAG

    あなたのドキュメントを読む

    LLMが記憶せずに何千ページにもアクセスする方法。埋め込み、セマンティック検索、注入されたコンテキスト。

    9 min
  3. 11

    エージェント

    返答するモデルから行動するモデルへ

    ツール使用、ReActループ、マルチステップタスク。LLMが世界で行動できるエージェントになる方法。

    10 min
  4. 12

    プロンプティング

    LLMへの語りかけ方の技術

    ゼロショット、フューショット、Chain-of-Thought、自己整合性。プロンプトの書き方がモデルの出力を根本的に変える理由。

    8 min
  5. 13

    ハルシネーション

    なぜLLMは作り出すのか

    キャリブレーション、誤った確信、対策。最も多い批判の裏にある構造的メカニズム — そしてそれに対して何ができるのか。

    9 min
IVさらに深く
  1. 14

    ファインチューニング

    すべてを再訓練せずにモデルを専門化する

    LoRAQLoRASFT。パラメータの0.1%を訓練することで汎用モデルを特定ドメインに適応させる方法。

    9 min
  2. 15

    マルチモーダル

    モデルが画像を読むとき

    パッチ埋め込み、ViT、CLIP。テキストTransformerが画像をトークンのグリッドとして扱うことでマルチモーダルになる方法。

    8 min
  3. 16

    評価

    あるモデルが優れているとどうわかるか?

    MMLU、HumanEval、LMSYS Arena。LLMの知性を測定することが難しい理由—そして単一のベンチマークでは不十分な理由。

    8 min
  4. 17

    推論

    答える前に考える

    Thinkingトークン、拡張推論、思考予算。o1/o3クラスのモデルが回答前に隠れた思考の連鎖を生成する仕組み。

    9 min
  5. 18

    推論

    なぜ2番目のトークンは1番目より速いのか

    KVキャッシュと自己回帰生成。Prefill vs decode、TTFT、そしてキャッシュがすべてを変える理由。

    8 min
  6. 19

    スケーリング

    大きいほど良いとは限らない?

    Kaplan と Chinchilla のスケーリング則。なぜ GPT-3 は学習不足だったのか、そしてパラメータあたり20トークンの最適比。

    9 min
  7. 20

    解釈可能性

    中で実際に何が起きているのか?

    回路、多義性ニューロン、Sparse Autoencoders。Anthropic と DeepMind がブラックボックスをどう開くのか。

    9 min
  8. 21

    拡散

    ノイズを消して画像を生成する

    Stable Diffusion、DALL-E、Midjourney。逆方向のノイズ除去、CLIP の役割、そしてなぜ U-Net が Transformer に道を譲るのか。

    9 min
全チャプター · Step by Token