チャプター 08 · アライメント · 9 min

ベースモデルからアシスタントへ

ファインチューニング、RLHFConstitutional AI。LLMを有用で無害にする方法。

素のモデルはアシスタントではない

事前学習の終わりに、LLMはただ一つのことだけを知っている:テキストをもっともらしく続けること。これは有用で、さらには魔法のようだ。しかしアシスタントではない。

素のモデルに「クッキーの作り方は?」と聞くと、こんなふうに続く可能性が高い:

「クッキーの作り方は? ビスケットの作り方は? ケーキの作り方は? クッキーのレシピはクッキー、砂糖が必要なレシピで……」

愚かだからではない。コーパスの中で、質問の後にさらに質問やノイズが続くページを多く見てきたからだ。モデルは自分の仕事をしている:統計的に続くものを予測することであり、有用なものではなく。

テキスト補完機からアシスタントへ移行するには、モデルをアラインする(整合させる)

同じプロンプトが 3 つ、モデルは 2 つ:左は素の LLM、右は教師ありファインチューニングと RLHF を経たもの。素の LLM はテキストの続きを書く。アラインされた LLM は応答し、問題のある要求は拒否する。

3つの連続するステップ

現代のアラインメントは、事前学習の上に積み重ねられたいくつかのフェーズで行われる。

1. インストラクションチューニング(SFT

人間が書いた指示 → 理想的な応答のペアのデータセットで、モデルを(古典的な教師ありモードで)ファインチューニングする。数万ペアで十分だ。これによってモデルは以下を学ぶ:

  • 指示を完成させるのではなく従うこと
  • 要求されたフォーマット(リスト、段落、コード……)を尊重すること
  • 脱線するのではなく完全な応答を生成すること

このステップがgpt-3gpt-3.5-instructに変換するものだ。その違いは劇的で、モデルはついに答えを返すようになる。

2. RLHF(人間のフィードバックからの強化学習)

SFTだけでは不十分だ。一つの応答スタイルを教えるが、「平均的な」応答と「優れた」応答の細かい区別はできない。

だからRLHFが登場する。3つのサブステップで構成される:

a) モデルが同じプロンプトに対して複数の可能な応答を生成する。 b) 人間がそれらをランク付けする(A > B > C)。 c) 人間の好みを模倣する報酬モデルを学習させ、次にこの報酬を最大化するために強化学習を通じてLLMを最適化する。

結果:単に応答するだけでなく、人間がモデルに応答してほしいように応答するモデル。より礼儀正しく、より構造的で、より傲慢でなく、より有用だ。

2bis. DPO:もっとシンプルなPPO

これまで述べてきたRLHFは、訓練が重いRLアルゴリズム(PPO)に依存している:別個の報酬モデル、数値的な不安定性、莫大な計算コスト。

2023年、スタンフォードのチームがDPODirect Preference Optimization)を提案した。アイデアはこうだ:報酬モデルとRLステップを短絡させる。数学的に、各比較ペアにおいて「勝ち」の応答を「負け」より直接LLMに好ませるよう最適化する、シンプルな教師あり損失を導出できる。

具体的には、古典的なRLHFが使っていたのと同じ (プロンプト, 応答A_は_応答B_より良い) のペアから出発し、DPOは1パスでモデルを学習させる——通常の教師ありファインチューニングと同じように。別個の報酬モデルもなく、PPOもなく、不安定さもない。

結果はベンチマーク上でPPO-RLHFとほとんど見分けがつかず、しかもコストはほんの一部だ。2024年以降、DPOとその変種(IPO、KTO、ORPO)はLlama、Mistral、そして多くのオープンソースのラボで古典的なPPOにほぼ取って代わった。AnthropicやOpenAIはまだもっと複雑なパイプラインを使っているが、その差は縮まりつつある。

いまだに「RLHF」という言葉をあちこちで目にする。それは総称になった。実態としては、ますますDPOになっている。

3. RLAIF / Constitutional AI

変種として:人間の代わりに、別のモデル(多くの場合同じモデル)を使って、書かれた憲法——原則のセット(「違法な指示を与えない」、「情報源を捏造しない」、「有用な場合は推論を説明する」……)——に従ってフィードバックを提供する。これがConstitutional AIと呼ばれる。

利点:スケーラブル(人間はコストが高く遅い)、再現可能(憲法は明示的)、修正可能(すべてを再アノテーションせずに原則を調整できる)。

これはAnthropicがClaudeに使用するプロセスで、その後多くの他のラボも採用した。

アラインメントがしないこと

いくつかの神話を払拭しよう。

アラインメントはモデルの知識を変えない。 素のモデルがナポレオンはセントヘレナ島で死んだことを知らなければ、RLHFはそれを教えない。RLHFはモデルが知っていることをどのように表現するかを変えるだけで、知っていることの範囲ではない。

アラインメントは単純な検閲ではない。 爆弾の作り方の指示を断ることは、ブラックリストに登録されたキーワードではない:それは間接的な表現にも汎化し、拒否を正当化する学習されたポリシーだ。

アラインメントは完璧ではない。 ジェイルブレイク(RLHFを迂回するプロンプト)はまだ存在する。コーパスのバイアスは部分的に残る。ハルシネーション(幻覚)もまだある。モデルが知らないと認めるよりも自信満々に見えるほうが高い報酬を得ることがあるからだ。

アラインメントにはコストがある。 一部の技術的タスクでは、アラインされたモデルはベースモデルより劣る:リスクを取ることを拒み、免責事項を追加し、過度に慎重になる。これはアラインメント税と呼ばれる。

なぜLLMはハルシネーションを起こすのか

これはおそらくLLMに対する最も頻繁な批判だろう:自信たっぷりに事実を捏造する。存在しない参考文献、決して発言されなかった引用、歪められた出来事。なぜか?

3つのメカニズムが組み合わさっている。

1. クロスエントロピーは不確実性を報酬としない。 事前学習中(第06章)、モデルは正しいトークンの対数確率を最小化することを学ぶ。「わからない」と言うことは一度も学ばない——目的は常に何かを予測することだ。正解がパラメータの中になければ、モデルは嗅覚で最ももっともらしい文字列を生成する。

2. RLHFは正直さよりも自信を報酬とする。 人間が好みをアノテーションするとき、平均すれば「わからない、確信がない」よりも自信に満ちて言い回しの良い回答を好む。報酬モデルはこのバイアスを学び、LLMは実際には確信がなくても確信があるように見せることを学ぶ。

3. 内部の検証ループがない。 何かを捏造している人間は立ち止まり、疑い、確認する。トークンごとに生成するLLMには本来そのようなメカニズムはない——外部のチェックなしに前進する。

だから、より洗練されたアラインメントを行ってもハルシネーションは消えない。それらは構造的だ。効果的な対策はシステム的である:

  • モデルをツールに接続する(第11章)——推測する代わりに計算し、記憶する代わりにデータベースに問い合わせる。
  • RAG(第10章)——パラメータの記憶に頼る代わりに信頼できる情報源を提供する。
  • 拡張された推論(第 17 章)——時間をかけて考えるモデルはハルシネーションが少ない。
  • 不確実性に対して明示的にファインチューニングする——内部確率が低いときに「わからない」と言うようにモデルに教える(活発な研究分野)。

ハルシネーションはモデルのバグではない。常にもっともらしいテキストを生成するように学習されたシステムが、その重みの中に答えがない問いに出会ったときに起こることだ。

開かれた問い

アラインメントは即時の問題を解決する:LLMを有用で一般的に合理的なものにすること。しかし、大文字のアラインメントと呼ばれる深い問いを解決しきれない:

人間よりはるかに有能なシステムが人類の利益のために行動することをどうやって保証するか?

現在、私たちは人間のフィードバックを通じてアラインする。なぜなら人間が最善の判断者であり続けているからだ。モデルが判断させたいタスクで人間より優れたときが来ると、このレバーでは不十分になる。それは未解決の問題で、研究の一分野全体のテーマだ。

第II部の終わり

あなたは今、現代LLMの内部パイプライン全体を、テキストの生バイトからアラインされた振る舞いまで通り抜けた:

  • 01 — 単語を何度も繰り返し予測する。
  • 02 — テキストをトークン化する。
  • 03 — 各トークンを意味の空間に埋め込む。
  • 04 — アテンションを通じてトークンが互いを見る。
  • 05 — トランスフォーマーブロックを積み重ねる。
  • 06 — 勾配降下法で学習する。
  • 07 — 次の単語をサンプリングする。
  • 08 — 人間の好みに整合させる。

これらのメカニズムはどれも、単独では神秘的ではない。これらのどれも、単独では、LLMが科学論文を要約したりソネットを書いたりするときに見えるものを説明するには不十分だ:知性はそれらのスケールでの構成から生まれる。

奇跡はどれか一つのピースにあるのではない。10億のパラメータで乗算され、数兆のトークンで学習された連鎖全体にある。

次は?

モデルは準備できている。予測でき、推論でき、指示に従える。しかしモデルと、あなたがChatGPTやClaudeを使うときに体験するものとの間には、まだ全体のインフラがある:何を覚えているかを定義するコンテキストウィンドウ、あなたのドキュメントへのアクセスを与えるRAG、ツールに接続するエージェント

それが第III部 — 本番環境のモデルのテーマだ。

さらにその先、第IV部 — さらに深くは現在の研究テーマに踏み込む:ファインチューニング、マルチモダリティ、拡張された推論、スケーリング則、解釈可能性、拡散。

パイプラインは整った。残りはその上に私たちが築き上げるすべてだ。

更新日

素の LLM からアシスタントへ:RLHF とは · Step by Token