チャプター 20 · 解釈可能性 · 9 min

中で実際に何が起きているのか？

回路、多義性ニューロン、Sparse Autoencoders。Anthropic と DeepMind がブラックボックスをどう開くのか。

機能するブラックボックス

700億パラメータの LLM は、訓練し、評価し、デプロイできるオブジェクトだ——しかし本当には理解できていない。どの重みを学習したかは知っている。それらの重みが何かを実装していることは知っている。何をかは分からない。

長い間、これはあまり重要に思えなかった。動くなら動くのだ。しかし LLM が現実世界に影響を与える決定を下すようになるにつれ——医療コード、自律エージェント、コンテンツモデレーション——問いは差し迫ってくる：箱を開けることはできるか？

それがメカニスティック解釈可能性の目的だ。外側からモデルが何をするかを記述する分野ではなく（それはベンチマークだ）、ニューロンの内部に実装されたアルゴリズムをリバースエンジニアリングしようとする分野だ。

この章で使う小さな語彙

本題に入る前に、これから出会う用語を整理しておこう。読み進めながら順次掘り下げていくが、この表は迷子にならないための手すりだ。

用語	一文での説明
Feature（フィーチャー）	モデルの活性化に繰り返し現れるパターンで、しばしば人間が認識できる概念に対応づけられる。
ポリセマンティック	複数の無関係な概念で発火するニューロン。LLMでは普通のこと。
モノセマンティック	識別可能な単一の概念に応答する「フィーチャー」。これが目指すゴール。
重ね合わせ（Superposition）	ネットワークが持っているニューロン数より多くの概念を、重ねて符号化すること。
回路（Circuit）	特定の機能を実装するネットワークの部分グラフ。
SAE（Sparse Autoencoder）	活性化をモノセマンティックなフィーチャーに分解する技術。
ステアリング（Steering）	あるフィーチャーを増幅または抑制してモデルの振る舞いを変えること。

問題：ポリセマンティックなニューロン

Transformer を開いて特定のニューロンを観察できたら、「犬を検出するニューロン」や「足し算ができるニューロン」を見つけることを期待するかもしれない。現実はもっと乱雑だ。

LLM のニューロンは典型的にポリセマンティックだ：複数の無関係な概念で発火する。同じニューロンが、犬の言及、過去形の動詞、フランス語の自由回答質問、HTML タグに対して強く反応することがある。なぜか？ネットワークがニューロンの数よりも遥かに多くの概念を表現する必要があるからだ——それらを重ね合わせるのだ。

この重ね合わせ（Elhage et al., 2022）は重要な発見だ。なぜ1つのニューロンを拡大して観察しても、ほとんど解釈可能な信号が得られないのかを説明する。

解決策：Sparse Autoencoders

概念がニューロン内で重ね合わされているなら、それらを見るための正しい基底はニューロンの空間ではない——別の、もっと大きな空間で、各次元が1つの概念に対応するものだ。

これが Sparse Autoencoders（SAE）のアイデアだ。モデルの内部活性化を、はるかに広い空間（しばしば10倍や100倍広い）に投影することを学ぶ。疎性の制約を伴って：一度に少数の次元だけが活性化すべきだ。ネットワークは、各活性化を少数の解釈可能なフィーチャーの組み合わせとして表現することを強制される。

Anthropic は 2024 年に画期的な論文（"Scaling Monosemanticity"）を発表し、この技術を Claude 3 Sonnet に適用した。彼らは数百万のフィーチャーを抽出し、その一部は壮観だ：ゴールデンゲートブリッジの概念のためのフィーチャー、コードのバグのフィーチャー、お世辞のフィーチャー、裏切りのフィーチャー。これらのフィーチャーはモノセマンティックだ——それぞれが認識可能な唯一の概念に対応する。

自分で探索しよう

ニューロンにマウスを重ねて、それを発火させるものを見てみよう。多くのニューロンは一見無関係な複数の概念に反応する——これが多義性だ。Sparse Autoencoders はこうした活性を人間が解釈可能な features に分解し、メカニスティック解釈可能性の基盤となっている。

フィーチャーを選んで、異なる文章でどのトークンに反応するかを見よう。一部のフィーチャー（否定や固有名詞のような）は言語と文脈をまたいで作用することに気づくだろう——これらはモデルが抽象化した頑健な概念だ。

回路：創発的なアルゴリズム

フィーチャーを超えて、解釈可能性は回路を研究する：特定の機能を実装するネットワークの部分グラフだ。マイクロプロセッサの中で、足し算を行う部分回路を識別するようなものだ。

最も有名な例は induction head で、Anthropic が 2022 年に発見した（Olsson et al.）。これは Transformer の中間層に典型的に現れるメカニズムで、シンプルなルールを実装する：モデルがコンテキスト内で AB のパターンを以前に見たなら、そして今 A をまた見るなら、B を予測する。

これは原始的な形のコンテキスト内学習（in-context learning）だ。この回路の前は、モデルはコンテキストの繰り返しを利用できない。その後は、急激に有能になる——そしてこの転移は few-shot ベンチマークの跳躍と一致する。

他にもいくつかの回路が特定されている：

Induction heads — コンテキストからのパターンのコピー
Bracket completion — ネストされた括弧の一貫した閉じ
Indirect object identification — 「マリーがポールに本をあげた」→「彼女に」がマリーを指すと解決する
Feature suppression — 特定の文脈であるフィーチャーをオフにするヘッド

各回路は、ネットワークが訓練中に自力で発見した小さなアルゴリズムだ。

なぜそれが安全性にとって重要か

解釈可能性は単なる科学的好奇心ではない。多くの研究者にとって、強力なモデルを真剣にアラインメントするための最も有望な道だ。

今日、アラインメントは RLHF と fine-tuning に依存している：観察可能な応答を変更するが、モデルが本当に価値を内面化したのか、表面で振る舞っているだけなのかは分からない。例えば、欺瞞的な振る舞いや道徳的推論に責任を持つフィーチャーや回路を特定できれば、はるかに堅実なてこを持てるだろう。

Anthropic はモデルを直接ステアリングできることを示した：「ゴールデンゲートブリッジ」フィーチャーを人為的に増幅することで、Claude をその橋に取り憑かれさせた——どんな質問についてもそれを引き合いに出した。遊び心のあるデモンストレーションだが、同じメカニズムは原則として、他を劣化させることなく危険な振る舞いを外科的に除去することを可能にするだろう。

現在の限界

メカニスティック解釈可能性は若い分野だ。困難は多い：

スケール。 Claude 3 上の SAE は 3,400 万のフィーチャーを抽出した。それらを1つずつ注釈付け、命名し、理解することは巨大な作業だ。
完全性。 フィーチャーを見つける。見落とすことも。重要な概念がどれだけ我々から逃れているのか？
構成性。 孤立したフィーチャーを理解するのは可能だ。50のフィーチャーがどう相互作用して振る舞いを生むかを理解するのは、はるかに難しい。
汎化。 GPT-2 で見つかったフィーチャーは Claude や Llama に機械的に転移しない。各モデルはそれ自身のブラックボックスだ。

しかし出版のペースは加速している。Anthropic、DeepMind、EleutherAI、OpenAI、Apollo Research、Goodfire、Transluce——チーム全体がこれらの問いを巡って形成されている。

ますます強力なモデルにますます重要な決定を任せたいなら、試験を受けさせるだけでは不十分だろう。内部を見る必要があるだろう。

更新日 2026年5月10日