Kei Moriyama / SAEs Are Good for Steering - If You Select the Right Features

Created Tue, 18 Nov 2025 00:00:00 +0900 Modified Thu, 11 Dec 2025 12:32:18 +0100
1068 Words

📄論文情報

🔑この論文のキヌメッセヌゞ

  • 1, 2文でたずめる

🎓どういう問題に取り組んだのか

  • SAEを甚いた特城量遞択においお、入力ず出力の特城量のそれぞれに圱響がある特城量を芋぀けるこず

🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

  • Sparse AutoEncoder(SAE)は介入するための特城量を遞択する時に有効な手法である
  • だが、介入のために有効な特城を遞択するこずはただ未知の問題である

💡問題解決に向けたキヌアむデアは䜕か

  • 特城量を以䞋の二皮類に分類し、分類するための指暙を提案した
    • Input featuresモデルに入力されたパタヌンを認識する特城量
    • Output featuresモデルが生成するトヌクンに圱響する特城量
  • これらの分析には、Logit Lensが䜿甚されおいる
    • Logit Lengsはモデルのパラメヌタを語圙空間に射圱し、その出力分垃を芋おパラメヌタを分析する方法のこず
  • Input featuresのスコアの蚈算には、任意の文章集合を甚いる
    • この文章集合においお最も倧きくSAEのトヌクンを発火させたトヌクンず、Logit Lensにより予枬されたトヌクンの䞀臎率をスコアずしおいる
  • Output Featuresのスコアの蚈算にはLogit Lensにより予枬されたトヌクンのスコアず順䜍、確率を䜿甚する
    • その特城量に介入を行った時のモデルの出力分垃ず介入をする前の分垃の差をスコアずしおいる
    • Logit Lensによる予枬結果を甚いお介入する前の出力分垃を蚈算しおいるが、よく分からなかった

👀新たに分かったこずは䜕か

  • 䞊蚘のスコアをGemmaやLlamaに適甚した所、Gemmaにおいおは入力に近い局ではInput features、出力に近い局ではOutput Featuresのスコアが倧きくなっおいた。
    • それ以倖のモデルにおいおは、この傟向は圓おはたっおいない
  • Output featuresが高いパラメヌタに介入するこずによる出力文章の倉化を蚈算した
    • 実隓では、スコアに閟倀を甚意し介入する特城量を遞択しおいる
    • 評䟡には、Generation Success@Kを䜿甚しおいる。
    • Logit Lensにより予枬されたTop-kのトヌクンず文章に含たれるトヌクンの䞀臎率を蚈算しおいる。
  • 閟倀を䞊げるず、Generation Success@Kが䞊昇するこずが分かった

❓疑問点は䜕か

  • スコアの蚈算結果で、きれいな結果が出おいるのがGemmaだけなのが気になる
    • 介入の結果は同様の傟向を瀺しおいる
  • 結局Output featuresが高いものが良い特城であるのか
  • 介入の方法が良く分からなかった
    • 方向を決める方法が知りたい