Kei Moriyama / AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders

Created Sat, 22 Nov 2025 00:00:00 +0900 Modified Thu, 11 Dec 2025 12:32:18 +0100
918 Words

📄論文情報

🔑この論文のキヌメッセヌゞ

  • 1, 2文でたずめる

🎓どういう問題に取り組んだのか

  • LLMの内郚衚珟に介入する手法の評䟡をするためのベンチマヌクデヌタセットを構築した

🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

  • LLMの内郚衚珟に介入する様々な手法が提案されおいる。
  • だが、統䞀したベンチマヌクが存圚しないため公平な評䟡ができおいないずいう課題がある。

💡問題解決に向けたキヌアむデアは䜕か

  • Concept DetectionずModel Steeringの二぀の指暙を評䟡するためのデヌタセットを構築した
    • Concept Detectionはシンプルな分類問題
    • Model Steeringは、生成した文章をLLMが評䟡するものになる
  • デヌタの甚意のために、GPT-4oを䜿甚したデヌタ拡匵が行なわれおいる
  • Concept Dataset Generation
    • デヌタセットの圢匏はPreferenceデヌタセットず同じ圢匏になっおいる
    • 指瀺ずポゞティブなデヌタはLLMにより生成されおいる
    • ネガティブなデヌタには、異なるコンセプトに属するレスポンスを䜿甚しおいる
    • タスクの評䟡指暙には、特定のレむダヌの各トヌクンの䞭間衚珟を甚いお分類噚が予枬した確率の最倧倀を甚いおいる
      • 分類噚の予枬は[0-1]の䞀次元の出力になる
  • Model Steering
    • 評䟡指暙
      • LLMが応答を0、1、2のいずれかで評䟡する
      • スコアは、Concept、Instructoin、Fluencyの3぀を䜿甚する
      • 最終スコアは、調和平均を䜿甚しおいる
  • 論文䞭で報告されおいるのは、特定のレむダヌにおけるスコアになっおいる
    • Model Steeringでは特定のレむダヌに介入した時のスコアになっおいる

👀新たに分かったこずは䜕か

  • Concept DetectionではProbeベヌスの手法が、SAEを䜿甚する手法よりも良い性胜であった
    • 評䟡指暙は、AUROCを甚いおいる
    • 特に、SAEはデヌタのバランスが悪いず性胜が䜎䞋する傟向がある
  • Model Steeringにおいおは、SAEの方が良い性胜であるがLoRAやSFTよりも性胜が䜎い結果であった

❓疑問点は䜕か

  • Model Steeringのスコアにおいお、定量的なものが採甚されおいないのが気になる
    • LLMによる評䟡だけで良いのかはずおも疑問
  • Gemma以倖のモデルの性胜はどうなのだろう