AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders

📄論文情報

Concept DetectionとModel Steeringの二つの指標を評価するためのデータセットを構築した
- Concept Detectionはシンプルな分類問題
- Model Steeringは、生成した文章をLLMが評価するものになる
データの用意のために、GPT-4oを使用したデータ拡張が行なわれている
Concept Dataset Generation
- データセットの形式はPreferenceデータセットと同じ形式になっている
- 指示とポジティブなデータはLLMにより生成されている
- ネガティブなデータには、異なるコンセプトに属するレスポンスを使用している
- タスクの評価指標には、特定のレイヤーの各トークンの中間表現を用いて分類器が予測した確率の最大値を用いている
  - 分類器の予測は[0-1]の一次元の出力になる
Model Steering
- 評価指標
  - LLMが応答を0、1、2のいずれかで評価する
  - スコアは、Concept、Instructoin、Fluencyの3つを使用する
  - 最終スコアは、調和平均を使用している
論文中で報告されているのは、特定のレイヤーにおけるスコアになっている
- Model Steeringでは特定のレイヤーに介入した時のスコアになっている

Concept DetectionではProbeベースの手法が、SAEを使用する手法よりも良い性能であった
- 評価指標は、AUROCを用いている
- 特に、SAEはデータのバランスが悪いと性能が低下する傾向がある
Model Steeringにおいては、SAEの方が良い性能であるがLoRAやSFTよりも性能が低い結果であった