Kei Moriyama / Activation Space Interventions Can Be Transferred Between Large Language Models

Created Tue, 07 Apr 2026 00:00:00 +0900 Modified Tue, 21 Apr 2026 02:44:11 +0200
558 Words

📄論文情報

🔑この論文のキーメッセージ

  • AutoEncoderを使うことで、中間表現への介入ベクトルを転移させることができる

🎓どういう問題に取り組んだのか

  • ある言語モデルAにおける介入ベクトルが、別の言語モデルBにおいて同じ効果があるのか分析する

🧑‍🎓その問題に取り組むことがなぜ重要なのか

  • これまでの言語モデルの研究は言語モデル間の中間表現の類似度に注目してきた
  • 一方で、実用的な介入技術においては無視され続けてきたため、実用面における評価が求められている

💡問題解決に向けたキーアイデアは何か

  • 介入ベクトルの学習におけるマッピング関数の学習には、オートエンコーダーを使用して学習している
    • 一層の非線形関数を用いたシンプルなものを使っている
  • 学習した特徴量を用いて介入するか、特徴量そのものを入れ変えるなどして性能を評価している

👀新たに分かったことは何か

  • 転移できているのか?
  • 論文中の言葉の意味がよく分からなかった
    • Table 1の結果を見た感じでは、介入によりベンチマークの性能が良くなっている
    • 線形エンコーダーよりも性能が良いので、非線形関数を使うことで有効な特徴量が学習できていると言えるかも
  • 他の結果も良さそうだった、よく分からなかったけど

❓疑問点は何か

  • 実験に使用しているLLMが小規模な気がする
  • タスクが簡単に見える