Personalized Text Generation with Contrastive Activation Steering

📄論文情報

LLMの隠れ層に介入することで、個人に最適化された文章を生成すること
前提として、あるユーザーのプロンプトとそれに対する応答がある
最初に、LLMはプロンプトに対する応答を生成する
プロンプトと応答を繋げた文章の最終トークンに該当する特徴量を使って介入する方向の計算をする
- ユーザーの応答を繋げた場合の特徴量をポジティブ、LLMの応答を繋げた場合の特徴量をネガティブとしている
  - こうすることで、今のLLMがその人に合わせるためにどれくらい介入すれば良いか計算できる
- 方向の計算には、様々な方法を使用している
- PCAとか、Mean Differenceなどなど
ここで計算したベクトルを用いて介入する

個別最適化ベンチマークのLaMPで評価した
- 短文を評価するものと長文を評価するものの二つがある
提案手法は、RAGやPEFTの手法よりも良い性能を示している
介入量により性能が大きく変わる
- 提案手法により推定された介入ベクトルにおいて正の方向に介入するとユーザーのスタイルを反映しやすくなるが、負の方向にするとスタイルが関係無くなってしまう