Kei Moriyama / Comparison-based Active Preference Learning for Multi-dimensional Personalization

Created Fri, 03 Apr 2026 00:00:00 +0900 Modified Tue, 21 Apr 2026 02:44:11 +0200
702 Words

📄論文情報

🔑この論文のキーメッセージ

  • 様々な評価軸に重みを持たせることで、多様な価値観を考慮したLLMを作成することができる

🎓どういう問題に取り組んだのか

  • 人間の多様な好みに合わせてLLMを最適化すること
    • LLMは与えられたコンテキストに合わせた文章を生成する
    • 生成した文章に対してd次元の報酬が与えられる
    • この報酬に対する重みを個人に最適化し、LLMの生成文章の条件付ける

🧑‍🎓その問題に取り組むことがなぜ重要なのか

  • 個人の価値観に合わせた文章を生成する技術が求められている
  • 一方で、既存の学習手法は、一つの観点からの学習しかできずに、多様で複雑な人間の観点を反映することができない

💡問題解決に向けたキーアイデアは何か

  • active learningベースの手法を提案した
  • フィードバックの形式は、一対比較になっている
  • クエリの選択方法としては、目的関数の期待値が最大になるものを用いている
    • この目的関数は、重みなどのパラメータを考慮した関数になっている
  • 重みの更新はベイズ推論により推定される
    • 報酬の差が最大になるように学習されているっぽい

👀新たに分かったことは何か

  • 実験は人間の変わりにLLMを使用して評価している
  • 報酬関数は、様々な観点からの評価を行う既存の報酬モデルを使用している
    • 人間のプロファイルとして、重みを事前に決めておき、この重みで条件付けしたLLMにより文章を生成している
  • 最適化の効率が既存の手法よりも良い結果であった
    • win-rateも既存手法より良いので、改善方法として妥当であることが分かる

❓疑問点は何か

  • 良さそう。
  • 人間の報酬モデルは既知ではないから、実用性があまり無い気がする
  • 獲得関数の設計は参考になる