Kei Moriyama / Comparison-based Active Preference Learning for Multi-dimensional Personalization

Created Fri, 03 Apr 2026 00:00:00 +0900 Modified Tue, 21 Apr 2026 02:44:11 +0200

702 Words

📄論文情報

🔑この論文のキーメッセージ

様々な評価軸に重みを持たせることで、多様な価値観を考慮したLLMを作成することができる

🎓どういう問題に取り組んだのか

人間の多様な好みに合わせてLLMを最適化すること
- LLMは与えられたコンテキストに合わせた文章を生成する
- 生成した文章に対してd次元の報酬が与えられる
- この報酬に対する重みを個人に最適化し、LLMの生成文章の条件付ける

🧑‍🎓その問題に取り組むことがなぜ重要なのか

個人の価値観に合わせた文章を生成する技術が求められている
一方で、既存の学習手法は、一つの観点からの学習しかできずに、多様で複雑な人間の観点を反映することができない

💡問題解決に向けたキーアイデアは何か

active learningベースの手法を提案した
フィードバックの形式は、一対比較になっている
クエリの選択方法としては、目的関数の期待値が最大になるものを用いている
- この目的関数は、重みなどのパラメータを考慮した関数になっている
重みの更新はベイズ推論により推定される
- 報酬の差が最大になるように学習されているっぽい

👀新たに分かったことは何か

実験は人間の変わりにLLMを使用して評価している
報酬関数は、様々な観点からの評価を行う既存の報酬モデルを使用している
- 人間のプロファイルとして、重みを事前に決めておき、この重みで条件付けしたLLMにより文章を生成している
最適化の効率が既存の手法よりも良い結果であった
- win-rateも既存手法より良いので、改善方法として妥当であることが分かる

❓疑問点は何か

良さそう。
人間の報酬モデルは既知ではないから、実用性があまり無い気がする
獲得関数の設計は参考になる