📄論文情報
🔑この論文のキーメッセージ
- 様々な評価軸に重みを持たせることで、多様な価値観を考慮したLLMを作成することができる
🎓どういう問題に取り組んだのか
- 人間の多様な好みに合わせてLLMを最適化すること
- LLMは与えられたコンテキストに合わせた文章を生成する
- 生成した文章に対してd次元の報酬が与えられる
- この報酬に対する重みを個人に最適化し、LLMの生成文章の条件付ける
🧑🎓その問題に取り組むことがなぜ重要なのか
- 個人の価値観に合わせた文章を生成する技術が求められている
- 一方で、既存の学習手法は、一つの観点からの学習しかできずに、多様で複雑な人間の観点を反映することができない
💡問題解決に向けたキーアイデアは何か
- active learningベースの手法を提案した
- フィードバックの形式は、一対比較になっている
- クエリの選択方法としては、目的関数の期待値が最大になるものを用いている
- この目的関数は、重みなどのパラメータを考慮した関数になっている
- 重みの更新はベイズ推論により推定される
- 報酬の差が最大になるように学習されているっぽい
👀新たに分かったことは何か
- 実験は人間の変わりにLLMを使用して評価している
- 報酬関数は、様々な観点からの評価を行う既存の報酬モデルを使用している
- 人間のプロファイルとして、重みを事前に決めておき、この重みで条件付けしたLLMにより文章を生成している
- 最適化の効率が既存の手法よりも良い結果であった
- win-rateも既存手法より良いので、改善方法として妥当であることが分かる
❓疑問点は何か
- 良さそう。
- 人間の報酬モデルは既知ではないから、実用性があまり無い気がする
- 獲得関数の設計は参考になる