Kei Moriyama / AgentTuning: Enabling Generalized Agent Abilities for LLMs

Created Mon, 12 Jan 2026 00:00:00 +0900 Modified Thu, 12 Feb 2026 13:37:48 +0100
731 Words

📄論文情報

🔑この論文のキーメッセージ

  • NLPとエージェントタスクの損失関数の重み付き和を使うことで、NLPタスクの性能を維持しつつ、エージェントタスクの性能が向上する。

🎓どういう問題に取り組んだのか

  • LLMのエージェント性能を向上させるためのデータセット構築、学習パイプラインを提案した

🧑‍🎓その問題に取り組むことがなぜ重要なのか

  • 既存のエージェントタスクの手法はプロンプトや特定のエージェントタスク偏っている
  • NLPにおけるタスクの能力を維持しつつ、エージェントタスクの能力を向上する必要がある

💡問題解決に向けたキーアイデアは何か

  • データセットの構築には、self-instrcutを使用している
    • 既存のデータセットにあるユーザーとエージェントのインタラクションの続きを、GPT-4により生成する
    • 最終的なエージェントの行動の結果は報酬として評価される
      • この報酬は、タスク毎に設計されていて、報酬の値を基にフィルタリングをしている
  • 学習に使用するデータセットは、上記の方法で構築されたデータセットと指示学習用のものの二つを用いる
    • 損失関数には、それぞれのデータセットに対するクロスエントロピーの重み付け和を使用している

👀新たに分かったことは何か

  • held-in、heol-outなタスクにおいてGPT-4や3.5と同等の性能を示した
    • これが公平な比較になっているかは分からない
  • 公開されているLlamaよりも基本的なエラーが減少している
  • 学習には、エージェントタスクだけではなく、指示学習用のデータも混ぜた方が汎化性能が向上する
    • 出力を見た感じでは、想定しているエージェントタスクと違うのかも?

❓疑問点は何か

  • 損失関数を混ぜることと、継続学習でどちらが有効なのか気になった