Kei Moriyama / AgentTuning: Enabling Generalized Agent Abilities for LLMs

Created Mon, 12 Jan 2026 00:00:00 +0900 Modified Thu, 12 Feb 2026 13:37:48 +0100

731 Words

📄論文情報

AgentTuning: Enabling Generalized Agent Abilities for LLMs
ACL 2024 findings

🔑この論文のキーメッセージ

NLPとエージェントタスクの損失関数の重み付き和を使うことで、NLPタスクの性能を維持しつつ、エージェントタスクの性能が向上する。

🎓どういう問題に取り組んだのか

LLMのエージェント性能を向上させるためのデータセット構築、学習パイプラインを提案した

🧑‍🎓その問題に取り組むことがなぜ重要なのか

既存のエージェントタスクの手法はプロンプトや特定のエージェントタスク偏っている
NLPにおけるタスクの能力を維持しつつ、エージェントタスクの能力を向上する必要がある

💡問題解決に向けたキーアイデアは何か

データセットの構築には、self-instrcutを使用している
- 既存のデータセットにあるユーザーとエージェントのインタラクションの続きを、GPT-4により生成する
- 最終的なエージェントの行動の結果は報酬として評価される
  - この報酬は、タスク毎に設計されていて、報酬の値を基にフィルタリングをしている
学習に使用するデータセットは、上記の方法で構築されたデータセットと指示学習用のものの二つを用いる
- 損失関数には、それぞれのデータセットに対するクロスエントロピーの重み付け和を使用している

👀新たに分かったことは何か

held-in、heol-outなタスクにおいてGPT-4や3.5と同等の性能を示した
- これが公平な比較になっているかは分からない
公開されているLlamaよりも基本的なエラーが減少している
学習には、エージェントタスクだけではなく、指示学習用のデータも混ぜた方が汎化性能が向上する
- 出力を見た感じでは、想定しているエージェントタスクと違うのかも？

❓疑問点は何か

損失関数を混ぜることと、継続学習でどちらが有効なのか気になった