Kei Moriyama / ToolACE: Winning the Points of LLM Function Calling

Created Mon, 19 Jan 2026 00:00:00 +0900 Modified Thu, 12 Feb 2026 13:37:48 +0100

769 Words

📄論文情報

ToolACE: Winning the Points of LLM Function Calling
ICLR 2025

🔑この論文のキーメッセージ

人工APIをLLMが生成することで、LLMのツール呼び出しの性能を向上させることができる。

🎓どういう問題に取り組んだのか

ツール呼び出しタスクの学習に使用するためのデータを生成するパイプラインを作成する
マルチターンなどの複雑なタスクが必要な状況を想定する

🧑‍🎓その問題に取り組むことがなぜ重要なのか

現実世界におけるツール呼び出しは複雑である
- ユーザーの指示の多様さや曖昧さ、zero-shot推論だけではなく、複数のツールの組み合わせが必要なケースがある

💡問題解決に向けたキーアイデアは何か

データ生成パイプラインとして以下の3ステップを提案した
1. ツール生成
  - Tool Self-Evolution Synthesisという方法を提案した
  - 最初に、事前学習用のデータからAPIの情報を抽出する
    - 人工APIの分類を指しているのかも？
  - 作成したノードを基に、APIが対応している範囲を調査する
    - フィードバックをしていると考えて良さそう
  - フィードバックを基に、APIの仕様を改善する
2. 対話生成
  - user、assistant、toolのそれぞれのroleをLLMが生成する
  - 対話の複雑さを評価するために、コンテキストから次のステップのトークンが生成される確率の平均値を使用している
3. 検証
  - ルールベースの評価とLLMによる評価によるデータセットの評価が適用される
  - LLMの評価は、ハルシネーションの確認、レスポンスの一貫性、ツール呼び出しの適切さで評価される

👀新たに分かったことは何か

8Bモデルを学習し、BFCLとAPI-Bankで評価した
BFCLの評価では、オープンソースのモデルよりも良い性能であった
- xLAMよりも性能が良く、GPT-4oの一部のモデルよりも良い
- 特に、Non-liveが強くなっている
API-Bankにおいても同様の傾向がある

❓疑問点は何か