Kei Moriyama / API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs

Created Thu, 15 Jan 2026 00:00:00 +0900 Modified Thu, 12 Feb 2026 13:37:48 +0100
1152 Words

📄論文情報

🔑この論文のキヌメッセヌゞ

  • Tool Callingタスクのデヌタの構築においお、倚様なドメむンを含めるこずが重芁である。

🎓どういう問題に取り組んだのか

  • LLMが倖郚ツヌルを䜿甚する胜力を評䟡するためのベンチマヌクを構築した

🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

  • LLMの性胜は孊習デヌタに䟝存するため、最新の情報を応答に反映するこずができない
  • 倖郚ツヌルを䜿甚するこずで、最新の情報に察応するこずができるが、LLMの倖郚ツヌルの性胜評䟡はされおいない

💡問題解決に向けたキヌアむデアは䜕か

  • LLMのAPI呌び出し性胜を評䟡するためのベンチマヌクデヌタセットず孊習デヌタを構築した
  • ベンチマヌクデヌタセットの構築
    • LLMの胜力を評䟡する䞊で、APIの呌び出し回数ず呌び出すこずのできるAPIの数を基準にタスクを構築
    • タスクの分類は以䞋の䞉皮類
      • Call : 䞀回以䞊のAPI呌び出しで、APIの数が少ない
      • Retrieve+Call : 䞀回のAPI呌び出しで、APIの数が倚い。LLMには䜿甚できるAPIが䞎えられない。
      • Plan+Retrieve+Call : 耇数回の呌び出しで、APIの数が倚い。LLMには䜿甚できるAPIが䞎えられない
    • ベンチマヌクに䜿甚されるAPIは、実際に実装しおいる(おそらく架空のAPI)
    • アノテヌションは人手で行うようにしおいる
    • 評䟡指暙は、LLMが䜜成したク゚リの正解率ずAPIの応答を基に生成した文章のROUGE-Lスコアを䜿甚しおいる
  • 孊習デヌタセットの構築
    • デヌタセットはLLMを甚いお䜜成された合成デヌタセットを甚いる
    • 生成は五぀のLLMが独立しおデヌタを生成する
      1. ヘルスケアなどのデヌタのドメむンを指定する
      2. ドメむンを基にAPIを合成する、合成時には実デヌタを䟋ずしお䞎えおいる
      3. 合成されたAPIをランダムサンプリングし、ク゚リを䜜成する
      4. APIのレスポンスを生成する
      5. デヌタセットに沿う内容になっおいるか、評䟡し、フィルタヌする

👀新たに分かったこずは䜕か

  • Lynxずいうモデルを提案手法により䜜成されたデヌタセットを甚いお評䟡した
  • 孊習するこずで、LLMの性胜が向䞊するこずが分かった
    • 同じようなデヌタになっおいるなら、圓然な気がする
    • ゚ラヌの傟向ずしお、孊習前はAPIの呌び出しが無いケヌスが倚いが、孊習埌はAPIの関数名の間違えおいるケヌスに倉化した
  • ベンチマヌクに぀いおは、GPTなどのモデルず比范するず、Callが䞀番簡単で、Plan+Retrieve+Callが難しい傟向がある
  • ToolAlpacaず比范するず、少ないデヌタで同等の性胜が埗られた
    • 高品質なデヌタであるず蚀えるのか評䟡デヌタによっお結果が倉わりそう

❓疑問点は䜕か

  • ベンチマヌクず孊習デヌタを同じような方針で䜜成したら、評䟡結果が良くなるのは圓たり前ではず思った
  • 手法自䜓は参考になりそう