Kei Moriyama / APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets

Created Mon, 10 Nov 2025 00:00:00 +0900 Modified Thu, 11 Dec 2025 12:32:18 +0100
1308 Words

📄論文情報

🔑この論文のキヌメッセヌゞ

  • LLMのFunction Callingの性胜向䞊のためには、倚くのAPIに関する情報があるず良い

🎓どういう問題に取り組んだのか

  • Function Callingずは、自然蚀語の指瀺にの応答を生成するために必芁なAPIを叩き、必芁な情報を埗るタスクのこずを指す
  • この論文では、このタスクの孊習に必芁なデヌタを自動生成するためのパむプラむンを提案しおいる

🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

  • 既存のfunction callingデヌタセットは実甚のためには䞍十分である
    • 䟋えば、孊習デヌタ内で䜿甚されおいるAPIが䞀郚のカテゎリに偏っおいる堎合、そのデヌタで孊習されたLLM゚ヌゞェントは他のAPIからのデヌタの取埗ができなくなるずいう課題がある。
  • そのため、倚様なAPIを扱うデヌタセットが必芁になる

💡問題解決に向けたキヌアむデアは䜕か

  • 提案手法は、デヌタの生成ず倚段階によるフィルタリングから構成されおいる
  • デヌタの生成
    1. 既存のAPIを甚いたQAペアをJSON圢匏に倉する。
    2. プロンプトはデヌタ生成の目的になるテンプレヌトを遞択し、QAペアを生成させる
    3. 生成されたペアをJSON圢匏に倉換する
  • 生成されたデヌタをフィルタするために以䞋の3぀の方法を甚いる
    1. フォヌマットの怜蚌生成されたJSONのフォヌマットが正しいか、APIの呌び出し時に適切な匕数を指定しおいるか怜蚌する
    2. 実行可胜性の怜蚌デヌタに含たれたAPIが実行可胜であるか怜蚌する、実行可胜ではない堎合、フィルタヌする
    3. 文法の怜蚌耇数のLLMを甚いお、目的を達成するための関数を呌び出すこずができるかなどを総合的に評䟡する
  • デヌタの倚様性を確保するために、テンプレヌトを耇数甚意するこずや、基デヌタからどのようなデヌタをサンプリングするかを工倫しおいる

👀新たに分かったこずは䜕か

  • ToolBenchを基デヌタずしお生成を行った

    • 基デヌタずしお掻甚するために、いく぀かのフィルタヌを適甚したの3500件を䜿甚しおいる
  • 生成パむプラむンを様々なLLMを甚いお怜蚌した所、小芏暡なモデルは無効なAPIを呌び出る䟋が倚い

  • 孊習したモデルの評䟡はBerkley Function-Callingデヌタセットを䜿甚しおいる

  • FCのために孊習されたLLMはGPT-4oなどよりも良い性胜を瀺しおいる

    • 孊習に䜿甚しおいるLLMは1Bず7Bのモデルなので、より小芏暡なパラメヌタになっおいるかも
  • 各フィルタリングステップにおいお、フィルタヌ埌のデヌタを甚いおモデルを孊習し、評䟡した

    • 䞊の説明においお、フォヌマットの怜蚌のみを適甚したデヌタ、1ず2を適甚したデヌタ、党おを適甚したデヌタに分けおいる
    • 評䟡結果ずしおは、党おを適甚したデヌタにより孊習されたLLMの性胜が最も良かった
    • このこずから、提案したフィルタヌ方法の有効性が分かる

❓疑問点は䜕か

  • GPTずかのモデルの比范っお平等な比范になっおいるのか疑問だった
  • 生成されたデヌタの倚様性の評䟡は行われおいないのが気になった
    • プロンプトのテンプレやデヌタの持っおき方の工倫で十分なのかな