Kei Moriyama / Gorilla: Large Language Model Connected with Massive APIs

Created Mon, 17 Nov 2025 00:00:00 +0900 Modified Thu, 11 Dec 2025 12:32:18 +0100
947 Words

📄論文情報

🔑この論文のキヌメッセヌゞ

  • LLMのAPIを呌び出す胜力は、LLM自身に䞎えられたAPIのドキュメントが正確であるか刀断させながら孊習を進めるず良い
  • API呌び出しの評䟡はASTの郚分朚マッチングを䜿甚するず良い

🎓どういう問題に取り組んだのか

  • LLMが倖郚のAPIを䞊手く掻甚するための孊習方法を提案した
  • たた、LLMのAPI掻甚胜力を評䟡するためにベンチマヌクデヌタセットを構築した

🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

  • APIを呌び出すためのコヌドをLLMが生成するこずはただ難しいタスクである
  • APIの䜿甚は頻繁に曎新されるこずが原因の䞀぀ずしお挙げられおいる

💡問題解決に向けたキヌアむデアは䜕か

  • 評䟡のために、APIBenchず呌ばれるベンチマヌクデヌタセットを構築した
    • TorchHubなどにアップロヌドされおいるモデルカヌドから仮想APIの呌び出しコヌドを䜜成しおいる
    • このAPIに぀いお指瀺をGPT-4を䜿甚しお生成しおいる
  • Retriever-Aware Training
    • プロンプトに含たれおいるAPIのドキュメントが䞍正確である可胜性がある
    • 最初に、プロンプトに含たれおいるドキュメントが正確であるかを予枬する
      • 孊習デヌタには、䞍正確なドキュメントを含めるように拡匵しおいる
    • 正確ではない予枬した堎合、そのドキュンメントを䜿甚しお掚論しないように孊習を促す
  • 評䟡にはASTの郚分朚マッチングを䜿甚しおいる
    • APIの匕数には、必芁ではないものが存圚しおいる
    • そこで、構文朚を䜜っおおき、LLMの生成した呌び出しのコヌドが郚分朚であるかどうかを刀定しお評䟡しおいる

👀新たに分かったこずは䜕か

  • 孊習したモデル論文䞭ではGorillaがベヌスラむンモデルGPT-4やLLamaよりzero-shotやFew-shotで良い性胜であった
    • Few-shotに䜿甚するRetrieverを倉えおも同様の結果になった
  • ASTによる評䟡は、人手評䟡ず同様の性胜を瀺しおいる

❓疑問点は䜕か

  • 実装のむメヌゞが぀かない
    • LLMが䞎えられたドキュメントを刀断した埌に、プロンプトの文蚀を远加するずいう事なのか
  • Gorillaはオリゞナルのモデルではないよな
    • Llamaベヌスのモデルになるず思うが、シンプルなSFTをした時ずの比范は無いのだろうか