Gorilla: Large Language Model Connected with Massive APIs

📄論文情報

評価のために、APIBenchと呼ばれるベンチマークデータセットを構築した
- TorchHubなどにアップロードされているモデルカードから仮想APIの呼び出しコードを作成している
- このAPIについて指示をGPT-4を使用して生成している
Retriever-Aware Training
- プロンプトに含まれているAPIのドキュメントが不正確である可能性がある
- 最初に、プロンプトに含まれているドキュメントが正確であるかを予測する
  - 学習データには、不正確なドキュメントを含めるように拡張している
- 正確ではない予測した場合、そのドキュンメントを使用して推論しないように学習を促す
評価にはASTの部分木マッチングを使用している
- APIの引数には、必要ではないものが存在している
- そこで、構文木を作っておき、LLMの生成した呼び出しのコードが部分木であるかどうかを判定して評価している

学習したモデル（論文中ではGorilla）がベースラインモデル（GPT-4やLLama）よりzero-shotやFew-shotで良い性能であった
- Few-shotに使用するRetrieverを変えても同様の結果になった
ASTによる評価は、人手評価と同様の性能を示している