性能的には、既存の介入手法よりも良いスコアになっている
SAEにより抽出された特徴量が良くクラスを分類できる特徴量になっていることが分かった
Ablation Studyにより損失関数の必要性が示されている
Probeの学習を行わないと、出力文章の整合性や論理性が無くなる
言語モデルの損失を無くすと、ベースになる言語モデルの応答を保持することが難しくなる
介入の方向については提案手法で良い方向を見つけることができたが、大きさについては未知である
ToolBenchを基データとして生成を行った
生成パイプラインを様々なLLMを用いて検証した所、小規模なモデルは無効なAPIを呼び出る例が多い
学習したモデルの評価はBerkley Function-Callingデータセットを使用している
FCのために学習されたLLMはGPT-4oなどよりも良い性能を示している
各フィルタリングステップにおいて、フィルター後のデータを用いてモデルを学習し、評価した