Avatar
😀

Organizations

23 results for Paper
  • 📄論文情報

    🔑この論文のキーメッセージ

    • LLMのAPIを呼び出す能力は、LLM自身に与えられたAPIのドキュメントが正確であるか判断させながら学習を進めると良い
    • API呼び出しの評価はASTの部分木マッチングを使用すると良い

    🎓どういう問題に取り組んだのか

    • LLMが外部のAPIを上手く活用するための学習方法を提案した
    • また、LLMのAPI活用能力を評価するためにベンチマークデータセットを構築した

    🧑‍🎓その問題に取り組むことがなぜ重要なのか

    • APIを呼び出すためのコードをLLMが生成することはまだ難しいタスクである
    • APIの使用は頻繁に更新されることが原因の一つとして挙げられている

    💡問題解決に向けたキーアイデアは何か

    • 評価のために、APIBenchと呼ばれるベンチマークデータセットを構築した
      • TorchHubなどにアップロードされているモデルカードから仮想APIの呼び出しコードを作成している
      • このAPIについて指示をGPT-4を使用して生成している
    • Retriever-Aware Training
      • プロンプトに含まれているAPIのドキュメントが不正確である可能性がある
      • 最初に、プロンプトに含まれているドキュメントが正確であるかを予測する
        • 学習データには、不正確なドキュメントを含めるように拡張している
      • 正確ではない予測した場合、そのドキュンメントを使用して推論しないように学習を促す
    • 評価にはASTの部分木マッチングを使用している
      • APIの引数には、必要ではないものが存在している
      • そこで、構文木を作っておき、LLMの生成した呼び出しのコードが部分木であるかどうかを判定して評価している

    👀新たに分かったことは何か

    • 学習したモデル(論文中ではGorilla)がベースラインモデル(GPT-4やLLama)よりzero-shotやFew-shotで良い性能であった
      • Few-shotに使用するRetrieverを変えても同様の結果になった
    • ASTによる評価は、人手評価と同様の性能を示している

    ❓疑問点は何か

    • 実装のイメージがつかない
      • LLMが与えられたドキュメントを判断した後に、プロンプトの文言を追加するという事なのか
    • Gorillaはオリジナルのモデルではないよな?
      • Llamaベースのモデルになると思うが、シンプルなSFTをした時との比較は無いのだろうか
    paper Created Mon, 17 Nov 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキーメッセージ

    • SAEを用いた特徴量を用いて介入を行うことで、LLMをより良く制御することができる

    🎓どういう問題に取り組んだのか

    • 自由記述タスクにおけるLLMへのパラメータ介入手法の性能を向上すること
    • 特に、介入に使用する適切なベクトルを構築することを目的する

    🧑‍🎓その問題に取り組むことがなぜ重要なのか

    • LLMの生成文章を制御する方法として、中間表現を制御するステアリングがある
    • 既存のステアリング手法の評価は、QAや選択問題などの制約がある
    • 加えて、ヒューリスティックな方法であるため文脈などを取りこぼすことがある

    💡問題解決に向けたキーアイデアは何か

    • Sparse Auto Encoder(SAE)を使用して、介入する方向を決めること
      • エンコーダの出力が、入力次元数よりも大きいAuto Encoderのこと
    • SAEが抽出したベクトル表現を使用して、Probingを行いそのタスクにおいて有効な特徴量を見つけている
      • 特徴量を見つけるために、F-Statisticを使用して次元削減をしているっぽい
      • これ以外にも、学習した線形モデル(Probe)の次元削減をするための工夫がある
    • 複数のProbeを学習し、その平均ベクトルを介入ベクトルとする
    • この介入ベクトルを最適化するために、追加の学習をすることで微調整する
      • ポジティブとネガティブに分類されたデータからSAEが抽出した特徴量に介入する
      • この介入後の特徴量が、ポジティブなデータとネガティブなデータの特徴量のセントロイドに近くなるように学習する
      • 加えて、言語モデル自体の損失関数や介入ベクトルに対するL1損失を制約として使用している

    👀新たに分かったことは何か

    • 性能的には、既存の介入手法よりも良いスコアになっている

    • SAEにより抽出された特徴量が良くクラスを分類できる特徴量になっていることが分かった

      • SAEによる特徴量の抽出を用いた介入の有効性を示している
    • Ablation Studyにより損失関数の必要性が示されている

      • Probeの学習を行わないと、出力文章の整合性や論理性が無くなる

      • 言語モデルの損失を無くすと、ベースになる言語モデルの応答を保持することが難しくなる

    • 介入の方向については提案手法で良い方向を見つけることができたが、大きさについては未知である

    ❓疑問点は何か

    • 手法が複雑だと思った
    • SAEの学習やProbingの調整に必要な計算コストがどれくらいなのが気になる
    • 評価にLLMを使用するのが適切であるかどうか分からない
      • 生成された文章が対象の文章を適切に反映できているのかを評価させている
    • ベースモデルの評価が無いのが気になる
      • Ablation Studyに一応あった
    paper Created Sat, 15 Nov 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキーメッセージ

    • LLMのFunction Callingの性能向上のためには、多くのAPIに関する情報があると良い

    🎓どういう問題に取り組んだのか

    • Function Callingとは、自然言語の指示にの応答を生成するために必要なAPIを叩き、必要な情報を得るタスクのことを指す
    • この論文では、このタスクの学習に必要なデータを自動生成するためのパイプラインを提案している

    🧑‍🎓その問題に取り組むことがなぜ重要なのか

    • 既存のfunction callingデータセットは実用のためには不十分である
      • 例えば、学習データ内で使用されているAPIが一部のカテゴリに偏っている場合、そのデータで学習されたLLMエージェントは他のAPIからのデータの取得ができなくなるという課題がある。
    • そのため、多様なAPIを扱うデータセットが必要になる

    💡問題解決に向けたキーアイデアは何か

    • 提案手法は、データの生成と多段階によるフィルタリングから構成されている
    • データの生成
      1. 既存のAPIを用いたQAペアをJSON形式に変する。
      2. プロンプトはデータ生成の目的になるテンプレートを選択し、QAペアを生成させる
      3. 生成されたペアをJSON形式に変換する
    • 生成されたデータをフィルタするために以下の3つの方法を用いる
      1. フォーマットの検証:生成されたJSONのフォーマットが正しいか、APIの呼び出し時に適切な引数を指定しているか検証する
      2. 実行可能性の検証:データに含まれたAPIが実行可能であるか検証する、実行可能ではない場合、フィルターする
      3. 文法の検証:複数のLLMを用いて、目的を達成するための関数を呼び出すことができるかなどを総合的に評価する
    • データの多様性を確保するために、テンプレートを複数用意することや、基データからどのようなデータをサンプリングするかを工夫している

    👀新たに分かったことは何か

    • ToolBenchを基データとして生成を行った

      • 基データとして活用するために、いくつかのフィルターを適用したの3500件を使用している
    • 生成パイプラインを様々なLLMを用いて検証した所、小規模なモデルは無効なAPIを呼び出る例が多い

    • 学習したモデルの評価はBerkley Function-Callingデータセットを使用している

    • FCのために学習されたLLMはGPT-4oなどよりも良い性能を示している

      • 学習に使用しているLLMは1Bと7Bのモデルなので、より小規模なパラメータになっているかも?
    • 各フィルタリングステップにおいて、フィルター後のデータを用いてモデルを学習し、評価した

      • 上の説明において、フォーマットの検証のみを適用したデータ、1と2を適用したデータ、全てを適用したデータに分けている
      • 評価結果としては、全てを適用したデータにより学習されたLLMの性能が最も良かった
      • このことから、提案したフィルター方法の有効性が分かる

    ❓疑問点は何か

    • GPTとかのモデルの比較って平等な比較になっているのか疑問だった
    • 生成されたデータの多様性の評価は行われていないのが気になった
      • プロンプトのテンプレやデータの持ってき方の工夫で十分なのかな
    paper Created Mon, 10 Nov 2025 00:00:00 +0900