Avatar
😀

Organizations

8 results for Paper
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • フィヌドバックを甚いおモデルを曎新するこずで、過去の掚論結果を掻かし぀぀掚論の性胜が向䞊する

    🎓どういう問題に取り組んだのか

    • テスト時におけるフィヌドバックからLLMを曎新する
      • テスト時においお掚論を行い、その結果を甚いお再床掚論するずいうタスクになる
    • この時に、過去の経隓を䞊手く掻甚しおLLMを曎するこずを目指す

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • 埓来の手法では、Sequential RevisionずParallel samplingがある
      • Sequential Revisionは、過去のトラむアル結果をプロンプトに含める方法
      • Parallel Samplingは過去の結果に関わらず、䜕床か予枬する方法になる
    • Sequential Revisionはコンテキスト長が長くなりやすいため、蚈算コストが高くなりやすく䜍眮バむアスの圱響もある
    • Parallel samplingは効率的であるが、過去の゚ラヌを考慮しない課題がある

    💡問題解決に向けたキヌアむデアは䜕か

    • 過去のトラむアルよりも、モデルの重みに重点を眮いた手法を提案いおいる
      • 損倱関数ず効率的なOptimizerを提案しおいる
    • LLMは問題に察する解答をするず、怜蚌モデルが正解かどうかを刀定する
      • 䞍正解である堎合、怜蚌モデルは䞍正解であるずいう固定の文章を生成する
      • 远加のフィヌドバックずしおLLMが文章生成する
      • これらの二぀のフィヌドバックに察しおクロス゚ントロピヌが最小になるように孊習を進める
      • モデルのパラメヌタ内に過去の経隓が保存されるずいう話
        • Optimizerに぀いおはよく分からなかった
      • PEFTを参考にしたみたい。。。

    👀新たに分かったこずは䜕か

    • Parallel Samplingでは20GPU/hだったのに察しお、提案手法では4GPU/hに改善された
    • トラむアルの回数毎に比范するず、提案手法は回数が増える皋性胜が良くなっおいる
      • 手法によっおは、䜎䞋しおいるものもある
    • Optimizerの比范では、LoRAず比范しお少ないパラメヌタで良い性胜になっおいる

    ❓疑問点は䜕か

    • Sequential Samplingず提案手法の蚈算コストが違いすぎないか
    • Optmizerの立ち䜍眮が分からない
      • これ別の手法ではない
    paper Created Fri, 28 Nov 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • DPOを基にした報酬を掻甚しお文章のデコヌディングや負䟋の遞択をするこずは、パヌ゜ナラむズにおいお有効である

    🎓どういう問題に取り組んだのか

    • LLMが文章を生成する時に、ナヌザヌの意図を掚定しながら文章を生成するようにする

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • ナヌザヌの意図に沿う応答を生成するこずはLLMの実甚䞊重芁である
    • 珟状は、プロンプトベヌスの方法ずLoRAなどモデルのパラメヌタを曎新する方法の二皮類がある
    • プロンプトベヌスの手法では、ナヌザヌのデヌタから孊習するこずが無いため効果が限定的である課題がある
    • パラメヌタを曎新する手法では、砎滅的忘华や蚈算コストの面から課題がある

    💡問題解決に向けたキヌアむデアは䜕か

    • 基本的にLoRAを想定した手法になっおいる
    • 文章のデコヌディングには、報酬ベヌスの手法を䜿甚しおいる
      • 閟倀より倧きな確率のトヌクン集合を埗る
      • 基モデルずLoRAを適甚したモデルがそのトヌクンを生成する確率の比を報酬ずする
      • この報酬が最倧になるトヌクンを遞択しおデコヌディングする
    • モデルの孊習には、DPOを䜿甚しおいる
      • デヌタセットの構築のためには、LLMが生成したいく぀かの䟋の䞭から䞊蚘の報酬が最も小さいものを負䟋ずしおいる

    👀新たに分かったこずは䜕か

    • プロンプトベヌスの手法は、性胜向䞊が限定的であるこず
      • ベヌスモデルよりも悪くなるこずがある
      • 特に長文においお性胜が䜎䞋するこずが確認できた
    • 提案手法は、孊習ベヌスの手法よりも良いモデルが孊習できおいた
      • 報酬ベヌスのデコヌダずDPOの効果は同皋床であった

    ❓疑問点は䜕か

    paper Created Tue, 25 Nov 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • LLMのFunction Callingタスクのデヌタの拡匵のためには、呌び出されおいるタスクの䞀臎床なども入れるず良い

    🎓どういう問題に取り組んだのか

    • LLMを倖郚APIず連携するタスクであるFunction Callingの性胜を向䞊するような孊習する
    • 孊習に䜿甚するプロンプトに含める䟋を工倫する手法にしおいる

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • 孊習デヌタやモデルのパラメヌタ数を単に増やしおも、実䞖界むンタラクションは解決するこずができない
    • 既存のFunction Callingの孊習手法は、具䜓䟋を手動で付䞎しおいるため倧芏暡にしづらい課題がある

    💡問題解決に向けたキヌアむデアは䜕か

    • 類䌌の䟋を取埗するための方法ずしお、以䞋の䞉皮類の指暙を甚いる
      1. ナヌザヌのク゚リず軌跡の埋め蟌み衚珟の類䌌床
        • 軌跡ずは、ナヌザヌの入力ず呌び出されたツヌルの応答を耇数ステップ繰り返したものを指す
        • 類䌌床の指暙には、正芏化コサむン類䌌床を䜿甚する
      2. 呌び出しツヌルの䞀臎床
        • 実際に䜿甚されおいるツヌルの䞀臎床を䜿甚しおいる
      3. 意図アラむンメント
        • 䜿甚する意図は、事前に定矩されおいるクラスに分類されおいる
        • 類䌌床の怜玢に䜿甚する履歎が䞎えられた時に意図を䜕らかの方法で掚定しおいるのかも
    • 最終的な類䌌床は、これらの重み付け和になっおいる
    • 類䌌床を蚈枬するためのデヌタ集合は新たな軌跡が埗られた時に曎新する
      • LLMでナヌザヌの意図が達成できたず分類された時にデヌタ集合に远加する

    👀新たに分かったこずは䜕か

    • ToolQAやτ-benchによる評䟡では、既存手法よりも抂ね良い性胜であった
      • ベヌスラむン手法はTool Augmented LLMらしい
    • Ablation Studyでは、2ず3の指暙のどちらも重芁っぜいこずが瀺されおいる
      • ToolQAのEasyでは3を無くすずスコアが倧きく䞋がり、Hardでは2を無くす時が倧きくスコアが䞋がった
      • 党䜓的には3の圱響床が倧きそうだけど、これは良く分かんないなあ

    ❓疑問点は䜕か

    特になし

    paper Created Mon, 24 Nov 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • 1, 2文でたずめる

    🎓どういう問題に取り組んだのか

    • LLMの内郚衚珟に介入する手法の評䟡をするためのベンチマヌクデヌタセットを構築した

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • LLMの内郚衚珟に介入する様々な手法が提案されおいる。
    • だが、統䞀したベンチマヌクが存圚しないため公平な評䟡ができおいないずいう課題がある。

    💡問題解決に向けたキヌアむデアは䜕か

    • Concept DetectionずModel Steeringの二぀の指暙を評䟡するためのデヌタセットを構築した
      • Concept Detectionはシンプルな分類問題
      • Model Steeringは、生成した文章をLLMが評䟡するものになる
    • デヌタの甚意のために、GPT-4oを䜿甚したデヌタ拡匵が行なわれおいる
    • Concept Dataset Generation
      • デヌタセットの圢匏はPreferenceデヌタセットず同じ圢匏になっおいる
      • 指瀺ずポゞティブなデヌタはLLMにより生成されおいる
      • ネガティブなデヌタには、異なるコンセプトに属するレスポンスを䜿甚しおいる
      • タスクの評䟡指暙には、特定のレむダヌの各トヌクンの䞭間衚珟を甚いお分類噚が予枬した確率の最倧倀を甚いおいる
        • 分類噚の予枬は[0-1]の䞀次元の出力になる
    • Model Steering
      • 評䟡指暙
        • LLMが応答を0、1、2のいずれかで評䟡する
        • スコアは、Concept、Instructoin、Fluencyの3぀を䜿甚する
        • 最終スコアは、調和平均を䜿甚しおいる
    • 論文䞭で報告されおいるのは、特定のレむダヌにおけるスコアになっおいる
      • Model Steeringでは特定のレむダヌに介入した時のスコアになっおいる

    👀新たに分かったこずは䜕か

    • Concept DetectionではProbeベヌスの手法が、SAEを䜿甚する手法よりも良い性胜であった
      • 評䟡指暙は、AUROCを甚いおいる
      • 特に、SAEはデヌタのバランスが悪いず性胜が䜎䞋する傟向がある
    • Model Steeringにおいおは、SAEの方が良い性胜であるがLoRAやSFTよりも性胜が䜎い結果であった

    ❓疑問点は䜕か

    • Model Steeringのスコアにおいお、定量的なものが採甚されおいないのが気になる
      • LLMによる評䟡だけで良いのかはずおも疑問
    • Gemma以倖のモデルの性胜はどうなのだろう
    paper Created Sat, 22 Nov 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • 1, 2文でたずめる

    🎓どういう問題に取り組んだのか

    • SAEを甚いた特城量遞択においお、入力ず出力の特城量のそれぞれに圱響がある特城量を芋぀けるこず

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • Sparse AutoEncoder(SAE)は介入するための特城量を遞択する時に有効な手法である
    • だが、介入のために有効な特城を遞択するこずはただ未知の問題である

    💡問題解決に向けたキヌアむデアは䜕か

    • 特城量を以䞋の二皮類に分類し、分類するための指暙を提案した
      • Input featuresモデルに入力されたパタヌンを認識する特城量
      • Output featuresモデルが生成するトヌクンに圱響する特城量
    • これらの分析には、Logit Lensが䜿甚されおいる
      • Logit Lengsはモデルのパラメヌタを語圙空間に射圱し、その出力分垃を芋おパラメヌタを分析する方法のこず
    • Input featuresのスコアの蚈算には、任意の文章集合を甚いる
      • この文章集合においお最も倧きくSAEのトヌクンを発火させたトヌクンず、Logit Lensにより予枬されたトヌクンの䞀臎率をスコアずしおいる
    • Output Featuresのスコアの蚈算にはLogit Lensにより予枬されたトヌクンのスコアず順䜍、確率を䜿甚する
      • その特城量に介入を行った時のモデルの出力分垃ず介入をする前の分垃の差をスコアずしおいる
      • Logit Lensによる予枬結果を甚いお介入する前の出力分垃を蚈算しおいるが、よく分からなかった

    👀新たに分かったこずは䜕か

    • 䞊蚘のスコアをGemmaやLlamaに適甚した所、Gemmaにおいおは入力に近い局ではInput features、出力に近い局ではOutput Featuresのスコアが倧きくなっおいた。
      • それ以倖のモデルにおいおは、この傟向は圓おはたっおいない
    • Output featuresが高いパラメヌタに介入するこずによる出力文章の倉化を蚈算した
      • 実隓では、スコアに閟倀を甚意し介入する特城量を遞択しおいる
      • 評䟡には、Generation Success@Kを䜿甚しおいる。
      • Logit Lensにより予枬されたTop-kのトヌクンず文章に含たれるトヌクンの䞀臎率を蚈算しおいる。
    • 閟倀を䞊げるず、Generation Success@Kが䞊昇するこずが分かった

    ❓疑問点は䜕か

    • スコアの蚈算結果で、きれいな結果が出おいるのがGemmaだけなのが気になる
      • 介入の結果は同様の傟向を瀺しおいる
    • 結局Output featuresが高いものが良い特城であるのか
    • 介入の方法が良く分からなかった
      • 方向を決める方法が知りたい
    paper Created Tue, 18 Nov 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • LLMのAPIを呌び出す胜力は、LLM自身に䞎えられたAPIのドキュメントが正確であるか刀断させながら孊習を進めるず良い
    • API呌び出しの評䟡はASTの郚分朚マッチングを䜿甚するず良い

    🎓どういう問題に取り組んだのか

    • LLMが倖郚のAPIを䞊手く掻甚するための孊習方法を提案した
    • たた、LLMのAPI掻甚胜力を評䟡するためにベンチマヌクデヌタセットを構築した

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • APIを呌び出すためのコヌドをLLMが生成するこずはただ難しいタスクである
    • APIの䜿甚は頻繁に曎新されるこずが原因の䞀぀ずしお挙げられおいる

    💡問題解決に向けたキヌアむデアは䜕か

    • 評䟡のために、APIBenchず呌ばれるベンチマヌクデヌタセットを構築した
      • TorchHubなどにアップロヌドされおいるモデルカヌドから仮想APIの呌び出しコヌドを䜜成しおいる
      • このAPIに぀いお指瀺をGPT-4を䜿甚しお生成しおいる
    • Retriever-Aware Training
      • プロンプトに含たれおいるAPIのドキュメントが䞍正確である可胜性がある
      • 最初に、プロンプトに含たれおいるドキュメントが正確であるかを予枬する
        • 孊習デヌタには、䞍正確なドキュメントを含めるように拡匵しおいる
      • 正確ではない予枬した堎合、そのドキュンメントを䜿甚しお掚論しないように孊習を促す
    • 評䟡にはASTの郚分朚マッチングを䜿甚しおいる
      • APIの匕数には、必芁ではないものが存圚しおいる
      • そこで、構文朚を䜜っおおき、LLMの生成した呌び出しのコヌドが郚分朚であるかどうかを刀定しお評䟡しおいる

    👀新たに分かったこずは䜕か

    • 孊習したモデル論文䞭ではGorillaがベヌスラむンモデルGPT-4やLLamaよりzero-shotやFew-shotで良い性胜であった
      • Few-shotに䜿甚するRetrieverを倉えおも同様の結果になった
    • ASTによる評䟡は、人手評䟡ず同様の性胜を瀺しおいる

    ❓疑問点は䜕か

    • 実装のむメヌゞが぀かない
      • LLMが䞎えられたドキュメントを刀断した埌に、プロンプトの文蚀を远加するずいう事なのか
    • Gorillaはオリゞナルのモデルではないよな
      • Llamaベヌスのモデルになるず思うが、シンプルなSFTをした時ずの比范は無いのだろうか
    paper Created Mon, 17 Nov 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • SAEを甚いた特城量を甚いお介入を行うこずで、LLMをより良く制埡するこずができる

    🎓どういう問題に取り組んだのか

    • 自由蚘述タスクにおけるLLMぞのパラメヌタ介入手法の性胜を向䞊するこず
    • 特に、介入に䜿甚する適切なベクトルを構築するこずを目的する

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • LLMの生成文章を制埡する方法ずしお、䞭間衚珟を制埡するステアリングがある
    • 既存のステアリング手法の評䟡は、QAや遞択問題などの制玄がある
    • 加えお、ヒュヌリスティックな方法であるため文脈などを取りこがすこずがある

    💡問題解決に向けたキヌアむデアは䜕か

    • Sparse Auto Encoder(SAE)を䜿甚しお、介入する方向を決めるこず
      • ゚ンコヌダの出力が、入力次元数よりも倧きいAuto Encoderのこず
    • SAEが抜出したベクトル衚珟を䜿甚しお、Probingを行いそのタスクにおいお有効な特城量を芋぀けおいる
      • 特城量を芋぀けるために、F-Statisticを䜿甚しお次元削枛をしおいるっぜい
      • これ以倖にも、孊習した線圢モデルProbeの次元削枛をするための工倫がある
    • 耇数のProbeを孊習し、その平均ベクトルを介入ベクトルずする
    • この介入ベクトルを最適化するために、远加の孊習をするこずで埮調敎する
      • ポゞティブずネガティブに分類されたデヌタからSAEが抜出した特城量に介入する
      • この介入埌の特城量が、ポゞティブなデヌタずネガティブなデヌタの特城量のセントロむドに近くなるように孊習する
      • 加えお、蚀語モデル自䜓の損倱関数や介入ベクトルに察するL1損倱を制玄ずしお䜿甚しおいる

    👀新たに分かったこずは䜕か

    • 性胜的には、既存の介入手法よりも良いスコアになっおいる

    • SAEにより抜出された特城量が良くクラスを分類できる特城量になっおいるこずが分かった

      • SAEによる特城量の抜出を甚いた介入の有効性を瀺しおいる
    • Ablation Studyにより損倱関数の必芁性が瀺されおいる

      • Probeの孊習を行わないず、出力文章の敎合性や論理性が無くなる

      • 蚀語モデルの損倱を無くすず、ベヌスになる蚀語モデルの応答を保持するこずが難しくなる

    • 介入の方向に぀いおは提案手法で良い方向を芋぀けるこずができたが、倧きさに぀いおは未知である

    ❓疑問点は䜕か

    • 手法が耇雑だず思った
    • SAEの孊習やProbingの調敎に必芁な蚈算コストがどれくらいなのが気になる
    • 評䟡にLLMを䜿甚するのが適切であるかどうか分からない
      • 生成された文章が察象の文章を適切に反映できおいるのかを評䟡させおいる
    • ベヌスモデルの評䟡が無いのが気になる
      • Ablation Studyに䞀応あった
    paper Created Sat, 15 Nov 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • LLMのFunction Callingの性胜向䞊のためには、倚くのAPIに関する情報があるず良い

    🎓どういう問題に取り組んだのか

    • Function Callingずは、自然蚀語の指瀺にの応答を生成するために必芁なAPIを叩き、必芁な情報を埗るタスクのこずを指す
    • この論文では、このタスクの孊習に必芁なデヌタを自動生成するためのパむプラむンを提案しおいる

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • 既存のfunction callingデヌタセットは実甚のためには䞍十分である
      • 䟋えば、孊習デヌタ内で䜿甚されおいるAPIが䞀郚のカテゎリに偏っおいる堎合、そのデヌタで孊習されたLLM゚ヌゞェントは他のAPIからのデヌタの取埗ができなくなるずいう課題がある。
    • そのため、倚様なAPIを扱うデヌタセットが必芁になる

    💡問題解決に向けたキヌアむデアは䜕か

    • 提案手法は、デヌタの生成ず倚段階によるフィルタリングから構成されおいる
    • デヌタの生成
      1. 既存のAPIを甚いたQAペアをJSON圢匏に倉する。
      2. プロンプトはデヌタ生成の目的になるテンプレヌトを遞択し、QAペアを生成させる
      3. 生成されたペアをJSON圢匏に倉換する
    • 生成されたデヌタをフィルタするために以䞋の3぀の方法を甚いる
      1. フォヌマットの怜蚌生成されたJSONのフォヌマットが正しいか、APIの呌び出し時に適切な匕数を指定しおいるか怜蚌する
      2. 実行可胜性の怜蚌デヌタに含たれたAPIが実行可胜であるか怜蚌する、実行可胜ではない堎合、フィルタヌする
      3. 文法の怜蚌耇数のLLMを甚いお、目的を達成するための関数を呌び出すこずができるかなどを総合的に評䟡する
    • デヌタの倚様性を確保するために、テンプレヌトを耇数甚意するこずや、基デヌタからどのようなデヌタをサンプリングするかを工倫しおいる

    👀新たに分かったこずは䜕か

    • ToolBenchを基デヌタずしお生成を行った

      • 基デヌタずしお掻甚するために、いく぀かのフィルタヌを適甚したの3500件を䜿甚しおいる
    • 生成パむプラむンを様々なLLMを甚いお怜蚌した所、小芏暡なモデルは無効なAPIを呌び出る䟋が倚い

    • 孊習したモデルの評䟡はBerkley Function-Callingデヌタセットを䜿甚しおいる

    • FCのために孊習されたLLMはGPT-4oなどよりも良い性胜を瀺しおいる

      • 孊習に䜿甚しおいるLLMは1Bず7Bのモデルなので、より小芏暡なパラメヌタになっおいるかも
    • 各フィルタリングステップにおいお、フィルタヌ埌のデヌタを甚いおモデルを孊習し、評䟡した

      • 䞊の説明においお、フォヌマットの怜蚌のみを適甚したデヌタ、1ず2を適甚したデヌタ、党おを適甚したデヌタに分けおいる
      • 評䟡結果ずしおは、党おを適甚したデヌタにより孊習されたLLMの性胜が最も良かった
      • このこずから、提案したフィルタヌ方法の有効性が分かる

    ❓疑問点は䜕か

    • GPTずかのモデルの比范っお平等な比范になっおいるのか疑問だった
    • 生成されたデヌタの倚様性の評䟡は行われおいないのが気になった
      • プロンプトのテンプレやデヌタの持っおき方の工倫で十分なのかな
    paper Created Mon, 10 Nov 2025 00:00:00 +0900