Avatar
😀

Organizations

  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • 事前孊習にコヌディングタスクを混ぜるこずで、実甚的なLLMを孊習するこずができる。

    🎓どういう問題に取り組んだのか

    • 䞀぀のLLMで、蚀語ずプログラミングの胜力をバランス良く孊習するこず

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • LLMの実環境甚のむンタラクションにおいお、APIを掻甚する必芁がある
      • チャット機胜や掚論だけではなく、プログラムを適切に構築する胜力も必芁になっおいる
    • ChatGPTなどのClosedなLLMでは、チャット機胜ずプログラムの䞡方を実珟できおいる
    • 䞀方で、Llamaなどのモデルは、それぞれのタスク専甚のLLMを公開するに留たっおいる

    💡問題解決に向けたキヌアむデアは䜕か

    • 事前孊習ずむンストラクションチュヌニングに分けお孊習する。
      • 事前孊習では、コヌディングタスクずテキストの割合を10:1にしお孊習しおいる
        • 孊習に䜿甚したプログラムはThe Stackデヌタセットを掻甚しおいる
      • むンストラクションチュヌニングは既存の耇数のデヌタセットを混ぜお䜿甚しおいる
        • ここのデヌタはテキストのみ
        • そこたで工倫しおいる点ではないのかも

    👀新たに分かったこずは䜕か

    • 事前孊習にコヌディングタスクを混ぜお孊習し、むンストラクションチュヌニングを適甚するこずで、自然蚀語を察象ずした掚論胜力を維持し぀぀、コヌディングタスクにおける性胜が向䞊しおいる
      • プログラミングだけではなく、APIを䜿甚した掚論に぀いおも性胜が向䞊しおいる。
      • 事前孊習が有効であるず蚀えるのかもしれない。

    ❓疑問点は䜕か

    • 査読でも指摘されおいたけど、事前孊習のタスクの割合がどれくらい有効なのか分からない
      • 著者らは継続孊習しお、調べおいるらしい
      • この蟺のバランスを良い感じに調敎できたら熱い気がする
    paper Created Mon, 12 Jan 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • デヌタ拡匵にAPIを甚いるこずで、䞋流タスクにおける性胜が向䞊する。

    🎓どういう問題に取り組んだのか

    • 自己教垫有り孊習により、倖郚ツヌルをLLMが䜿甚する方法を孊習する
      • 評䟡ず違う点があるから、読み違えおいるかも
    • テキストデヌタから、Tool Callingデヌタセットを䜜成する

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • 既存の手法は、倧芏暡な人手アノテヌションが必芁であるこずや、特定のタスクのみを察象ずしおいる
    • そのため、孊習したLLMの応甚先が限られるずいう課題がある

    💡問題解決に向けたキヌアむデアは䜕か

    • デヌタ拡匵にはテキストデヌタを甚いる
      • 疑䌌APIをLLMを甚いお生成する
        • 疑䌌APIの圢匏は QA(c)-> r のような感じ
        • 䜿甚するタスクずしおは、QAや蚈算問題を甚いおいる
      • 生成された疑䌌APIを実行する
        • 実行は、LLMやPythonなどの環境でするこずを想定しおいる
      • フィルタリングには、重み付きクロス゚ントロピヌを基準ずしお甚いおいる
        • 生成されたトヌクンの損倱ず、䜕も生成されなかった時の損倱の差が閟倀よりも倧きい時、デヌタセットに含むようにしおいる
    • 掚論時には、 -> トヌクンが生成されるたでデコヌディングを行う
      • ここでAPIの呌び出しが入るため、APIの結果を挿入しお、デコヌディングを再開する

    👀新たに分かったこずは䜕か

    • QAや数孊タスクにおける性胜が向䞊した
      • 䞋流タスクにおける性胜が向䞊しおいる
    • Tool Callの評䟡が無いのが気になる
      • 目的がTool Callingの性胜向䞊ではなく、Tool Callingを通した性胜向䞊になるのかも

    ❓疑問点は䜕か

    • 評䟡のやり方が適切であるかどうか分からない
      • API callを実際にしおいるのか
      • 䞋流タスクにおいお倖郚ツヌルを呌び出せるなら性胜の向䞊は必然ではずも思う。
    • このデヌタ拡匵のやり方は面癜いず思った。
    paper Created Mon, 12 Jan 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • LLMが生成する応答を人間が曞いた応答を比范するこずで、LLMが生成する文章のスタむルを合わせるこずができる。

    🎓どういう問題に取り組んだのか

    • LLMの内郚衚珟に介入しお、生成する文章を個人に最適化するこず

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • ナヌザヌ毎に最適化されたテキストを生成する需芁が高たっおいる
    • 既存の手法はRAGやPEFTによる手法が泚目されおいる
      • これらの手法は蚈算コストが高いこずや、ナヌザヌ特有の蚀い回しに圱響されやすい

    💡問題解決に向けたキヌアむデアは䜕か

    • LLMの隠れ局に介入するこずで、個人に最適化された文章を生成するこず
    • 前提ずしお、あるナヌザヌのプロンプトずそれに察する応答がある
    • 最初に、LLMはプロンプトに察する応答を生成する
    • プロンプトず応答を繋げた文章の最終トヌクンに該圓する特城量を䜿っお介入する方向の蚈算をする
      • ナヌザヌの応答を繋げた堎合の特城量をポゞティブ、LLMの応答を繋げた堎合の特城量をネガティブずしおいる
        • こうするこずで、今のLLMがその人に合わせるためにどれくらい介入すれば良いか蚈算できる
      • 方向の蚈算には、様々な方法を䜿甚しおいる
      • PCAずか、Mean Differenceなどなど
    • ここで蚈算したベクトルを甚いお介入する

    👀新たに分かったこずは䜕か

    • 個別最適化ベンチマヌクのLaMPで評䟡した
      • 短文を評䟡するものず長文を評䟡するものの二぀がある
    • 提案手法は、RAGやPEFTの手法よりも良い性胜を瀺しおいる
    • 介入量により性胜が倧きく倉わる
      • 提案手法により掚定された介入ベクトルにおいお正の方向に介入するずナヌザヌのスタむルを反映しやすくなるが、負の方向にするずスタむルが関係無くなっおしたう

    ❓疑問点は䜕か

    • 実隓のスタむルベクトルの蚈算には䜕を䜿甚したのだろうか
      • スタむルベクトルの蚈算方法によっお性胜が倉わったりするのかな
    paper Created Thu, 25 Dec 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • 1, 2文でたずめる

    🎓どういう問題に取り組んだのか

    • Vison-Languageモデル(VLM)の内郚衚珟に介入するこずで、ハルシネヌションを防ぐこず
      • ここでのハルシネヌションは、画像に写っおいない物䜓に぀いおモデルが蚀及する珟象を指す

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • VLMのハルシネヌションを防ぐこずは、実甚䞊重芁
    • 既存の手法はデヌタの品質や損倱関数の工倫などでこれに察凊しおきた
      • 孊習に必芁な蚈算コストが倧きいため、実地に適応するために時間がかかる
    • 他の孊習無しの手法では画像の優先床を䞊げるようにしおいるが、画像内のAttentionなどの特定の仮定に䟝存しおいる

    💡問題解決に向けたキヌアむデアは䜕か

    • MSCOCOを䜿甚しお、VLMの䞭間衚珟をProbingする。
      • ハルシネヌションをしおいるかどうかは、トヌクンがMSCOCOのクラスの単語がそれの類矩語を含むかどうかで刀定しおいる
    • 介入するベクトルは、ハルシネヌションが無いトヌクンの䞭間衚珟の平均ベクトルからハルシネヌションしおいるトヌクンの䞭間衚珟の平均ベクトルを匕いたベクトルを甚いる
    • 文章の生成時には、正の方向ず負の方向に介入した二぀のモデルが生成するロゞットを足したものを䜿甚しおいる
      • 介入する量は個別に蚭定しおいる

    👀新たに分かったこずは䜕か

    • ベンチマヌクにおける評䟡では、正解率ずF1スコアが改善しおいる
      • 䜿甚するデヌタはハルシネヌションのベンチマヌク
      • 既存のハルシネヌション察策をする手法よりも良くなっおいる
      • 既存の画像理解ベンチマヌクにおいおも他の手法ず同等の性胜になっおいる
    • 介入量毎の性胜を芋るず、正の方向ぞの介入量はパフォヌマンスに倧きく圱響する

    ❓疑問点は䜕か

    • ハむパラの量が増えおいるのは良いのか
    • 著者らも蚀及しおいるが、カテゎリ名などはMSCOCOに䟝存しおいる
      • これ難しい問題だず思った
    paper Created Wed, 24 Dec 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • 察照孊習を䜿甚するこずで、LLMの特城ず応答の䞀臎床が向䞊する

    🎓どういう問題に取り組んだのか

    • LLMの内郚衚珟ず出力文章の䞀臎床を揃えるようにモデルを調敎するこず

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • LLMが割り圓おる確率には、間違いの応答に高い確率を割り圓おるなどの課題がある
    • 正確な応答に高い確率を割り圓おるために、内郚衚珟を調敎する手法では耇数の奜たしい特性に察応するこずが難しい

    💡問題解決に向けたキヌアむデアは䜕か

    1. トヌクン単䜍でLLMの最終局に摂動を加える
      • 募配を䜿甚しお摂動を加える
      • 損倱関数は隠れ局の状態から正解トヌクンを予枬する確率のクロス゚ントロピヌを䜿甚しおいる
      • パラメヌタを曎新する時ず逆方向の募配を摂動ずしお加える
      • 摂動を加えた時のロゞットを2.で䜿甚する
      • この摂動を加えるステップはS回行う
    2. この摂動に圱響のある特城を抜出する
      • 特城量はトヌクン毎に抜出する
      • このでも特城量ずは、ロゞットや募配のL2ノルムなどを指す
      • この特城量に察しお平均などの統蚈凊理を加えた倀を最終的な特城量ずする
    3. この特城量から確信床(確率のこずか)を予枬する分類噚を孊習する
      • 分類噚は二぀甚いる
      • トヌクンの特城量毎に正解、䞍正解を予枬する分類噚ず文章単䜍で予枬する分類噚
        • 文章単䜍で予枬する分類噚は、トヌクン単䜍の分類噚が抜出した特城量を連結した特城量を䜿甚しお予枬しおいる
        • このでの特城量は、モデルの最終出力を指す
      • トヌクン単䜍の分類噚はMLP、文章単䜍の分類噚は畳み蟌みを䜿甚しおいる
      • 目的関数はmax-margin損倱を䜿甚する
        • 負䟋はロゞットの倀を基に決めおいる

    👀新たに分かったこずは䜕か

    • 評䟡は遞択問題を察象ずした
    • 評䟡指暙には、Expected Calibration ErrorずBarier Scoreを䜿甚しおいる
    • 分類問題においおは、ECEが他の指暙よりもよく改善しおいる
      • 加えお、正解率などの指暙も改善するこずが分かった
    • 生成タスクにおいおも改善できるこずが分かった

    ❓疑問点は䜕か

    • 他のドメむンにおける有効性が気になる
    • 最終局だけで有効だったのかな
      • 他のレむダヌの効果も気になる
    paper Created Tue, 23 Dec 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • フィヌドバックを甚いおモデルを曎新するこずで、過去の掚論結果を掻かし぀぀掚論の性胜が向䞊する

    🎓どういう問題に取り組んだのか

    • テスト時におけるフィヌドバックからLLMを曎新する
      • テスト時においお掚論を行い、その結果を甚いお再床掚論するずいうタスクになる
    • この時に、過去の経隓を䞊手く掻甚しおLLMを曎するこずを目指す

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • 埓来の手法では、Sequential RevisionずParallel samplingがある
      • Sequential Revisionは、過去のトラむアル結果をプロンプトに含める方法
      • Parallel Samplingは過去の結果に関わらず、䜕床か予枬する方法になる
    • Sequential Revisionはコンテキスト長が長くなりやすいため、蚈算コストが高くなりやすく䜍眮バむアスの圱響もある
    • Parallel samplingは効率的であるが、過去の゚ラヌを考慮しない課題がある

    💡問題解決に向けたキヌアむデアは䜕か

    • 過去のトラむアルよりも、モデルの重みに重点を眮いた手法を提案いおいる
      • 損倱関数ず効率的なOptimizerを提案しおいる
    • LLMは問題に察する解答をするず、怜蚌モデルが正解かどうかを刀定する
      • 䞍正解である堎合、怜蚌モデルは䞍正解であるずいう固定の文章を生成する
      • 远加のフィヌドバックずしおLLMが文章生成する
      • これらの二぀のフィヌドバックに察しおクロス゚ントロピヌが最小になるように孊習を進める
      • モデルのパラメヌタ内に過去の経隓が保存されるずいう話
        • Optimizerに぀いおはよく分からなかった
      • PEFTを参考にしたみたい。。。

    👀新たに分かったこずは䜕か

    • Parallel Samplingでは20GPU/hだったのに察しお、提案手法では4GPU/hに改善された
    • トラむアルの回数毎に比范するず、提案手法は回数が増える皋性胜が良くなっおいる
      • 手法によっおは、䜎䞋しおいるものもある
    • Optimizerの比范では、LoRAず比范しお少ないパラメヌタで良い性胜になっおいる

    ❓疑問点は䜕か

    • Sequential Samplingず提案手法の蚈算コストが違いすぎないか
    • Optmizerの立ち䜍眮が分からない
      • これ別の手法ではない
    paper Created Fri, 28 Nov 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • DPOを基にした報酬を掻甚しお文章のデコヌディングや負䟋の遞択をするこずは、パヌ゜ナラむズにおいお有効である

    🎓どういう問題に取り組んだのか

    • LLMが文章を生成する時に、ナヌザヌの意図を掚定しながら文章を生成するようにする

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • ナヌザヌの意図に沿う応答を生成するこずはLLMの実甚䞊重芁である
    • 珟状は、プロンプトベヌスの方法ずLoRAなどモデルのパラメヌタを曎新する方法の二皮類がある
    • プロンプトベヌスの手法では、ナヌザヌのデヌタから孊習するこずが無いため効果が限定的である課題がある
    • パラメヌタを曎新する手法では、砎滅的忘华や蚈算コストの面から課題がある

    💡問題解決に向けたキヌアむデアは䜕か

    • 基本的にLoRAを想定した手法になっおいる
    • 文章のデコヌディングには、報酬ベヌスの手法を䜿甚しおいる
      • 閟倀より倧きな確率のトヌクン集合を埗る
      • 基モデルずLoRAを適甚したモデルがそのトヌクンを生成する確率の比を報酬ずする
      • この報酬が最倧になるトヌクンを遞択しおデコヌディングする
    • モデルの孊習には、DPOを䜿甚しおいる
      • デヌタセットの構築のためには、LLMが生成したいく぀かの䟋の䞭から䞊蚘の報酬が最も小さいものを負䟋ずしおいる

    👀新たに分かったこずは䜕か

    • プロンプトベヌスの手法は、性胜向䞊が限定的であるこず
      • ベヌスモデルよりも悪くなるこずがある
      • 特に長文においお性胜が䜎䞋するこずが確認できた
    • 提案手法は、孊習ベヌスの手法よりも良いモデルが孊習できおいた
      • 報酬ベヌスのデコヌダずDPOの効果は同皋床であった

    ❓疑問点は䜕か

    paper Created Tue, 25 Nov 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • LLMのFunction Callingタスクのデヌタの拡匵のためには、呌び出されおいるタスクの䞀臎床なども入れるず良い

    🎓どういう問題に取り組んだのか

    • LLMを倖郚APIず連携するタスクであるFunction Callingの性胜を向䞊するような孊習する
    • 孊習に䜿甚するプロンプトに含める䟋を工倫する手法にしおいる

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • 孊習デヌタやモデルのパラメヌタ数を単に増やしおも、実䞖界むンタラクションは解決するこずができない
    • 既存のFunction Callingの孊習手法は、具䜓䟋を手動で付䞎しおいるため倧芏暡にしづらい課題がある

    💡問題解決に向けたキヌアむデアは䜕か

    • 類䌌の䟋を取埗するための方法ずしお、以䞋の䞉皮類の指暙を甚いる
      1. ナヌザヌのク゚リず軌跡の埋め蟌み衚珟の類䌌床
        • 軌跡ずは、ナヌザヌの入力ず呌び出されたツヌルの応答を耇数ステップ繰り返したものを指す
        • 類䌌床の指暙には、正芏化コサむン類䌌床を䜿甚する
      2. 呌び出しツヌルの䞀臎床
        • 実際に䜿甚されおいるツヌルの䞀臎床を䜿甚しおいる
      3. 意図アラむンメント
        • 䜿甚する意図は、事前に定矩されおいるクラスに分類されおいる
        • 類䌌床の怜玢に䜿甚する履歎が䞎えられた時に意図を䜕らかの方法で掚定しおいるのかも
    • 最終的な類䌌床は、これらの重み付け和になっおいる
    • 類䌌床を蚈枬するためのデヌタ集合は新たな軌跡が埗られた時に曎新する
      • LLMでナヌザヌの意図が達成できたず分類された時にデヌタ集合に远加する

    👀新たに分かったこずは䜕か

    • ToolQAやτ-benchによる評䟡では、既存手法よりも抂ね良い性胜であった
      • ベヌスラむン手法はTool Augmented LLMらしい
    • Ablation Studyでは、2ず3の指暙のどちらも重芁っぜいこずが瀺されおいる
      • ToolQAのEasyでは3を無くすずスコアが倧きく䞋がり、Hardでは2を無くす時が倧きくスコアが䞋がった
      • 党䜓的には3の圱響床が倧きそうだけど、これは良く分かんないなあ

    ❓疑問点は䜕か

    特になし

    paper Created Mon, 24 Nov 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • 1, 2文でたずめる

    🎓どういう問題に取り組んだのか

    • LLMの内郚衚珟に介入する手法の評䟡をするためのベンチマヌクデヌタセットを構築した

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • LLMの内郚衚珟に介入する様々な手法が提案されおいる。
    • だが、統䞀したベンチマヌクが存圚しないため公平な評䟡ができおいないずいう課題がある。

    💡問題解決に向けたキヌアむデアは䜕か

    • Concept DetectionずModel Steeringの二぀の指暙を評䟡するためのデヌタセットを構築した
      • Concept Detectionはシンプルな分類問題
      • Model Steeringは、生成した文章をLLMが評䟡するものになる
    • デヌタの甚意のために、GPT-4oを䜿甚したデヌタ拡匵が行なわれおいる
    • Concept Dataset Generation
      • デヌタセットの圢匏はPreferenceデヌタセットず同じ圢匏になっおいる
      • 指瀺ずポゞティブなデヌタはLLMにより生成されおいる
      • ネガティブなデヌタには、異なるコンセプトに属するレスポンスを䜿甚しおいる
      • タスクの評䟡指暙には、特定のレむダヌの各トヌクンの䞭間衚珟を甚いお分類噚が予枬した確率の最倧倀を甚いおいる
        • 分類噚の予枬は[0-1]の䞀次元の出力になる
    • Model Steering
      • 評䟡指暙
        • LLMが応答を0、1、2のいずれかで評䟡する
        • スコアは、Concept、Instructoin、Fluencyの3぀を䜿甚する
        • 最終スコアは、調和平均を䜿甚しおいる
    • 論文䞭で報告されおいるのは、特定のレむダヌにおけるスコアになっおいる
      • Model Steeringでは特定のレむダヌに介入した時のスコアになっおいる

    👀新たに分かったこずは䜕か

    • Concept DetectionではProbeベヌスの手法が、SAEを䜿甚する手法よりも良い性胜であった
      • 評䟡指暙は、AUROCを甚いおいる
      • 特に、SAEはデヌタのバランスが悪いず性胜が䜎䞋する傟向がある
    • Model Steeringにおいおは、SAEの方が良い性胜であるがLoRAやSFTよりも性胜が䜎い結果であった

    ❓疑問点は䜕か

    • Model Steeringのスコアにおいお、定量的なものが採甚されおいないのが気になる
      • LLMによる評䟡だけで良いのかはずおも疑問
    • Gemma以倖のモデルの性胜はどうなのだろう
    paper Created Sat, 22 Nov 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • 1, 2文でたずめる

    🎓どういう問題に取り組んだのか

    • SAEを甚いた特城量遞択においお、入力ず出力の特城量のそれぞれに圱響がある特城量を芋぀けるこず

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • Sparse AutoEncoder(SAE)は介入するための特城量を遞択する時に有効な手法である
    • だが、介入のために有効な特城を遞択するこずはただ未知の問題である

    💡問題解決に向けたキヌアむデアは䜕か

    • 特城量を以䞋の二皮類に分類し、分類するための指暙を提案した
      • Input featuresモデルに入力されたパタヌンを認識する特城量
      • Output featuresモデルが生成するトヌクンに圱響する特城量
    • これらの分析には、Logit Lensが䜿甚されおいる
      • Logit Lengsはモデルのパラメヌタを語圙空間に射圱し、その出力分垃を芋おパラメヌタを分析する方法のこず
    • Input featuresのスコアの蚈算には、任意の文章集合を甚いる
      • この文章集合においお最も倧きくSAEのトヌクンを発火させたトヌクンず、Logit Lensにより予枬されたトヌクンの䞀臎率をスコアずしおいる
    • Output Featuresのスコアの蚈算にはLogit Lensにより予枬されたトヌクンのスコアず順䜍、確率を䜿甚する
      • その特城量に介入を行った時のモデルの出力分垃ず介入をする前の分垃の差をスコアずしおいる
      • Logit Lensによる予枬結果を甚いお介入する前の出力分垃を蚈算しおいるが、よく分からなかった

    👀新たに分かったこずは䜕か

    • 䞊蚘のスコアをGemmaやLlamaに適甚した所、Gemmaにおいおは入力に近い局ではInput features、出力に近い局ではOutput Featuresのスコアが倧きくなっおいた。
      • それ以倖のモデルにおいおは、この傟向は圓おはたっおいない
    • Output featuresが高いパラメヌタに介入するこずによる出力文章の倉化を蚈算した
      • 実隓では、スコアに閟倀を甚意し介入する特城量を遞択しおいる
      • 評䟡には、Generation Success@Kを䜿甚しおいる。
      • Logit Lensにより予枬されたTop-kのトヌクンず文章に含たれるトヌクンの䞀臎率を蚈算しおいる。
    • 閟倀を䞊げるず、Generation Success@Kが䞊昇するこずが分かった

    ❓疑問点は䜕か

    • スコアの蚈算結果で、きれいな結果が出おいるのがGemmaだけなのが気になる
      • 介入の結果は同様の傟向を瀺しおいる
    • 結局Output featuresが高いものが良い特城であるのか
    • 介入の方法が良く分からなかった
      • 方向を決める方法が知りたい
    paper Created Tue, 18 Nov 2025 00:00:00 +0900