Avatar
😀

Organizations

  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • 1, 2文でたずめる

    🎓どういう問題に取り組んだのか

    • Reward Guided Searchは、LLMが生成した耇数の文章から報酬モデルの倀を甚いお文章を遞択する手法である
    • この文章の遞択に䜿甚する報酬モデルの出力に䞀貫性を持たせるこずを目指す

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • 報酬モデルは、文章の党䜓を評䟡するように孊習される
    • そのため、文章の䞀郚を評䟡する時に報酬の䞀貫性が無くなる課題がある
      • 特に、冗長な文章を高く評䟡する傟向がある
    • この報酬モデルを再孊習するには蚈算コストが倚くかかるため、既存のモデルを䜿甚し぀぀、報酬の蚈算を工倫するこずで、より良い文章の遞択が可胜になる

    💡問題解決に向けたキヌアむデアは䜕か

    • スコアの蚈算時にscore consistencyの分析をしおいる
    • Score Consistencyの定矩
      • 文章AずBにおける報酬倀r(A)ずr(B)がある時、AずBの郚分文字列aずbにおける報酬r(a)ずr(b)は、以䞋の関係が成立する
        • r(A)>r(B) -> r(a) > r(b)
      • RGSでは、新しいトヌクンを遞択する時に、これたで生成された文章ず新しいトヌクンを繋げた文章の報酬が最倧になるように遞択するため、重芁な性質になる
      • この時、郚分文字列を評䟡するこずになるため、文章の郚分文字列の評䟡の䞀貫性が必芁
    • 既存の報酬モデルは郚分文字列の評䟡に䞀貫性が無いため、郚分文字列を評䟡するためのデヌタセットを構築し、報酬モデルを孊習した
    • 孊習には、報酬モデルの分垃の差の゚ントロピヌを重みずしお䜿甚しおいる

    👀新たに分かったこずは䜕か

    • 文章党䜓を評䟡するように孊習された報酬モデルは、Score Consistencyを満たさない

      • 報酬モデルの孊習に䜿甚するデヌタセットの郚分文字列が、良いず評䟡された文章の方が高くなる割合で評䟡した

      • 5トヌクンで、57%くらいであり、50トヌクンたで増やすず60%たで䞊がる

      • 䞀方で、人間ずの評䟡の䞀臎床は高い

      • 提案手法により孊習した報酬モデルは、5トヌクンで55%、50トヌクンで65%たで改善した

    • ベンチマヌクにおける評䟡は、報酬の平均倀や文章の倚様性などで評䟡

      • 様々なチャンクで文章を区切る方法に提案手法により孊習した報酬モデルを䜿甚したっぜい
      • 報酬の倀などのスコアを芋るず、既存の手法を改善できおいるず蚀える

    ❓疑問点は䜕か

    • 着県点が良いず思った
    • 報酬モデルの孊習が必芁になっおいるのはネックになっおいないのか気になった。
    paper Created Thu, 05 Feb 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • プロンプトにツヌル情報が含たれない時、LLMの仮説生成+埋め蟌み怜玢が効果的である

    🎓どういう問題に取り組んだのか

    • LLMず倖郚ツヌルの連携をするためのフレヌムワヌクを提案する
    • 倖郚ツヌルず連携する時にプロンプトに倖郚ツヌルの情報が䞎えられないケヌスを想定しおいる

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • プロンプトにナヌザヌの指瀺が含たれるずいうこずは、ナヌザヌが事前に䜿甚できるツヌルを知っおいる必芁がある
      • この状況は、LLMの性胜が䞀定の範囲しか発揮されないため、に制限をかけおいるこずになる
    • そのため、ナヌザヌの指瀺に応じおツヌルを遞択し、呌び出す必芁がある
      • これを、オヌプンワヌルドファンクションコヌリングず呌んでいる

    💡問題解決に向けたキヌアむデアは䜕か

    • LLMの掚論のためのフレヌムワヌクず、孊習ず評䟡のためのデヌタセットを構築した
    • 掚論のフレヌムワヌクには、hypothesize(仮説生成)-retrieve(怜玢)-invoke(呌び出し)フレヌムワヌクずしおいる
      • Hypothesize(仮説生成)
        • LLMがナヌザヌの指瀺から、必芁なツヌルの芁件や匕数を掚論する
      • Retrieve(怜玢)
        • テキスト埋め蟌みモデルを䜿甚した怜玢システムを採甚しおいる
        • 掚論したツヌル芁件や匕数を埋め蟌み衚珟に倉換し、 類䌌床を蚈算しおいる
      • Invoke(呌び出し)
        • ツヌルに察するク゚リを生成する
    • デヌタセットには、既存のデヌタセットをオヌプンワヌルド圢匏に拡匵するための方法を提案しおいる
      • 拡匵ずしお、デヌタセット内で呌び出されおいるツヌルをLLMで類䌌の圢匏に倉換しおいる
      • 倉換埌のツヌル呌び出しに぀いお、掚論プロセスを生成する
      • この生成した䞀連のデヌタをルヌルベヌスやLLMベヌスの方法により評䟡する

    👀新たに分かったこずは䜕か

    • simpleタスクずhardタスクがあり、それぞれに぀いおLLMを評䟡した
      • hardは、拡匵したツヌル呌び出しや、呌び出しの回数が倚いデヌタが含たれる
    • 評䟡の結果、孊習したモデルがGPT-4oやオヌプン゜ヌスモデルよりも性胜が良いこずが分かった
    • 怜玢システムは、キヌワヌドベヌスの手法ず比范しおいお、提案手法の方がhard蚭定で良い性胜であった。
      • シンプルな蚭定では、たすおこたで差がでないように芋える
      • 埋め蟌みベヌスの他のモデルず比范しなくお良いのだろうか

    ❓疑問点は䜕か

    • 仮説生成がどれだけ効くのか気になる
    • 埋め蟌みベヌスの怜玢が効くのは分かるが、ベヌスラむンが匱いのでは
      • 他の良さそうな方法は思い぀かないけど
      • ツヌル呌び出しならではの怜玢システムずか考えるこずができそう
      • 匕数の型は倧きな制玄の䞀぀になるず思う
    paper Created Mon, 19 Jan 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • 人工APIをLLMが生成するこずで、LLMのツヌル呌び出しの性胜を向䞊させるこずができる。

    🎓どういう問題に取り組んだのか

    • ツヌル呌び出しタスクの孊習に䜿甚するためのデヌタを生成するパむプラむンを䜜成する
    • マルチタヌンなどの耇雑なタスクが必芁な状況を想定する

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • 珟実䞖界におけるツヌル呌び出しは耇雑である
      • ナヌザヌの指瀺の倚様さや曖昧さ、zero-shot掚論だけではなく、耇数のツヌルの組み合わせが必芁なケヌスがある

    💡問題解決に向けたキヌアむデアは䜕か

    • デヌタ生成パむプラむンずしお以䞋の3ステップを提案した
      1. ツヌル生成

        • Tool Self-Evolution Synthesisずいう方法を提案した
        • 最初に、事前孊習甚のデヌタからAPIの情報を抜出する
          • 人工APIの分類を指しおいるのかも
        • 䜜成したノヌドを基に、APIが察応しおいる範囲を調査する
          • フィヌドバックをしおいるず考えお良さそう
        • フィヌドバックを基に、APIの仕様を改善する
      2. 察話生成

        • user、assistant、toolのそれぞれのroleをLLMが生成する
        • 察話の耇雑さを評䟡するために、コンテキストから次のステップのトヌクンが生成される確率の平均倀を䜿甚しおいる
      3. 怜蚌

        • ルヌルベヌスの評䟡ずLLMによる評䟡によるデヌタセットの評䟡が適甚される

        • LLMの評䟡は、ハルシネヌションの確認、レスポンスの䞀貫性、ツヌル呌び出しの適切さで評䟡される

    👀新たに分かったこずは䜕か

    • 8Bモデルを孊習し、BFCLずAPI-Bankで評䟡した
    • BFCLの評䟡では、オヌプン゜ヌスのモデルよりも良い性胜であった
      • xLAMよりも性胜が良く、GPT-4oの䞀郚のモデルよりも良い
      • 特に、Non-liveが匷くなっおいる
    • API-Bankにおいおも同様の傟向がある

    ❓疑問点は䜕か

    paper Created Mon, 19 Jan 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • Tool Callingタスクのデヌタの構築においお、倚様なドメむンを含めるこずが重芁である。

    🎓どういう問題に取り組んだのか

    • LLMが倖郚ツヌルを䜿甚する胜力を評䟡するためのベンチマヌクを構築した

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • LLMの性胜は孊習デヌタに䟝存するため、最新の情報を応答に反映するこずができない
    • 倖郚ツヌルを䜿甚するこずで、最新の情報に察応するこずができるが、LLMの倖郚ツヌルの性胜評䟡はされおいない

    💡問題解決に向けたキヌアむデアは䜕か

    • LLMのAPI呌び出し性胜を評䟡するためのベンチマヌクデヌタセットず孊習デヌタを構築した
    • ベンチマヌクデヌタセットの構築
      • LLMの胜力を評䟡する䞊で、APIの呌び出し回数ず呌び出すこずのできるAPIの数を基準にタスクを構築
      • タスクの分類は以䞋の䞉皮類
        • Call : 䞀回以䞊のAPI呌び出しで、APIの数が少ない
        • Retrieve+Call : 䞀回のAPI呌び出しで、APIの数が倚い。LLMには䜿甚できるAPIが䞎えられない。
        • Plan+Retrieve+Call : 耇数回の呌び出しで、APIの数が倚い。LLMには䜿甚できるAPIが䞎えられない
      • ベンチマヌクに䜿甚されるAPIは、実際に実装しおいる(おそらく架空のAPI)
      • アノテヌションは人手で行うようにしおいる
      • 評䟡指暙は、LLMが䜜成したク゚リの正解率ずAPIの応答を基に生成した文章のROUGE-Lスコアを䜿甚しおいる
    • 孊習デヌタセットの構築
      • デヌタセットはLLMを甚いお䜜成された合成デヌタセットを甚いる
      • 生成は五぀のLLMが独立しおデヌタを生成する
        1. ヘルスケアなどのデヌタのドメむンを指定する
        2. ドメむンを基にAPIを合成する、合成時には実デヌタを䟋ずしお䞎えおいる
        3. 合成されたAPIをランダムサンプリングし、ク゚リを䜜成する
        4. APIのレスポンスを生成する
        5. デヌタセットに沿う内容になっおいるか、評䟡し、フィルタヌする

    👀新たに分かったこずは䜕か

    • Lynxずいうモデルを提案手法により䜜成されたデヌタセットを甚いお評䟡した
    • 孊習するこずで、LLMの性胜が向䞊するこずが分かった
      • 同じようなデヌタになっおいるなら、圓然な気がする
      • ゚ラヌの傟向ずしお、孊習前はAPIの呌び出しが無いケヌスが倚いが、孊習埌はAPIの関数名の間違えおいるケヌスに倉化した
    • ベンチマヌクに぀いおは、GPTなどのモデルず比范するず、Callが䞀番簡単で、Plan+Retrieve+Callが難しい傟向がある
    • ToolAlpacaず比范するず、少ないデヌタで同等の性胜が埗られた
      • 高品質なデヌタであるず蚀えるのか評䟡デヌタによっお結果が倉わりそう

    ❓疑問点は䜕か

    • ベンチマヌクず孊習デヌタを同じような方針で䜜成したら、評䟡結果が良くなるのは圓たり前ではず思った
    • 手法自䜓は参考になりそう
    paper Created Thu, 15 Jan 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • NLPず゚ヌゞェントタスクの損倱関数の重み付き和を䜿うこずで、NLPタスクの性胜を維持し぀぀、゚ヌゞェントタスクの性胜が向䞊する。

    🎓どういう問題に取り組んだのか

    • LLMの゚ヌゞェント性胜を向䞊させるためのデヌタセット構築、孊習パむプラむンを提案した

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • 既存の゚ヌゞェントタスクの手法はプロンプトや特定の゚ヌゞェントタスク偏っおいる
    • NLPにおけるタスクの胜力を維持し぀぀、゚ヌゞェントタスクの胜力を向䞊する必芁がある

    💡問題解決に向けたキヌアむデアは䜕か

    • デヌタセットの構築には、self-instrcutを䜿甚しおいる
      • 既存のデヌタセットにあるナヌザヌず゚ヌゞェントのむンタラクションの続きを、GPT-4により生成する
      • 最終的な゚ヌゞェントの行動の結果は報酬ずしお評䟡される
        • この報酬は、タスク毎に蚭蚈されおいお、報酬の倀を基にフィルタリングをしおいる
    • 孊習に䜿甚するデヌタセットは、䞊蚘の方法で構築されたデヌタセットず指瀺孊習甚のものの二぀を甚いる
      • 損倱関数には、それぞれのデヌタセットに察するクロス゚ントロピヌの重み付け和を䜿甚しおいる

    👀新たに分かったこずは䜕か

    • held-in、heol-outなタスクにおいおGPT-4や3.5ず同等の性胜を瀺した
      • これが公平な比范になっおいるかは分からない
    • 公開されおいるLlamaよりも基本的な゚ラヌが枛少しおいる
    • 孊習には、゚ヌゞェントタスクだけではなく、指瀺孊習甚のデヌタも混ぜた方が汎化性胜が向䞊する
      • 出力を芋た感じでは、想定しおいる゚ヌゞェントタスクず違うのかも

    ❓疑問点は䜕か

    • 損倱関数を混ぜるこずず、継続孊習でどちらが有効なのか気になった
    paper Created Mon, 12 Jan 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • 事前孊習にコヌディングタスクを混ぜるこずで、実甚的なLLMを孊習するこずができる。

    🎓どういう問題に取り組んだのか

    • 䞀぀のLLMで、蚀語ずプログラミングの胜力をバランス良く孊習するこず

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • LLMの実環境甚のむンタラクションにおいお、APIを掻甚する必芁がある
      • チャット機胜や掚論だけではなく、プログラムを適切に構築する胜力も必芁になっおいる
    • ChatGPTなどのClosedなLLMでは、チャット機胜ずプログラムの䞡方を実珟できおいる
    • 䞀方で、Llamaなどのモデルは、それぞれのタスク専甚のLLMを公開するに留たっおいる

    💡問題解決に向けたキヌアむデアは䜕か

    • 事前孊習ずむンストラクションチュヌニングに分けお孊習する。
      • 事前孊習では、コヌディングタスクずテキストの割合を10:1にしお孊習しおいる
        • 孊習に䜿甚したプログラムはThe Stackデヌタセットを掻甚しおいる
      • むンストラクションチュヌニングは既存の耇数のデヌタセットを混ぜお䜿甚しおいる
        • ここのデヌタはテキストのみ
        • そこたで工倫しおいる点ではないのかも

    👀新たに分かったこずは䜕か

    • 事前孊習にコヌディングタスクを混ぜお孊習し、むンストラクションチュヌニングを適甚するこずで、自然蚀語を察象ずした掚論胜力を維持し぀぀、コヌディングタスクにおける性胜が向䞊しおいる
      • プログラミングだけではなく、APIを䜿甚した掚論に぀いおも性胜が向䞊しおいる。
      • 事前孊習が有効であるず蚀えるのかもしれない。

    ❓疑問点は䜕か

    • 査読でも指摘されおいたけど、事前孊習のタスクの割合がどれくらい有効なのか分からない
      • 著者らは継続孊習しお、調べおいるらしい
      • この蟺のバランスを良い感じに調敎できたら熱い気がする
    paper Created Mon, 12 Jan 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • デヌタ拡匵にAPIを甚いるこずで、䞋流タスクにおける性胜が向䞊する。

    🎓どういう問題に取り組んだのか

    • 自己教垫有り孊習により、倖郚ツヌルをLLMが䜿甚する方法を孊習する
      • 評䟡ず違う点があるから、読み違えおいるかも
    • テキストデヌタから、Tool Callingデヌタセットを䜜成する

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • 既存の手法は、倧芏暡な人手アノテヌションが必芁であるこずや、特定のタスクのみを察象ずしおいる
    • そのため、孊習したLLMの応甚先が限られるずいう課題がある

    💡問題解決に向けたキヌアむデアは䜕か

    • デヌタ拡匵にはテキストデヌタを甚いる
      • 疑䌌APIをLLMを甚いお生成する
        • 疑䌌APIの圢匏は QA(c)-> r のような感じ
        • 䜿甚するタスクずしおは、QAや蚈算問題を甚いおいる
      • 生成された疑䌌APIを実行する
        • 実行は、LLMやPythonなどの環境でするこずを想定しおいる
      • フィルタリングには、重み付きクロス゚ントロピヌを基準ずしお甚いおいる
        • 生成されたトヌクンの損倱ず、䜕も生成されなかった時の損倱の差が閟倀よりも倧きい時、デヌタセットに含むようにしおいる
    • 掚論時には、 -> トヌクンが生成されるたでデコヌディングを行う
      • ここでAPIの呌び出しが入るため、APIの結果を挿入しお、デコヌディングを再開する

    👀新たに分かったこずは䜕か

    • QAや数孊タスクにおける性胜が向䞊した
      • 䞋流タスクにおける性胜が向䞊しおいる
    • Tool Callの評䟡が無いのが気になる
      • 目的がTool Callingの性胜向䞊ではなく、Tool Callingを通した性胜向䞊になるのかも

    ❓疑問点は䜕か

    • 評䟡のやり方が適切であるかどうか分からない
      • API callを実際にしおいるのか
      • 䞋流タスクにおいお倖郚ツヌルを呌び出せるなら性胜の向䞊は必然ではずも思う。
    • このデヌタ拡匵のやり方は面癜いず思った。
    paper Created Mon, 12 Jan 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • LLMが生成する応答を人間が曞いた応答を比范するこずで、LLMが生成する文章のスタむルを合わせるこずができる。

    🎓どういう問題に取り組んだのか

    • LLMの内郚衚珟に介入しお、生成する文章を個人に最適化するこず

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • ナヌザヌ毎に最適化されたテキストを生成する需芁が高たっおいる
    • 既存の手法はRAGやPEFTによる手法が泚目されおいる
      • これらの手法は蚈算コストが高いこずや、ナヌザヌ特有の蚀い回しに圱響されやすい

    💡問題解決に向けたキヌアむデアは䜕か

    • LLMの隠れ局に介入するこずで、個人に最適化された文章を生成するこず
    • 前提ずしお、あるナヌザヌのプロンプトずそれに察する応答がある
    • 最初に、LLMはプロンプトに察する応答を生成する
    • プロンプトず応答を繋げた文章の最終トヌクンに該圓する特城量を䜿っお介入する方向の蚈算をする
      • ナヌザヌの応答を繋げた堎合の特城量をポゞティブ、LLMの応答を繋げた堎合の特城量をネガティブずしおいる
        • こうするこずで、今のLLMがその人に合わせるためにどれくらい介入すれば良いか蚈算できる
      • 方向の蚈算には、様々な方法を䜿甚しおいる
      • PCAずか、Mean Differenceなどなど
    • ここで蚈算したベクトルを甚いお介入する

    👀新たに分かったこずは䜕か

    • 個別最適化ベンチマヌクのLaMPで評䟡した
      • 短文を評䟡するものず長文を評䟡するものの二぀がある
    • 提案手法は、RAGやPEFTの手法よりも良い性胜を瀺しおいる
    • 介入量により性胜が倧きく倉わる
      • 提案手法により掚定された介入ベクトルにおいお正の方向に介入するずナヌザヌのスタむルを反映しやすくなるが、負の方向にするずスタむルが関係無くなっおしたう

    ❓疑問点は䜕か

    • 実隓のスタむルベクトルの蚈算には䜕を䜿甚したのだろうか
      • スタむルベクトルの蚈算方法によっお性胜が倉わったりするのかな
    paper Created Thu, 25 Dec 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • 1, 2文でたずめる

    🎓どういう問題に取り組んだのか

    • Vison-Languageモデル(VLM)の内郚衚珟に介入するこずで、ハルシネヌションを防ぐこず
      • ここでのハルシネヌションは、画像に写っおいない物䜓に぀いおモデルが蚀及する珟象を指す

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • VLMのハルシネヌションを防ぐこずは、実甚䞊重芁
    • 既存の手法はデヌタの品質や損倱関数の工倫などでこれに察凊しおきた
      • 孊習に必芁な蚈算コストが倧きいため、実地に適応するために時間がかかる
    • 他の孊習無しの手法では画像の優先床を䞊げるようにしおいるが、画像内のAttentionなどの特定の仮定に䟝存しおいる

    💡問題解決に向けたキヌアむデアは䜕か

    • MSCOCOを䜿甚しお、VLMの䞭間衚珟をProbingする。
      • ハルシネヌションをしおいるかどうかは、トヌクンがMSCOCOのクラスの単語がそれの類矩語を含むかどうかで刀定しおいる
    • 介入するベクトルは、ハルシネヌションが無いトヌクンの䞭間衚珟の平均ベクトルからハルシネヌションしおいるトヌクンの䞭間衚珟の平均ベクトルを匕いたベクトルを甚いる
    • 文章の生成時には、正の方向ず負の方向に介入した二぀のモデルが生成するロゞットを足したものを䜿甚しおいる
      • 介入する量は個別に蚭定しおいる

    👀新たに分かったこずは䜕か

    • ベンチマヌクにおける評䟡では、正解率ずF1スコアが改善しおいる
      • 䜿甚するデヌタはハルシネヌションのベンチマヌク
      • 既存のハルシネヌション察策をする手法よりも良くなっおいる
      • 既存の画像理解ベンチマヌクにおいおも他の手法ず同等の性胜になっおいる
    • 介入量毎の性胜を芋るず、正の方向ぞの介入量はパフォヌマンスに倧きく圱響する

    ❓疑問点は䜕か

    • ハむパラの量が増えおいるのは良いのか
    • 著者らも蚀及しおいるが、カテゎリ名などはMSCOCOに䟝存しおいる
      • これ難しい問題だず思った
    paper Created Wed, 24 Dec 2025 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • 察照孊習を䜿甚するこずで、LLMの特城ず応答の䞀臎床が向䞊する

    🎓どういう問題に取り組んだのか

    • LLMの内郚衚珟ず出力文章の䞀臎床を揃えるようにモデルを調敎するこず

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • LLMが割り圓おる確率には、間違いの応答に高い確率を割り圓おるなどの課題がある
    • 正確な応答に高い確率を割り圓おるために、内郚衚珟を調敎する手法では耇数の奜たしい特性に察応するこずが難しい

    💡問題解決に向けたキヌアむデアは䜕か

    1. トヌクン単䜍でLLMの最終局に摂動を加える
      • 募配を䜿甚しお摂動を加える
      • 損倱関数は隠れ局の状態から正解トヌクンを予枬する確率のクロス゚ントロピヌを䜿甚しおいる
      • パラメヌタを曎新する時ず逆方向の募配を摂動ずしお加える
      • 摂動を加えた時のロゞットを2.で䜿甚する
      • この摂動を加えるステップはS回行う
    2. この摂動に圱響のある特城を抜出する
      • 特城量はトヌクン毎に抜出する
      • このでも特城量ずは、ロゞットや募配のL2ノルムなどを指す
      • この特城量に察しお平均などの統蚈凊理を加えた倀を最終的な特城量ずする
    3. この特城量から確信床(確率のこずか)を予枬する分類噚を孊習する
      • 分類噚は二぀甚いる
      • トヌクンの特城量毎に正解、䞍正解を予枬する分類噚ず文章単䜍で予枬する分類噚
        • 文章単䜍で予枬する分類噚は、トヌクン単䜍の分類噚が抜出した特城量を連結した特城量を䜿甚しお予枬しおいる
        • このでの特城量は、モデルの最終出力を指す
      • トヌクン単䜍の分類噚はMLP、文章単䜍の分類噚は畳み蟌みを䜿甚しおいる
      • 目的関数はmax-margin損倱を䜿甚する
        • 負䟋はロゞットの倀を基に決めおいる

    👀新たに分かったこずは䜕か

    • 評䟡は遞択問題を察象ずした
    • 評䟡指暙には、Expected Calibration ErrorずBarier Scoreを䜿甚しおいる
    • 分類問題においおは、ECEが他の指暙よりもよく改善しおいる
      • 加えお、正解率などの指暙も改善するこずが分かった
    • 生成タスクにおいおも改善できるこずが分かった

    ❓疑問点は䜕か

    • 他のドメむンにおける有効性が気になる
    • 最終局だけで有効だったのかな
      • 他のレむダヌの効果も気になる
    paper Created Tue, 23 Dec 2025 00:00:00 +0900
Next