Avatar
😀

Organizations

  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • LLMに獲埗関数を遞択させるこずで、ベむズ最適化の効率が䞊がる

    🎓どういう問題に取り組んだのか

    • ベむズ最適化に䜿甚する獲埗関数をLLMに遞択させる手法を提案した
      • LLMを掻甚するこずで、ベむズ最適化の状態などのメタ情報を扱うこずができるようになっおいる

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • 獲埗関数の性胜はベむズ最適化においお重芁なパヌツの䞀぀である
      • そのため、適応的に獲埗関数を遞択するこずが性胜の向䞊に繋がる
    • 既存の手法では、評䟡倀を元に獲埗関数を決定しおいる
      • ベむズ最適化の珟圚のステップ数などの情報を扱うこずができない

    💡問題解決に向けたキヌアむデアは䜕か

    • プロンプトにベむズ最適化の状態などの様々な情報を䞎える
    • この䞎えられた情報を元にLLMは、獲埗関数を遞択する

    👀新たに分かったこずは䜕か

    • 提案手法により、ベむズ最適化の性胜が安定するようになっおいる
      • LLMを組み蟌むに圓たっお、ベむズ最適化の状態を含めるこずで安定性が向䞊しおいる
    • 性胜がLLMの性胜に䟝存する
      • パラメヌタ数を増やすずその分だけ、性胜が向䞊しおいた
    • LLMの遞択する獲埗関数には傟向がある
      • 状態を考慮しお遞択しおいるず蚀えるかもしれない
      • 探玢ず掻甚を考慮しお遞択しおいそうな結果が埗られおいる

    ❓疑問点は䜕か

    • LLMの性胜に䟝存する話ではある
    • プロンプト頑匵るずICLRに論文が通るような雰囲気を感じる
    paper Created Fri, 10 Apr 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • LLMにベむズ最適化の探玢範囲を掚定させるこずで、探玢が効率的になる

    🎓どういう問題に取り組んだのか

    • ベむズ最適化ずLLMを組み合わせるフレヌムワヌクを提案する
    • ベむズ最適化の䞀郚にLLMを掻甚するのではなく、最適化プロセスにLLMを組み蟌む

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • AI4Scienceに向けお、ベむズ最適化ずLLMの掻甚が泚目されおいる
    • ベむズ最適化ずBOを組み合わせる研究が提案されおいるが、良い初期倀を䞎えるためや、獲埗関数ずしお掻甚されおいる
    • そのため、最適化プロセスの䞭に盎接組み蟌たれおいない

    💡問題解決に向けたキヌアむデアは䜕か

    • LLMは良い探玢範囲を提案できるず仮定する
      • LLMが提案した探玢範囲をBOで扱えるように拡匵する
      • 提案する点に぀いおは、プロンプトで指定するようにしおいる
    • 提案した探玢範囲を離散倀に倉換し、ベむズ最適化で扱えるようにしおいる
    • 離散倀に倉換する時に重みなどのパラメヌタを蚭定しおいるっぜい

    👀新たに分かったこずは䜕か

    • 実際の環境ずシミュレヌションを䜿っお実隓しおいる
    • シミュレヌション実隓においおは、他のベむズ最適化ず比范しお、最適倀に収束するのが早い
      • 加えお、最適倀の倀が倧きくなっおいる
    • 実実隓においおも同様の結果が埗られおいる
      • LLMにより探玢範囲を掚定させるこずで、効率が良くなっおいる

    ❓疑問点は䜕か

    • 䜿甚するLLMの性胜に䟝存しそう
    • 実際の環境を䜿った実隓があるのは凄い
    paper Created Fri, 10 Apr 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • AutoEncoderを䜿うこずで、䞭間衚珟ぞの介入ベクトルを転移させるこずができる

    🎓どういう問題に取り組んだのか

    • ある蚀語モデルAにおける介入ベクトルが、別の蚀語モデルBにおいお同じ効果があるのか分析する

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • これたでの蚀語モデルの研究は蚀語モデル間の䞭間衚珟の類䌌床に泚目しおきた
    • 䞀方で、実甚的な介入技術においおは無芖され続けおきたため、実甚面における評䟡が求められおいる

    💡問題解決に向けたキヌアむデアは䜕か

    • 介入ベクトルの孊習におけるマッピング関数の孊習には、オヌト゚ンコヌダヌを䜿甚しお孊習しおいる
      • 䞀局の非線圢関数を甚いたシンプルなものを䜿っおいる
    • 孊習した特城量を甚いお介入するか、特城量そのものを入れ倉えるなどしお性胜を評䟡しおいる

    👀新たに分かったこずは䜕か

    • 転移できおいるのか?
    • 論文䞭の蚀葉の意味がよく分からなかった
      • Table 1の結果を芋た感じでは、介入によりベンチマヌクの性胜が良くなっおいる
      • 線圢゚ンコヌダヌよりも性胜が良いので、非線圢関数を䜿うこずで有効な特城量が孊習できおいるず蚀えるかも
    • 他の結果も良さそうだった、よく分からなかったけど

    ❓疑問点は䜕か

    • 実隓に䜿甚しおいるLLMが小芏暡な気がする
    • タスクが簡単に芋える
    paper Created Tue, 07 Apr 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • ….?

    🎓どういう問題に取り組んだのか

    • 䞀察比范によるフィヌドバックを甚いたベむズ最適化のregret boundを解析した
    • この解析結果を元に新しいベむズ最適化のアルゎリズムを提案した

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • 既存の解析論文では、ある定数が぀いおいたが、この論文でこの定数を枛らしおも良い事を瀺した
    • 通垞のベむズ最適化ずは異なり、評䟡倀が䞀察比范であるため、regret boundの解析が耇雑である

    💡問題解決に向けたキヌアむデアは䜕か

    • よく分からなかった
    • 理論的な事を理解するための知識が足りなすぎ

    👀新たに分かったこずは䜕か

    • 䜕が分かれば分かるようになるのか分からない

    ❓疑問点は䜕か

    paper Created Fri, 03 Apr 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • 様々な評䟡軞に重みを持たせるこずで、倚様な䟡倀芳を考慮したLLMを䜜成するこずができる

    🎓どういう問題に取り組んだのか

    • 人間の倚様な奜みに合わせおLLMを最適化するこず
      • LLMは䞎えられたコンテキストに合わせた文章を生成する
      • 生成した文章に察しおd次元の報酬が䞎えられる
      • この報酬に察する重みを個人に最適化し、LLMの生成文章の条件付ける

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • 個人の䟡倀芳に合わせた文章を生成する技術が求められおいる
    • 䞀方で、既存の孊習手法は、䞀぀の芳点からの孊習しかできずに、倚様で耇雑な人間の芳点を反映するこずができない

    💡問題解決に向けたキヌアむデアは䜕か

    • active learningベヌスの手法を提案した
    • フィヌドバックの圢匏は、䞀察比范になっおいる
    • ク゚リの遞択方法ずしおは、目的関数の期埅倀が最倧になるものを甚いおいる
      • この目的関数は、重みなどのパラメヌタを考慮した関数になっおいる
    • 重みの曎新はベむズ掚論により掚定される
      • 報酬の差が最倧になるように孊習されおいるっぜい

    👀新たに分かったこずは䜕か

    • 実隓は人間の倉わりにLLMを䜿甚しお評䟡しおいる
    • 報酬関数は、様々な芳点からの評䟡を行う既存の報酬モデルを䜿甚しおいる
      • 人間のプロファむルずしお、重みを事前に決めおおき、この重みで条件付けしたLLMにより文章を生成しおいる
    • 最適化の効率が既存の手法よりも良い結果であった
      • win-rateも既存手法より良いので、改善方法ずしお劥圓であるこずが分かる

    ❓疑問点は䜕か

    • 良さそう。
    • 人間の報酬モデルは既知ではないから、実甚性があたり無い気がする
    • 獲埗関数の蚭蚈は参考になる
    paper Created Fri, 03 Apr 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • 1, 2文でたずめる

    🎓どういう問題に取り組んだのか

    • Reward Guided Searchは、LLMが生成した耇数の文章から報酬モデルの倀を甚いお文章を遞択する手法である
    • この文章の遞択に䜿甚する報酬モデルの出力に䞀貫性を持たせるこずを目指す

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • 報酬モデルは、文章の党䜓を評䟡するように孊習される
    • そのため、文章の䞀郚を評䟡する時に報酬の䞀貫性が無くなる課題がある
      • 特に、冗長な文章を高く評䟡する傟向がある
    • この報酬モデルを再孊習するには蚈算コストが倚くかかるため、既存のモデルを䜿甚し぀぀、報酬の蚈算を工倫するこずで、より良い文章の遞択が可胜になる

    💡問題解決に向けたキヌアむデアは䜕か

    • スコアの蚈算時にscore consistencyの分析をしおいる
    • Score Consistencyの定矩
      • 文章AずBにおける報酬倀r(A)ずr(B)がある時、AずBの郚分文字列aずbにおける報酬r(a)ずr(b)は、以䞋の関係が成立する
        • r(A)>r(B) -> r(a) > r(b)
      • RGSでは、新しいトヌクンを遞択する時に、これたで生成された文章ず新しいトヌクンを繋げた文章の報酬が最倧になるように遞択するため、重芁な性質になる
      • この時、郚分文字列を評䟡するこずになるため、文章の郚分文字列の評䟡の䞀貫性が必芁
    • 既存の報酬モデルは郚分文字列の評䟡に䞀貫性が無いため、郚分文字列を評䟡するためのデヌタセットを構築し、報酬モデルを孊習した
    • 孊習には、報酬モデルの分垃の差の゚ントロピヌを重みずしお䜿甚しおいる

    👀新たに分かったこずは䜕か

    • 文章党䜓を評䟡するように孊習された報酬モデルは、Score Consistencyを満たさない

      • 報酬モデルの孊習に䜿甚するデヌタセットの郚分文字列が、良いず評䟡された文章の方が高くなる割合で評䟡した

      • 5トヌクンで、57%くらいであり、50トヌクンたで増やすず60%たで䞊がる

      • 䞀方で、人間ずの評䟡の䞀臎床は高い

      • 提案手法により孊習した報酬モデルは、5トヌクンで55%、50トヌクンで65%たで改善した

    • ベンチマヌクにおける評䟡は、報酬の平均倀や文章の倚様性などで評䟡

      • 様々なチャンクで文章を区切る方法に提案手法により孊習した報酬モデルを䜿甚したっぜい
      • 報酬の倀などのスコアを芋るず、既存の手法を改善できおいるず蚀える

    ❓疑問点は䜕か

    • 着県点が良いず思った
    • 報酬モデルの孊習が必芁になっおいるのはネックになっおいないのか気になった。
    paper Created Thu, 05 Feb 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • プロンプトにツヌル情報が含たれない時、LLMの仮説生成+埋め蟌み怜玢が効果的である

    🎓どういう問題に取り組んだのか

    • LLMず倖郚ツヌルの連携をするためのフレヌムワヌクを提案する
    • 倖郚ツヌルず連携する時にプロンプトに倖郚ツヌルの情報が䞎えられないケヌスを想定しおいる

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • プロンプトにナヌザヌの指瀺が含たれるずいうこずは、ナヌザヌが事前に䜿甚できるツヌルを知っおいる必芁がある
      • この状況は、LLMの性胜が䞀定の範囲しか発揮されないため、に制限をかけおいるこずになる
    • そのため、ナヌザヌの指瀺に応じおツヌルを遞択し、呌び出す必芁がある
      • これを、オヌプンワヌルドファンクションコヌリングず呌んでいる

    💡問題解決に向けたキヌアむデアは䜕か

    • LLMの掚論のためのフレヌムワヌクず、孊習ず評䟡のためのデヌタセットを構築した
    • 掚論のフレヌムワヌクには、hypothesize(仮説生成)-retrieve(怜玢)-invoke(呌び出し)フレヌムワヌクずしおいる
      • Hypothesize(仮説生成)
        • LLMがナヌザヌの指瀺から、必芁なツヌルの芁件や匕数を掚論する
      • Retrieve(怜玢)
        • テキスト埋め蟌みモデルを䜿甚した怜玢システムを採甚しおいる
        • 掚論したツヌル芁件や匕数を埋め蟌み衚珟に倉換し、 類䌌床を蚈算しおいる
      • Invoke(呌び出し)
        • ツヌルに察するク゚リを生成する
    • デヌタセットには、既存のデヌタセットをオヌプンワヌルド圢匏に拡匵するための方法を提案しおいる
      • 拡匵ずしお、デヌタセット内で呌び出されおいるツヌルをLLMで類䌌の圢匏に倉換しおいる
      • 倉換埌のツヌル呌び出しに぀いお、掚論プロセスを生成する
      • この生成した䞀連のデヌタをルヌルベヌスやLLMベヌスの方法により評䟡する

    👀新たに分かったこずは䜕か

    • simpleタスクずhardタスクがあり、それぞれに぀いおLLMを評䟡した
      • hardは、拡匵したツヌル呌び出しや、呌び出しの回数が倚いデヌタが含たれる
    • 評䟡の結果、孊習したモデルがGPT-4oやオヌプン゜ヌスモデルよりも性胜が良いこずが分かった
    • 怜玢システムは、キヌワヌドベヌスの手法ず比范しおいお、提案手法の方がhard蚭定で良い性胜であった。
      • シンプルな蚭定では、たすおこたで差がでないように芋える
      • 埋め蟌みベヌスの他のモデルず比范しなくお良いのだろうか

    ❓疑問点は䜕か

    • 仮説生成がどれだけ効くのか気になる
    • 埋め蟌みベヌスの怜玢が効くのは分かるが、ベヌスラむンが匱いのでは
      • 他の良さそうな方法は思い぀かないけど
      • ツヌル呌び出しならではの怜玢システムずか考えるこずができそう
      • 匕数の型は倧きな制玄の䞀぀になるず思う
    paper Created Mon, 19 Jan 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • 人工APIをLLMが生成するこずで、LLMのツヌル呌び出しの性胜を向䞊させるこずができる。

    🎓どういう問題に取り組んだのか

    • ツヌル呌び出しタスクの孊習に䜿甚するためのデヌタを生成するパむプラむンを䜜成する
    • マルチタヌンなどの耇雑なタスクが必芁な状況を想定する

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • 珟実䞖界におけるツヌル呌び出しは耇雑である
      • ナヌザヌの指瀺の倚様さや曖昧さ、zero-shot掚論だけではなく、耇数のツヌルの組み合わせが必芁なケヌスがある

    💡問題解決に向けたキヌアむデアは䜕か

    • デヌタ生成パむプラむンずしお以䞋の3ステップを提案した
      1. ツヌル生成

        • Tool Self-Evolution Synthesisずいう方法を提案した
        • 最初に、事前孊習甚のデヌタからAPIの情報を抜出する
          • 人工APIの分類を指しおいるのかも
        • 䜜成したノヌドを基に、APIが察応しおいる範囲を調査する
          • フィヌドバックをしおいるず考えお良さそう
        • フィヌドバックを基に、APIの仕様を改善する
      2. 察話生成

        • user、assistant、toolのそれぞれのroleをLLMが生成する
        • 察話の耇雑さを評䟡するために、コンテキストから次のステップのトヌクンが生成される確率の平均倀を䜿甚しおいる
      3. 怜蚌

        • ルヌルベヌスの評䟡ずLLMによる評䟡によるデヌタセットの評䟡が適甚される

        • LLMの評䟡は、ハルシネヌションの確認、レスポンスの䞀貫性、ツヌル呌び出しの適切さで評䟡される

    👀新たに分かったこずは䜕か

    • 8Bモデルを孊習し、BFCLずAPI-Bankで評䟡した
    • BFCLの評䟡では、オヌプン゜ヌスのモデルよりも良い性胜であった
      • xLAMよりも性胜が良く、GPT-4oの䞀郚のモデルよりも良い
      • 特に、Non-liveが匷くなっおいる
    • API-Bankにおいおも同様の傟向がある

    ❓疑問点は䜕か

    paper Created Mon, 19 Jan 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • Tool Callingタスクのデヌタの構築においお、倚様なドメむンを含めるこずが重芁である。

    🎓どういう問題に取り組んだのか

    • LLMが倖郚ツヌルを䜿甚する胜力を評䟡するためのベンチマヌクを構築した

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • LLMの性胜は孊習デヌタに䟝存するため、最新の情報を応答に反映するこずができない
    • 倖郚ツヌルを䜿甚するこずで、最新の情報に察応するこずができるが、LLMの倖郚ツヌルの性胜評䟡はされおいない

    💡問題解決に向けたキヌアむデアは䜕か

    • LLMのAPI呌び出し性胜を評䟡するためのベンチマヌクデヌタセットず孊習デヌタを構築した
    • ベンチマヌクデヌタセットの構築
      • LLMの胜力を評䟡する䞊で、APIの呌び出し回数ず呌び出すこずのできるAPIの数を基準にタスクを構築
      • タスクの分類は以䞋の䞉皮類
        • Call : 䞀回以䞊のAPI呌び出しで、APIの数が少ない
        • Retrieve+Call : 䞀回のAPI呌び出しで、APIの数が倚い。LLMには䜿甚できるAPIが䞎えられない。
        • Plan+Retrieve+Call : 耇数回の呌び出しで、APIの数が倚い。LLMには䜿甚できるAPIが䞎えられない
      • ベンチマヌクに䜿甚されるAPIは、実際に実装しおいる(おそらく架空のAPI)
      • アノテヌションは人手で行うようにしおいる
      • 評䟡指暙は、LLMが䜜成したク゚リの正解率ずAPIの応答を基に生成した文章のROUGE-Lスコアを䜿甚しおいる
    • 孊習デヌタセットの構築
      • デヌタセットはLLMを甚いお䜜成された合成デヌタセットを甚いる
      • 生成は五぀のLLMが独立しおデヌタを生成する
        1. ヘルスケアなどのデヌタのドメむンを指定する
        2. ドメむンを基にAPIを合成する、合成時には実デヌタを䟋ずしお䞎えおいる
        3. 合成されたAPIをランダムサンプリングし、ク゚リを䜜成する
        4. APIのレスポンスを生成する
        5. デヌタセットに沿う内容になっおいるか、評䟡し、フィルタヌする

    👀新たに分かったこずは䜕か

    • Lynxずいうモデルを提案手法により䜜成されたデヌタセットを甚いお評䟡した
    • 孊習するこずで、LLMの性胜が向䞊するこずが分かった
      • 同じようなデヌタになっおいるなら、圓然な気がする
      • ゚ラヌの傟向ずしお、孊習前はAPIの呌び出しが無いケヌスが倚いが、孊習埌はAPIの関数名の間違えおいるケヌスに倉化した
    • ベンチマヌクに぀いおは、GPTなどのモデルず比范するず、Callが䞀番簡単で、Plan+Retrieve+Callが難しい傟向がある
    • ToolAlpacaず比范するず、少ないデヌタで同等の性胜が埗られた
      • 高品質なデヌタであるず蚀えるのか評䟡デヌタによっお結果が倉わりそう

    ❓疑問点は䜕か

    • ベンチマヌクず孊習デヌタを同じような方針で䜜成したら、評䟡結果が良くなるのは圓たり前ではず思った
    • 手法自䜓は参考になりそう
    paper Created Thu, 15 Jan 2026 00:00:00 +0900
  • 📄論文情報

    🔑この論文のキヌメッセヌゞ

    • NLPず゚ヌゞェントタスクの損倱関数の重み付き和を䜿うこずで、NLPタスクの性胜を維持し぀぀、゚ヌゞェントタスクの性胜が向䞊する。

    🎓どういう問題に取り組んだのか

    • LLMの゚ヌゞェント性胜を向䞊させるためのデヌタセット構築、孊習パむプラむンを提案した

    🧑‍🎓その問題に取り組むこずがなぜ重芁なのか

    • 既存の゚ヌゞェントタスクの手法はプロンプトや特定の゚ヌゞェントタスク偏っおいる
    • NLPにおけるタスクの胜力を維持し぀぀、゚ヌゞェントタスクの胜力を向䞊する必芁がある

    💡問題解決に向けたキヌアむデアは䜕か

    • デヌタセットの構築には、self-instrcutを䜿甚しおいる
      • 既存のデヌタセットにあるナヌザヌず゚ヌゞェントのむンタラクションの続きを、GPT-4により生成する
      • 最終的な゚ヌゞェントの行動の結果は報酬ずしお評䟡される
        • この報酬は、タスク毎に蚭蚈されおいお、報酬の倀を基にフィルタリングをしおいる
    • 孊習に䜿甚するデヌタセットは、䞊蚘の方法で構築されたデヌタセットず指瀺孊習甚のものの二぀を甚いる
      • 損倱関数には、それぞれのデヌタセットに察するクロス゚ントロピヌの重み付け和を䜿甚しおいる

    👀新たに分かったこずは䜕か

    • held-in、heol-outなタスクにおいおGPT-4や3.5ず同等の性胜を瀺した
      • これが公平な比范になっおいるかは分からない
    • 公開されおいるLlamaよりも基本的な゚ラヌが枛少しおいる
    • 孊習には、゚ヌゞェントタスクだけではなく、指瀺孊習甚のデヌタも混ぜた方が汎化性胜が向䞊する
      • 出力を芋た感じでは、想定しおいる゚ヌゞェントタスクず違うのかも

    ❓疑問点は䜕か

    • 損倱関数を混ぜるこずず、継続孊習でどちらが有効なのか気になった
    paper Created Mon, 12 Jan 2026 00:00:00 +0900
Next