所属 : 東京大学総合文化研究科広域科学専攻広域システム科学系 学年 : D1
Popular posts
面白かった。
この本を読む前は、カウンセリングについて話を傾聴する程度の印象しかなかった。 序盤に、カウンセリングについての説明が以下のようにされている。
カウンセリングとは、心の問題に苦しんでいる人に対して、心理的に理解して、それに即して必要な心理学的介入を行う専門的な営みである。
この文章が、本文中にあるカウンセリングの具体例や、説明を通してとてもよく理解できた気がする。 特に四章の冒険としてのカウンセリングのエピソードは、カウンセリングに専門知識が必要であることが実感できた。
心の変化に二種類あると捉えているのは視点だった。 科学的な変化と文学的な変化の両方がある。 科学的な変化とは脳内物質の変化による心の変化、文学的な変化とは、過去に意味付けを行い物語ることで今を認識する事を通して心を変化させる。 科学的な変化は直感的に受け入れることができたけど、今でも文学的な変化について腹落ちして理解できているかは怪しい。 この変化を小説では描いているのでは?というような気もしてきて、色んな発見がある本だった。
📄論文情報
- Learning to Reason from Feedback at Test-Time
- ACL 2025 Long
🔑この論文のキーメッセージ
- フィードバックを用いてモデルを更新することで、過去の推論結果を活かしつつ推論の性能が向上する
🎓どういう問題に取り組んだのか
- テスト時におけるフィードバックからLLMを更新する
- テスト時において推論を行い、その結果を用いて再度推論するというタスクになる
- この時に、過去の経験を上手く活用してLLMを更することを目指す
🧑🎓その問題に取り組むことがなぜ重要なのか
- 従来の手法では、Sequential RevisionとParallel samplingがある
- Sequential Revisionは、過去のトライアル結果をプロンプトに含める方法
- Parallel Samplingは過去の結果に関わらず、何度か予測する方法になる
- Sequential Revisionはコンテキスト長が長くなりやすいため、計算コストが高くなりやすく位置バイアスの影響もある
- Parallel samplingは効率的であるが、過去のエラーを考慮しない課題がある
💡問題解決に向けたキーアイデアは何か
- 過去のトライアルよりも、モデルの重みに重点を置いた手法を提案いている
- 損失関数と効率的なOptimizerを提案している
- LLMは問題に対する解答をすると、検証モデルが正解かどうかを判定する
- 不正解である場合、検証モデルは不正解であるという固定の文章を生成する
- 追加のフィードバックとしてLLMが文章生成する
- これらの二つのフィードバックに対してクロスエントロピーが最小になるように学習を進める
- モデルのパラメータ内に過去の経験が保存されるという話
- Optimizerについてはよく分からなかった
- PEFTを参考にしたみたい。。。?
👀新たに分かったことは何か
- Parallel Samplingでは20GPU/hだったのに対して、提案手法では4GPU/hに改善された
- トライアルの回数毎に比較すると、提案手法は回数が増える程性能が良くなっている
- 手法によっては、低下しているものもある
- Optimizerの比較では、LoRAと比較して少ないパラメータで良い性能になっている
❓疑問点は何か
- Sequential Samplingと提案手法の計算コストが違いすぎないか
- Optmizerの立ち位置が分からない
- これ別の手法ではない?
📄論文情報
🔑この論文のキーメッセージ
- DPOを基にした報酬を活用して文章のデコーディングや負例の選択をすることは、パーソナライズにおいて有効である
🎓どういう問題に取り組んだのか
- LLMが文章を生成する時に、ユーザーの意図を推定しながら文章を生成するようにする
🧑🎓その問題に取り組むことがなぜ重要なのか
- ユーザーの意図に沿う応答を生成することはLLMの実用上重要である
- 現状は、プロンプトベースの方法とLoRAなどモデルのパラメータを更新する方法の二種類がある
- プロンプトベースの手法では、ユーザーのデータから学習することが無いため効果が限定的である課題がある
- パラメータを更新する手法では、破滅的忘却や計算コストの面から課題がある
💡問題解決に向けたキーアイデアは何か
- 基本的にLoRAを想定した手法になっている
- 文章のデコーディングには、報酬ベースの手法を使用している
- 閾値より大きな確率のトークン集合を得る
- 基モデルとLoRAを適用したモデルがそのトークンを生成する確率の比を報酬とする
- この報酬が最大になるトークンを選択してデコーディングする
- モデルの学習には、DPOを使用している
- データセットの構築のためには、LLMが生成したいくつかの例の中から上記の報酬が最も小さいものを負例としている
👀新たに分かったことは何か
- プロンプトベースの手法は、性能向上が限定的であること
- ベースモデルよりも悪くなることがある
- 特に長文において性能が低下することが確認できた
- 提案手法は、学習ベースの手法よりも良いモデルが学習できていた
- 報酬ベースのデコーダとDPOの効果は同程度であった
❓疑問点は何か
📄論文情報
- Self-Guided Function Calling in Large Language Models via Stepwise Experience Recall
- EMNLP 2025 findings
🔑この論文のキーメッセージ
- LLMのFunction Callingタスクのデータの拡張のためには、呼び出されているタスクの一致度なども入れると良い
🎓どういう問題に取り組んだのか
- LLMを外部APIと連携するタスクであるFunction Callingの性能を向上するような学習する
- 学習に使用するプロンプトに含める例を工夫する手法にしている
🧑🎓その問題に取り組むことがなぜ重要なのか
- 学習データやモデルのパラメータ数を単に増やしても、実世界インタラクションは解決することができない
- 既存のFunction Callingの学習手法は、具体例を手動で付与しているため大規模にしづらい課題がある
💡問題解決に向けたキーアイデアは何か
- 類似の例を取得するための方法として、以下の三種類の指標を用いる
- ユーザーのクエリと軌跡の埋め込み表現の類似度
- 軌跡とは、ユーザーの入力と呼び出されたツールの応答を複数ステップ繰り返したものを指す
- 類似度の指標には、正規化コサイン類似度を使用する
- 呼び出しツールの一致度
- 実際に使用されているツールの一致度を使用している
- 意図アラインメント
- 使用する意図は、事前に定義されているクラスに分類されている
- 類似度の検索に使用する履歴が与えられた時に意図を何らかの方法で推定しているのかも?
- ユーザーのクエリと軌跡の埋め込み表現の類似度
- 最終的な類似度は、これらの重み付け和になっている
- 類似度を計測するためのデータ集合は新たな軌跡が得られた時に更新する
- LLMでユーザーの意図が達成できたと分類された時にデータ集合に追加する
👀新たに分かったことは何か
- ToolQAやτ-benchによる評価では、既存手法よりも概ね良い性能であった
- ベースライン手法はTool Augmented LLMらしい
- Ablation Studyでは、2と3の指標のどちらも重要っぽいことが示されている
- ToolQAのEasyでは3を無くすとスコアが大きく下がり、Hardでは2を無くす時が大きくスコアが下がった
- 全体的には3の影響度が大きそうだけど、これは良く分かんないなあ
❓疑問点は何か
特になし
📄論文情報
🔑この論文のキーメッセージ
- (1, 2文でまとめる)
🎓どういう問題に取り組んだのか
- LLMの内部表現に介入する手法の評価をするためのベンチマークデータセットを構築した
🧑🎓その問題に取り組むことがなぜ重要なのか
- LLMの内部表現に介入する様々な手法が提案されている。
- だが、統一したベンチマークが存在しないため公平な評価ができていないという課題がある。
💡問題解決に向けたキーアイデアは何か
- Concept DetectionとModel Steeringの二つの指標を評価するためのデータセットを構築した
- Concept Detectionはシンプルな分類問題
- Model Steeringは、生成した文章をLLMが評価するものになる
- データの用意のために、GPT-4oを使用したデータ拡張が行なわれている
- Concept Dataset Generation
- データセットの形式はPreferenceデータセットと同じ形式になっている
- 指示とポジティブなデータはLLMにより生成されている
- ネガティブなデータには、異なるコンセプトに属するレスポンスを使用している
- タスクの評価指標には、特定のレイヤーの各トークンの中間表現を用いて分類器が予測した確率の最大値を用いている
- 分類器の予測は[0-1]の一次元の出力になる
- Model Steering
- 評価指標
- LLMが応答を0、1、2のいずれかで評価する
- スコアは、Concept、Instructoin、Fluencyの3つを使用する
- 最終スコアは、調和平均を使用している
- 評価指標
- 論文中で報告されているのは、特定のレイヤーにおけるスコアになっている
- Model Steeringでは特定のレイヤーに介入した時のスコアになっている
👀新たに分かったことは何か
- Concept DetectionではProbeベースの手法が、SAEを使用する手法よりも良い性能であった
- 評価指標は、AUROCを用いている
- 特に、SAEはデータのバランスが悪いと性能が低下する傾向がある
- Model Steeringにおいては、SAEの方が良い性能であるがLoRAやSFTよりも性能が低い結果であった
❓疑問点は何か
- Model Steeringのスコアにおいて、定量的なものが採用されていないのが気になる
- LLMによる評価だけで良いのかはとても疑問
- Gemma以外のモデルの性能はどうなのだろう
イン・ザ・プールを読んだ。 奥田英朗さんによる作品で、精神科医伊良部シリーズの最初の話。 この医者が変わった病気を持つ人達を治療するかもしれないし、しないかもしれない話だ。
全部で五つの短編が集録されていて、読みやすかった。 集録されているのは以下の五編。
- イン・ザ・プール
- 勃ちっぱなし
- コンパニオン
- フレンズ
- いてもたっても
フレンズが一番のお気に入りの作品。 携帯依存症の高校生の話で、その高校生は日々頑張って友達関係を維持している。 この友情関係の維持のしかたが、とてもいたたまれない様子で、自分に刺さった。 こういう時期ってあるよな〜って感情移入できた。
全体的に明確に解決しているとは書かれていないが、ネガティブな終わり方もしていなくて、読後感はとても良かった。
映画化されているらしい。