Kei Moriyama

😀

Kei Moriyama keimoriyama

D1 @babalablab

Organizations

Personalized Text Generation with Contrastive Activation Steering
📄論文情報
- Personalized Text Generation with Contrastive Activation Steering
- ACL2025 long
🔑この論文のキーメッセージ
- LLMが生成する応答を人間が書いた応答を比較することで、LLMが生成する文章のスタイルを合わせることができる。
🎓どういう問題に取り組んだのか
- LLMの内部表現に介入して、生成する文章を個人に最適化すること
🧑‍🎓その問題に取り組むことがなぜ重要なのか
- ユーザー毎に最適化されたテキストを生成する需要が高まっている
- 既存の手法はRAGやPEFTによる手法が注目されている
  これらの手法は計算コストが高いことや、ユーザー特有の言い回しに影響されやすい
💡問題解決に向けたキーアイデアは何か
- LLMの隠れ層に介入することで、個人に最適化された文章を生成すること
- 前提として、あるユーザーのプロンプトとそれに対する応答がある
- 最初に、LLMはプロンプトに対する応答を生成する
- プロンプトと応答を繋げた文章の最終トークンに該当する特徴量を使って介入する方向の計算をする
  ユーザーの応答を繋げた場合の特徴量をポジティブ、LLMの応答を繋げた場合の特徴量をネガティブとしている
  こうすることで、今のLLMがその人に合わせるためにどれくらい介入すれば良いか計算できる
  方向の計算には、様々な方法を使用している
  PCAとか、Mean Differenceなどなど
- ここで計算したベクトルを用いて介入する
👀新たに分かったことは何か
- 個別最適化ベンチマークのLaMPで評価した
  短文を評価するものと長文を評価するものの二つがある
- 提案手法は、RAGやPEFTの手法よりも良い性能を示している
- 介入量により性能が大きく変わる
  提案手法により推定された介入ベクトルにおいて正の方向に介入するとユーザーのスタイルを反映しやすくなるが、負の方向にするとスタイルが関係無くなってしまう
❓疑問点は何か
- 実験のスタイルベクトルの計算には何を使用したのだろうか？
  スタイルベクトルの計算方法によって性能が変わったりするのかな
paper Created Thu, 25 Dec 2025 00:00:00 +0900
よい対立・悪い対立
よい対立・悪い対立を呼んだ。よい対立は、健全な対立と呼ばれている。本の中には以下のように書かれている。
自らを守り、互いを理解し合い、向上してくために欠かせないもの、それが健全な対立だ。
これに対して、悪い対立は不健全な対立と呼ばれ、本の中では以下のように書かれていた。
「善と悪」「わたしたちと彼ら」といった、相反する関係が明確になった時に起こるのが不健全な対立だ。
この二項対立的な構図は色々な所で見たことある気がした。
悪い対立に落ちてしまっても、よい対立に戻ることができるようになる事例が紹介されていて希望が持てた。でも、これを実践するため、これまでの言説や行動を変える必要がある。周りの人々は、突然の本人の変化を止めようと説得してきたりしてきていた。二つの異なる事例で、同じような行動を周りの人が取っていて「なるほどなあ」となった。本当に、よい対立に戻ることの難しさを感じた。
二項対立的に考えて、人にレッテルを貼る所があるので、気をつけていきたい。そういう人に対して冷たく当たるのではなく、きちんと意見を交換できるような謙虚な姿勢を取れるようになりたい。まずは、人の話をきちんと聞くことから始める。
book Created Thu, 25 Dec 2025 00:00:00 +0900
Activation Steering Decoding: Mitigating Hallucination in Large Vision-Language Models through Bidirectional Hidden State Intervention
📄論文情報
🔑この論文のキーメッセージ
- （1, 2文でまとめる）
🎓どういう問題に取り組んだのか
- Vison-Languageモデル(VLM)の内部表現に介入することで、ハルシネーションを防ぐこと
  ここでのハルシネーションは、画像に写っていない物体についてモデルが言及する現象を指す
🧑‍🎓その問題に取り組むことがなぜ重要なのか
- VLMのハルシネーションを防ぐことは、実用上重要
- 既存の手法はデータの品質や損失関数の工夫などでこれに対処してきた
  学習に必要な計算コストが大きいため、実地に適応するために時間がかかる
- 他の学習無しの手法では画像の優先度を上げるようにしているが、画像内のAttentionなどの特定の仮定に依存している
💡問題解決に向けたキーアイデアは何か
- MSCOCOを使用して、VLMの中間表現をProbingする。
  ハルシネーションをしているかどうかは、トークンがMSCOCOのクラスの単語がそれの類義語を含むかどうかで判定している
- 介入するベクトルは、ハルシネーションが無いトークンの中間表現の平均ベクトルからハルシネーションしているトークンの中間表現の平均ベクトルを引いたベクトルを用いる
- 文章の生成時には、正の方向と負の方向に介入した二つのモデルが生成するロジットを足したものを使用している
  介入する量は個別に設定している
👀新たに分かったことは何か
- ベンチマークにおける評価では、正解率とF1スコアが改善している
  使用するデータはハルシネーションのベンチマーク
  既存のハルシネーション対策をする手法よりも良くなっている
  既存の画像理解ベンチマークにおいても他の手法と同等の性能になっている
- 介入量毎の性能を見ると、正の方向への介入量はパフォーマンスに大きく影響する
❓疑問点は何か
- ハイパラの量が増えているのは良いのか？
- 著者らも言及しているが、カテゴリ名などはMSCOCOに依存している
  これ難しい問題だと思った
paper Created Wed, 24 Dec 2025 00:00:00 +0900
Calibrating LLM Confidence by Probing Perturbed Representation Stability
📄論文情報
- Calibrating LLM Confidence by Probing Perturbed Representation Stability
- EMNLP 2025 main
🔑この論文のキーメッセージ
- 対照学習を使用することで、LLMの特徴と応答の一致度が向上する
🎓どういう問題に取り組んだのか
- LLMの内部表現と出力文章の一致度を揃えるようにモデルを調整すること
🧑‍🎓その問題に取り組むことがなぜ重要なのか
- LLMが割り当てる確率には、間違いの応答に高い確率を割り当てるなどの課題がある
- 正確な応答に高い確率を割り当てるために、内部表現を調整する手法では複数の好ましい特性に対応することが難しい
💡問題解決に向けたキーアイデアは何か
1. トークン単位でLLMの最終層に摂動を加える
  勾配を使用して摂動を加える
  損失関数は隠れ層の状態から正解トークンを予測する確率のクロスエントロピーを使用している
  パラメータを更新する時と逆方向の勾配を摂動として加える
  摂動を加えた時のロジットを2.で使用する
  この摂動を加えるステップはS回行う
2. この摂動に影響のある特徴を抽出する
  特徴量はトークン毎に抽出する
  このでも特徴量とは、ロジットや勾配のL2ノルムなどを指す
  この特徴量に対して平均などの統計処理を加えた値を最終的な特徴量とする
3. この特徴量から確信度(確率のことか？)を予測する分類器を学習する
  分類器は二つ用いる
  トークンの特徴量毎に正解、不正解を予測する分類器と文章単位で予測する分類器
  文章単位で予測する分類器は、トークン単位の分類器が抽出した特徴量を連結した特徴量を使用して予測している
  このでの特徴量は、モデルの最終出力を指す
  トークン単位の分類器はMLP、文章単位の分類器は畳み込みを使用している
  目的関数はmax-margin損失を使用する
  負例はロジットの値を基に決めている
👀新たに分かったことは何か
- 評価は選択問題を対象とした
- 評価指標には、Expected Calibration ErrorとBarier Scoreを使用している
- 分類問題においては、ECEが他の指標よりもよく改善している
  加えて、正解率などの指標も改善することが分かった
- 生成タスクにおいても改善できることが分かった
❓疑問点は何か
- 他のドメインにおける有効性が気になる
- 最終層だけで有効だったのかな
  他のレイヤーの効果も気になる
paper Created Tue, 23 Dec 2025 00:00:00 +0900
イランの地下世界
イランの地下世界を読んだ。イランで生活している著者が一般市民の生活の様子やイスラム社会を描いている。
中東情勢といえばきな臭い印象があるが、この本を読んで視点が変わった所か興味すら出てきた。スカーフの話は面白かった。ここで言うスカーフは、イスラム教の戒律において女性が身につけるための布である。この布を公共の場で外すことで、イスラム社会やイラン政権などへの抵抗を示すこともできる。それに対して、スカーフさえ着けてればイスラム社会で出世することができたりするらしい。このような人達を著者は「イスラム・ヤクザ」と呼んでいて、面白かった。
スカーフを巡る話だけでも十分にイランやイスラム社会への興味が向けられて良かった。他にも、イスラム教で禁止されている酒や肉の話などがあった。イランが多民族であることが関係していて、世界は単純ではないということを改めて実感できた。
book Created Sun, 21 Dec 2025 00:00:00 +0900
カウンセリングとは何か変化するということ
面白かった。
この本を読む前は、カウンセリングについて話を傾聴する程度の印象しかなかった。序盤に、カウンセリングについての説明が以下のようにされている。
カウンセリングとは、心の問題に苦しんでいる人に対して、心理的に理解して、それに即して必要な心理学的介入を行う専門的な営みである。
この文章が、本文中にあるカウンセリングの具体例や、説明を通してとてもよく理解できた気がする。特に四章の冒険としてのカウンセリングのエピソードは、カウンセリングに専門知識が必要であることが実感できた。
心の変化に二種類あると捉えているのは視点だった。科学的な変化と文学的な変化の両方がある。科学的な変化とは脳内物質の変化による心の変化、文学的な変化とは、過去に意味付けを行い物語ることで今を認識する事を通して心を変化させる。科学的な変化は直感的に受け入れることができたけど、今でも文学的な変化について腹落ちして理解できているかは怪しい。この変化を小説では描いているのでは？というような気もしてきて、色んな発見がある本だった。
book Created Tue, 09 Dec 2025 00:00:00 +0900
Learning to Reasson from Feedback as Test-Time
📄論文情報
- Learning to Reason from Feedback at Test-Time
- ACL 2025 Long
🔑この論文のキーメッセージ
- フィードバックを用いてモデルを更新することで、過去の推論結果を活かしつつ推論の性能が向上する
🎓どういう問題に取り組んだのか
- テスト時におけるフィードバックからLLMを更新する
  テスト時において推論を行い、その結果を用いて再度推論するというタスクになる
- この時に、過去の経験を上手く活用してLLMを更することを目指す
🧑‍🎓その問題に取り組むことがなぜ重要なのか
- 従来の手法では、Sequential RevisionとParallel samplingがある
  Sequential Revisionは、過去のトライアル結果をプロンプトに含める方法
  Parallel Samplingは過去の結果に関わらず、何度か予測する方法になる
- Sequential Revisionはコンテキスト長が長くなりやすいため、計算コストが高くなりやすく位置バイアスの影響もある
- Parallel samplingは効率的であるが、過去のエラーを考慮しない課題がある
💡問題解決に向けたキーアイデアは何か
- 過去のトライアルよりも、モデルの重みに重点を置いた手法を提案いている
  損失関数と効率的なOptimizerを提案している
- LLMは問題に対する解答をすると、検証モデルが正解かどうかを判定する
  不正解である場合、検証モデルは不正解であるという固定の文章を生成する
  追加のフィードバックとしてLLMが文章生成する
  これらの二つのフィードバックに対してクロスエントロピーが最小になるように学習を進める
  モデルのパラメータ内に過去の経験が保存されるという話
  Optimizerについてはよく分からなかった
  PEFTを参考にしたみたい。。。？
👀新たに分かったことは何か
- Parallel Samplingでは20GPU/hだったのに対して、提案手法では4GPU/hに改善された
- トライアルの回数毎に比較すると、提案手法は回数が増える程性能が良くなっている
  手法によっては、低下しているものもある
- Optimizerの比較では、LoRAと比較して少ないパラメータで良い性能になっている
❓疑問点は何か
- Sequential Samplingと提案手法の計算コストが違いすぎないか
- Optmizerの立ち位置が分からない
  これ別の手法ではない？
paper Created Fri, 28 Nov 2025 00:00:00 +0900
Personalized LLM Decoding via Contrasting Personal Preference
📄論文情報
- Personalized LLM Decoding via Contrasting Personal Preference
🔑この論文のキーメッセージ
- DPOを基にした報酬を活用して文章のデコーディングや負例の選択をすることは、パーソナライズにおいて有効である
🎓どういう問題に取り組んだのか
- LLMが文章を生成する時に、ユーザーの意図を推定しながら文章を生成するようにする
🧑‍🎓その問題に取り組むことがなぜ重要なのか
- ユーザーの意図に沿う応答を生成することはLLMの実用上重要である
- 現状は、プロンプトベースの方法とLoRAなどモデルのパラメータを更新する方法の二種類がある
- プロンプトベースの手法では、ユーザーのデータから学習することが無いため効果が限定的である課題がある
- パラメータを更新する手法では、破滅的忘却や計算コストの面から課題がある
💡問題解決に向けたキーアイデアは何か
- 基本的にLoRAを想定した手法になっている
- 文章のデコーディングには、報酬ベースの手法を使用している
  閾値より大きな確率のトークン集合を得る
  基モデルとLoRAを適用したモデルがそのトークンを生成する確率の比を報酬とする
  この報酬が最大になるトークンを選択してデコーディングする
- モデルの学習には、DPOを使用している
  データセットの構築のためには、LLMが生成したいくつかの例の中から上記の報酬が最も小さいものを負例としている
👀新たに分かったことは何か
- プロンプトベースの手法は、性能向上が限定的であること
  ベースモデルよりも悪くなることがある
  特に長文において性能が低下することが確認できた
- 提案手法は、学習ベースの手法よりも良いモデルが学習できていた
  報酬ベースのデコーダとDPOの効果は同程度であった
❓疑問点は何か
paper Created Tue, 25 Nov 2025 00:00:00 +0900
Self-Guided Function Calling in Large Language Models via Stepwise Experience Recall
📄論文情報
- Self-Guided Function Calling in Large Language Models via Stepwise Experience Recall
- EMNLP 2025 findings
🔑この論文のキーメッセージ
- LLMのFunction Callingタスクのデータの拡張のためには、呼び出されているタスクの一致度なども入れると良い
🎓どういう問題に取り組んだのか
- LLMを外部APIと連携するタスクであるFunction Callingの性能を向上するような学習する
- 学習に使用するプロンプトに含める例を工夫する手法にしている
🧑‍🎓その問題に取り組むことがなぜ重要なのか
- 学習データやモデルのパラメータ数を単に増やしても、実世界インタラクションは解決することができない
- 既存のFunction Callingの学習手法は、具体例を手動で付与しているため大規模にしづらい課題がある
💡問題解決に向けたキーアイデアは何か
- 類似の例を取得するための方法として、以下の三種類の指標を用いる
  ユーザーのクエリと軌跡の埋め込み表現の類似度
  軌跡とは、ユーザーの入力と呼び出されたツールの応答を複数ステップ繰り返したものを指す
  類似度の指標には、正規化コサイン類似度を使用する
  呼び出しツールの一致度
  実際に使用されているツールの一致度を使用している
  意図アラインメント
  使用する意図は、事前に定義されているクラスに分類されている
  類似度の検索に使用する履歴が与えられた時に意図を何らかの方法で推定しているのかも？
- 最終的な類似度は、これらの重み付け和になっている
- 類似度を計測するためのデータ集合は新たな軌跡が得られた時に更新する
  LLMでユーザーの意図が達成できたと分類された時にデータ集合に追加する
👀新たに分かったことは何か
- ToolQAやτ-benchによる評価では、既存手法よりも概ね良い性能であった
  ベースライン手法はTool Augmented LLMらしい
- Ablation Studyでは、2と3の指標のどちらも重要っぽいことが示されている
  ToolQAのEasyでは3を無くすとスコアが大きく下がり、Hardでは2を無くす時が大きくスコアが下がった
  全体的には3の影響度が大きそうだけど、これは良く分かんないなあ
❓疑問点は何か
特になし
paper Created Mon, 24 Nov 2025 00:00:00 +0900
AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders
📄論文情報
- AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders
- ICML 2025
🔑この論文のキーメッセージ
- （1, 2文でまとめる）
🎓どういう問題に取り組んだのか
- LLMの内部表現に介入する手法の評価をするためのベンチマークデータセットを構築した
🧑‍🎓その問題に取り組むことがなぜ重要なのか
- LLMの内部表現に介入する様々な手法が提案されている。
- だが、統一したベンチマークが存在しないため公平な評価ができていないという課題がある。
💡問題解決に向けたキーアイデアは何か
- Concept DetectionとModel Steeringの二つの指標を評価するためのデータセットを構築した
  Concept Detectionはシンプルな分類問題
  Model Steeringは、生成した文章をLLMが評価するものになる
- データの用意のために、GPT-4oを使用したデータ拡張が行なわれている
- Concept Dataset Generation
  データセットの形式はPreferenceデータセットと同じ形式になっている
  指示とポジティブなデータはLLMにより生成されている
  ネガティブなデータには、異なるコンセプトに属するレスポンスを使用している
  タスクの評価指標には、特定のレイヤーの各トークンの中間表現を用いて分類器が予測した確率の最大値を用いている
  分類器の予測は[0-1]の一次元の出力になる
- Model Steering
  評価指標
  LLMが応答を0、1、2のいずれかで評価する
  スコアは、Concept、Instructoin、Fluencyの3つを使用する
  最終スコアは、調和平均を使用している
- 論文中で報告されているのは、特定のレイヤーにおけるスコアになっている
  Model Steeringでは特定のレイヤーに介入した時のスコアになっている
👀新たに分かったことは何か
- Concept DetectionではProbeベースの手法が、SAEを使用する手法よりも良い性能であった
  評価指標は、AUROCを用いている
  特に、SAEはデータのバランスが悪いと性能が低下する傾向がある
- Model Steeringにおいては、SAEの方が良い性能であるがLoRAやSFTよりも性能が低い結果であった
❓疑問点は何か
- Model Steeringのスコアにおいて、定量的なものが採用されていないのが気になる
  LLMによる評価だけで良いのかはとても疑問
- Gemma以外のモデルの性能はどうなのだろう
paper Created Sat, 22 Nov 2025 00:00:00 +0900

Previous Next

Kei Moriyama keimoriyama

Organizations

📄論文情報

🔑この論文のキーメッセージ

🎓どういう問題に取り組んだのか

🧑‍🎓その問題に取り組むことがなぜ重要なのか

💡問題解決に向けたキーアイデアは何か

👀新たに分かったことは何か

❓疑問点は何か

📄論文情報

🔑この論文のキーメッセージ

🎓どういう問題に取り組んだのか

🧑‍🎓その問題に取り組むことがなぜ重要なのか

💡問題解決に向けたキーアイデアは何か

👀新たに分かったことは何か

❓疑問点は何か

📄論文情報

🔑この論文のキーメッセージ

🎓どういう問題に取り組んだのか

🧑‍🎓その問題に取り組むことがなぜ重要なのか

💡問題解決に向けたキーアイデアは何か

👀新たに分かったことは何か

❓疑問点は何か

📄論文情報

🔑この論文のキーメッセージ

🎓どういう問題に取り組んだのか

🧑‍🎓その問題に取り組むことがなぜ重要なのか

💡問題解決に向けたキーアイデアは何か

👀新たに分かったことは何か

❓疑問点は何か

📄論文情報

🔑この論文のキーメッセージ

🎓どういう問題に取り組んだのか

🧑‍🎓その問題に取り組むことがなぜ重要なのか

💡問題解決に向けたキーアイデアは何か

👀新たに分かったことは何か

❓疑問点は何か

📄論文情報

🔑この論文のキーメッセージ

🎓どういう問題に取り組んだのか

🧑‍🎓その問題に取り組むことがなぜ重要なのか

💡問題解決に向けたキーアイデアは何か

👀新たに分かったことは何か

❓疑問点は何か

📄論文情報

🔑この論文のキーメッセージ

🎓どういう問題に取り組んだのか

🧑‍🎓その問題に取り組むことがなぜ重要なのか

💡問題解決に向けたキーアイデアは何か

👀新たに分かったことは何か

❓疑問点は何か