Kei Moriyama keimoriyama

D1 @babalablab

Organizations

README.md

所属 : 東京大学総合文化研究科広域科学専攻広域システム科学系学年 : D1

Popular posts

まぐさ桶の犬
まぐさ桶の犬を読んだ。この本を読もうとしたきっかけは、このミスで5位にランクインしていたことだ。本を読む前は知らなかったが、シリーズ物の最新作らしい。
本屋件探偵の葉村晶が、近所の人の付き沿いを依頼される。その人の親族である富豪から人探しを依頼される。しかし、探す人の周囲の人間が、失踪していたり、不審な死を遂げていたりする所に気づく所から話が始まる。本当に冒頭の文章では、主人公の葉村が死にかける所から始まる。
謎が謎を呼ぶ展開で、読んでいて飽きなかった。次々と表れる癖の強い人間達の裏事情が後半で暴露されたり、暴かれたりしていた。人の名前や関係性を把握するのが大変だったけど、何となくの理解でガンガン読み進めた。
それでも楽しめたのは、この本が持つ独特の雰囲気なのかもしれない。主人公の葉村の皮肉っぽい視点や痛む体の描写が、何となく読みやすさに繋っているのかもしれない。謎解きの間に、この描写があるから読めたのかも。
book
ヨルガオ殺人事件
ヨルガオ殺人事件を読んだ。カササギ殺人事件の続きの話で、二つのミステリーを一つの小説で同時に楽しむことができた。カササギ殺人事件と同じように、コンウェイの書いた小説であるヨルガオ殺人事件が小説内の世界で起きた事件に関連している。その事件の真相に気づいた人が失踪する事件が起きてしまい、ヨルガオ殺人事件の編集者である主人公に失踪事件や殺人事件の真相を解く依頼が来る。
ヨルガオ殺人事件のストーリーも、本編のストーリーも一つのミステリー小説として完成されきっていた。しかも、これらの物語を関連付けて謎解きとして成立させる手腕は凄いなと思った。事件の謎以外にも、主人公の妹との不穏な雰囲気にも謎があったりして、もやもやしている雰囲気を出しつつ、綺麗に解いていた。主人公何者なんだよ。本当にただの基編集者なのか？
ただ、人の名前を把握するのは一苦労だった。小説二つ分だからしょうがないけど、これには苦労した。巻頭に人物紹介が無かったら途中で読むのを止めていただろうなあ。
book
From Outcomes to Processes: Guiding PRM Learning from ORM for Inference-Time Alignment
📄論文情報
- From Outcomes to Processes: Guiding PRM Learning from ORM for Inference-Time Alignment
- ACL 2025 Long
🔑この論文のキーメッセージ
- （1, 2文でまとめる）
🎓どういう問題に取り組んだのか
- Reward Guided Searchは、LLMが生成した複数の文章から報酬モデルの値を用いて文章を選択する手法である
- この文章の選択に使用する報酬モデルの出力に一貫性を持たせることを目指す
🧑‍🎓その問題に取り組むことがなぜ重要なのか
- 報酬モデルは、文章の全体を評価するように学習される
- そのため、文章の一部を評価する時に報酬の一貫性が無くなる課題がある
  特に、冗長な文章を高く評価する傾向がある
- この報酬モデルを再学習するには計算コストが多くかかるため、既存のモデルを使用しつつ、報酬の計算を工夫することで、より良い文章の選択が可能になる
💡問題解決に向けたキーアイデアは何か
- スコアの計算時にscore consistencyの分析をしている
- Score Consistencyの定義
  文章AとBにおける報酬値r(A)とr(B)がある時、AとBの部分文字列aとbにおける報酬r(a)とr(b)は、以下の関係が成立する
  r(A)>r(B) -> r(a) > r(b)
  RGSでは、新しいトークンを選択する時に、これまで生成された文章と新しいトークンを繋げた文章の報酬が最大になるように選択するため、重要な性質になる
  この時、部分文字列を評価することになるため、文章の部分文字列の評価の一貫性が必要
- 既存の報酬モデルは部分文字列の評価に一貫性が無いため、部分文字列を評価するためのデータセットを構築し、報酬モデルを学習した
- 学習には、報酬モデルの分布の差のエントロピーを重みとして使用している
👀新たに分かったことは何か
- 文章全体を評価するように学習された報酬モデルは、Score Consistencyを満たさない
  報酬モデルの学習に使用するデータセットの部分文字列が、良いと評価された文章の方が高くなる割合で評価した
  5トークンで、57%くらいであり、50トークンまで増やすと60%まで上がる
  一方で、人間との評価の一致度は高い
  提案手法により学習した報酬モデルは、5トークンで55%、50トークンで65%まで改善した
- ベンチマークにおける評価は、報酬の平均値や文章の多様性などで評価
  様々なチャンクで文章を区切る方法に提案手法により学習した報酬モデルを使用したっぽい
  報酬の値などのスコアを見ると、既存の手法を改善できていると言える
❓疑問点は何か
- 着眼点が良いと思った
- 報酬モデルの学習が必要になっているのはネックになっていないのか気になった。
paper
一九八四+四〇ウイグル潜行
「一九八四+四〇ウイグル潜行」を読んだ。中国のウイグル自治区からカザフスタン、日本に住むウイグルの人々を取材したルポだった。最初に、ウイグル自治区を取材し、カザフスタンに出国、その後日本に帰国しウイグル人を取材していた。取材の様子も十分な内容だったと思うけど、ウイグル自治区からカザフスタンに出国する際、中国当局に拘束された話が衝撃的だった。長時間に及ぶ取り調べのなか、素性を調べ上げられた結果、しばらくの間中国への入国が禁じられていた。現実にこういう話があるのは衝撃的だったし、どれくらい大変なのか全然想像できない。
ウイグルとカザフスタンで、自由度が大きく違うなと感じた。ウイグルの人に、宗教や収容施設の話を質問すると、「わからない」などの返答が多く返ってきた。自治区内にも警察や監視カメラが多くあることに加え、撮影した写真を削除するように繰り返し注意されているのも目立った。それに比べ、カザフスタンでは、取材相手が赤裸々に体験を語っていて、当局の監視もそこまで厳しくない様子だった。自由度の違い以外にも、ウイグル自治区に住むカザフ人も収容所に入れられていたというのはびっくりだった。
収容所はあるという事は事実っぽいが、これが悪であるかという議論についてはちょっとよく分からなくなってしまった。人権侵害という面を切り取ってしまえば、そうなってしまうのだが、治安維持という面では必要っぽいように思える。改めて視点が変わると、何もかもが変わるということは忘れないようにしたい。
book
カササギ殺人事件
カササギ殺人事件を読んだ。とても満足。上下巻のから構成されていて、それぞれの巻において絡み合う別の殺人事件が展開されていた。
特に冒頭は「？？？」となるような書き出しで、読む本間違えたか？と思った。読了した今、この冒頭は計算されていて、著者が意図した通りに感情を操られたような気分になる。それぞれのミステリーのトリックについては満足で、段々と謎が解明されていく様子はページをめくる手が止められなかった。上巻はカササギ殺人事件の様子が描かれており、下巻ではカササギ殺人事件を書いた人が殺されるミステリーだった。カササギ殺人事件は、ある村にある屋敷で働く人と主が死ぬ事件を追い、後半では著者が残した謎を追う。
下巻の後半に両方の事件のトリックが明かされた構成になっていた。上巻の謎の種明かしはされずに、下巻で新しい謎の話が始まるから、下巻の序盤はげんなりした。でも、下巻にさりげなく上巻の登場人物の名前を出しておくことで、ちゃんと思い出せるようになっていた気がする。このお陰で、「何の話だったっけ？」とならずに済んだから、両方のミステリーを楽しめた。
book
Meta-Tool: Unleash Open-World Function Calling Capabilities of General-Purpose Large Language Models
📄論文情報
- Meta-Tool: Unleash Open-World Function Calling Capabilities of General-Purpose Large Language Models
- ACL2025 main
🔑この論文のキーメッセージ
- プロンプトにツール情報が含まれない時、LLMの仮説生成+埋め込み検索が効果的である
🎓どういう問題に取り組んだのか
- LLMと外部ツールの連携をするためのフレームワークを提案する
- 外部ツールと連携する時にプロンプトに外部ツールの情報が与えられないケースを想定している
🧑‍🎓その問題に取り組むことがなぜ重要なのか
- プロンプトにユーザーの指示が含まれるということは、ユーザーが事前に使用できるツールを知っている必要がある
  この状況は、LLMの性能が一定の範囲しか発揮されないため、に制限をかけていることになる
- そのため、ユーザーの指示に応じてツールを選択し、呼び出す必要がある
  これを、オープンワールドファンクションコーリングと呼んでいる
💡問題解決に向けたキーアイデアは何か
- LLMの推論のためのフレームワークと、学習と評価のためのデータセットを構築した
- 推論のフレームワークには、hypothesize(仮説生成)-retrieve(検索)-invoke(呼び出し)フレームワークとしている
  Hypothesize(仮説生成)
  LLMがユーザーの指示から、必要なツールの要件や引数を推論する
  Retrieve(検索)
  テキスト埋め込みモデルを使用した検索システムを採用している
  推論したツール要件や引数を埋め込み表現に変換し、類似度を計算している
  Invoke(呼び出し)
  ツールに対するクエリを生成する
- データセットには、既存のデータセットをオープンワールド形式に拡張するための方法を提案している
  拡張として、データセット内で呼び出されているツールをLLMで類似の形式に変換している
  変換後のツール呼び出しについて、推論プロセスを生成する
  この生成した一連のデータをルールベースやLLMベースの方法により評価する
👀新たに分かったことは何か
- simpleタスクとhardタスクがあり、それぞれについてLLMを評価した
  hardは、拡張したツール呼び出しや、呼び出しの回数が多いデータが含まれる
- 評価の結果、学習したモデルがGPT-4oやオープンソースモデルよりも性能が良いことが分かった
- 検索システムは、キーワードベースの手法と比較していて、提案手法の方がhard設定で良い性能であった。
  シンプルな設定では、ますおこまで差がでないように見える
  埋め込みベースの他のモデルと比較しなくて良いのだろうか？
❓疑問点は何か
- 仮説生成がどれだけ効くのか気になる
- 埋め込みベースの検索が効くのは分かるが、ベースラインが弱いのでは？
  他の良さそうな方法は思いつかないけど
  ツール呼び出しならではの検索システムとか考えることができそう
  引数の型は大きな制約の一つになると思う
paper

Kei Moriyama keimoriyama

Organizations

Popular posts

📄論文情報

🔑この論文のキーメッセージ

🎓どういう問題に取り組んだのか

🧑‍🎓その問題に取り組むことがなぜ重要なのか

💡問題解決に向けたキーアイデアは何か

👀新たに分かったことは何か

❓疑問点は何か

📄論文情報

🔑この論文のキーメッセージ

🎓どういう問題に取り組んだのか

🧑‍🎓その問題に取り組むことがなぜ重要なのか

💡問題解決に向けたキーアイデアは何か

👀新たに分かったことは何か

❓疑問点は何か

Post activity