Kei Moriyama keimoriyama

D1 @babalablab

Organizations

まぐさ桶の犬
まぐさ桶の犬を読んだ。この本を読もうとしたきっかけは、このミスで5位にランクインしていたことだ。本を読む前は知らなかったが、シリーズ物の最新作らしい。
本屋件探偵の葉村晶が、近所の人の付き沿いを依頼される。その人の親族である富豪から人探しを依頼される。しかし、探す人の周囲の人間が、失踪していたり、不審な死を遂げていたりする所に気づく所から話が始まる。本当に冒頭の文章では、主人公の葉村が死にかける所から始まる。
謎が謎を呼ぶ展開で、読んでいて飽きなかった。次々と表れる癖の強い人間達の裏事情が後半で暴露されたり、暴かれたりしていた。人の名前や関係性を把握するのが大変だったけど、何となくの理解でガンガン読み進めた。
それでも楽しめたのは、この本が持つ独特の雰囲気なのかもしれない。主人公の葉村の皮肉っぽい視点や痛む体の描写が、何となく読みやすさに繋っているのかもしれない。謎解きの間に、この描写があるから読めたのかも。
book Created Thu, 12 Feb 2026 00:00:00 +0900
ヨルガオ殺人事件
ヨルガオ殺人事件を読んだ。カササギ殺人事件の続きの話で、二つのミステリーを一つの小説で同時に楽しむことができた。カササギ殺人事件と同じように、コンウェイの書いた小説であるヨルガオ殺人事件が小説内の世界で起きた事件に関連している。その事件の真相に気づいた人が失踪する事件が起きてしまい、ヨルガオ殺人事件の編集者である主人公に失踪事件や殺人事件の真相を解く依頼が来る。
ヨルガオ殺人事件のストーリーも、本編のストーリーも一つのミステリー小説として完成されきっていた。しかも、これらの物語を関連付けて謎解きとして成立させる手腕は凄いなと思った。事件の謎以外にも、主人公の妹との不穏な雰囲気にも謎があったりして、もやもやしている雰囲気を出しつつ、綺麗に解いていた。主人公何者なんだよ。本当にただの基編集者なのか？
ただ、人の名前を把握するのは一苦労だった。小説二つ分だからしょうがないけど、これには苦労した。巻頭に人物紹介が無かったら途中で読むのを止めていただろうなあ。
book Created Sat, 07 Feb 2026 00:00:00 +0900
From Outcomes to Processes: Guiding PRM Learning from ORM for Inference-Time Alignment
📄論文情報
- From Outcomes to Processes: Guiding PRM Learning from ORM for Inference-Time Alignment
- ACL 2025 Long
🔑この論文のキーメッセージ
- （1, 2文でまとめる）
🎓どういう問題に取り組んだのか
- Reward Guided Searchは、LLMが生成した複数の文章から報酬モデルの値を用いて文章を選択する手法である
- この文章の選択に使用する報酬モデルの出力に一貫性を持たせることを目指す
🧑‍🎓その問題に取り組むことがなぜ重要なのか
- 報酬モデルは、文章の全体を評価するように学習される
- そのため、文章の一部を評価する時に報酬の一貫性が無くなる課題がある
  特に、冗長な文章を高く評価する傾向がある
- この報酬モデルを再学習するには計算コストが多くかかるため、既存のモデルを使用しつつ、報酬の計算を工夫することで、より良い文章の選択が可能になる
💡問題解決に向けたキーアイデアは何か
- スコアの計算時にscore consistencyの分析をしている
- Score Consistencyの定義
  文章AとBにおける報酬値r(A)とr(B)がある時、AとBの部分文字列aとbにおける報酬r(a)とr(b)は、以下の関係が成立する
  r(A)>r(B) -> r(a) > r(b)
  RGSでは、新しいトークンを選択する時に、これまで生成された文章と新しいトークンを繋げた文章の報酬が最大になるように選択するため、重要な性質になる
  この時、部分文字列を評価することになるため、文章の部分文字列の評価の一貫性が必要
- 既存の報酬モデルは部分文字列の評価に一貫性が無いため、部分文字列を評価するためのデータセットを構築し、報酬モデルを学習した
- 学習には、報酬モデルの分布の差のエントロピーを重みとして使用している
👀新たに分かったことは何か
- 文章全体を評価するように学習された報酬モデルは、Score Consistencyを満たさない
  報酬モデルの学習に使用するデータセットの部分文字列が、良いと評価された文章の方が高くなる割合で評価した
  5トークンで、57%くらいであり、50トークンまで増やすと60%まで上がる
  一方で、人間との評価の一致度は高い
  提案手法により学習した報酬モデルは、5トークンで55%、50トークンで65%まで改善した
- ベンチマークにおける評価は、報酬の平均値や文章の多様性などで評価
  様々なチャンクで文章を区切る方法に提案手法により学習した報酬モデルを使用したっぽい
  報酬の値などのスコアを見ると、既存の手法を改善できていると言える
❓疑問点は何か
- 着眼点が良いと思った
- 報酬モデルの学習が必要になっているのはネックになっていないのか気になった。
paper Created Thu, 05 Feb 2026 00:00:00 +0900
一九八四+四〇ウイグル潜行
「一九八四+四〇ウイグル潜行」を読んだ。中国のウイグル自治区からカザフスタン、日本に住むウイグルの人々を取材したルポだった。最初に、ウイグル自治区を取材し、カザフスタンに出国、その後日本に帰国しウイグル人を取材していた。取材の様子も十分な内容だったと思うけど、ウイグル自治区からカザフスタンに出国する際、中国当局に拘束された話が衝撃的だった。長時間に及ぶ取り調べのなか、素性を調べ上げられた結果、しばらくの間中国への入国が禁じられていた。現実にこういう話があるのは衝撃的だったし、どれくらい大変なのか全然想像できない。
ウイグルとカザフスタンで、自由度が大きく違うなと感じた。ウイグルの人に、宗教や収容施設の話を質問すると、「わからない」などの返答が多く返ってきた。自治区内にも警察や監視カメラが多くあることに加え、撮影した写真を削除するように繰り返し注意されているのも目立った。それに比べ、カザフスタンでは、取材相手が赤裸々に体験を語っていて、当局の監視もそこまで厳しくない様子だった。自由度の違い以外にも、ウイグル自治区に住むカザフ人も収容所に入れられていたというのはびっくりだった。
収容所はあるという事は事実っぽいが、これが悪であるかという議論についてはちょっとよく分からなくなってしまった。人権侵害という面を切り取ってしまえば、そうなってしまうのだが、治安維持という面では必要っぽいように思える。改めて視点が変わると、何もかもが変わるということは忘れないようにしたい。
book Created Fri, 30 Jan 2026 00:00:00 +0900
カササギ殺人事件
カササギ殺人事件を読んだ。とても満足。上下巻のから構成されていて、それぞれの巻において絡み合う別の殺人事件が展開されていた。
特に冒頭は「？？？」となるような書き出しで、読む本間違えたか？と思った。読了した今、この冒頭は計算されていて、著者が意図した通りに感情を操られたような気分になる。それぞれのミステリーのトリックについては満足で、段々と謎が解明されていく様子はページをめくる手が止められなかった。上巻はカササギ殺人事件の様子が描かれており、下巻ではカササギ殺人事件を書いた人が殺されるミステリーだった。カササギ殺人事件は、ある村にある屋敷で働く人と主が死ぬ事件を追い、後半では著者が残した謎を追う。
下巻の後半に両方の事件のトリックが明かされた構成になっていた。上巻の謎の種明かしはされずに、下巻で新しい謎の話が始まるから、下巻の序盤はげんなりした。でも、下巻にさりげなく上巻の登場人物の名前を出しておくことで、ちゃんと思い出せるようになっていた気がする。このお陰で、「何の話だったっけ？」とならずに済んだから、両方のミステリーを楽しめた。
book Created Wed, 21 Jan 2026 00:00:00 +0900
Meta-Tool: Unleash Open-World Function Calling Capabilities of General-Purpose Large Language Models
📄論文情報
- Meta-Tool: Unleash Open-World Function Calling Capabilities of General-Purpose Large Language Models
- ACL2025 main
🔑この論文のキーメッセージ
- プロンプトにツール情報が含まれない時、LLMの仮説生成+埋め込み検索が効果的である
🎓どういう問題に取り組んだのか
- LLMと外部ツールの連携をするためのフレームワークを提案する
- 外部ツールと連携する時にプロンプトに外部ツールの情報が与えられないケースを想定している
🧑‍🎓その問題に取り組むことがなぜ重要なのか
- プロンプトにユーザーの指示が含まれるということは、ユーザーが事前に使用できるツールを知っている必要がある
  この状況は、LLMの性能が一定の範囲しか発揮されないため、に制限をかけていることになる
- そのため、ユーザーの指示に応じてツールを選択し、呼び出す必要がある
  これを、オープンワールドファンクションコーリングと呼んでいる
💡問題解決に向けたキーアイデアは何か
- LLMの推論のためのフレームワークと、学習と評価のためのデータセットを構築した
- 推論のフレームワークには、hypothesize(仮説生成)-retrieve(検索)-invoke(呼び出し)フレームワークとしている
  Hypothesize(仮説生成)
  LLMがユーザーの指示から、必要なツールの要件や引数を推論する
  Retrieve(検索)
  テキスト埋め込みモデルを使用した検索システムを採用している
  推論したツール要件や引数を埋め込み表現に変換し、類似度を計算している
  Invoke(呼び出し)
  ツールに対するクエリを生成する
- データセットには、既存のデータセットをオープンワールド形式に拡張するための方法を提案している
  拡張として、データセット内で呼び出されているツールをLLMで類似の形式に変換している
  変換後のツール呼び出しについて、推論プロセスを生成する
  この生成した一連のデータをルールベースやLLMベースの方法により評価する
👀新たに分かったことは何か
- simpleタスクとhardタスクがあり、それぞれについてLLMを評価した
  hardは、拡張したツール呼び出しや、呼び出しの回数が多いデータが含まれる
- 評価の結果、学習したモデルがGPT-4oやオープンソースモデルよりも性能が良いことが分かった
- 検索システムは、キーワードベースの手法と比較していて、提案手法の方がhard設定で良い性能であった。
  シンプルな設定では、ますおこまで差がでないように見える
  埋め込みベースの他のモデルと比較しなくて良いのだろうか？
❓疑問点は何か
- 仮説生成がどれだけ効くのか気になる
- 埋め込みベースの検索が効くのは分かるが、ベースラインが弱いのでは？
  他の良さそうな方法は思いつかないけど
  ツール呼び出しならではの検索システムとか考えることができそう
  引数の型は大きな制約の一つになると思う
paper Created Mon, 19 Jan 2026 00:00:00 +0900
ToolACE: Winning the Points of LLM Function Calling
📄論文情報
- ToolACE: Winning the Points of LLM Function Calling
- ICLR 2025
🔑この論文のキーメッセージ
- 人工APIをLLMが生成することで、LLMのツール呼び出しの性能を向上させることができる。
🎓どういう問題に取り組んだのか
- ツール呼び出しタスクの学習に使用するためのデータを生成するパイプラインを作成する
- マルチターンなどの複雑なタスクが必要な状況を想定する
🧑‍🎓その問題に取り組むことがなぜ重要なのか
- 現実世界におけるツール呼び出しは複雑である
  ユーザーの指示の多様さや曖昧さ、zero-shot推論だけではなく、複数のツールの組み合わせが必要なケースがある
💡問題解決に向けたキーアイデアは何か
- データ生成パイプラインとして以下の3ステップを提案した
  ツール生成
  Tool Self-Evolution Synthesisという方法を提案した
  最初に、事前学習用のデータからAPIの情報を抽出する
  人工APIの分類を指しているのかも？
  作成したノードを基に、APIが対応している範囲を調査する
  フィードバックをしていると考えて良さそう
  フィードバックを基に、APIの仕様を改善する
  対話生成
  user、assistant、toolのそれぞれのroleをLLMが生成する
  対話の複雑さを評価するために、コンテキストから次のステップのトークンが生成される確率の平均値を使用している
  検証
  ルールベースの評価とLLMによる評価によるデータセットの評価が適用される
  LLMの評価は、ハルシネーションの確認、レスポンスの一貫性、ツール呼び出しの適切さで評価される
👀新たに分かったことは何か
- 8Bモデルを学習し、BFCLとAPI-Bankで評価した
- BFCLの評価では、オープンソースのモデルよりも良い性能であった
  xLAMよりも性能が良く、GPT-4oの一部のモデルよりも良い
  特に、Non-liveが強くなっている
- API-Bankにおいても同様の傾向がある
❓疑問点は何か
paper Created Mon, 19 Jan 2026 00:00:00 +0900
ファラオの密室
ファラオの密室を読んだ。ある事件で死んだセティと呼ばれる神官が訳あって復活し、自分の死に関する謎を解くミステリー。本の中には、大きく3つの謎がある。一つ目は、神官セティはなぜ復活したのか？という謎である。二つ目は、先王のミイラは何故棺の中に無かったのか？三つ目は、ピラミッドの建築のための資材の移動が遅いのは何故か？というものであった。二つ目の謎については、プロローグで事件が起きる。そして、神官セティが冥界で目を覚まして小説が始まる。
ミステリーとしても面白かったし、エジプト社会の描写も楽しめた。それぞれの謎のトリックについて、そうかという納得感があった。背景にも、エジプト社会固有の事情が背景になっていて、エジプトという世界が活かされていた。オシリスやアヌビスなどの多神教の教えを、アテンという唯一神に先王は変えようとした。この宗教対立という実際にあった出来事を事件の背景に上手く導入されていたと思う。宗教観の理解については、エジプト人ではない奴隷に質問させることで噛み砕かれて、うまかった。
エピローグでは、セティ本人の真実が明かされる。。。! これは、おまけと言って良いのか分かんないけど、小説の締めとして終わった感じがした。
book Created Sat, 17 Jan 2026 00:00:00 +0900
API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs
📄論文情報
- API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs
- EMNLP 2023 main
🔑この論文のキーメッセージ
- Tool Callingタスクのデータの構築において、多様なドメインを含めることが重要である。
🎓どういう問題に取り組んだのか
- LLMが外部ツールを使用する能力を評価するためのベンチマークを構築した
🧑‍🎓その問題に取り組むことがなぜ重要なのか
- LLMの性能は学習データに依存するため、最新の情報を応答に反映することができない
- 外部ツールを使用することで、最新の情報に対応することができるが、LLMの外部ツールの性能評価はされていない
💡問題解決に向けたキーアイデアは何か
- LLMのAPI呼び出し性能を評価するためのベンチマークデータセットと学習データを構築した
- ベンチマークデータセットの構築
  LLMの能力を評価する上で、APIの呼び出し回数と呼び出すことのできるAPIの数を基準にタスクを構築
  タスクの分類は以下の三種類
  Call : 一回以上のAPI呼び出しで、APIの数が少ない
  Retrieve+Call : 一回のAPI呼び出しで、APIの数が多い。LLMには使用できるAPIが与えられない。
  Plan+Retrieve+Call : 複数回の呼び出しで、APIの数が多い。LLMには使用できるAPIが与えられない
  ベンチマークに使用されるAPIは、実際に実装している(おそらく架空のAPI)
  アノテーションは人手で行うようにしている
  評価指標は、LLMが作成したクエリの正解率とAPIの応答を基に生成した文章のROUGE-Lスコアを使用している
- 学習データセットの構築
  データセットはLLMを用いて作成された合成データセットを用いる
  生成は五つのLLMが独立してデータを生成する
  ヘルスケアなどのデータのドメインを指定する
  ドメインを基にAPIを合成する、合成時には実データを例として与えている
  合成されたAPIをランダムサンプリングし、クエリを作成する
  APIのレスポンスを生成する
  データセットに沿う内容になっているか、評価し、フィルターする
👀新たに分かったことは何か
- Lynxというモデルを提案手法により作成されたデータセットを用いて評価した
- 学習することで、LLMの性能が向上することが分かった
  同じようなデータになっているなら、当然な気がする
  エラーの傾向として、学習前はAPIの呼び出しが無いケースが多いが、学習後はAPIの関数名の間違えているケースに変化した
- ベンチマークについては、GPTなどのモデルと比較すると、Callが一番簡単で、Plan+Retrieve+Callが難しい傾向がある
- ToolAlpacaと比較すると、少ないデータで同等の性能が得られた
  高品質なデータであると言えるのか？評価データによって結果が変わりそう
❓疑問点は何か
- ベンチマークと学習データを同じような方針で作成したら、評価結果が良くなるのは当たり前ではと思った
- 手法自体は参考になりそう
paper Created Thu, 15 Jan 2026 00:00:00 +0900
有罪、とAIは告げた
中山七里の「有罪、とAIは告げた」を読んだ。東京地裁を舞台に、人間の裁判官と同じ判決を出力できるAI裁判官「法神」の判決を巡るミステリー。最初は、AI裁判官の導入や性能評価の話をしている。この「法神」が、ある殺人事件において死刑を宣告する所から物語が大きく動き出す。
上手く言語化できないけど、すごくもやもやした。 AIに流される人やAIの営業をする人の行動や言動にムカついただけな気がしてきた。 AIは中国との技術交流の名目で持ち込まれていて、「法神」にはある秘密がある。この秘密については現実味がある程度あると思うのだけど、露悪的過ぎのようにも感じた。
AI時代において、人間の仕事は責任を取ることであるということがメッセージの中核にあると思う。これ、柞刈湯葉の「未来職安」の話と同じだ。場所が裁判所か、架空の職業かという違いくらいしか無いんじゃないか？
book Created Wed, 14 Jan 2026 00:00:00 +0900

Kei Moriyama keimoriyama

Organizations

📄論文情報

🔑この論文のキーメッセージ

🎓どういう問題に取り組んだのか

🧑‍🎓その問題に取り組むことがなぜ重要なのか

💡問題解決に向けたキーアイデアは何か

👀新たに分かったことは何か

❓疑問点は何か

📄論文情報

🔑この論文のキーメッセージ

🎓どういう問題に取り組んだのか

🧑‍🎓その問題に取り組むことがなぜ重要なのか

💡問題解決に向けたキーアイデアは何か

👀新たに分かったことは何か

❓疑問点は何か

📄論文情報

🔑この論文のキーメッセージ

🎓どういう問題に取り組んだのか

🧑‍🎓その問題に取り組むことがなぜ重要なのか

💡問題解決に向けたキーアイデアは何か

👀新たに分かったことは何か

❓疑問点は何か

📄論文情報

🔑この論文のキーメッセージ

🎓どういう問題に取り組んだのか

🧑‍🎓その問題に取り組むことがなぜ重要なのか

💡問題解決に向けたキーアイデアは何か

👀新たに分かったことは何か

❓疑問点は何か