Kei Moriyama / Calibrating LLM Confidence by Probing Perturbed Representation Stability

Created Tue, 23 Dec 2025 00:00:00 +0900 Modified Thu, 12 Feb 2026 13:37:48 +0100
892 Words

📄論文情報

🔑この論文のキーメッセージ

  • 対照学習を使用することで、LLMの特徴と応答の一致度が向上する

🎓どういう問題に取り組んだのか

  • LLMの内部表現と出力文章の一致度を揃えるようにモデルを調整すること

🧑‍🎓その問題に取り組むことがなぜ重要なのか

  • LLMが割り当てる確率には、間違いの応答に高い確率を割り当てるなどの課題がある
  • 正確な応答に高い確率を割り当てるために、内部表現を調整する手法では複数の好ましい特性に対応することが難しい

💡問題解決に向けたキーアイデアは何か

  1. トークン単位でLLMの最終層に摂動を加える
    • 勾配を使用して摂動を加える
    • 損失関数は隠れ層の状態から正解トークンを予測する確率のクロスエントロピーを使用している
    • パラメータを更新する時と逆方向の勾配を摂動として加える
    • 摂動を加えた時のロジットを2.で使用する
    • この摂動を加えるステップはS回行う
  2. この摂動に影響のある特徴を抽出する
    • 特徴量はトークン毎に抽出する
    • このでも特徴量とは、ロジットや勾配のL2ノルムなどを指す
    • この特徴量に対して平均などの統計処理を加えた値を最終的な特徴量とする
  3. この特徴量から確信度(確率のことか?)を予測する分類器を学習する
    • 分類器は二つ用いる
    • トークンの特徴量毎に正解、不正解を予測する分類器と文章単位で予測する分類器
      • 文章単位で予測する分類器は、トークン単位の分類器が抽出した特徴量を連結した特徴量を使用して予測している
      • このでの特徴量は、モデルの最終出力を指す
    • トークン単位の分類器はMLP、文章単位の分類器は畳み込みを使用している
    • 目的関数はmax-margin損失を使用する
      • 負例はロジットの値を基に決めている

👀新たに分かったことは何か

  • 評価は選択問題を対象とした
  • 評価指標には、Expected Calibration ErrorとBarier Scoreを使用している
  • 分類問題においては、ECEが他の指標よりもよく改善している
    • 加えて、正解率などの指標も改善することが分かった
  • 生成タスクにおいても改善できることが分かった

❓疑問点は何か

  • 他のドメインにおける有効性が気になる
  • 最終層だけで有効だったのかな
    • 他のレイヤーの効果も気になる