Calibrating LLM Confidence by Probing Perturbed Representation Stability

📄論文情報

トークン単位でLLMの最終層に摂動を加える
- 勾配を使用して摂動を加える
- 損失関数は隠れ層の状態から正解トークンを予測する確率のクロスエントロピーを使用している
- パラメータを更新する時と逆方向の勾配を摂動として加える
- 摂動を加えた時のロジットを2.で使用する
- この摂動を加えるステップはS回行う
この摂動に影響のある特徴を抽出する
- 特徴量はトークン毎に抽出する
- このでも特徴量とは、ロジットや勾配のL2ノルムなどを指す
- この特徴量に対して平均などの統計処理を加えた値を最終的な特徴量とする
この特徴量から確信度(確率のことか？)を予測する分類器を学習する
- 分類器は二つ用いる
- トークンの特徴量毎に正解、不正解を予測する分類器と文章単位で予測する分類器
  - 文章単位で予測する分類器は、トークン単位の分類器が抽出した特徴量を連結した特徴量を使用して予測している
  - このでの特徴量は、モデルの最終出力を指す
- トークン単位の分類器はMLP、文章単位の分類器は畳み込みを使用している
- 目的関数はmax-margin損失を使用する
  - 負例はロジットの値を基に決めている