幻覚検出
要約済み 1
-
hf-papers 2日前 3LLMは自分の回答正誤を知っている?新研究が実態を解明Masked by Consensus: Disentangling Privileged Knowledge in LLM Correctness
研究チームがLLMの「特権的知識」——自身の回答の正誤を外部モデルより正確に予測できる能力——を実証的に検証した。 モデル間の高い正解一致率が真の特権知識を隠蔽する問題を発見し、不一致サブセットで評価する新手法を提案。事実知識では約5%の優位性を確認する一方、数学推論では優位性がないことも判明。 LLMの自己評価・自己修正機能の設計に影響を与える知見として、エージェント開発や信頼性向上に向けた研究の指針となる。
解説 本論文は「LLMは自身の回答が正しいかどうかについて、外部モデルが持てない内部的な特権的知識を保有しているか」という問いを厳密に検証する。提案手法の核心は「不一致サブセット評価」:ターゲットモデルと外部モデルが異なる正誤ラベルを持つ問題のみを評価対象とすることで、モデル間の高い正解一致率(約80%)が生む交絡を排除する。実験ではQwen-2.5-7B・Llama-3.1-8B・Gemma-2-9Bの3モデルを対象に、事実知識(TriviaQA・Mintaka・HotPotQA)と数学推論(MATH・GSM1K)の5データセットで線形・MLP両プローブを評価。結果として、全テストセットでは自己プローブの優位(プレミアムギャップ)は消失するが、不一致サブセットでは事実知識タスクで統計的に有意な約5%の優位性が全モデルで確認された。一方、数学推論では不一致サブセットでも優位性はゼロで、外部プローブが自己プローブを上回る場面もある。さらに層別解析により、事実タスクの特権的知識は中間層(全体の約25〜40%の深さ)から徐々に顕在化し深層で強まるが、数学推論はどの層でも一貫した自己優位を示さない。この結果は、事実知識は記憶検索に紐づく内部状態として符号化される一方、数学の難易度は問題構造という「公開情報」で決まることを示唆する。幻覚検出や監視への応用が期待される。