内部表現分析
要約済み 1
-
arxiv-cs-ai 2日前 4研究者がLLMのハルシネーションをトークン生成前に検知成功Before the First Token: Scale-Dependent Emergence of Hallucination Signals in Autoregressive Language Models
大規模言語モデルが誤情報を生成する前から、内部表現にその兆候が現れることを研究チームが実証した。 10億パラメータ以上のモデルでは最初のトークン生成前に検知精度がピークとなる相転移現象を確認、4億未満では検知不可。 LLMの信頼性向上や出力フィルタリングへの応用が期待され、生成AI活用の安全性強化につながる可能性がある。
解説 本研究は、自己回帰型言語モデルがハルシネーションを生成する際、最初のトークンを出力する前から内部表現にその兆候が現れることを実験的に示した。117Mから7Bパラメータの7モデルとTriviaQA・Simple Facts・Biographyの3データセット(552例)を用い、プローブ分類器で内部状態を解析。パラメータ数に依存した相転移を発見し、400M未満ではAUC=0.48〜0.67と偶然レベルにとどまる一方、1B以上では生成開始前(位置ゼロ)でプローブ精度がピークに達し、その後トークン生成が進むにつれて低下する質的に異なる挙動が確認された。GPT-4oやClaudeとの直接比較は行われていないが、スケーリング閾値(約1B)の特定は実用上重要であり、ハルシネーション早期警告システムや不確実な質問への回答拒否機能の設計に直接応用できる。LLMが「何を知らないか」を出力前に内部状態から検出できる可能性を示した点で、安全なLLM設計の理論的根拠となる研究である。