スケール則

1件の記事

要約済み 1

arxiv-cs-ai 3日前 4
LLM、1B超で幻覚を事前検知できると判明
Before the First Token: Scale-Dependent Emergence of Hallucination Signals in Autoregressive Language Models

研究者らが7つのLLM（117M〜7B）で、幻覚生成前の内部信号を解析する手法を発表。 400M以下では信頼できる信号がなく、1Bパラメータ超でフェーズ転移が確認された。大規模モデルでは出力前に幻覚を検出できる可能性があり、信頼性向上への応用が期待される。

解説本研究は、自己回帰型言語モデルが幻覚（事実と異なる出力）をいつ「決定」するかを内部表現の時系列解析で明らかにした。117Mから7Bパラメータの7モデルに対し、TriviaQA・Simple Facts・Biographyの3データセット（計552例）で線形プローブ実験を実施。400M以下では幻覚を示す内部信号がほぼ存在せず（AUC 0.48〜0.67）、1Bを超えると「位置ゼロ」—最初のトークン生成前—に幻覚検出精度がピークに達するフェーズ転移が確認された。この知見は、幻覚が逐次生成中に形成されるのではなく、生成開始前にすでに方向性が定まっていることを示唆する。既存のGPT-4oやClaudeとの直接比較は行われていないが、スケール依存的な創発現象として広く適用可能な知見を提供する。実用上は、生成前の内部状態を監視することで幻覚を予防的に検出できる可能性を開くものであり、医療診断支援・法的文書生成・金融など高リスク分野への影響が大きい。

幻覚検出スケール則内部表現解釈可能性