LLM失敗分析
要約済み 1
-
arxiv-cs-ai 2日前 4研究者、LLMの「正しい推論・誤った答え」現象を解明Correct Chains, Wrong Answers: Dissociating Reasoning from Output in LLM Logic
新手法「Novel Operator Test」でLLMが各推論ステップを正確に実行しても誤答を生む現象を5モデルで実証 深さ2の戦略的失敗と深さ7の内容的失敗という2種類のバグを特定、介入により大幅な改善を確認 LLMの推論能力への過信に警鐘を鳴らし、評価手法・信頼性設計の見直しを迫る成果
解説 本論文は「LLMが推論を正しく実行しても誤答を出す」現象を定量的に証明した研究である。既存ベンチマークでは演算子名(AND, ORなど)に対する事前学習済み知識が混入するため、真の推論能力を測れない。そこで著者らはNovel Operator Testを提案し、ブール演算子を見慣れない架空名称(例:「BLORP」)で与え、純粋な論理推論能力のみを評価する設計とした。深さ1〜10の入れ子構造で5モデルを各最大8,100問テストした結果、推論ステップは正しいのに最終宣言答えが誤る「推論-出力解離」を発見した。Claude Sonnet 4の深さ7では全31エラーが推論正・宣言誤であり、混合演算子チェーンでも同様のパターンが多数確認された。失敗は2種に分類される:深さ2の「戦略的失敗」は浅い検索的回答を試みるもので、スキャフォールディング(段階的ヒント付与)により+62ポイント改善した。深さ7の「内容的失敗」は推論完遂後に答え宣言でミスするもので、介入後は300問中0エラーを達成し+8〜30ポイント改善した。さらにTrojan演算子(XORの真理値表を偽装)を使ったテストでモデルが記憶ベースの回答をしていることも確認した。従来ベンチマークが見逃す体系的バグの存在を示し、LLM評価手法の再考を促す重要な研究である。