LLM失敗分析

1件の記事

要約済み 1

arxiv-cs-ai 2日前 4
研究者、LLMの「正しい推論・誤った答え」現象を解明
Correct Chains, Wrong Answers: Dissociating Reasoning from Output in LLM Logic

新手法「Novel Operator Test」でLLMが各推論ステップを正確に実行しても誤答を生む現象を5モデルで実証深さ2の戦略的失敗と深さ7の内容的失敗という2種類のバグを特定、介入により大幅な改善を確認 LLMの推論能力への過信に警鐘を鳴らし、評価手法・信頼性設計の見直しを迫る成果

解説本論文は「LLMが推論を正しく実行しても誤答を出す」現象を定量的に証明した研究である。既存ベンチマークでは演算子名（AND, ORなど）に対する事前学習済み知識が混入するため、真の推論能力を測れない。そこで著者らはNovel Operator Testを提案し、ブール演算子を見慣れない架空名称（例：「BLORP」）で与え、純粋な論理推論能力のみを評価する設計とした。深さ1〜10の入れ子構造で5モデルを各最大8,100問テストした結果、推論ステップは正しいのに最終宣言答えが誤る「推論-出力解離」を発見した。Claude Sonnet 4の深さ7では全31エラーが推論正・宣言誤であり、混合演算子チェーンでも同様のパターンが多数確認された。失敗は2種に分類される：深さ2の「戦略的失敗」は浅い検索的回答を試みるもので、スキャフォールディング（段階的ヒント付与）により+62ポイント改善した。深さ7の「内容的失敗」は推論完遂後に答え宣言でミスするもので、介入後は300問中0エラーを達成し+8〜30ポイント改善した。さらにTrojan演算子（XORの真理値表を偽装）を使ったテストでモデルが記憶ベースの回答をしていることも確認した。従来ベンチマークが見逃す体系的バグの存在を示し、LLM評価手法の再考を促す重要な研究である。

推論評価ベンチマーク論理推論 LLM失敗分析