ロバストネス
要約済み 1
-
arxiv-cs-ai 2日前 4LLMの数学推論、入力変形で最大100%精度低下と判明Robust Reasoning Benchmark
研究チームが14種の入力摂動手法でLLMの推論頑健性を評価するベンチマークを公開した。 AIME 2024を改変したテストで8モデルを検証し、オープンウェイト系は平均55%・最大100%の精度崩壊を確認。 高精度ベンチマーク結果の信頼性に疑問を投げかけ、堅牢な評価手法の必要性を示した。
解説 本論文は、LLM(大規模言語モデル)の数学的推論能力が「標準的なテキストフォーマット」に過剰適合していることを体系的に示す研究です。著者らは14種類の摂動(perturbation)技法—例えば数式の表記変換、記号の置き換え、問題文の言い回し変更など—からなるパイプラインを構築し、AIME 2024データセットに適用してロバストネス評価用ベンチマークを作成しました。 評価対象は最先端の8モデル。フロンティアモデル(GPT-4oやClaudeシリーズ等のクローズドモデル)は摂動に対してある程度の耐性を示した一方、7Bから120Bパラメータのオープンウェイト推論モデル群は壊滅的な精度低下(平均55%・一部摂動で100%低下)を記録しました。 さらに「ワーキングメモリ容量」の影響を切り離すため、単一コンテキストウィンドウ内で複数の無摂動問題を連続して解かせる実験も実施。これにより、パース失敗(入力の機械的な読み取り誤り)と下流の推論失敗を分離しています。 実用上の意義は大きく、オープンソースモデルの実世界展開における脆弱性を定量化し、今後の訓練・評価設計に対して具体的な改善方向性を示している点が重要です。