数学推論
要約済み 2
-
hf-papers 3時間前 3推論時最適化より「モデル性能」が4倍重要——AIMO 3が実証Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3
AIMO 3の検証で、多様プロンプトによる多数決投票の改善効果は±2点にとどまることが判明した。 高温サンプリングが既に誤りを十分分散させており、プロンプト多様化は冗長で精度低下を招く。 同一計算予算ではモデル能力の8点差が推論時工夫を4倍上回り、基盤モデル強化の重要性が再確認された。
解説 本論文はAIMO 3(AIによる国際数学オリンピックレベル問題50問を5時間・H100 1枚で解くKaggleコンペ)の参加報告として、推論時最適化の限界を実証的に明らかにした研究である。提案手法「Diverse Prompt Mixer」は、多数決投票(Self-Consistency)の弱点である誤り相関を下げるため、「小さいケースから試す」「逆算する」「分類して解く」など異なる推論戦略を各投票者に割り当てるアイデアである。しかし3モデル・23実験の結果、あらゆるプロンプト介入が失敗した。その理由は2つ:(1)温度T=1.0の高温サンプリングが既に誤りを十分に分散させており(実測ρ<0、平均−0.12)、(2)代替戦略は相関を下げる一方で1問あたりの正解率も下げるため、デコリレーション効果が精度損失を補えない。最強モデルgpt-oss-120bのN=8スコア(平均39.3/50)と弱モデルgpt-oss-20bのN=8スコア(31.0)の差8点は、全プロンプト工夫の効果±2点の4倍に相当する。また多数決ベストスコア42点とpass@20の45.5点の差は「選択損失」であり、プロンプト工夫ではなく検証器ベースの解答選択器で埋まる余地があると結論している。ハードウェア制約下では最大モデルを使い高温で回し、提出をくじ引きとして消費する戦略が最適とされる。 -
hf-papers 2日前 4新手法KnowRLが数学ベンチマーク8冠、LLM推論を効率強化KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance
研究チームが強化学習の報酬スパース性問題を解決するKnowRLを発表。 最小限の知識ヒントでLLMを誘導し、1.5Bモデルで平均精度70.08を達成。 小規模モデルでも高精度推論が可能となり、効率的なRLトレーニングの新基準を示す。
解説 KnowRLは、RLVR(検証可能報酬による強化学習)の根本的課題「報酬スパース性」を解決するフレームワーク。困難な数学問題ではLLMが全ロールアウトで不正解となり学習勾配がゼロになる問題があった。従来のヒントベースRL手法は長い解法プレフィックスや抽象テンプレートを注入するが、余剰情報が「クロスヒント不整合」を引き起こすという問題があった。 KnowRLはヒント設計を「最小充足ガイダンス問題」として定式化し、解法を原子的な知識点(KP)に分解して最小サブセットを選択する。重要な発見として「枝刈り相互作用パラドックス」があり、単一KPの削除は精度向上に寄与するが、複数KPを同時削除すると精度が低下するという現象を特定。この問題を解決するため、まず候補を絞り込んでから制約付き全域探索を行うCSS(制約付き部分集合探索)を提案した。 実験では、OpenMath-Nemotron-1.5BをベースにKnowRL-Nemotron-1.5Bを訓練し、8つの数学ベンチマーク(AIME24/25、MATH-500等)でKPなし推論時に平均70.08(ベースライン比+9.63点)、CSS選択KP付きで74.16を達成し1.5Bスケール新SOTAを確立。JustRLやQuestAなどの既存手法を上回る。平均2.57 KPと少ないトークン数で高効果を実現し、教師モデル不要で訓練可能な点が実用上の強みとなる。