数学推論

2件の記事

要約済み 2

hf-papers 3時間前 3
推論時最適化より「モデル性能」が4倍重要——AIMO 3が実証
Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3

AIMO 3の検証で、多様プロンプトによる多数決投票の改善効果は±2点にとどまることが判明した。高温サンプリングが既に誤りを十分分散させており、プロンプト多様化は冗長で精度低下を招く。同一計算予算ではモデル能力の8点差が推論時工夫を4倍上回り、基盤モデル強化の重要性が再確認された。

解説本論文はAIMO 3（AIによる国際数学オリンピックレベル問題50問を5時間・H100 1枚で解くKaggleコンペ）の参加報告として、推論時最適化の限界を実証的に明らかにした研究である。提案手法「Diverse Prompt Mixer」は、多数決投票（Self-Consistency）の弱点である誤り相関を下げるため、「小さいケースから試す」「逆算する」「分類して解く」など異なる推論戦略を各投票者に割り当てるアイデアである。しかし3モデル・23実験の結果、あらゆるプロンプト介入が失敗した。その理由は2つ：(1)温度T=1.0の高温サンプリングが既に誤りを十分に分散させており（実測ρ＜0、平均−0.12）、(2)代替戦略は相関を下げる一方で1問あたりの正解率も下げるため、デコリレーション効果が精度損失を補えない。最強モデルgpt-oss-120bのN=8スコア（平均39.3/50）と弱モデルgpt-oss-20bのN=8スコア（31.0）の差8点は、全プロンプト工夫の効果±2点の4倍に相当する。また多数決ベストスコア42点とpass@20の45.5点の差は「選択損失」であり、プロンプト工夫ではなく検証器ベースの解答選択器で埋まる余地があると結論している。ハードウェア制約下では最大モデルを使い高温で回し、提出をくじ引きとして消費する戦略が最適とされる。

数学推論推論時最適化
hf-papers 2日前 4
新手法KnowRLが数学ベンチマーク8冠、LLM推論を効率強化
KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance

研究チームが強化学習の報酬スパース性問題を解決するKnowRLを発表。最小限の知識ヒントでLLMを誘導し、1.5Bモデルで平均精度70.08を達成。小規模モデルでも高精度推論が可能となり、効率的なRLトレーニングの新基準を示す。

解説 KnowRLは、RLVR（検証可能報酬による強化学習）の根本的課題「報酬スパース性」を解決するフレームワーク。困難な数学問題ではLLMが全ロールアウトで不正解となり学習勾配がゼロになる問題があった。従来のヒントベースRL手法は長い解法プレフィックスや抽象テンプレートを注入するが、余剰情報が「クロスヒント不整合」を引き起こすという問題があった。 KnowRLはヒント設計を「最小充足ガイダンス問題」として定式化し、解法を原子的な知識点（KP）に分解して最小サブセットを選択する。重要な発見として「枝刈り相互作用パラドックス」があり、単一KPの削除は精度向上に寄与するが、複数KPを同時削除すると精度が低下するという現象を特定。この問題を解決するため、まず候補を絞り込んでから制約付き全域探索を行うCSS（制約付き部分集合探索）を提案した。実験では、OpenMath-Nemotron-1.5BをベースにKnowRL-Nemotron-1.5Bを訓練し、8つの数学ベンチマーク（AIME24/25、MATH-500等）でKPなし推論時に平均70.08（ベースライン比+9.63点）、CSS選択KP付きで74.16を達成し1.5Bスケール新SOTAを確立。JustRLやQuestAなどの既存手法を上回る。平均2.57 KPと少ないトークン数で高効果を実現し、教師モデル不要で訓練可能な点が実用上の強みとなる。

強化学習数学推論 LLM 報酬スパース性ヒント学習