推論時最適化より「モデル性能」が4倍重要——AIMO 3が実証

hf-papers 2026-04-17 06:00 ★3

推論時最適化より「モデル性能」が4倍重要——AIMO 3が実証

Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3

数学推論推論時最適化

要約

AIMO 3の検証で、多様プロンプトによる多数決投票の改善効果は±2点にとどまることが判明した。高温サンプリングが既に誤りを十分分散させており、プロンプト多様化は冗長で精度低下を招く。同一計算予算ではモデル能力の8点差が推論時工夫を4倍上回り、基盤モデル強化の重要性が再確認された。

解説・分析

本論文はAIMO 3（AIによる国際数学オリンピックレベル問題50問を5時間・H100 1枚で解くKaggleコンペ）の参加報告として、推論時最適化の限界を実証的に明らかにした研究である。提案手法「Diverse Prompt Mixer」は、多数決投票（Self-Consistency）の弱点である誤り相関を下げるため、「小さいケースから試す」「逆算する」「分類して解く」など異なる推論戦略を各投票者に割り当てるアイデアである。しかし3モデル・23実験の結果、あらゆるプロンプト介入が失敗した。その理由は2つ：(1)温度T=1.0の高温サンプリングが既に誤りを十分に分散させており（実測ρ＜0、平均−0.12）、(2)代替戦略は相関を下げる一方で1問あたりの正解率も下げるため、デコリレーション効果が精度損失を補えない。最強モデルgpt-oss-120bのN=8スコア（平均39.3/50）と弱モデルgpt-oss-20bのN=8スコア（31.0）の差8点は、全プロンプト工夫の効果±2点の4倍に相当する。また多数決ベストスコア42点とpass@20の45.5点の差は「選択損失」であり、プロンプト工夫ではなく検証器ベースの解答選択器で埋まる余地があると結論している。ハードウェア制約下では最大モデルを使い高温で回し、提出をくじ引きとして消費する戦略が最適とされる。

AIフロントライン

推論時最適化より「モデル性能」が4倍重要——AIMO 3が実証

要約

解説・分析

関連する読者