ヒント学習
要約済み 1
-
hf-papers 2日前 4新手法KnowRLが数学ベンチマーク8冠、LLM推論を効率強化KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance
研究チームが強化学習の報酬スパース性問題を解決するKnowRLを発表。 最小限の知識ヒントでLLMを誘導し、1.5Bモデルで平均精度70.08を達成。 小規模モデルでも高精度推論が可能となり、効率的なRLトレーニングの新基準を示す。
解説 KnowRLは、RLVR(検証可能報酬による強化学習)の根本的課題「報酬スパース性」を解決するフレームワーク。困難な数学問題ではLLMが全ロールアウトで不正解となり学習勾配がゼロになる問題があった。従来のヒントベースRL手法は長い解法プレフィックスや抽象テンプレートを注入するが、余剰情報が「クロスヒント不整合」を引き起こすという問題があった。 KnowRLはヒント設計を「最小充足ガイダンス問題」として定式化し、解法を原子的な知識点(KP)に分解して最小サブセットを選択する。重要な発見として「枝刈り相互作用パラドックス」があり、単一KPの削除は精度向上に寄与するが、複数KPを同時削除すると精度が低下するという現象を特定。この問題を解決するため、まず候補を絞り込んでから制約付き全域探索を行うCSS(制約付き部分集合探索)を提案した。 実験では、OpenMath-Nemotron-1.5BをベースにKnowRL-Nemotron-1.5Bを訓練し、8つの数学ベンチマーク(AIME24/25、MATH-500等)でKPなし推論時に平均70.08(ベースライン比+9.63点)、CSS選択KP付きで74.16を達成し1.5Bスケール新SOTAを確立。JustRLやQuestAなどの既存手法を上回る。平均2.57 KPと少ないトークン数で高効果を実現し、教師モデル不要で訓練可能な点が実用上の強みとなる。