ヒント学習

1件の記事

要約済み 1

hf-papers 2日前 4
新手法KnowRLが数学ベンチマーク8冠、LLM推論を効率強化
KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance

研究チームが強化学習の報酬スパース性問題を解決するKnowRLを発表。最小限の知識ヒントでLLMを誘導し、1.5Bモデルで平均精度70.08を達成。小規模モデルでも高精度推論が可能となり、効率的なRLトレーニングの新基準を示す。

解説 KnowRLは、RLVR（検証可能報酬による強化学習）の根本的課題「報酬スパース性」を解決するフレームワーク。困難な数学問題ではLLMが全ロールアウトで不正解となり学習勾配がゼロになる問題があった。従来のヒントベースRL手法は長い解法プレフィックスや抽象テンプレートを注入するが、余剰情報が「クロスヒント不整合」を引き起こすという問題があった。 KnowRLはヒント設計を「最小充足ガイダンス問題」として定式化し、解法を原子的な知識点（KP）に分解して最小サブセットを選択する。重要な発見として「枝刈り相互作用パラドックス」があり、単一KPの削除は精度向上に寄与するが、複数KPを同時削除すると精度が低下するという現象を特定。この問題を解決するため、まず候補を絞り込んでから制約付き全域探索を行うCSS（制約付き部分集合探索）を提案した。実験では、OpenMath-Nemotron-1.5BをベースにKnowRL-Nemotron-1.5Bを訓練し、8つの数学ベンチマーク（AIME24/25、MATH-500等）でKPなし推論時に平均70.08（ベースライン比+9.63点）、CSS選択KP付きで74.16を達成し1.5Bスケール新SOTAを確立。JustRLやQuestAなどの既存手法を上回る。平均2.57 KPと少ないトークン数で高効果を実現し、教師モデル不要で訓練可能な点が実用上の強みとなる。

強化学習数学推論 LLM 報酬スパース性ヒント学習