事前学習
要約済み 1
-
hf-papers 3日前 4事前学習空間を直接最適化する新RL手法「PreRL」が登場From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space
研究者らが強化学習を事前学習空間P(y)で直接最適化する新手法「PreRL」を提案・実証した。 推論空間を拡張するNSR-PreRLと標準RLを組み合わせた「DSRL」が最高性能を達成。 従来のRLVRの限界を打破し、LLMの推論能力向上に新たなアプローチを示す成果。
解説 本論文は大規模言語モデル(LLM)の推論能力強化において、従来の強化学習(RLVR)が抱える「ベースモデルの出力分布の上限」という本質的な問題に切り込む。 従来のRLVRはP(y|x)(入力xに対する出力yの条件付き分布)を最適化するが、これはベースモデルが既に生成できる範囲内でしか推論能力を向上させられない。そこで著者らはP(y)(周辺分布)、すなわち事前学習空間を直接最適化するPreRLを提案する。 log P(y)とlog P(y|x)の勾配が強く整合していることを理論・実験両面で検証し、PreRLが標準RLの代理として機能することを示した。さらにPreRL内の重要メカニズムとして「Negative Sample Reinforcement(NSR)」を発見。NSRは誤った推論経路を高速に刈り込みつつ、モデルが自発的な内省行動(transition思考14.89倍、reflection思考6.54倍増)を生み出すことを示した。 これらの知見を統合した「Dual Space RL(DSRL)」は、まずNSR-PreRLで推論地平を広げ(Policy Reincarnationと呼ぶ初期化戦略)、次に標準RLで細粒度な最適化を行う二段階構成。数学・コーディング等の複数ベンチマークで既存の強いベースライン(DeepSeek-R1等)を一貫して上回る結果を示しており、推論能力の天井を引き上げる新しいパラダイムとして注目される。