新手法SPPOがPPO訓練を5.9倍高速化、推論LLM整合に革新
SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
強化学習
LLM推論
要約
長い思考連鎖を持つ推論LLMの強化学習手法SPPOが発表された。
系列全体をバンディット問題として扱うことでクレジット割当の不安定性を解消し、GRPOより5.9倍高速に同等性能を達成。
推論モデルのRLHF訓練コスト削減につながり、大規模展開の実現可能性を高める。
無料登録でニュースレターを受け取る
毎週AIニュースのTop5をお届けします(無料)
無料登録 →
Proプランで深掘り分析・全アーカイブを読む
月額300円 / 年額2,400円 / Founding Member 5,000円(買い切り)
Proプランを見る →
原文を読む →
https://huggingface.co/papers/2604.08865
SPPOは、大規模言語モデルの数学的推論タスクにおける強化学習の根本的な問題を解決する手法である。従来のPPOはトークン単位のクリティック(価値関数)とGAEを用いてアドバンテージを推定するが、長いCoT(思考の連鎖)では報酬が系列末尾にしか得られないため、クリティックが末尾付近のパターンにのみ反応する「テール効果」が生じ、中間ステップへの適切な信用割当が失敗する。一方、GRPOはクリティックを廃して1プロンプトにつき複数サンプル(N=8)を生成してベースラインを構築するが、計算コストが高く学習スループットが低下する。SPPOはこの両者のトレードオフを解消するため、推論タスクをトークン単位のMDPではなく「系列レベルの文脈バンディット」として再定式化する。プロンプト全体を文脈、応答系列全体を単一の原子的行動として扱い、スカラー価値関数V(sp)でプロンプトの解決可能性(成功確率)を推定する。アドバンテージはA=R-V(sp)という単純な形で計算され、バイナリ交差エントロピーで価値モデルを学習する。実験ではDeepSeek-R1-Distill-Qwen(1.5B/7B)をベースに、AIME24/25・AMC23・MATH500・Minerva Mathで評価。SPPOはシングルサンプル(N=1)でGRPO(N=8)と同等以上の性能を達成し、学習速度は5.9倍高速である。さらに、7Bポリシーに対して1.5Bの軽量クリティックを使用する「デカップルドクリティック」戦略によりVRAMを12.8%削減でき、最高平均スコア(58.56)も達成した。