AIフロントライン

公式ソースだけを集めたAIニュースを日本語要約でお届け

ポリシー最適化

1件の記事

要約済み 1

hf-blog 8ヶ月前 4
GRPO超えの新手法DAPOとGSPO、LLM強化学習を刷新
From GRPO to DAPO and GSPO: What, Why, and HowAug 9, 2025•111

研究者らがGRPOの課題を解決する新強化学習手法DAPOとGSPOを発表・解説した。 DAPOはクリッピング改善と勾配希釈対策など4つの工夫でGRPOを強化、GSPOはシーケンス単位の重要度比に転換しMoE訓練を安定化。 PPOから続く最適化手法の進化は、大規模モデル訓練の効率化に直結する重要な知見を示す。

解説 GRPOはDeepSeek等で採用された値モデル不要のRL手法だが、長文やMoEモデルで不安定になる問題があった。DAPOは非対称クリッピング等の工夫で改善し、GSPOはシーケンス単位の重要度比という根本的転換でMoE訓練を安定化させた。QWen3がGSPOを採用しており、Claude・GPT-4o等の大規模モデル訓練にも影響しうる。開発者にとってはRL微調整時の手法選択指針として、研究者にはトークン vs シーケンス粒度の理論的整理として実用価値が高い。

RLHF 強化学習 LLM訓練 MoE ポリシー最適化