GRPO超えの新手法DAPOとGSPO、LLM強化学習を刷新

hf-blog 2025-08-09 05:18 ★4

GRPO超えの新手法DAPOとGSPO、LLM強化学習を刷新

From GRPO to DAPO and GSPO: What, Why, and HowAug 9, 2025•111

RLHF 強化学習 LLM訓練 MoE ポリシー最適化

要約

研究者らがGRPOの課題を解決する新強化学習手法DAPOとGSPOを発表・解説した。 DAPOはクリッピング改善と勾配希釈対策など4つの工夫でGRPOを強化、GSPOはシーケンス単位の重要度比に転換しMoE訓練を安定化。 PPOから続く最適化手法の進化は、大規模モデル訓練の効率化に直結する重要な知見を示す。

解説・分析

GRPOはDeepSeek等で採用された値モデル不要のRL手法だが、長文やMoEモデルで不安定になる問題があった。DAPOは非対称クリッピング等の工夫で改善し、GSPOはシーケンス単位の重要度比という根本的転換でMoE訓練を安定化させた。QWen3がGSPOを採用しており、Claude・GPT-4o等の大規模モデル訓練にも影響しうる。開発者にとってはRL微調整時の手法選択指針として、研究者にはトークン vs シーケンス粒度の理論的整理として実用価値が高い。

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →

原文を読む → https://huggingface.co/blog/NormalUhr/grpo-to-dapo-and-gspo

← 一覧に戻る

AIフロントライン