新RL手法TPO、疎報酬環境でPPO・GRPOを大幅超え
Target Policy Optimization
強化学習
方策最適化
疎報酬
LLM訓練
要約
強化学習の新アルゴリズム「TPO」が論文で発表された。
目標分布へのクロスエントロピー近似により疎報酬環境で既存手法を凌駕、収束後に勾配が自然消滅する安定性も実現。
10億パラメータLLMの推論・グラフ彩色タスクで有効性確認、LLM訓練の効率化に貢献しうる。
無料登録でニュースレターを受け取る
毎週AIニュースのTop5をお届けします(無料)
無料登録 →
Proプランで深掘り分析・全アーカイブを読む
月額300円 / 年額2,400円 / Founding Member 5,000円(買い切り)
Proプランを見る →
原文を読む →
https://huggingface.co/papers/2604.06159
TPO(Target Policy Optimization)は、強化学習の方策最適化を「目標分布の構築」と「分布への方策フィッティング」に分離するアプローチ。スコア付き候補群からKL正則化最適化問題の解析解として目標分布qを閉形式で求め、クロスエントロピー損失で方策を近似する。方策が目標に一致すると勾配が自然にゼロになる停止基準を内包する点がPPO・GRPOにはない特徴。疎報酬での優位性は3メカニズムに起因する:①収束後の勾配自己消滅による無駄な更新の排除、②全候補失敗のゼロ分散グループへの中立応答(偽信号を抑制し希少成功例に集中)、③固定目標による複数エポック学習の安定性。バンジット問題・2層トランスフォーマーから1.7BのQwen3やDeepSeek-R1-Distillまで広範に検証され、グラフ彩色問題でGRPOがスコア0に陥る条件下でもTPOはスコア0.96を達成。既存手法の置き換え候補として実用上の意義が高い。