方策最適化
要約済み 1
-
hf-papers 21時間前 4新RL手法TPO、疎報酬環境でPPO・GRPOを大幅超えTarget Policy Optimization
強化学習の新アルゴリズム「TPO」が論文で発表された。 目標分布へのクロスエントロピー近似により疎報酬環境で既存手法を凌駕、収束後に勾配が自然消滅する安定性も実現。 10億パラメータLLMの推論・グラフ彩色タスクで有効性確認、LLM訓練の効率化に貢献しうる。
解説 TPO(Target Policy Optimization)は、強化学習の方策最適化を「目標分布の構築」と「分布への方策フィッティング」に分離するアプローチ。スコア付き候補群からKL正則化最適化問題の解析解として目標分布qを閉形式で求め、クロスエントロピー損失で方策を近似する。方策が目標に一致すると勾配が自然にゼロになる停止基準を内包する点がPPO・GRPOにはない特徴。疎報酬での優位性は3メカニズムに起因する:①収束後の勾配自己消滅による無駄な更新の排除、②全候補失敗のゼロ分散グループへの中立応答(偽信号を抑制し希少成功例に集中)、③固定目標による複数エポック学習の安定性。バンジット問題・2層トランスフォーマーから1.7BのQwen3やDeepSeek-R1-Distillまで広範に検証され、グラフ彩色問題でGRPOがスコア0に陥る条件下でもTPOはスコア0.96を達成。既存手法の置き換え候補として実用上の意義が高い。