オフラインRL
要約済み 1
-
hf-papers 18時間前 4強化学習に最適輸送理論を応用、複数ベンチマークでSOTA達成Reinforcement Learning via Value Gradient Flow
研究者らが行動正則化強化学習を最適輸送問題として定式化した新手法「VGF」を発表。 価値勾配で粒子を最適方策分布へ誘導する仕組みで、D4RL・OGBench・LLMタスクで既存手法を上回る。 オフライン強化学習やLLMのファインチューニングへの応用が期待され、強化学習研究に新たな視点を提供。
解説 Value Gradient Flow(VGF)は、行動正則化強化学習(参照分布からの逸脱を抑えながら報酬を最大化する枠組み)における新パラダイムを提案する。オフラインRLでは学習データ外への過剰外挿、LLMのRLファインチューニングではベースモデルからの過度な乖離が問題となる。既存の再パラメータ化方策勾配は大規模生成モデルへのスケーリングが困難で、棄却サンプリングは行動分布外への探索に対して保守的すぎるという欠点があった。VGFはこれを最適輸送問題(2つの確率分布間を最小コストで変換する数学的枠組み)として定式化し、参照分布から初期化した粒子を価値勾配で誘導する離散勾配フローで解く。明示的な方策パラメータが不要なため表現力と柔軟性を維持しつつ、輸送バジェット(粒子の移動量上限)の調整で暗黙的正則化とテスト時の計算スケーリングを実現する。D4RL・OGBench(オフラインRL標準ベンチマーク)およびLLMタスクで従来手法を大幅に上回るSOTAを達成しており、スケーラブルなRL最適化への実用的貢献度は高い。