reward model
要約済み 1
-
hf-papers 3日前 4推論型報酬モデルで視覚生成の品質をテスト時にも向上RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time
研究チームが視覚生成モデルの報酬に多次元批評推論を組み込む「RationalRewards」を発表。 学習時はRL報酬として、テスト時はパラメータ更新なしの批評ループとして機能する二段構えの設計。 PARROT手法で低コストな選好データから高品質な根拠を復元でき、実用的な導入コスト削減に貢献。
解説 RationalRewardsは、視覚生成向け報酬モデルが人間の評価を単一スコアに圧縮して推論根拠を捨てていた問題を解決する研究。提案手法は報酬モデルにスコア出力前に多次元の批評文を生成させ、評価器を能動的な最適化ツールへと変える。学習時には構造化批評が解釈可能な細粒度RL報酬として機能し、テスト時にはGenerate-Critique-Refineループ(GCRループ)でプロンプトを反復修正することで、モデルの重みを更新せずに出力品質を向上できる。批評アノテーションなしに学習するため、PARROT(Preference-Anchored Rationalization)フレームワークを導入。既存の選好データから固定生成・一貫性フィルタリング・蒸留で高品質な根拠を復元する。結果として8BパラメータのRationalRewardsは、オープンソース報酬モデルでSOTAを達成しGemini-2.5-Proと互角の性能を持ちながら、同等ベースラインの1/10〜1/20のデータで学習可能。特にテスト時のGCRループがRLファインチューニングを複数ベンチマークで上回り、既存生成器の潜在能力を引き出せることを示した。