テスト時推論
要約済み 1
-
hf-papers 2日前 4推論型報酬モデルで視覚生成を大幅強化、8BモデルがGeminiに匹敵RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time
視覚生成向け報酬モデルに多次元批評を生成させ、RL訓練とテスト時推論を同時改善するRationalRewardsを発表。 PARROTフレームワークで選好データから推論根拠を自動生成し、アノテーションコストを大幅削減。 8BモデルがGemini-2.5-Proと同等の性能をデータ量10〜20分の1で達成し、コスト効率の新基準を示す。
解説 RationalRewardsは,テキスト→画像生成・画像編集モデルの品質改善を目的とした推論型報酬モデルである。従来の報酬モデルはスカラースコアのみを出力し,なぜその評価になったか不透明だった。本手法は報酬モデルに構図・テキスト整合性・美的品質など多次元の批評を先に生成させてからスコアを出力させることで,(1)RL訓練時に解釈可能な細粒度報酬として利用でき,(2)テスト時にはGenerate-Critique-Refineループでプロンプトを自動修正し,パラメータ更新なしに生成品質を向上できる。学習手法PARROTは,既存の選好データ(良い/悪い画像ペア)から,アンカー生成・一貫性フィルタリング・蒸留の3段階で高品質な推論根拠を自動回収する枠組みで,高コストな人手アノテーションを不要にする。実験では,同等手法比10〜20倍少ないデータでGemini-2.5-Proと競合する選好予測性能を達成。特筆すべきは,テスト時のCritique-Refineループが複数ベンチマークでRLファインチューニングと同等以上の性能を示したことであり,既存生成モデルの潜在能力をプロンプト改善だけで引き出せることを実証した点が実用上の大きな意義を持つ。