報酬モデル
要約済み 2
-
hf-papers 6時間前 4新手法C2、報酬モデルの精度を大幅改善C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences
二値選好データのみからルーブリック(評価基準)を自動生成し、LLMの報酬モデリングを強化する手法「C2」が発表された。 協調生成器と批判的検証器を組み合わせ、RM-Benchで+6.5点、AlpacaEval 2.0でLC勝率+6.0点を既存手法に対して達成。 RLHFの品質向上に直結する研究で、より少ないアノテーションコストで高精度な報酬モデル構築が可能になる。
解説 本論文はRLHFにおける報酬モデリングを改善するフレームワークC2(Cooperative yet Critical)を提案する。従来のルーブリック(評価基準チェックリスト)拡張型検証は、人間アノテーターや大規模プロプライエタリモデルへの依存が課題だったが、C2は二値選好データのみから学習する点が新しい。 手法の核心は「有益ルーブリック」と「誤誘導ルーブリック」の対比ペアを自動合成することにある。各ルーブリックが検証モデルの信頼度をどの方向に変化させるかを測定し、正解方向に押し上げるものを有益、遠ざけるものを誤誘導として分類する。この対比ペアを使い、DPOで協調型ルーブリック生成器を、GRPOで批判的検証器を訓練する。推論時は検証器がルーブリックを有益と判断した場合のみ活用し、そうでなければルーブリックなし評価にフォールバックするSelective Inferenceを採用する。 Tulu3-8BおよびQwen3-8BをベースにUltraFeedback(5,000件)で学習した実験では、GRPO訓練済み推論型RMと比べRM-Benchで+6.5点、AlpacaEval 2.0 LC勝率で+6.0点を達成。8Bモデルが4倍大きいQwen3-32Bのルーブリックを使った上限設定と同等性能を発揮し、スケーラビリティを実証した。アブレーション分析では誤誘導ルーブリックを使った訓練が最も重要なコンポーネントであることが示された。 -
hf-papers 2日前 41回の推論で複数応答を同時採点、報酬モデルがN倍速にYou Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass
複数の候補応答を1回のフォワードパスで同時評価できる新しい報酬モデル「YOJO」が登場。 因果的アテンションで応答間の暗黙的比較を実現し、6つのベンチマークでSOTAを達成。 RLHFやGRPOによるLLM訓練の高速化・安定化に直結する実用的な成果として注目。
解説 本論文は「YOJO(You Only Judge Once)」と呼べる手法を提案する。従来の報酬モデル(RM)はN個の候補応答をN回の独立した推論で採点するが、本手法はすべての応答をセパレータトークンで連結し1回のフォワードパスで一括採点する。因果的アテンションの性質上、後続の応答は前の応答を参照できるため、暗黙的な比較推論が生まれる仕組みだ。各応答の最終トークンの隠れ状態から2層MLPスコアリングヘッドでスカラースコアを算出し、クロスエントロピー損失で訓練する(N=2ではBradley-Terry損失と等価)。Molmo2-4Bをバックボーンに436K件の選好データで学習した結果、6つのマルチモーダル報酬ベンチマーク平均71.2%でSOTAを達成(IXC-2.5-Rewardやより大規模モデルを上回る)。推論効率はN=4・動画入力で最大約4倍の高速化とFLOPs削減を実現。さらにGRPOによる強化学習に適用すると、単一応答RMと比べてWildVisionで+4.4ポイント、LLaVA-Benchで+5.4ポイントの改善を示し、訓練シグナルの安定性も高い。新ベンチマークMR²Bench-Image/Videoも公開される。