AIフロントライン

公式ソースだけを集めたAI最前線(日本語要約)

hf-papers 2026-04-15 06:00 ★4

1回の推論で複数応答を同時採点、報酬モデルがN倍速に

You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass

報酬モデル RLHF マルチモーダル 推論効率化

要約

複数の候補応答を1回のフォワードパスで同時評価できる新しい報酬モデル「YOJO」が登場。 因果的アテンションで応答間の暗黙的比較を実現し、6つのベンチマークでSOTAを達成。 RLHFやGRPOによるLLM訓練の高速化・安定化に直結する実用的な成果として注目。

解説・分析

本論文は「YOJO(You Only Judge Once)」と呼べる手法を提案する。従来の報酬モデル(RM)はN個の候補応答をN回の独立した推論で採点するが、本手法はすべての応答をセパレータトークンで連結し1回のフォワードパスで一括採点する。因果的アテンションの性質上、後続の応答は前の応答を参照できるため、暗黙的な比較推論が生まれる仕組みだ。各応答の最終トークンの隠れ状態から2層MLPスコアリングヘッドでスカラースコアを算出し、クロスエントロピー損失で訓練する(N=2ではBradley-Terry損失と等価)。Molmo2-4Bをバックボーンに436K件の選好データで学習した結果、6つのマルチモーダル報酬ベンチマーク平均71.2%でSOTAを達成(IXC-2.5-Rewardやより大規模モデルを上回る)。推論効率はN=4・動画入力で最大約4倍の高速化とFLOPs削減を実現。さらにGRPOによる強化学習に適用すると、単一応答RMと比べてWildVisionで+4.4ポイント、LLaVA-Benchで+5.4ポイントの改善を示し、訓練シグナルの安定性も高い。新ベンチマークMR²Bench-Image/Videoも公開される。

関連する読者

開発者 研究者
Pro

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →