推論型検証
要約済み 1
-
hf-papers 6時間前 4新手法C2、報酬モデルの精度を大幅改善C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences
二値選好データのみからルーブリック(評価基準)を自動生成し、LLMの報酬モデリングを強化する手法「C2」が発表された。 協調生成器と批判的検証器を組み合わせ、RM-Benchで+6.5点、AlpacaEval 2.0でLC勝率+6.0点を既存手法に対して達成。 RLHFの品質向上に直結する研究で、より少ないアノテーションコストで高精度な報酬モデル構築が可能になる。
解説 本論文はRLHFにおける報酬モデリングを改善するフレームワークC2(Cooperative yet Critical)を提案する。従来のルーブリック(評価基準チェックリスト)拡張型検証は、人間アノテーターや大規模プロプライエタリモデルへの依存が課題だったが、C2は二値選好データのみから学習する点が新しい。 手法の核心は「有益ルーブリック」と「誤誘導ルーブリック」の対比ペアを自動合成することにある。各ルーブリックが検証モデルの信頼度をどの方向に変化させるかを測定し、正解方向に押し上げるものを有益、遠ざけるものを誤誘導として分類する。この対比ペアを使い、DPOで協調型ルーブリック生成器を、GRPOで批判的検証器を訓練する。推論時は検証器がルーブリックを有益と判断した場合のみ活用し、そうでなければルーブリックなし評価にフォールバックするSelective Inferenceを採用する。 Tulu3-8BおよびQwen3-8BをベースにUltraFeedback(5,000件)で学習した実験では、GRPO訓練済み推論型RMと比べRM-Benchで+6.5点、AlpacaEval 2.0 LC勝率で+6.0点を達成。8Bモデルが4倍大きいQwen3-32Bのルーブリックを使った上限設定と同等性能を発揮し、スケーラビリティを実証した。アブレーション分析では誤誘導ルーブリックを使った訓練が最も重要なコンポーネントであることが示された。