RLHF

hf-papers 5時間前 4

You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass

複数の候補応答を1回のフォワードパスで同時評価できる新しい報酬モデル「YOJO」が登場。因果的アテンションで応答間の暗黙的比較を実現し、6つのベンチマークでSOTAを達成。 RLHFやGRPOによるLLM訓練の高速化・安定化に直結する実用的な成果として注目。

解説本論文は「YOJO（You Only Judge Once）」と呼べる手法を提案する。従来の報酬モデル（RM）はN個の候補応答をN回の独立した推論で採点するが、本手法はすべての応答をセパレータトークンで連結し1回のフォワードパスで一括採点する。因果的アテンションの性質上、後続の応答は前の応答を参照できるため、暗黙的な比較推論が生まれる仕組みだ。各応答の最終トークンの隠れ状態から2層MLPスコアリングヘッドでスカラースコアを算出し、クロスエントロピー損失で訓練する（N=2ではBradley-Terry損失と等価）。Molmo2-4Bをバックボーンに436K件の選好データで学習した結果、6つのマルチモーダル報酬ベンチマーク平均71.2%でSOTAを達成（IXC-2.5-Rewardやより大規模モデルを上回る）。推論効率はN=4・動画入力で最大約4倍の高速化とFLOPs削減を実現。さらにGRPOによる強化学習に適用すると、単一応答RMと比べてWildVisionで+4.4ポイント、LLaVA-Benchで+5.4ポイントの改善を示し、訓練シグナルの安定性も高い。新ベンチマークMR²Bench-Image/Videoも公開される。

報酬モデル RLHF マルチモーダル推論効率化

arxiv-cs-ai 7時間前 3

LLMで論文フィードバックを自動生成、ICLR1.9万件で学習

GoodPoint: Learning Constructive Scientific Paper Feedback from Author Responses

研究チームがLLMを用いて科学論文への建設的フィードバックを自動生成する手法「GoodPoint」を発表。 ICLR論文約1.9万件の著者応答データを活用し、有効性と著者行動の2軸でフィードバックを評価・最適化。査読の質向上や研究者の負担軽減につながる可能性があり、AI支援レビューの実用化に前進。

解説本研究は、LLMによる科学論文フィードバック自動生成を「建設的なフィードバック生成」タスクとして定式化した。従来の研究がフィードバックの品質評価を人手や汎用メトリクスに頼っていたのに対し、本手法は実際の著者応答（author responses）を正解シグナルとして活用する点が新しい。評価軸は2つ：(1) 有効性（validity）＝フィードバックが論文の実際の問題点を指摘しているか、(2) 著者行動（author action）＝著者がそのフィードバックに応答・対応したか。これらの軸でICLR投稿論文1.9万件のレビューをアノテーションしたGoodPoint-ICLRデータセットを構築。 GoodPointの学習レシピは2段階：まず有効かつ実行可能なフィードバックでファインチューニングし、次にリアル・合成の選好ペアを用いた選好最適化（DPO相当）を適用する。ベンチマーク（ICLR論文1,200件）での評価では、ベースのLLMやGPT-4oなどの既存モデルと比較して、著者行動を誘発するフィードバックの生成率が向上。研究者の作業を代替するのではなく支援するという倫理的姿勢も明示されており、ピアレビュー支援AIの実用化に向けた現実的なアプローチを示す。

論文レビューフィードバック生成 RLHF 学術AI データセット

hf-blog 3ヶ月前 2

PPO損失関数を数学的に完全導出——LLM強化学習の仕組みを解説

Deriving the PPO Loss from First PrinciplesDec 25, 2025•40

強化学習アルゴリズムPPOの損失関数を基礎原理から段階的に導出する教育コンテンツが公開された。 REINFORCE→アドバンテージ推定→重点サンプリング→クリッピングという流れで数式ベースに解説。 LLMのRLHFやDPOを理解する上での基礎固めとして、AI研究者・エンジニアに有益な資料となる。

解説 PPOはChatGPTやClaudeなどの主要LLMのRLHFに使われる中核アルゴリズムだが、本記事は新手法の提案ではなく既存手法の教育的解説。REINFORCE→TRPO→PPOの数学的導出を一貫して追い、DPOやGRPOなど新世代手法を理解するための基礎固めに最適。開発者・研究者がRLHF系手法を実装・改良する際の理論的バックボーンとして実用的価値がある。

PPO RLHF 強化学習 LLMファインチューニング教育

hf-blog 8ヶ月前 4

GRPO超えの新手法DAPOとGSPO、LLM強化学習を刷新

From GRPO to DAPO and GSPO: What, Why, and HowAug 9, 2025•111

研究者らがGRPOの課題を解決する新強化学習手法DAPOとGSPOを発表・解説した。 DAPOはクリッピング改善と勾配希釈対策など4つの工夫でGRPOを強化、GSPOはシーケンス単位の重要度比に転換しMoE訓練を安定化。 PPOから続く最適化手法の進化は、大規模モデル訓練の効率化に直結する重要な知見を示す。

解説 GRPOはDeepSeek等で採用された値モデル不要のRL手法だが、長文やMoEモデルで不安定になる問題があった。DAPOは非対称クリッピング等の工夫で改善し、GSPOはシーケンス単位の重要度比という根本的転換でMoE訓練を安定化させた。QWen3がGSPOを採用しており、Claude・GPT-4o等の大規模モデル訓練にも影響しうる。開発者にとってはRL微調整時の手法選択指針として、研究者にはトークン vs シーケンス粒度の理論的整理として実用価値が高い。

RLHF 強化学習 LLM訓練 MoE ポリシー最適化

hf-blog 1年前 2

LLM強化学習を徹底解説——PPOとDPOの理論と限界

Navigating the RLHF Landscape: From Policy Gradients to PPO, GAE, and DPO for LLM AlignmentFeb 11, 2025•116

RLHFの各手法（PPO・GAE・DPO）の数学的導出をチェスの比喩で段階的に解説した技術記事が公開された。オンライン学習のPPOとオフライン学習のDPOを理論面から比較し、それぞれの長短を明示。 DPOの分布外応答リスクやデータ品質依存といった実用上の落とし穴も具体例付きで指摘。

解説 RLHFの主要手法（Policy Gradient, PPO, GAE, DPO）を数学的導出から丁寧に解説した教育的ブログ記事。新手法の提案ではなく既存技術の体系的整理であり、Claude・GPT-4o等の事後学習パイプラインで使われるPPO/DPOの仕組みを理解したい開発者・研究者向け。トークン単位のPPO実装の擬似コードやDPOの限界分析が実務的に有用。

RLHF PPO DPO LLMアライメント強化学習

要約済み 5