LLMアライメント
要約済み 2
-
hf-blog 1年前 2LLM強化学習を徹底解説——PPOとDPOの理論と限界Navigating the RLHF Landscape: From Policy Gradients to PPO, GAE, and DPO for LLM AlignmentFeb 11, 2025•116
RLHFの各手法(PPO・GAE・DPO)の数学的導出をチェスの比喩で段階的に解説した技術記事が公開された。 オンライン学習のPPOとオフライン学習のDPOを理論面から比較し、それぞれの長短を明示。 DPOの分布外応答リスクやデータ品質依存といった実用上の落とし穴も具体例付きで指摘。
解説 RLHFの主要手法(Policy Gradient, PPO, GAE, DPO)を数学的導出から丁寧に解説した教育的ブログ記事。新手法の提案ではなく既存技術の体系的整理であり、Claude・GPT-4o等の事後学習パイプラインで使われるPPO/DPOの仕組みを理解したい開発者・研究者向け。トークン単位のPPO実装の擬似コードやDPOの限界分析が実務的に有用。 -
hf-blog 1年前 2DeepSeek-R1採用のGRPO、PPOとの違いをわかりやすく解説DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning KnowledgeFeb 7, 2025•286
強化学習の予備知識不要でPPOとGRPOを解説した技術入門記事が公開された。 GRPOはPPOから価値関数ネットワークを除き、グループ平均で代替する手法でメモリ・計算コストを大幅削減。 DeepSeek-R1の訓練効率の秘密を理解したいLLM開発者・研究者に必読の内容。
解説 DeepSeek-R1で採用されたGRPOをRL未経験者向けに解説した教育的記事。GRPOはPPOのCriticネットワークを複数サンプルの報酬平均で代替し、LLM規模でのRLHF計算コストを削減する。新手法の提案ではなく既存技術の解説だが、Claude・GPT-4oなど主要モデルが採用するRLHFの理解に役立ち、開発者がアライメント技術を学ぶ入門資料として実用的。