強化学習
要約済み 16
-
hf-papers 5時間前 4新手法KnowRLが数学ベンチマーク8冠、LLM推論を効率強化KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance
研究チームが強化学習の報酬スパース性問題を解決するKnowRLを発表。 最小限の知識ヒントでLLMを誘導し、1.5Bモデルで平均精度70.08を達成。 小規模モデルでも高精度推論が可能となり、効率的なRLトレーニングの新基準を示す。
解説 KnowRLは、RLVR(検証可能報酬による強化学習)の根本的課題「報酬スパース性」を解決するフレームワーク。困難な数学問題ではLLMが全ロールアウトで不正解となり学習勾配がゼロになる問題があった。従来のヒントベースRL手法は長い解法プレフィックスや抽象テンプレートを注入するが、余剰情報が「クロスヒント不整合」を引き起こすという問題があった。 KnowRLはヒント設計を「最小充足ガイダンス問題」として定式化し、解法を原子的な知識点(KP)に分解して最小サブセットを選択する。重要な発見として「枝刈り相互作用パラドックス」があり、単一KPの削除は精度向上に寄与するが、複数KPを同時削除すると精度が低下するという現象を特定。この問題を解決するため、まず候補を絞り込んでから制約付き全域探索を行うCSS(制約付き部分集合探索)を提案した。 実験では、OpenMath-Nemotron-1.5BをベースにKnowRL-Nemotron-1.5Bを訓練し、8つの数学ベンチマーク(AIME24/25、MATH-500等)でKPなし推論時に平均70.08(ベースライン比+9.63点)、CSS選択KP付きで74.16を達成し1.5Bスケール新SOTAを確立。JustRLやQuestAなどの既存手法を上回る。平均2.57 KPと少ないトークン数で高効果を実現し、教師モデル不要で訓練可能な点が実用上の強みとなる。 -
arxiv-cs-ai 7時間前 3研究者ら、AIの自己監視は「構造統合」なしでは無効と実証Self-Monitoring Benefits from Structural Integration: Lessons from Metacognition in Continuous-Time Multi-Timescale Agents
連続時間マルチタイムスケールエージェントで自己監視の効果を検証した研究が発表された。 補助損失として追加するだけでは定数出力に崩壊し、性能向上はほぼゼロと判明。 モジュールをアーキテクチャに組み込む「構造的統合」が自己監視機能の前提条件と示した。
解説 本論文は、強化学習エージェントにメタ認知・自己予測・主観的時間感覚という3種の自己監視モジュールを補助損失として追加した場合の効果を実験的に検証したものである。連続時間・複数時間スケール型の皮質階層モデルを用い、1D・2D捕食者被食者サバイバル環境(定常・非定常変種)で20乱数シードによる実験を実施した結果、補助損失アドオンとして実装した自己監視は統計的有意な性能向上をもたらさなかった。失敗の原因分析では、各モジュールが訓練中にほぼ定数の出力に崩壊すること(信頼度の標準偏差が0.006未満、注意配分の標準偏差が0.011未満)が判明。主観的時間機構は割引率をわずか0.03%未満しか変化させず、方策感度も極めて低かった。一方、自己監視機能をアーキテクチャ内に構造的に統合する手法では有意な改善が得られた。この知見は、自己意識的な能力を後付けで追加するだけでは不十分であり、モデルの階層構造への深い組み込みが必要であることを示す。認知科学のメタ認知理論とAIエージェント設計を結びつける実証的知見として、次世代エージェント設計の指針となりうる。 -
hf-papers 8時間前 4新手法SPPOがPPO訓練を5.9倍高速化、推論LLM整合に革新SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
長い思考連鎖を持つ推論LLMの強化学習手法SPPOが発表された。 系列全体をバンディット問題として扱うことでクレジット割当の不安定性を解消し、GRPOより5.9倍高速に同等性能を達成。 推論モデルのRLHF訓練コスト削減につながり、大規模展開の実現可能性を高める。
解説 SPPOは、大規模言語モデルの数学的推論タスクにおける強化学習の根本的な問題を解決する手法である。従来のPPOはトークン単位のクリティック(価値関数)とGAEを用いてアドバンテージを推定するが、長いCoT(思考の連鎖)では報酬が系列末尾にしか得られないため、クリティックが末尾付近のパターンにのみ反応する「テール効果」が生じ、中間ステップへの適切な信用割当が失敗する。一方、GRPOはクリティックを廃して1プロンプトにつき複数サンプル(N=8)を生成してベースラインを構築するが、計算コストが高く学習スループットが低下する。SPPOはこの両者のトレードオフを解消するため、推論タスクをトークン単位のMDPではなく「系列レベルの文脈バンディット」として再定式化する。プロンプト全体を文脈、応答系列全体を単一の原子的行動として扱い、スカラー価値関数V(sp)でプロンプトの解決可能性(成功確率)を推定する。アドバンテージはA=R-V(sp)という単純な形で計算され、バイナリ交差エントロピーで価値モデルを学習する。実験ではDeepSeek-R1-Distill-Qwen(1.5B/7B)をベースに、AIME24/25・AMC23・MATH500・Minerva Mathで評価。SPPOはシングルサンプル(N=1)でGRPO(N=8)と同等以上の性能を達成し、学習速度は5.9倍高速である。さらに、7Bポリシーに対して1.5Bの軽量クリティックを使用する「デカップルドクリティック」戦略によりVRAMを12.8%削減でき、最高平均スコア(58.56)も達成した。 -
hf-papers 23時間前 3記憶強化型報酬形成MEDSでLLM強化学習が進化The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping
LLM強化学習における繰り返しエラーを検出・抑制する新手法「MEDS」が提案された。 層ごとのロジットを「推論指紋」として保存し、密度ベースクラスタリングで頻出エラーパターンを特定・ペナルティ強化する。 既存RL手法を上回る性能を達成し、LLMの訓練効率と探索多様性の向上に貢献する可能性がある。
解説 MEDSは、LLMの強化学習(RL)訓練において「同じ誤りを繰り返す」という失敗モードを解決する記憶強化型報酬整形フレームワークである。従来のエントロピー正則化は現在の方策の確率分布に乱数性を与えるだけで、過去のロールアウト(試行)で繰り返された特定の誤りパターンを明示的に抑制できない。MEDSは各ロールアウト時に中間層のロジット(出力重み)を「推論指紋」として蓄積し、密度ベースクラスタリング(DBSCAN等)で頻出する誤りクラスタを特定する。そのクラスタへの割り当て頻度に応じてペナルティを動的に強化することで、モデルが同じ失敗パターンに陥ることを抑制し、より広い探索空間をカバーさせる。実験では5つのデータセット・3種のベースモデルで評価し、pass@1で最大4.13ポイント、pass@128で最大4.37ポイントの改善を達成した。アーキテクチャ変更不要で既存のRL訓練パイプラインに統合できる点が実用的である。GPT-4oやClaudeとの直接比較は論文中に記載されていないが、ベースモデルに対する一貫した性能向上が示されており、コード生成・数学推論タスクでの適用が期待される。 -
hf-papers 1日前 4SWEエージェントの推論文脈を動的管理、7B規模で最高性能SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context
研究チームが多ターンソフトウェアエンジニアリングタスク向けの新フレームワーク「SWE-AGILE」を発表。 スライディングウィンドウと古い推論のダイジェスト圧縮で文脈爆発を解消、Qwen3-8BでSWE-Bench Verified 24.1%を達成。 7B/8Bクラスの全ベースラインを上回り、小規模モデルでのAIエージェント実用化を後押しする成果。
解説 SWE-AGILEは、LLMによる自律ソフトウェアエンジニアリング(SWE)タスクにおける根本的ジレンマを解決する。従来のReActスタイル手法は深い分析(System-2推論)が不十分であり、一方で推論モデルの長いCoT履歴をそのまま保持すると「Lost-in-the-Middle」(長文脈で中間情報が埋もれる現象)が起きパフォーマンスが低下する。本手法はDynamic Reasoning Contextとして、直近Nステップの詳細推論をスライディングウィンドウで保持しつつ、古い推論を簡潔なReasoning Digest(要約)に置き換えるハイブリッド戦略を採用。訓練面では軌跡をスナップショットに分解するTrajectory Snapshot TrainingでSFT/RLの文脈整合を担保し、既存軌跡に推論を後付けするBackfilling Pipelineで少量データでの高品質SFTを実現。さらに圧縮率報酬を含むRLVRで推論深度とコンテキスト効率を同時最適化する。実験ではQwen3-8BモデルにてSWE-Bench Verified 24.1%を達成し、19.3kデータを用いたSWE-Dev(7B、23.4%)をわずか2.2k軌跡で上回った。8Bモデルながら14BのSkyRL-Agent-v0(21.6%)も超える性能を示しており、深い推論と文脈効率の両立が可能なことを実証した。 -
hf-papers 1日前 4物理シミュレータとRLでLLMが国際物理オリンピックに挑むSolving Physics Olympiad via Reinforcement Learning on Physics Simulators
物理シミュレータで生成した合成データと強化学習を組み合わせ、LLMの物理推論能力を強化する手法が発表された。 シミュレーション環境のみで訓練したモデルが実世界ベンチマークへのゼロショット転移に成功し、IPhO問題で既存手法比5〜10ポイント向上。 シミュレータを活用した低コストな科学推論トレーニングの可能性を示し、理系分野のAI応用に新たな道を開く。
解説 本論文は、大規模言語モデル(LLM)の物理推論能力を向上させるため、物理シミュレータをスケーラブルなデータ源として活用する手法「Sim2Reason」を提案する。DeepSeek-R1などの推論特化モデルが数学分野で躍進した一方、物理学では大規模なQ&Aデータセットが乏しく、同様のアプローチが困難だった。そこで本研究ではPhysicsエンジン上でランダムシーンを生成し、物理法則に基づく合成Q&Aペアを自動生成、その上で強化学習(RL)によりモデルを訓練する。シミュレーション内でのみ学習したモデルが、実世界の物理ベンチマーク(国際物理オリンピックIPhO等)にゼロショット転移できることを示し、異なるモデルサイズで5〜10ポイントの性能改善を達成。GPT-4oやGemini等の既存モデルに対しても競合または上回る結果を示している。シミュレータをデータジェネレータとして用いることでインターネット上のデータ不足問題を回避できる点が新規性であり、数学以外の自然科学分野へのRL適用に新たな道を開く研究として重要度が高い。 -
hf-papers 1日前 4医療AIに新手法、希少疾患の診断推論が大幅向上Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach
知識強化型データ合成と半教師あり強化学習を組み合わせた医療推論フレームワーク「MedSSR」が発表された。 PubMedや希少疾患DBを活用した合成データで学習し、Qwen3-8Bベースで希少疾患+5.93%、一般医療+3.91%を達成。 データ不足が課題だった医療AI分野で、希少疾患への対応力を高める実用的な突破口となる可能性がある。
解説 MedSSRは、医療分野でのLLM(大規模言語モデル)の推論能力向上を目指した研究。最大の課題は「高品質な医療推論データの不足」、特に希少疾患に関するデータが極めて少ない点にある。 提案手法は2本柱で構成される。①知識強化型データ合成:PubMed・Wikipedia・医学教科書・Orphanetなど希少疾患DB(12,445疾患)から関連文書を検索し、合成質問を生成。希少疾患の含有率を閾値αで制御可能な設計になっている。②半教師あり強化学習(RL):合成データに対してモデル自身がG回の回答を生成し多数決で疑似ラベルを作成(オフライン投票)した後、自己教師ありRLと教師ありRLの2段階学習を実施。オンライン投票と異なりリワードハッキングや学習崩壊を防ぎ、1000ステップ以上安定した学習が可能。 実験ではQwen3-8BとLlama-3.1-8Bで検証。MedQA(+6.16%)・Medbullets(+8.36%)など主要ベンチマークで既存医療LLM(HuatuoGPT-o1-8B・MedReason-8B等)を全項目上回った。医師200名による合成データ評価でも誤り率0.5%・妥当性4.80/5.0と高品質。CoT(思考連鎖)の蒸留不要で、低コストに医療推論能力を引き出せる点が実用上の大きな意義となる。 -
hf-papers 1日前 4GUIエージェント統合フレームワーク「ClawGUI」公開、学習から実機展開まで一体化ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
オープンソースのGUIエージェント統合フレームワーク「ClawGUI」が公開された。 オンラインRL・標準化評価・実機デプロイの3モジュール構成で、2BモデルがMobileWorldで17.1%の成功率を達成。 研究から実用展開までを単一基盤で完結させ、GUIエージェント開発の敷居を大幅に下げる。
解説 ClawGUIは、GUIエージェント研究における3つの重大な課題(学習インフラの閉鎖性・評価の非再現性・実ユーザーへの未展開)を一挙に解決するオープンソースフレームワークである。 **ClawGUI-RL**は、Dockerベースの並列Androidエミュレータと実物理デバイスの両方でオンライン強化学習(RL)を実施できる初のオープン基盤。報酬設計では、エピソード終端のバイナリ報酬に加え、Process Reward Model(PRM)によるステップ単位の密な報酬を組み合わせる。強化学習アルゴリズムはGRPOとGiGPOに対応しており、GiGPO(アンカー状態グループ化による細粒度クレジット割り当て)の採用でGRPO比2.6%向上(14.5%→17.1%)を確認した。 **ClawGUI-Eval**は6ベンチマーク・11以上のモデルを対象に推論→判定→メトリクスの3段階パイプラインを標準化し、公式ベースラインとの再現率95.8%を達成。プロンプト形式や座標正規化の違いで数%ずれる既存の評価問題に対処する。 **ClawGUI-Agent**はAndroid・HarmonyOS・iOSへのデプロイを12以上のチャットプラットフォーム経由で実現し、CLI制御とGUI制御を組み合わせたハイブリッド方式と永続的な個人化メモリを搭載する。 実験ではClawGUI-2BがQwen3-VL-32B(11.9%)やUI-Venus-72B(16.4%)といったはるかに大規模なモデルを上回り、学習インフラの質がモデル規模を凌駕することを示した。 -
hf-papers 1日前 4LLM強化学習のクレジット割り当て、47手法を体系化したサーベイ登場From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models
LLMの強化学習で「どの行動が結果に貢献したか」を特定するクレジット割り当て問題を包括的に調査したサーベイ論文が公開された。 推論RL(最大3万トークン)とエージェントRL(100万トークン超)の2設定を分析し、47手法をトークン/ステップ/ターン粒度×手法論の2次元で分類。 実務者向けの手法選択ガイドも提供しており、LLMエージェント開発の信頼性・効率向上に貢献する。
解説 本論文は、大規模言語モデル(LLM)の強化学習における「クレジット割り当て(Credit Assignment)」問題を包括的に調査したサーベイ論文である。クレジット割り当てとは、長い行動系列のうちどのステップが最終的な報酬に貢献したかを特定する問題で、スパースな報酬設定で特に困難になる。 著者らは47の手法を「割り当て粒度(トークン・セグメント・ステップ・ターン・マルチエージェント)」と「方法論(モンテカルロ・TD・モデルベース・ゲーム理論・情報理論)」の2次元で分類した。 代表的手法としてはVinePPO(MC法でトークンレベルの価値を推定しGSM8K等でPPOを大幅に上回る)、SPRO(ステップを除いた場合の性能差でクレジットを計算しGRPO比3.4倍の学習効率)、GiGPO(グループ内グループのアドバンテージ計算でALFWorldにて+12%)などが紹介されている。 エージェントRL特有の課題として、確率的環境・部分観測・100ターン超の長いホライズン・異種アクション・検証困難な中間状態が挙げられており、これらがReasoningRL手法の直接適用を困難にしている点を明示。2026年3月に独立して3本の事後分析(ヒンドサイト)系手法が同時発表された点は分野の収束を示す重要なシグナルとして指摘されている。実務者向けの手法選択デシジョンツリーやベンチマークプロトコルも提供されており、実用性が高い。 -
hf-papers 1日前 4研究者ら、LLM強化学習を37%高速化する新手法を発表Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration
RLVR訓練中のLLMパラメータ更新がrank-1部分空間で支配されるという新知見を基に、軌跡外挿手法「NEx」を提案。 LoRAで学習した中間チェックポイントからMLPが非線形外挿を行い、250ステップで400ステップ相当の性能を実現。 計算コスト37.5%削減により、強化学習ベースのLLM訓練の実用化・大規模化を加速する可能性がある。
解説 本論文は、LLMの強化学習(RLVR: Reinforcement Learning with Verifiable Rewards)訓練を効率化する手法「NExt(Nonlinear Extrapolation of low-rank Trajectories)」を提案する。DeepSeek-R1やo1のような推論モデルの訓練基盤となるRLVRは膨大な計算コストが課題だった。 著者らはまず、RLVR訓練中のパラメータ更新行列をSVD(特異値分解)で解析し、2つの重要な知見を得た。①LoRAファインチューニングでは全パラメータ訓練より「rank-1部分空間」(最大特異値に対応する方向)の支配度が高まる。②rank-1部分空間の進化は線形ではなく、50%以上のパラメータで線形予測のR²がゼロ以下になる。 これを受け、NExt はLoRAベースRLVR訓練の中間チェックポイントからグローバル差分・ローカル差分を計算し、それをSVDでrank-1表現に圧縮。MLP型エンコーダ・デコーダで「どの方向にパラメータが動くか」を非線形に予測し、係数αで外挿する。 実験では Qwen2.5(1.5B〜14B)を用い、AIME・AMC・Minerva等の数学タスクで AlphaRL・RL-Extra(線形外挿手法)を全指標で上回り、GRPO 400ステップ相当の性能をわずか250ステップで達成。学習時間も18.7時間→11.7時間(3Bモデル)と37.5%削減した。GRPO・RLOO・REINFORCE++と互換性があり、汎用性も高い。 -
hf-papers 1日前 4新手法p1、少数プロンプトでプロンプト最適化を刷新p1: Better Prompt Optimization with Fewer Prompts
プロンプト最適化の性能がシステムプロンプト間の報酬分散に依存することを理論的に解明した研究が発表された。 データ増加で最適化シグナルが弱まる逆説を発見し、高分散な少数プロンプトを選別するp1手法でGEPAなど既存手法を大幅に上回る性能を達成。 LLMアプリ開発においてプロンプト最適化の効率化・精度向上に直結する知見として注目される。
解説 本論文は、LLM(大規模言語モデル)のシステムプロンプトを自動最適化する手法の根本的な課題を分析し、シンプルながら効果的な解決策「p1」を提案する研究である。 **提案手法の仕組み:** 報酬の分散を「応答間分散」(同じプロンプトでも生成のランダム性による変動)と「システムプロンプト間分散」(プロンプト品質の真の差異)に分解する理論的枠組みを構築。プロンプト最適化が成功するにはシステムプロンプト間分散が十分大きい必要があるが、異質なデータを多く使うほどこの分散が低下するという逆説を数学的に証明した。p1はこの洞察に基づき、システムプロンプト間分散が最大となる少数のユーザープロンプト(デフォルト2件)を選別してRL学習に使用するデータフィルタリング手法である。 **実験結果:** AIME 2024の数学競技問題(30問)から選んだたった2問で最適化したシステムプロンプトが、AIME 2025、HMMT等の未見ベンチマークでも汎化性能を示した。また、Qwen3-4B向けに最適化したプロンプトがより大きなQwen3-30Bにも転移した。 **既存手法との比較:** 進化的手法GEPAはAIMEでは訓練データの暗記に陥る傾向があったが、p1はより汎用的な推論スタイルを促すプロンプトを獲得した。IFBenchのような均質なタスクでは全データを使うRL/GEPAが優位だが、異質な数学推論では全データ学習が無効でp1が顕著な改善をもたらす。 **実用的意義:** モデルの重みを変更せずに性能向上が可能であり、少ないデータと計算コストで効果的なシステムプロンプトを発見できる点が産業応用において魅力的である。 -
hf-blog 3ヶ月前 2PPO損失関数を数学的に完全導出——LLM強化学習の仕組みを解説Deriving the PPO Loss from First PrinciplesDec 25, 2025•40
強化学習アルゴリズムPPOの損失関数を基礎原理から段階的に導出する教育コンテンツが公開された。 REINFORCE→アドバンテージ推定→重点サンプリング→クリッピングという流れで数式ベースに解説。 LLMのRLHFやDPOを理解する上での基礎固めとして、AI研究者・エンジニアに有益な資料となる。
解説 PPOはChatGPTやClaudeなどの主要LLMのRLHFに使われる中核アルゴリズムだが、本記事は新手法の提案ではなく既存手法の教育的解説。REINFORCE→TRPO→PPOの数学的導出を一貫して追い、DPOやGRPOなど新世代手法を理解するための基礎固めに最適。開発者・研究者がRLHF系手法を実装・改良する際の理論的バックボーンとして実用的価値がある。 -
hf-blog 7ヶ月前 4PII保護SLMシリーズ公開、GPT-4.1に迫る性能Anonymizer SLM series: Privacy-first PII replacement models (0.6B/1.7B/4B)
外部LLM送信前にPIIをローカル検出・置換する小型言語モデル(0.6B〜4B)シリーズがリリースされた。 GRPO強化学習により1.7B/4Bモデルがスコア9.2〜9.55/10を達成し、GPT-4.1(9.77)に肉薄する性能を実現。 プライバシー規制対応が求められる企業や医療・法務分野での実用導入を大きく後押しする。
解説 本研究はQwen3ベースの小型言語モデル(0.6B・1.7B・4B)を用いて、個人識別情報(PII:氏名・会社名・住所・金額など)をローカルデバイス上で検出・置換してからClaude・GPT-4・Geminiなどの外部LLM APIへ送信する「プライバシーファースト」なアーキテクチャを提案する。従来手法のPAPILLONはプロンプト全体を書き換えるため応答品質が85%に低下し7.5%の情報漏洩が発生したが、本手法は「外科的エンティティ置換」で文脈を維持しつつ漏洩を防ぐ。訓練は約3万サンプルによるSFT(教師あり微調整)、続くDPO(直接選好最適化)で+1.5〜2点向上、最終段階のGRPO(グループ相対方策最適化)でLLMジャッジスコアが4Bで6.38→9.55、1.7Bで5.67→9.20へ大幅に改善。GPT-4.1の9.77と比べGPT比較で約1000分の1のパラメータ数で同等性能を実現した点が特筆される。応答時間は1.7Bで1秒以下、4Bで2秒以下とリアルタイム利用に耐えうる。実用アプリ「Silo」としてApp Storeで公開済み。企業機密や内部告発など機密性の高いタスクでも強力なLLMを安全に活用できる実用的意義は大きい。 -
hf-blog 8ヶ月前 4GRPO超えの新手法DAPOとGSPO、LLM強化学習を刷新From GRPO to DAPO and GSPO: What, Why, and HowAug 9, 2025•111
研究者らがGRPOの課題を解決する新強化学習手法DAPOとGSPOを発表・解説した。 DAPOはクリッピング改善と勾配希釈対策など4つの工夫でGRPOを強化、GSPOはシーケンス単位の重要度比に転換しMoE訓練を安定化。 PPOから続く最適化手法の進化は、大規模モデル訓練の効率化に直結する重要な知見を示す。
解説 GRPOはDeepSeek等で採用された値モデル不要のRL手法だが、長文やMoEモデルで不安定になる問題があった。DAPOは非対称クリッピング等の工夫で改善し、GSPOはシーケンス単位の重要度比という根本的転換でMoE訓練を安定化させた。QWen3がGSPOを採用しており、Claude・GPT-4o等の大規模モデル訓練にも影響しうる。開発者にとってはRL微調整時の手法選択指針として、研究者にはトークン vs シーケンス粒度の理論的整理として実用価値が高い。 -
hf-blog 1年前 2LLM強化学習を徹底解説——PPOとDPOの理論と限界Navigating the RLHF Landscape: From Policy Gradients to PPO, GAE, and DPO for LLM AlignmentFeb 11, 2025•116
RLHFの各手法(PPO・GAE・DPO)の数学的導出をチェスの比喩で段階的に解説した技術記事が公開された。 オンライン学習のPPOとオフライン学習のDPOを理論面から比較し、それぞれの長短を明示。 DPOの分布外応答リスクやデータ品質依存といった実用上の落とし穴も具体例付きで指摘。
解説 RLHFの主要手法(Policy Gradient, PPO, GAE, DPO)を数学的導出から丁寧に解説した教育的ブログ記事。新手法の提案ではなく既存技術の体系的整理であり、Claude・GPT-4o等の事後学習パイプラインで使われるPPO/DPOの仕組みを理解したい開発者・研究者向け。トークン単位のPPO実装の擬似コードやDPOの限界分析が実務的に有用。 -
hf-blog 1年前 2DeepSeek-R1採用のGRPO、PPOとの違いをわかりやすく解説DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning KnowledgeFeb 7, 2025•286
強化学習の予備知識不要でPPOとGRPOを解説した技術入門記事が公開された。 GRPOはPPOから価値関数ネットワークを除き、グループ平均で代替する手法でメモリ・計算コストを大幅削減。 DeepSeek-R1の訓練効率の秘密を理解したいLLM開発者・研究者に必読の内容。
解説 DeepSeek-R1で採用されたGRPOをRL未経験者向けに解説した教育的記事。GRPOはPPOのCriticネットワークを複数サンプルの報酬平均で代替し、LLM規模でのRLHF計算コストを削減する。新手法の提案ではなく既存技術の解説だが、Claude・GPT-4oなど主要モデルが採用するRLHFの理解に役立ち、開発者がアライメント技術を学ぶ入門資料として実用的。