研究者ら、LLM強化学習を37%高速化する新手法を発表

hf-papers 2026-04-14 03:00 ★4

研究者ら、LLM強化学習を37%高速化する新手法を発表

Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration

RLVR LoRA パラメータ外挿強化学習推論加速

要約

RLVR訓練中のLLMパラメータ更新がrank-1部分空間で支配されるという新知見を基に、軌跡外挿手法「NEx」を提案。 LoRAで学習した中間チェックポイントからMLPが非線形外挿を行い、250ステップで400ステップ相当の性能を実現。計算コスト37.5%削減により、強化学習ベースのLLM訓練の実用化・大規模化を加速する可能性がある。

解説・分析

本論文は、LLMの強化学習（RLVR: Reinforcement Learning with Verifiable Rewards）訓練を効率化する手法「NExt（Nonlinear Extrapolation of low-rank Trajectories）」を提案する。DeepSeek-R1やo1のような推論モデルの訓練基盤となるRLVRは膨大な計算コストが課題だった。

著者らはまず、RLVR訓練中のパラメータ更新行列をSVD（特異値分解）で解析し、2つの重要な知見を得た。①LoRAファインチューニングでは全パラメータ訓練より「rank-1部分空間」（最大特異値に対応する方向）の支配度が高まる。②rank-1部分空間の進化は線形ではなく、50%以上のパラメータで線形予測のR²がゼロ以下になる。

これを受け、NExt はLoRAベースRLVR訓練の中間チェックポイントからグローバル差分・ローカル差分を計算し、それをSVDでrank-1表現に圧縮。MLP型エンコーダ・デコーダで「どの方向にパラメータが動くか」を非線形に予測し、係数αで外挿する。

実験では Qwen2.5（1.5B〜14B）を用い、AIME・AMC・Minerva等の数学タスクで AlphaRL・RL-Extra（線形外挿手法）を全指標で上回り、GRPO 400ステップ相当の性能をわずか250ステップで達成。学習時間も18.7時間→11.7時間（3Bモデル）と37.5%削減した。GRPO・RLOO・REINFORCE++と互換性があり、汎用性も高い。

AIフロントライン

研究者ら、LLM強化学習を37%高速化する新手法を発表

要約

解説・分析

関連する読者