要約
RLVR訓練中のLLMパラメータ更新がrank-1部分空間で支配されるという新知見を基に、軌跡外挿手法「NEx」を提案。 LoRAで学習した中間チェックポイントからMLPが非線形外挿を行い、250ステップで400ステップ相当の性能を実現。 計算コスト37.5%削減により、強化学習ベースのLLM訓練の実用化・大規模化を加速する可能性がある。
公式ソースだけを集めたAIニュースを日本語要約でお届け
Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration
RLVR訓練中のLLMパラメータ更新がrank-1部分空間で支配されるという新知見を基に、軌跡外挿手法「NEx」を提案。 LoRAで学習した中間チェックポイントからMLPが非線形外挿を行い、250ステップで400ステップ相当の性能を実現。 計算コスト37.5%削減により、強化学習ベースのLLM訓練の実用化・大規模化を加速する可能性がある。
本論文は、LLMの強化学習(RLVR: Reinforcement Learning with Verifiable Rewards)訓練を効率化する手法「NExt(Nonlinear Extrapolation of low-rank Trajectories)」を提案する。DeepSeek-R1やo1のような推論モデルの訓練基盤となるRLVRは膨大な計算コストが課題だった。
著者らはまず、RLVR訓練中のパラメータ更新行列をSVD(特異値分解)で解析し、2つの重要な知見を得た。①LoRAファインチューニングでは全パラメータ訓練より「rank-1部分空間」(最大特異値に対応する方向)の支配度が高まる。②rank-1部分空間の進化は線形ではなく、50%以上のパラメータで線形予測のR²がゼロ以下になる。
これを受け、NExt はLoRAベースRLVR訓練の中間チェックポイントからグローバル差分・ローカル差分を計算し、それをSVDでrank-1表現に圧縮。MLP型エンコーダ・デコーダで「どの方向にパラメータが動くか」を非線形に予測し、係数αで外挿する。
実験では Qwen2.5(1.5B〜14B)を用い、AIME・AMC・Minerva等の数学タスクで AlphaRL・RL-Extra(線形外挿手法)を全指標で上回り、GRPO 400ステップ相当の性能をわずか250ステップで達成。学習時間も18.7時間→11.7時間(3Bモデル)と37.5%削減した。GRPO・RLOO・REINFORCE++と互換性があり、汎用性も高い。