RLVR

2件の記事

要約済み 2

hf-papers 1日前 4
研究者ら、LLM強化学習を37%高速化する新手法を発表
Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration

RLVR訓練中のLLMパラメータ更新がrank-1部分空間で支配されるという新知見を基に、軌跡外挿手法「NEx」を提案。 LoRAで学習した中間チェックポイントからMLPが非線形外挿を行い、250ステップで400ステップ相当の性能を実現。計算コスト37.5%削減により、強化学習ベースのLLM訓練の実用化・大規模化を加速する可能性がある。

解説本論文は、LLMの強化学習（RLVR: Reinforcement Learning with Verifiable Rewards）訓練を効率化する手法「NExt（Nonlinear Extrapolation of low-rank Trajectories）」を提案する。DeepSeek-R1やo1のような推論モデルの訓練基盤となるRLVRは膨大な計算コストが課題だった。著者らはまず、RLVR訓練中のパラメータ更新行列をSVD（特異値分解）で解析し、2つの重要な知見を得た。①LoRAファインチューニングでは全パラメータ訓練より「rank-1部分空間」（最大特異値に対応する方向）の支配度が高まる。②rank-1部分空間の進化は線形ではなく、50%以上のパラメータで線形予測のR²がゼロ以下になる。これを受け、NExt はLoRAベースRLVR訓練の中間チェックポイントからグローバル差分・ローカル差分を計算し、それをSVDでrank-1表現に圧縮。MLP型エンコーダ・デコーダで「どの方向にパラメータが動くか」を非線形に予測し、係数αで外挿する。実験では Qwen2.5（1.5B〜14B）を用い、AIME・AMC・Minerva等の数学タスクで AlphaRL・RL-Extra（線形外挿手法）を全指標で上回り、GRPO 400ステップ相当の性能をわずか250ステップで達成。学習時間も18.7時間→11.7時間（3Bモデル）と37.5%削減した。GRPO・RLOO・REINFORCE++と互換性があり、汎用性も高い。

RLVR LoRA パラメータ外挿強化学習推論加速
hf-blog 2ヶ月前 4
LightOn、1BパラメータでGPT-4V級OCRを実現
LightOnOCR-2-1B: a lightweight high-performance end-to-end OCR model family

LightOnが軽量エンドツーエンドOCRモデル「LightOnOCR-2-1B」を公開した。 OlmOCR-Benchで83.2点を達成し、9B超の大型モデルを性能・処理速度で上回る。 Apache 2.0ライセンスで無償公開され、エッジ環境での高精度OCR導入が現実的に。

解説 LightOnOCR-2-1BはLightOn社が開発した1Bパラメータのエンドツーエンド型OCRモデル。従来の検出・認識を分離するマルチステージパイプラインを廃し、単一の視覚言語モデルで文書画像からテキストを直接抽出する。【性能】OlmOCR-Bench（1,403ページ）で83.2点を記録し、9Bパラメータを持つChandra OCRを1.5ポイント上回りながらモデルサイズは約9分の1。推論速度はChandra比3.3倍、dots.ocr比5倍と大幅に高速で、単一H100 GPUでの実用スループットも高い。【学習】16M枚超の高品質アノテーション済み文書ページと約50万枚のバウンディングボックス付きデータで訓練。強化学習（RLVR: Reinforcement Learning from Visual Rewards）による後訓練でループ・幻覚を低減。【モデルファミリー】テキスト抽出専用・バウンディングボックス出力対応・両者をマージしたバランス型など6種類のチェックポイントを公開し、ファインチューニング用ベースモデルも提供。【実用上の意義】GPT-4oやClaudeなどクラウドAPIに頼らずローカル・オンプレミスで高精度OCRを実現できる点が最大の強み。ArXiv論文・数式・表・劣化スキャンへの対応も強く、研究・エンタープライズ文書処理の両方で即戦力となる。

OCR 軽量モデル文書解析視覚言語モデル RLVR