LLM推論
要約済み 3
-
hf-papers 8時間前 4新手法SPPOがPPO訓練を5.9倍高速化、推論LLM整合に革新SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
長い思考連鎖を持つ推論LLMの強化学習手法SPPOが発表された。 系列全体をバンディット問題として扱うことでクレジット割当の不安定性を解消し、GRPOより5.9倍高速に同等性能を達成。 推論モデルのRLHF訓練コスト削減につながり、大規模展開の実現可能性を高める。
解説 SPPOは、大規模言語モデルの数学的推論タスクにおける強化学習の根本的な問題を解決する手法である。従来のPPOはトークン単位のクリティック(価値関数)とGAEを用いてアドバンテージを推定するが、長いCoT(思考の連鎖)では報酬が系列末尾にしか得られないため、クリティックが末尾付近のパターンにのみ反応する「テール効果」が生じ、中間ステップへの適切な信用割当が失敗する。一方、GRPOはクリティックを廃して1プロンプトにつき複数サンプル(N=8)を生成してベースラインを構築するが、計算コストが高く学習スループットが低下する。SPPOはこの両者のトレードオフを解消するため、推論タスクをトークン単位のMDPではなく「系列レベルの文脈バンディット」として再定式化する。プロンプト全体を文脈、応答系列全体を単一の原子的行動として扱い、スカラー価値関数V(sp)でプロンプトの解決可能性(成功確率)を推定する。アドバンテージはA=R-V(sp)という単純な形で計算され、バイナリ交差エントロピーで価値モデルを学習する。実験ではDeepSeek-R1-Distill-Qwen(1.5B/7B)をベースに、AIME24/25・AMC23・MATH500・Minerva Mathで評価。SPPOはシングルサンプル(N=1)でGRPO(N=8)と同等以上の性能を達成し、学習速度は5.9倍高速である。さらに、7Bポリシーに対して1.5Bの軽量クリティックを使用する「デカップルドクリティック」戦略によりVRAMを12.8%削減でき、最高平均スコア(58.56)も達成した。 -
hf-papers 1日前 4投機的デコード評価を統一するSPEED-Benchが登場SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding
LLM推論高速化手法「投機的デコード」の評価を統一するベンチマーク「SPEED-Bench」が提案された。 意味的多様性を最大化した定性分割とスループット測定用の2種類の評価セットを提供し、vLLM・TensorRT-LLMと統合。 本番環境での公平な比較が可能になり、推論最適化研究・実装の標準化に貢献する。
解説 SPEED-Benchは、LLM(大規模言語モデル)推論の高速化技術である投機的デコード(Speculative Decoding: 小さなドラフトモデルが複数トークンを先読みし、大きなターゲットモデルが一括検証することで高速化する手法)の評価を標準化するベンチマークである。既存のSpecBenchなどは、カテゴリあたり10サンプル程度・意味的多様性が低い・バッチサイズ1での評価に限られるという問題があった。SPEED-Benchは18のデータソースから貪欲選択+局所スワップ改良アルゴリズムにより意味的類似度を40%削減した880サンプルの「定性分割」と、ISL1k〜32k・バッチサイズ最大512に対応した「スループット分割」を提供する。vLLM・TensorRT-LLM・SGLangなど本番推論エンジンと統合した統一測定フレームワークも構築。実験ではLlama 3.3 70B、GPT-OSS 120B、Qwen3 235B、DeepSeek R1などを対象に、EAGLE3・Vanilla SD・Native MTPを評価。ランダムトークンによる合成ベンチマークがスループットを平均23%過大評価すること、最適なドラフト長がバッチサイズに依存すること、語彙プルーニングが多言語カテゴリで最大22%のトークンを欠損させること等を実証した。 -
arxiv-cs-ai 2日前 4LLM医療推論を体系化、新ベンチマークMR-Bench登場Medical Reasoning with Large Language Models: A Survey and MR-Bench
研究チームがLLMの医療推論能力を包括的にサーベイし、新ベンチマーク「MR-Bench」を提案。 臨床推論を仮説形成・演繹・帰納の反復プロセスとして概念化し、7つの技術経路に分類。 統一実験環境でのモデル比較により、医療AIの現状課題と今後の開発指針を明確化した。
解説 本論文は大規模言語モデル(LLM)の医療推論能力に関する包括的なサーベイと、新たな評価基準MR-Benchを提案する研究です。 医療分野では試験問題形式のタスクでLLMは高い性能を示しているが、実際の臨床現場では安全性・文脈依存性・エビデンスの変化への対応が求められるため、単純な事実想起では不十分です。本研究はこの問題意識から、認知科学の臨床推論理論を基盤として医療推論を「アブダクション(最善説明への推論)→演繹(規則適用)→帰納(事例から一般化)」の反復サイクルとして定式化します。 既存手法は訓練ベース(ファインチューニング、強化学習など)と訓練不要(チェーンオブソート、検索拡張生成など)の7つの技術経路に分類・整理されています。さらに統一実験設定のもとGPT-4o・Claude・Gemini等を含む代表的な医療推論モデルをクロスベンチマーク評価し、従来の比較困難だった断片的評価を体系化しています。 MR-Benchの導入により、既存ベンチマーク間の評価条件の不統一という問題を解消し、医療推論の真の実力を測る枠組みを提供する点が実用上の大きな意義です。安全性が極めて重要な医療AIの開発・展開指針として研究者・開発者双方に有用です。