推論効率化

3件の記事

要約済み 3

hf-papers 5時間前 4
1回の推論で複数応答を同時採点、報酬モデルがN倍速に
You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass

複数の候補応答を1回のフォワードパスで同時評価できる新しい報酬モデル「YOJO」が登場。因果的アテンションで応答間の暗黙的比較を実現し、6つのベンチマークでSOTAを達成。 RLHFやGRPOによるLLM訓練の高速化・安定化に直結する実用的な成果として注目。

解説本論文は「YOJO（You Only Judge Once）」と呼べる手法を提案する。従来の報酬モデル（RM）はN個の候補応答をN回の独立した推論で採点するが、本手法はすべての応答をセパレータトークンで連結し1回のフォワードパスで一括採点する。因果的アテンションの性質上、後続の応答は前の応答を参照できるため、暗黙的な比較推論が生まれる仕組みだ。各応答の最終トークンの隠れ状態から2層MLPスコアリングヘッドでスカラースコアを算出し、クロスエントロピー損失で訓練する（N=2ではBradley-Terry損失と等価）。Molmo2-4Bをバックボーンに436K件の選好データで学習した結果、6つのマルチモーダル報酬ベンチマーク平均71.2%でSOTAを達成（IXC-2.5-Rewardやより大規模モデルを上回る）。推論効率はN=4・動画入力で最大約4倍の高速化とFLOPs削減を実現。さらにGRPOによる強化学習に適用すると、単一応答RMと比べてWildVisionで+4.4ポイント、LLaVA-Benchで+5.4ポイントの改善を示し、訓練シグナルの安定性も高い。新ベンチマークMR²Bench-Image/Videoも公開される。

報酬モデル RLHF マルチモーダル推論効率化
hf-papers 1日前 4
SWEエージェントの推論文脈を動的管理、7B規模で最高性能
SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context

研究チームが多ターンソフトウェアエンジニアリングタスク向けの新フレームワーク「SWE-AGILE」を発表。スライディングウィンドウと古い推論のダイジェスト圧縮で文脈爆発を解消、Qwen3-8BでSWE-Bench Verified 24.1%を達成。 7B/8Bクラスの全ベースラインを上回り、小規模モデルでのAIエージェント実用化を後押しする成果。

解説 SWE-AGILEは、LLMによる自律ソフトウェアエンジニアリング（SWE）タスクにおける根本的ジレンマを解決する。従来のReActスタイル手法は深い分析（System-2推論）が不十分であり、一方で推論モデルの長いCoT履歴をそのまま保持すると「Lost-in-the-Middle」（長文脈で中間情報が埋もれる現象）が起きパフォーマンスが低下する。本手法はDynamic Reasoning Contextとして、直近Nステップの詳細推論をスライディングウィンドウで保持しつつ、古い推論を簡潔なReasoning Digest（要約）に置き換えるハイブリッド戦略を採用。訓練面では軌跡をスナップショットに分解するTrajectory Snapshot TrainingでSFT/RLの文脈整合を担保し、既存軌跡に推論を後付けするBackfilling Pipelineで少量データでの高品質SFTを実現。さらに圧縮率報酬を含むRLVRで推論深度とコンテキスト効率を同時最適化する。実験ではQwen3-8BモデルにてSWE-Bench Verified 24.1%を達成し、19.3kデータを用いたSWE-Dev（7B、23.4%）をわずか2.2k軌跡で上回った。8Bモデルながら14BのSkyRL-Agent-v0（21.6%）も超える性能を示しており、深い推論と文脈効率の両立が可能なことを実証した。

SWEエージェントコンテキスト管理強化学習推論効率化
hf-papers 1日前 5
拡散言語モデルの弱点を克服、ARモデルと同等性能を達成
Introspective Diffusion Language Models

研究者らが拡散言語モデル（DLM）の「内省的一貫性」欠如を発見し、改良版I-DLMを発表。因果マスク・ロジットシフト・内省ストライドデコードを導入し、AIME-24で69.6点（+26.3）・スループット3倍を実現。 4.5Bトークンの学習のみで同規模の自己回帰モデルと同等品質に達し、DLMの実用化を大きく前進。

解説本論文は拡散言語モデル（DLM）と自回帰（AR）モデルの品質ギャップの根本原因を「内省的一貫性の欠如」と特定した研究である。ARモデルは自身が生成したトークンに対して再評価しても同じ分布を返す（一致率α=1.0）のに対し、既存DLMはα=0.57〜0.70程度に留まる。提案するI-DLMは3つの要素で構成される。①因果マスク＋ロジットシフトによる訓練：AR互換の注意機構で生成と内省を整合させる。②内省ストライドデコード（ISD）：1回のフォワードパスで次トークンの生成と直前トークンの検証を同時実行する投機的デコード手法。③SGLang/vLLM互換のサービングスタック：既存ARインフラをそのまま活用可能。実験ではQwen3-8Bをベースに、AIME-24で69.6点（LLaDA比+26.3）、MATH-500で96.8点を達成しARモデルと同等水準に到達。スループットはSDAR比2.3倍、LLaDA比1.9倍と大幅に向上し、学習コストはSDAR（54Bトークン）の12分の1の4.5Bトークンで済む。ARモデルの品質を維持しつつ並列生成の高速性を獲得した初のDLMであり、LLM推論効率化の新パラダイムとして注目される。

拡散言語モデル自回帰モデル推論効率化投機的デコード並列生成