推論高速化

4件の記事

要約済み 4

hf-papers 2時間前 3
新手法DDTreeで投機的デコードが最大8倍超に高速化
Accelerating Speculative Decoding with Block Diffusion Draft Trees

研究者らがブロック拡散モデルを活用した投機的デコード高速化手法「DDTree」を発表。最良優先ヒープでドラフトツリーを最適構成し、Qwen3全60設定でDFlashを上回る性能を達成。 LLM推論コストの大幅削減につながる可能性があり、エッジ推論や低レイテンシ用途での活用が期待される。

解説本論文はLLMの推論遅延を削減する投機的デコード（Speculative Decoding）の改善手法DDTree（Diffusion Draft Tree）を提案する。投機的デコードとは、軽量なドラフトモデルが複数のトークン候補を先行生成し、大規模ターゲットモデルが並列検証することで高速化する技法である。従来のDFlashはブロック拡散ドラフターを1回のフォワードパスで実行し各位置の周辺分布を得るが、検証する候補軌跡は1本のみだった。DDTreeはこの各位置周辺分布を活用してノード予算B内のドラフトツリーを構築する。提案の核心は「ドラフト分布下での期待受理長を最大化するツリー選択」をサロゲート目的関数として定式化し、上位B確率プレフィックスを選ぶことが最適となることを命題として証明した点にある。ツリー構成はmax-heapを用いた最良優先探索アルゴリズムで効率的（O(B log B)）に実現される。検証はTree Attentionによる1回のターゲットモデルフォワードパスで行う。実験ではQwen3-4B/8B/Coder-30Bに対してAIME・MATH-500・HumanEval等10データセット×2温度の全60設定でDFlashを上回り、Qwen3-8BのMATH-500では5.56倍→7.50倍へと大幅に改善。EAGLE-3等の自己回帰ドラフター系手法と比較しても競争力ある水準を達成している。

推論高速化投機的デコード拡散モデル LLM
hf-papers 1日前 3
マスク拡散LMの推論、17%高速化する新手法登場
Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

研究者らがマスク拡散言語モデルの推論を高速化する「モデルスケジューリング」手法を発表。拡散ステップの両端に小型モデルを配置する「サンドイッチ型」が最も効果的で、FLOPs17%削減を実現。生成品質の劣化をわずか3.4%に抑えつつ高速化でき、実用的なLLM推論最適化の選択肢として注目される。

解説本論文はマスク拡散言語モデル（MDLM）の推論コスト削減を目的とし、拡散の各ステップで使用するモデルサイズを動的に切り替える「モデルスケジューリング」を提案する。MDLMは自己回帰LMと異なりKVキャッシュを活用できず、全シーケンスに対して何百回も大型Transformerを走らせる必要があるため推論が高コストという課題がある。提案手法では12ブロックの重いモデルと4〜10ブロックの軽いモデルを別々に学習し、推論時に特定のタイムステップで軽いモデルに置き換える。再学習・蒸留不要のアーキテクチャ非依存な手法である。OpenWebTextとLM1Bの2データセットで実験した結果、拡散軌跡の中間ステップが最も置換に敏感であり、両端（序盤・終盤）への小モデル配置が有効という一貫した知見が得られた。「サンドイッチスケジュール」（軽い→重い→軽い）が最良で、FLOPs16.7%削減・パープレキシティ劣化3.4%を達成。損失差分とKLダイバージェンスの分析によって中間ステップでの小大モデル間不一致が最大になることを機構的に説明し、連続画像拡散で見られる単調なトレンドとは異なる非単調な重要度構造を発見した。KVキャッシュ手法や反復削減手法と直交しており組み合わせ可能な点も実用上の強みである。

拡散言語モデル推論高速化モデルスケジューリングテキスト生成
hf-papers 1日前 4
胸部X線レポートをAIが8倍高速生成、新手法ECHOで実現
ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

研究チームが拡散型VLMを1ステップ推論に蒸留した医療AI「ECHO」を発表。直接条件付き蒸留（DCD）でバイアスを解消し、レポート品質を維持しつつ推論を8倍高速化。放射線科の診断業務効率化に直結し、医療現場へのAI実装を加速する成果として注目される。

解説 ECHOはGemini3-ProやQwen3-Maxなどの大規模モデルを凌駕する胸部X線レポート自動生成手法。従来の自己回帰型VLMは逐次デコードで低速、拡散モデルも多段ノイズ除去が必要という課題に対し、3段階訓練パイプラインで解決する。①Lingshu-7Bを医療データで継続事前学習、②Response-Asymmetric Diffusion（RAD）でブロック拡散モデルに変換（学習FLOPsを72.3%削減）、③Direct Conditional Distillation（DCD）で教師モデルの多段推論軌跡から非分解型の監督信号を構築し1ステップ推論に蒸留。DCDはトークン独立予測に起因するミーンフィールドバイアス（トークン間依存性の欠如）を、教師の高信頼トークンをコンテキストとして利用する結合分布蒸留で克服する点が核心。MIMIC-CXR・CheXpert-Plus・ReXGradientの3データセットで、自己回帰SOTA比RaTEScore64.33%・SemScore60.58%の改善を達成しつつ推論を8倍高速化、品質劣化はわずか2〜5%に抑制。MedGemma-27Bなど大型モデルも大幅に上回り、医療AI実用化への重要な基盤を提供する。

医療AI 拡散モデル胸部X線 VLM蒸留推論高速化
hf-blog 12日前 3
EAGLE3、LLM推論を最大6.5倍高速化と発表
Speculative Decoding in Practice: How EAGLE3 Makes LLMs Faster Without Changing Their Outputs9 days ago•5

UC BerkeleyらがEAGLE3を発表、投機的デコーディングでLLM推論速度を最大6.5倍に向上。三層特徴融合による高精度ドラフトモデルで出力品質を数学的に保証、H100単体でも1.39倍を実証。 GPUの遊休リソースを活用しサーバーコスト約40%削減が見込まれ、商用LLM運用に直接応用可能。

解説 EAGLE3はNeurIPS 2025採択の投機的デコーディング手法で、出力品質を一切変えずにLLM推論を高速化する。H100のGPU利用率が通常1%未満という現実に着目し、余剰計算力でドラフトトークンを並列生成・検証する。Claude・GPT-4o等の商用APIには直接適用できないが、OSSモデルのセルフホスティングでは大幅なコスト削減に直結する。開発者にとってはSGLang経由で即座に導入可能な実用的手法である。

推論高速化投機的デコーディング EAGLE3 LLM最適化