投機的デコード

3件の記事

要約済み 3

hf-papers 2時間前 3
新手法DDTreeで投機的デコードが最大8倍超に高速化
Accelerating Speculative Decoding with Block Diffusion Draft Trees

研究者らがブロック拡散モデルを活用した投機的デコード高速化手法「DDTree」を発表。最良優先ヒープでドラフトツリーを最適構成し、Qwen3全60設定でDFlashを上回る性能を達成。 LLM推論コストの大幅削減につながる可能性があり、エッジ推論や低レイテンシ用途での活用が期待される。

解説本論文はLLMの推論遅延を削減する投機的デコード（Speculative Decoding）の改善手法DDTree（Diffusion Draft Tree）を提案する。投機的デコードとは、軽量なドラフトモデルが複数のトークン候補を先行生成し、大規模ターゲットモデルが並列検証することで高速化する技法である。従来のDFlashはブロック拡散ドラフターを1回のフォワードパスで実行し各位置の周辺分布を得るが、検証する候補軌跡は1本のみだった。DDTreeはこの各位置周辺分布を活用してノード予算B内のドラフトツリーを構築する。提案の核心は「ドラフト分布下での期待受理長を最大化するツリー選択」をサロゲート目的関数として定式化し、上位B確率プレフィックスを選ぶことが最適となることを命題として証明した点にある。ツリー構成はmax-heapを用いた最良優先探索アルゴリズムで効率的（O(B log B)）に実現される。検証はTree Attentionによる1回のターゲットモデルフォワードパスで行う。実験ではQwen3-4B/8B/Coder-30Bに対してAIME・MATH-500・HumanEval等10データセット×2温度の全60設定でDFlashを上回り、Qwen3-8BのMATH-500では5.56倍→7.50倍へと大幅に改善。EAGLE-3等の自己回帰ドラフター系手法と比較しても競争力ある水準を達成している。

推論高速化投機的デコード拡散モデル LLM
hf-papers 1日前 4
投機的デコード評価を統一するSPEED-Benchが登場
SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

LLM推論高速化手法「投機的デコード」の評価を統一するベンチマーク「SPEED-Bench」が提案された。意味的多様性を最大化した定性分割とスループット測定用の2種類の評価セットを提供し、vLLM・TensorRT-LLMと統合。本番環境での公平な比較が可能になり、推論最適化研究・実装の標準化に貢献する。

解説 SPEED-Benchは、LLM（大規模言語モデル）推論の高速化技術である投機的デコード（Speculative Decoding: 小さなドラフトモデルが複数トークンを先読みし、大きなターゲットモデルが一括検証することで高速化する手法）の評価を標準化するベンチマークである。既存のSpecBenchなどは、カテゴリあたり10サンプル程度・意味的多様性が低い・バッチサイズ1での評価に限られるという問題があった。SPEED-Benchは18のデータソースから貪欲選択＋局所スワップ改良アルゴリズムにより意味的類似度を40%削減した880サンプルの「定性分割」と、ISL1k〜32k・バッチサイズ最大512に対応した「スループット分割」を提供する。vLLM・TensorRT-LLM・SGLangなど本番推論エンジンと統合した統一測定フレームワークも構築。実験ではLlama 3.3 70B、GPT-OSS 120B、Qwen3 235B、DeepSeek R1などを対象に、EAGLE3・Vanilla SD・Native MTPを評価。ランダムトークンによる合成ベンチマークがスループットを平均23%過大評価すること、最適なドラフト長がバッチサイズに依存すること、語彙プルーニングが多言語カテゴリで最大22%のトークンを欠損させること等を実証した。

ベンチマーク LLM推論投機的デコードスループット
hf-papers 1日前 5
拡散言語モデルの弱点を克服、ARモデルと同等性能を達成
Introspective Diffusion Language Models

研究者らが拡散言語モデル（DLM）の「内省的一貫性」欠如を発見し、改良版I-DLMを発表。因果マスク・ロジットシフト・内省ストライドデコードを導入し、AIME-24で69.6点（+26.3）・スループット3倍を実現。 4.5Bトークンの学習のみで同規模の自己回帰モデルと同等品質に達し、DLMの実用化を大きく前進。

解説本論文は拡散言語モデル（DLM）と自回帰（AR）モデルの品質ギャップの根本原因を「内省的一貫性の欠如」と特定した研究である。ARモデルは自身が生成したトークンに対して再評価しても同じ分布を返す（一致率α=1.0）のに対し、既存DLMはα=0.57〜0.70程度に留まる。提案するI-DLMは3つの要素で構成される。①因果マスク＋ロジットシフトによる訓練：AR互換の注意機構で生成と内省を整合させる。②内省ストライドデコード（ISD）：1回のフォワードパスで次トークンの生成と直前トークンの検証を同時実行する投機的デコード手法。③SGLang/vLLM互換のサービングスタック：既存ARインフラをそのまま活用可能。実験ではQwen3-8Bをベースに、AIME-24で69.6点（LLaDA比+26.3）、MATH-500で96.8点を達成しARモデルと同等水準に到達。スループットはSDAR比2.3倍、LLaDA比1.9倍と大幅に向上し、学習コストはSDAR（54Bトークン）の12分の1の4.5Bトークンで済む。ARモデルの品質を維持しつつ並列生成の高速性を獲得した初のDLMであり、LLM推論効率化の新パラダイムとして注目される。

拡散言語モデル自回帰モデル推論効率化投機的デコード並列生成