要約
研究者らがブロック拡散モデルを活用した投機的デコード高速化手法「DDTree」を発表。 最良優先ヒープでドラフトツリーを最適構成し、Qwen3全60設定でDFlashを上回る性能を達成。 LLM推論コストの大幅削減につながる可能性があり、エッジ推論や低レイテンシ用途での活用が期待される。
公式ソースだけを集めたAI最前線(日本語要約)
Accelerating Speculative Decoding with Block Diffusion Draft Trees
研究者らがブロック拡散モデルを活用した投機的デコード高速化手法「DDTree」を発表。 最良優先ヒープでドラフトツリーを最適構成し、Qwen3全60設定でDFlashを上回る性能を達成。 LLM推論コストの大幅削減につながる可能性があり、エッジ推論や低レイテンシ用途での活用が期待される。
本論文はLLMの推論遅延を削減する投機的デコード(Speculative Decoding)の改善手法DDTree(Diffusion Draft Tree)を提案する。投機的デコードとは、軽量なドラフトモデルが複数のトークン候補を先行生成し、大規模ターゲットモデルが並列検証することで高速化する技法である。従来のDFlashはブロック拡散ドラフターを1回のフォワードパスで実行し各位置の周辺分布を得るが、検証する候補軌跡は1本のみだった。DDTreeはこの各位置周辺分布を活用してノード予算B内のドラフトツリーを構築する。提案の核心は「ドラフト分布下での期待受理長を最大化するツリー選択」をサロゲート目的関数として定式化し、上位B確率プレフィックスを選ぶことが最適となることを命題として証明した点にある。ツリー構成はmax-heapを用いた最良優先探索アルゴリズムで効率的(O(B log B))に実現される。検証はTree Attentionによる1回のターゲットモデルフォワードパスで行う。実験ではQwen3-4B/8B/Coder-30Bに対してAIME・MATH-500・HumanEval等10データセット×2温度の全60設定でDFlashを上回り、Qwen3-8BのMATH-500では5.56倍→7.50倍へと大幅に改善。EAGLE-3等の自己回帰ドラフター系手法と比較しても競争力ある水準を達成している。