投機的デコード評価を統一するSPEED-Benchが登場

hf-papers 2026-04-14 08:01 ★4

投機的デコード評価を統一するSPEED-Benchが登場

SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

ベンチマーク LLM推論投機的デコードスループット

要約

LLM推論高速化手法「投機的デコード」の評価を統一するベンチマーク「SPEED-Bench」が提案された。意味的多様性を最大化した定性分割とスループット測定用の2種類の評価セットを提供し、vLLM・TensorRT-LLMと統合。本番環境での公平な比較が可能になり、推論最適化研究・実装の標準化に貢献する。

解説・分析

SPEED-Benchは、LLM（大規模言語モデル）推論の高速化技術である投機的デコード（Speculative Decoding: 小さなドラフトモデルが複数トークンを先読みし、大きなターゲットモデルが一括検証することで高速化する手法）の評価を標準化するベンチマークである。既存のSpecBenchなどは、カテゴリあたり10サンプル程度・意味的多様性が低い・バッチサイズ1での評価に限られるという問題があった。SPEED-Benchは18のデータソースから貪欲選択＋局所スワップ改良アルゴリズムにより意味的類似度を40%削減した880サンプルの「定性分割」と、ISL1k〜32k・バッチサイズ最大512に対応した「スループット分割」を提供する。vLLM・TensorRT-LLM・SGLangなど本番推論エンジンと統合した統一測定フレームワークも構築。実験ではLlama 3.3 70B、GPT-OSS 120B、Qwen3 235B、DeepSeek R1などを対象に、EAGLE3・Vanilla SD・Native MTPを評価。ランダムトークンによる合成ベンチマークがスループットを平均23%過大評価すること、最適なドラフト長がバッチサイズに依存すること、語彙プルーニングが多言語カテゴリで最大22%のトークンを欠損させること等を実証した。

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →

原文を読む → https://huggingface.co/papers/2604.09557

← 一覧に戻る

AIフロントライン