要約
LLM推論高速化手法「投機的デコード」の評価を統一するベンチマーク「SPEED-Bench」が提案された。 意味的多様性を最大化した定性分割とスループット測定用の2種類の評価セットを提供し、vLLM・TensorRT-LLMと統合。 本番環境での公平な比較が可能になり、推論最適化研究・実装の標準化に貢献する。
公式ソースだけを集めたAIニュースを日本語要約でお届け
SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding
LLM推論高速化手法「投機的デコード」の評価を統一するベンチマーク「SPEED-Bench」が提案された。 意味的多様性を最大化した定性分割とスループット測定用の2種類の評価セットを提供し、vLLM・TensorRT-LLMと統合。 本番環境での公平な比較が可能になり、推論最適化研究・実装の標準化に貢献する。
SPEED-Benchは、LLM(大規模言語モデル)推論の高速化技術である投機的デコード(Speculative Decoding: 小さなドラフトモデルが複数トークンを先読みし、大きなターゲットモデルが一括検証することで高速化する手法)の評価を標準化するベンチマークである。既存のSpecBenchなどは、カテゴリあたり10サンプル程度・意味的多様性が低い・バッチサイズ1での評価に限られるという問題があった。SPEED-Benchは18のデータソースから貪欲選択+局所スワップ改良アルゴリズムにより意味的類似度を40%削減した880サンプルの「定性分割」と、ISL1k〜32k・バッチサイズ最大512に対応した「スループット分割」を提供する。vLLM・TensorRT-LLM・SGLangなど本番推論エンジンと統合した統一測定フレームワークも構築。実験ではLlama 3.3 70B、GPT-OSS 120B、Qwen3 235B、DeepSeek R1などを対象に、EAGLE3・Vanilla SD・Native MTPを評価。ランダムトークンによる合成ベンチマークがスループットを平均23%過大評価すること、最適なドラフト長がバッチサイズに依存すること、語彙プルーニングが多言語カテゴリで最大22%のトークンを欠損させること等を実証した。