EAGLE3、LLM推論を最大6.5倍高速化と発表

hf-blog 2026-04-03 02:11 ★3

EAGLE3、LLM推論を最大6.5倍高速化と発表

Speculative Decoding in Practice: How EAGLE3 Makes LLMs Faster Without Changing Their Outputs9 days ago•5

推論高速化投機的デコーディング EAGLE3 LLM最適化

要約

UC BerkeleyらがEAGLE3を発表、投機的デコーディングでLLM推論速度を最大6.5倍に向上。三層特徴融合による高精度ドラフトモデルで出力品質を数学的に保証、H100単体でも1.39倍を実証。 GPUの遊休リソースを活用しサーバーコスト約40%削減が見込まれ、商用LLM運用に直接応用可能。

解説・分析

EAGLE3はNeurIPS 2025採択の投機的デコーディング手法で、出力品質を一切変えずにLLM推論を高速化する。H100のGPU利用率が通常1%未満という現実に着目し、余剰計算力でドラフトトークンを並列生成・検証する。Claude・GPT-4o等の商用APIには直接適用できないが、OSSモデルのセルフホスティングでは大幅なコスト削減に直結する。開発者にとってはSGLang経由で即座に導入可能な実用的手法である。

AIフロントライン

EAGLE3、LLM推論を最大6.5倍高速化と発表

要約

解説・分析

関連する読者