要約
UC BerkeleyらがEAGLE3を発表、投機的デコーディングでLLM推論速度を最大6.5倍に向上。 三層特徴融合による高精度ドラフトモデルで出力品質を数学的に保証、H100単体でも1.39倍を実証。 GPUの遊休リソースを活用しサーバーコスト約40%削減が見込まれ、商用LLM運用に直接応用可能。
公式ソースだけを集めたAIニュースを日本語要約でお届け
Speculative Decoding in Practice: How EAGLE3 Makes LLMs Faster Without Changing Their Outputs9 days ago•5
UC BerkeleyらがEAGLE3を発表、投機的デコーディングでLLM推論速度を最大6.5倍に向上。 三層特徴融合による高精度ドラフトモデルで出力品質を数学的に保証、H100単体でも1.39倍を実証。 GPUの遊休リソースを活用しサーバーコスト約40%削減が見込まれ、商用LLM運用に直接応用可能。
EAGLE3はNeurIPS 2025採択の投機的デコーディング手法で、出力品質を一切変えずにLLM推論を高速化する。H100のGPU利用率が通常1%未満という現実に着目し、余剰計算力でドラフトトークンを並列生成・検証する。Claude・GPT-4o等の商用APIには直接適用できないが、OSSモデルのセルフホスティングでは大幅なコスト削減に直結する。開発者にとってはSGLang経由で即座に導入可能な実用的手法である。