再計算不要なKVキャッシュ再利用手法

hf-papers 2026-04-17 03:01 ★4

再計算不要なKVキャッシュ再利用手法

KV Packet: Recomputation-Free Context-Independent KV Caching for LLMs

KVキャッシュ RAG LLM推論高速化コンテキスト非依存知識蒸留

要約

RAGシステムで同一文書を異なるクエリに再利用する際、KVキャッシュの再計算が不要な手法「KV Packet」を提案。文書キャッシュをヘッダ/トレーラのソフトトークンアダプタで包み、自己蒸留で境界の不整合を吸収する。 CacheBlendらと比べFLOPsを5〜6桁削減、TTFTを最大19倍短縮しながらF1スコアを維持する。

解説・分析

LLMのRAG（検索拡張生成）では、同じ文書が繰り返し参照されるため、KV（Key-Value）キャッシュを事前計算しておくことで推論を高速化できる。しかし標準的なKVキャッシュは文脈依存であり、異なる文書を組み合わせて使う際には再計算が必要になる。CacheBlendやEPICなどの既存手法は重要なトークンのみを選択的に再計算することで削減を試みるが、依然としてFLOPsと初回トークンまでの遅延（TTFT）が増加する課題があった。

KV Packetは、各文書のKVキャッシュをヘッダ（H）とトレーラ（T）と呼ぶ少数の学習可能なソフトトークンアダプタで包み、境界の文脈断絶を吸収させるアーキテクチャを採用する。アダプタはベースモデルを凍結したまま自己教師あり蒸留で訓練され、完全アテンション時の出力分布をTeacherとしてKLダイバージェンスを最小化する。ラベル付きデータは一切不要。

Llama-3.1-8BとQwen-3-4Bで評価した結果、CacheBlend・EPICと比較してFLOPsを5〜6桁削減、Needle-in-a-Haystackでは最大19.45倍のTTFT短縮を達成し、F1スコアは完全再計算ベースラインに匹敵する。さらにKV圧縮技術との互換性も高く、実用上のデプロイ負荷を大幅に低減する。

深掘り分析

🔒

この分析はProプラン限定です

Proプランに登録 →

原文を読む → https://huggingface.co/papers/2604.13226

← 一覧に戻る

AIフロントライン