エッジデプロイ

1件の記事

要約済み 1

hf-papers 1日前 4
LLM極限量子化、初期化改善で速度2.8倍に
Initialisation Determines the Basin: Efficient Codebook Optimisation for Extreme LLM Quantization

研究者らが2bit量子化LLMのコードブック初期化を大幅改善する手法「OA-EM」を発表。ヘッシアン重み付きマハラノビス距離による初期化でパープレキシティを改善し、量子化時間を2.8倍短縮。 LLMの軽量化・高速推論を目指す開発者にとって、実用的な量子化コストの削減に直結する成果。

解説本論文はLLMの極限的な重み圧縮（2bit/パラメータ）において、コードブック初期化が最終モデル品質を大きく左右することを理論・実験両面から示す。提案手法OA-EM（Output-Aware Expectation-Maximisation）は、従来の残差k-meansによる貪欲な初期化を、ヘッシアン行列（活性化の二次情報）で重み付けしたマハラノビス距離ベースのEMアルゴリズムに置き換える。これによりコードブックの重心が、出力誤差に敏感な重みグループに集中的に配置され、後段のビームサーチやPV-tuningが良い局所最適解へ収束しやすくなる。理論的にはρ=N/K^M（代表性比率）という指標を導入し、ρ>1の「不完全域」（2bpp）でGreedy初期化が破滅的に失敗することを証明。実験ではLlama 3.2 3B（2bpp）で、Greedy+ビーム幅16（16.9時間）のパープレキシティ12.01に対し、OA-EM+ビーム幅4（6.1時間）で11.53を達成し、2.8倍高速かつ高精度を実現。ダウンストリームタスク（ARC、HellaSwag等）でも一貫して改善。エッジ・CPU向けLUT推論の実用性を維持しつつ量子化品質を向上する意義は大きい。

LLM量子化コードブック最適化加法量子化エッジデプロイベクトル量子化