エッジデプロイ
要約済み 1
-
hf-papers 1日前 4LLM極限量子化、初期化改善で速度2.8倍にInitialisation Determines the Basin: Efficient Codebook Optimisation for Extreme LLM Quantization
研究者らが2bit量子化LLMのコードブック初期化を大幅改善する手法「OA-EM」を発表。 ヘッシアン重み付きマハラノビス距離による初期化でパープレキシティを改善し、量子化時間を2.8倍短縮。 LLMの軽量化・高速推論を目指す開発者にとって、実用的な量子化コストの削減に直結する成果。
解説 本論文はLLMの極限的な重み圧縮(2bit/パラメータ)において、コードブック初期化が最終モデル品質を大きく左右することを理論・実験両面から示す。提案手法OA-EM(Output-Aware Expectation-Maximisation)は、従来の残差k-meansによる貪欲な初期化を、ヘッシアン行列(活性化の二次情報)で重み付けしたマハラノビス距離ベースのEMアルゴリズムに置き換える。これによりコードブックの重心が、出力誤差に敏感な重みグループに集中的に配置され、後段のビームサーチやPV-tuningが良い局所最適解へ収束しやすくなる。理論的にはρ=N/K^M(代表性比率)という指標を導入し、ρ>1の「不完全域」(2bpp)でGreedy初期化が破滅的に失敗することを証明。実験ではLlama 3.2 3B(2bpp)で、Greedy+ビーム幅16(16.9時間)のパープレキシティ12.01に対し、OA-EM+ビーム幅4(6.1時間)で11.53を達成し、2.8倍高速かつ高精度を実現。ダウンストリームタスク(ARC、HellaSwag等)でも一貫して改善。エッジ・CPU向けLUT推論の実用性を維持しつつ量子化品質を向上する意義は大きい。