動的推論
要約済み 1
-
arxiv-cs-ai 5時間前 4圧縮センシングでLLM推論を動的最適化する新手法Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models
圧縮センシング理論を応用し、LLMの計算経路をタスク・トークンごとに動的に選択する新フレームワークが発表された。 プルーニングとプロンプト圧縮を統合し、スパース回復によって不要な計算を削減する推論効率化を実現。 モデルサイズを維持しつつ推論コストを削減できる可能性があり、LLMの実用展開コスト低減に貢献が期待される。
解説 本論文は、大規模言語モデル(LLM)の推論効率化において、従来は独立していた「モデル圧縮(構造的プルーニング)」と「プロンプト圧縮」を統合する新しいフレームワークを提案する。中核となるアイデアは圧縮センシング(信号をランダム測定してスパース回復する手法)をLLMの計算経路探索に応用することである。具体的には、ランダム測定演算子でモデルの各レイヤーの潜在的な活性化パターンを観測し、スパース回復アルゴリズム(L1最小化等)によって、入力プロンプトやデコードステップごとに「実際に使われているサブネットワーク(support set)」を推定する。この推定されたサポートをハードウェア効率の高い構造化ブロックにコンパイルし、実行時の演算量を削減する。既存手法(静的プルーニング、SparseGPTなど)はオフラインで固定された圧縮構造を持つが、本手法はプロンプトごとに動的に計算経路を変えるため、異なるタスク間での精度低下を抑えながら高い圧縮率を実現できると主張する。GPT系やLlama系モデルでの評価を想定しており、デコード遅延削減とメモリ効率向上の両立を目指す実用性の高い提案である。