コスト削減
要約済み 1
-
arxiv-cs-ai 3日前 3ファインチューニング不要でプロンプトを最大80%圧縮する技術が登場Lossless Prompt Compression via Dictionary-Encoding and In-Context Learning: Enabling Cost-Effective LLM Analysis of Repetitive Data
辞書エンコードとIn-Context Learningを組み合わせた無損失プロンプト圧縮手法が発表された。 頻出パターンをメタトークンに置換し、モデル改変なしで最大80%のトークン削減を実現。 API利用コストの大幅削減が見込まれ、大量データ分析を行う開発者・企業に恩恵をもたらす。
解説 本論文はLLMのIn-context Learning能力を活用した新しいプロンプト圧縮手法を提案する。核心的な発見は「LLMはシステムプロンプトで与えられた符号化辞書を参照し、エンコードされた表現を正しく解釈・分析できる」という点だ。具体的には、入力テキストに頻繁に登場するサブシーケンスを短いメタトークン(例: §1, §2 など)に置換し、その対応表(辞書)をシステムプロンプトに付加する。LLMはこの辞書をコンテキスト内で学習し、圧縮済みの入力から元テキストと同等の出力を生成する。圧縮アルゴリズムは複数の長さスケールで繰り返しパターンを検出し、「辞書のオーバーヘッドが節約トークン数を超えない」というトークン節約最適化基準を組み込んでいる。これにより不利な圧縮が自動的に回避される。ベンチマーク実験ではデータセットの特性(反復性の高さ)に依存するが最大80%の圧縮率を達成。ファインチューニング不要のため既存のGPT-4o・Claude・Gemini等あらゆるモデルにそのまま適用可能で、構造化ログや電子カルテ・センサデータなど反復性の高いデータ分析コストを大幅削減できる実用性が高い手法である。