LLM効率化

1件の記事

要約済み 1

hf-papers 3日前 3
蒸留学習のメモリ47%削減、トークン重要度手法「TIP」登場
TIP: Token Importance in On-Policy Distillation

オンポリシー知識蒸留で重要トークンを特定する新手法「TIP」が研究者らにより発表された。高エントロピー・高乖離トークンに絞ったサンプリングでピークメモリを最大47%削減しつつ同等性能を達成。 LLM学習の計算コスト削減に貢献し、大規模モデル蒸留の実用化を後押しする成果として注目される。

解説本論文はオンポリシー知識蒸留（OPD）における「どのトークンが最も有益な学習シグナルを持つか」を体系的に分析する。OPDとは教師モデルの監督のもとで生徒モデルが自身の生成文（ロールアウト）を用いて学習する手法。著者らはトークン重要度を生徒エントロピー（不確実性）と教師・生徒間のKLダイバージェンス（乖離度）の2軸で整理するTIP分類法を提案する。実験では生徒エントロピー上位50%のトークンのみで学習しても全トークン学習と同等以上の性能が得られ、ピークメモリを最大47%削減できることを示した。さらに低エントロピーかつ高乖離のトークン（過信かつ誤った予測）は全トークンの10%未満でも高い訂正効果を持つことを発見。この「過信誤り」トークンは単純なエントロピー基準では見落とされる重要領域であり、不確実性と乖離度を組み合わせた選択ルールが有効であると理論的にも説明される。Qwen3・Llama・Qwen2.5の3ペアでMATH-500とAIME 2024/2025上で検証し、効率と精度を両立した蒸留フレームワークとして実用価値が高い。

知識蒸留トークン選択 LLM効率化数学推論