LLM効率化
要約済み 1
-
hf-papers 3日前 3蒸留学習のメモリ47%削減、トークン重要度手法「TIP」登場TIP: Token Importance in On-Policy Distillation
オンポリシー知識蒸留で重要トークンを特定する新手法「TIP」が研究者らにより発表された。 高エントロピー・高乖離トークンに絞ったサンプリングでピークメモリを最大47%削減しつつ同等性能を達成。 LLM学習の計算コスト削減に貢献し、大規模モデル蒸留の実用化を後押しする成果として注目される。
解説 本論文はオンポリシー知識蒸留(OPD)における「どのトークンが最も有益な学習シグナルを持つか」を体系的に分析する。OPDとは教師モデルの監督のもとで生徒モデルが自身の生成文(ロールアウト)を用いて学習する手法。著者らはトークン重要度を生徒エントロピー(不確実性)と教師・生徒間のKLダイバージェンス(乖離度)の2軸で整理するTIP分類法を提案する。実験では生徒エントロピー上位50%のトークンのみで学習しても全トークン学習と同等以上の性能が得られ、ピークメモリを最大47%削減できることを示した。さらに低エントロピーかつ高乖離のトークン(過信かつ誤った予測)は全トークンの10%未満でも高い訂正効果を持つことを発見。この「過信誤り」トークンは単純なエントロピー基準では見落とされる重要領域であり、不確実性と乖離度を組み合わせた選択ルールが有効であると理論的にも説明される。Qwen3・Llama・Qwen2.5の3ペアでMATH-500とAIME 2024/2025上で検証し、効率と精度を両立した蒸留フレームワークとして実用価値が高い。