knowledge-distillation
要約済み 1
-
hf-papers 2日前 3新手法TIPで蒸留メモリを47%削減、性能は維持TIP: Token Importance in On-Policy Distillation
オンポリシー知識蒸留において重要トークンを選択するフレームワーク「TIP」が発表された。 高エントロピー領域と低エントロピー・高乖離領域の2種を基準にトークンの50%を選択する手法を提案。 メモリ使用量を47%削減しながら性能を維持でき、LLMの効率的な蒸留学習に貢献する。
解説 本論文はオンポリシー知識蒸留(OPD)における「どのトークンが学習に役立つか」という問いに体系的に答える研究である。OPDとは生徒モデルが自身のロールアウト(生成テキスト)を使って学習し、教師モデルのトークンレベル確率分布から監督を受ける手法。著者らはTIP(Token Importance in on-Policy distillation)という2軸分類体系を提案し、①生徒エントロピーが高い位置(モデルが迷っているトークン)と②生徒エントロピーが低いが教師との乖離が大きい位置(自信過剰で誤っているトークン)の2種類が重要な学習シグナルを持つと主張する。実験ではエントロピーだけで上位50%トークンを選ぶと全トークン学習と同等以上の性能を達成しつつピークメモリを最大47%削減できることを示した。さらに低エントロピー・高乖離トークンだけ(全体の10%未満)で学習しても全トークンベースラインに近い性能が出ることを確認しており、これらのトークンが密度の高い修正シグナルを持つことを示している。検証はQwen3、Llama、Qwen2.5の3組の教師-生徒ペアでMATH-500とAIME 2024/2025を使って実施。既存の上位k蒸留と比べて理論的根拠が明確で、メモリ削減と性能維持を両立できる点が実用上の意義として大きい。