蒸留
要約済み 1
-
hf-papers 2日前 4研究者がLLM蒸留の成功条件を解明、失敗回復レシピも提案Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe
オンポリシー蒸留(OPD)の成否を左右する2大条件として「思考パターンの整合」と「新規能力付与」を特定した研究が発表された。 トークンレベルで高確率トークンの漸進的整合が蒸留成功の内部指標となることをメカニズム面から解明。 コールドスタートと教師整合プロンプト選択による失敗回復レシピを提示し、LLM軽量化の実用性向上に貢献。
解説 本論文はLLMのオンポリシー蒸留(OPD)の成否を規定する条件を体系的に解明する。まず成功の2条件として、①教師と生徒の思考パターンが整合していること、②教師が生徒にない新たな能力(例:RL追加学習)を持つことを特定。同一ファミリーの大型モデル(DeepSeek R1-Distill-7B等)は小型モデルと確率分布が事実上区別できず、スコアが高くても蒸留効果が薄いことを逆方向蒸留実験で実証した。トークンレベルの分析では、成功時には上位k確率トークンの重複率が72%→91%へ漸進的に上昇し、共有トークンが確率質量の97〜99%を占めることが判明。失敗時の回復策として、教師生成データで事前SFTを行うオフポリシーコールドスタートと教師整合プロンプト選択を提案し、AIME2024/2025・AMC2023の数学推論タスクで有効性を確認。さらに応答長3K〜7Kトークンが最適であり、10K超で訓練崩壊が生じることも報告。OPDのスケーラビリティ限界と実践的な設計指針を同時に提供する。