軽量化
要約済み 1
-
hf-blog 1年前 3知識蒸留の全手法を網羅、DeepSeekも採用する圧縮技術を解説Everything You Need to Know about Knowledge Distillation
大規模モデルから小型モデルへ知識を転送する「知識蒸留」の包括的解説記事が公開された。 応答・特徴・関係の3種類の蒸留手法と、オフライン/オンライン等の学習スキームを体系的に整理。 DeepSeek-R1やDistilBERTの採用事例も紹介し、モデル軽量化を目指す開発者に実践的な指針を提供する。
解説 知識蒸留(KD)は大規模な「教師モデル」の知識を小型の「生徒モデル」に継承させる圧縮手法で、2015年のHintonらの論文で体系化された。教師の出力に温度付きSoftmaxを適用してソフトターゲット(確率分布)を生成し、生徒はハードラベルとの混合損失で学習することでモデルの推論過程ごと模倣する。手法は①最終出力を使う「応答ベース」、②中間層の特徴マップを活用する「特徴ベース」(FitNets等)、③サンプル間の類似関係を学ぶ「関係ベース」の3種に大別される。近年の発展としてはデータフリー蒸留・拡散モデルのステップ削減・投機的蒸留(SKD)などが登場。Apple・Oxford共同研究による「蒸留スケーリング則」では生徒規模・学習トークン数・教師品質が冪乗則に従うことが示された。実用例ではDistilBERT(BERT比40%軽量で97%の精度維持)やDeepSeek-R1蒸留版(7Bモデルが32Bを上回る推論性能)などが顕著な成果を示しており、オンデバイスAIや低コスト推論の実現に不可欠な技術として位置づけられる。