AIフロントライン

公式ソースだけを集めたAI最前線(日本語要約)

hf-papers 2026-04-17 09:00 ★3

新手法Switch-KD、小型VLMの精度を大幅改善

Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models

知識蒸留 マルチモーダルAI モデル圧縮 VLM

要約

視覚言語モデルの知識蒸留手法「Switch-KD」が発表され、小型モデルの性能向上を実現。 教師モデルの言語経路に視覚情報を注入する統一テキスト確率空間での蒸留が特徴で、0.5Bモデルが10ベンチマークで平均3.6点向上。 エッジデバイス向け高性能VLM開発に新たな選択肢を提供し、モデル軽量化研究を加速させる。

解説・分析

Switch-KDはVLM(視覚言語モデル)の効率的な知識蒸留を実現する新フレームワーク。従来手法はLLaVA-KDやAlign-KDのように視覚とテキストのモダリティを別々に監督するため、クロスモーダルな整合性が不十分だった。本手法では「視覚切替蒸留(VSD)」を導入し、生徒の視覚エンコーダ出力を教師の言語デコーダに差し込む形で推論させ、共有テキスト確率空間内で暗示的に視覚知識を転送する。さらにLLMのロングテール分布問題を解決するDBiLD損失を提案。Kneedleアルゴリズムで情報量が豊富な領域の境界(膝点)を動的に検出してTop-kを適応的に決定し、逆KLダイバージェンスによる双方向整合を実現する。実験ではQwen2.5-0.5B生徒が3B教師から蒸留され、10ベンチマーク平均で3.6点向上。LLaVA-KDを1.1点上回り、Align-KDより少ないデータかつ軽量バックボーンで3.5点の改善を達成。アーキテクチャ変更不要で既存VLMに適用でき、リソース制約環境向け軽量VLM開発の実用的な手法として有望。

関連する読者

開発者 研究者