バイトレベルLM
要約済み 1
-
hf-papers 6時間前 3バイトレベルで異種LLM蒸留を実現、シンプル手法で既存を凌駕Cross-Tokenizer LLM Distillation through a Byte-Level Interface
研究者らが異なるトークナイザーを持つLLM間の知識蒸留をバイトレベル変換で解決する手法を発表。 教師モデルの出力をバイト確率に変換し軽量デコーダヘッドを追加するだけで、1B〜8B規模で既存手法以上の性能を達成。 複雑な処理不要のシンプルなアプローチにより、異種LLM間のモデル圧縮・転用の実用化が大きく前進。
解説 MediaTek Researchが提案するBLD(Byte-Level Distillation)は、異なるトークナイザーを持つLLM間での知識蒸留(CTD)を解決するシンプルな手法。従来のCTDは語彙空間の不一致から、ULDや近似尤度マッチング(ALM)などヒューリスティックな語彙アライメントが必要で複雑だった。BLDは①教師モデルのトークンレベル出力分布をVieira et al.の近似アルゴリズムでバイトレベル確率に変換、②生徒モデルに10並列線形層のバイトレベルデコーダヘッドを追加、③この共通インターフェースを通じてKLダイバージェンスで蒸留する。蒸留後はバイトヘッドを除去し標準モデルに戻せる。実験ではLlama3.2 3B→Qwen2トークナイザー転送、BPE→バイトへの転送、OpenMath2-Llama3.1-8B→Gemma2 2Bの数学特化クロスモデル蒸留の3タスクを実施。GSM8KではALM+SFT(61.56)を上回る62.55を達成。ただしIFEval等の指示追従タスクでは既存手法に劣り、全ベンチマークで一貫した改善はなし。CTDが依然として未解決問題であることを指摘しつつ、バイトレベルが共通基盤として有効であることを示した実用的な基線手法。