要約
0.6B〜2.3BパラメータのLMに行動性向を蒸留する試みで、3つのアプローチすべてが失敗に終わった。 SFT/DPO・注意ヘッド介入・サイドカーの全手法で効果なし、当初の成果は測定誤差・採点ミスだった。 小規模モデルへのアライメント蒸留の限界を示す否定的結果として、研究の方向性に重要な示唆を与える。
公式ソースだけを集めたAI最前線(日本語要約)
Disposition Distillation at Small Scale: A Three-Arc Negative Result
0.6B〜2.3BパラメータのLMに行動性向を蒸留する試みで、3つのアプローチすべてが失敗に終わった。 SFT/DPO・注意ヘッド介入・サイドカーの全手法で効果なし、当初の成果は測定誤差・採点ミスだった。 小規模モデルへのアライメント蒸留の限界を示す否定的結果として、研究の方向性に重要な示唆を与える。
本研究は、自己検証・不確実性認識・フィードバック統合という「行動性向」を0.6B〜2.3Bパラメータの小規模言語モデルへ蒸留する試みを報告した否定的結果論文。四段階蒸留パイプラインによる初期実験でQwen3-0.6BにMCAS+33.9点・HumanEval+15.3点という大幅改善を報告したが、再検証により両数値が誤りと判明した。HumanEvalの改善はn_predict=512という短い生成長による打ち切りアーティファクトであり、正しいn_predict=1024では逆に-8.0点となった。MCASの改善も採点条件の不一致が原因だった。その後、(1)SFT/DPOによるLoRAファインチューニング、(2)推論時のアテンションヘッド出力抑制、(3)最終トークン隠れ状態を読む凍結ベースのサイドカーモデルという三つのアプローチを試みたが、いずれも一貫した行動性向の付与に失敗。小規模モデルへの性向蒸留の困難さと評価設計の落とし穴を示す貴重な事例である。